Download PRÁCTICA DE LABORATORIO SECO
Document related concepts
Transcript
MAESTRÏA EN BIOLOGÍA MOLECULAR MÉDICA 2006 PRÁCTICA DE LABORATORIO SECO Objetivo: Dada una secuencia parcial obtenida de un gel de secuencia: 1) traducirla en los 6 marcos de lectura posibles 2) decidir cual es el ORF más probable 3) buscar por homología con secuencias de proteínas en bases de datos si existe una proteína compatible con la secuencia primaria parcial predicha 4) Buscar el DNA genomico y el cDNA (mRNA) que codifica dicha proteina. 5) Predecir los intrones en el DNA; comparalos con los verdaderos intrones 6) Ubicar el gen en qué cromosoma del genoma humano se encuentra; ver quienes son los genes vecinos. 7) Buscar sitios para unión de un determinado factor de transcripción en la región promotora de un gen Introducción teórica Como consecuencia del gran avance que se ha realizado en los Proyectos Genoma, en los últimos años se ha acumulado gran información en secuencias de DNA y proteínas. Estas secuencias se encuentran contenidas en distintas base de datos, siendo el GenBank (en EEUU), el EMBL (en el Reino Unido) y el DDBJ (en Japón), las mayores bases de datos de secuencias nucleotídicas y de proteínas, y SWISS PROT y PIR bases de datos únicamente de secuencias de proteínas. Estas bases de datos son actualizadas diariamente y se encuentran disponibles en Internet por ejemplo en el NCBI (National Center for Biotechnology Information), el cual provee de una base de datos no redundante (nr) que incluye secuencias nucleotídicas y proteicas únicas de las bases de datos mencionadas anteriormente. Las búsquedas de homologías permiten un primer acercamiento a la función biológica de un nuevo gen. En las bases de datos del NCBI, las búsquedas son realizadas principalmente utilizando el programa BLAST (Basic Local Aligment Search Tool), el cual constituye un algoritmo de búsqueda de similitudes aplicable a cualquier secuencia de DNA o proteína. Dado que existen cinco aplicaciones distintas del programa BLAST, el primer paso en la búsqueda de homología consiste en seleccionar el programa BLAST más apropiado, según si la secuencia de interés es nucleotídica o proteica y en el caso de la primera, si ésta es susceptible de contener errores como en caso de los ESTs (en estas secuencias se busca rapidez y cantidad, sacrificando un poco de calidad), y otras secuencias de ADN secuenciadas una sola vez. Los programas BLASTN, BLASTX, TBLAST, son utilizados para analizar secuencias nucleotídicas, especialmente secuencias genómicas y los cDNA secuenciados una sola vez, mientras que los programas BLASTP TBLASTN son utilizados para analizar secuencias proteicas, es decir que una vez obtenido el marco de lectura del gen de interés. El segundo paso consiste en elegir una base de datos apropiada. En la tabla a continuación se muestra el tipo de base de datos utilizada según el programa BLAST seleccionado y el análisis realizado por éste a la secuencia de interés y a las secuencias presentes en la base de datos. Programas BLASTN Secuencia de interés Secuencia en base de datos nucleotídica, ambas cadenas nucleotídica BLASTX nucleotídica, seis marcos de proteica lectura TBLASTX nucleotídica, seis marcos de nucleotídica, seis marcos de lectura lectura BLASTP TBLASTN Proteica proteica Proteica nucleotídica, seis marcos de lectura El problema con el que se encuentra quien compare datos y obtenga similitud con otra secuencia en la base de datos, es saber si tiene relevancia estadística. En la mayoría de los programas de búsqueda se eliminan o se filtran, en la mayoría de los casos, los segmentos de baja complejidad que llevarían a considerar secuencias como relacionadas, cuando en realidad la similitud la estarían dando regiones de composición simple, muy frecuentes en genomas de organismos muy dispares. (secuencias repetidas, microsatélites, poly A, etc.). Esto reduce ampliamente la posibilidad de asignaciones erróneas y aumenta la fidelidad de los resultados obtenidos en la búsqueda BLAST. La asignación de una función biológica a un gen nuevo requiere de búsquedas de homologías altamente específicas. Existen programas que comparan motivos proteicos, estos evalúan únicamente aquellas posiciones conservadas en el grupo de secuencias, de esta manera se puede asignar una proteína a una familia proteica, aún cuando esta esté lejanamente relacionada tal que no presente homología fuera del motivo conservado ensayado. Este es el caso del programa Emotif, el cual aplicado a una serie de secuencias proteicas alineadas genera una serie de motivos con un rango variado de especificidad y sensibilidad. La base de datos Identify, generada con este programa contiene más de 50000 motivos distintos y es el resultado de aplicar el programa Emotif a las bases de datos BLOCKS y PRINTS. La base de datos Pfam, constituye otro ejemplo de bases de datos constituidas por grupos de secuencias de proteínas alineadas y aunque muy similar a la anterior en este aspecto, presentan una diferencia importante; mientras Identify contiene secuencias conservadas cortas que describen motivos importantes en función, los alineamientos Pfam representan dominios proteicos completos. La búsqueda de homología de secuencias nucleotídicas o proteicas mencionadas anteriormente, constituyen una herramienta fundamental cuando se tiene un gen cuya función biológica se desconoce, sin embargo puede suceder que proteínas que tienen baja homología de secuencia, puedan adoptar estructuras terciarias similares con funciones moleculares parecidas o relacionadas. En base a esto, un método más sensible para determinar la función molecular de una proteína desconocida consiste en determinar una estructura tridimensional por cristalografía de rayos X y luego comparar la estructura resultante contra una base de datos estructural de proteínas. Cómo debe ser el formato de la secuencia a analizar? La secuencia debe estar en formato FASTA/Pearson. Una secuencia con este formato esta escrito en una sola línea y la descripción de la secuencia (nombre) se escribe precedida del símbolo”>”. (mayor).ej. >MNKSV40 Monkey DNA fragment ggaattcctgactgcatagcatagcaaactagaggattatgggcatatagacagatagacataggggg (en letras minúsculas o mayúsculas) Algunos Parámetros del NCBI BLAST PROGRAM: Aquí se elige el programa Blast a usar ej.: blastp DESCRIPTIONS: Restringe el número de descripciones cortas de secuencias que aparean, por default es 100 ALIGMENTS: número de alineamientos mostrados en pantalla, por default es 50 y está restringido a los de mayor score EXPECT: significancia estadística de los apareamientos contra las secuencias de la base. Por default es 10, esto implica que se requieren 10 apareamientos para ser considerado probable. CUTOFF: valor de corte del score. Se calcula del EXPEXCT value. Cuanto mayor es el CUTOFF mayor rigurosidad de apareamiento se le esta pidiendo al programa. MATRIX: Matriz empleada para hacer los apareamientos. Estas matrices están construidas a partir de algoritmos que surgen de valores de comparación entre distintos aminoácidos a lo largo de la evolución Nucleotide sequence database content El contenido de bases de datos disponibles en BLAST son las siguientes: * Nucleotide Sequence Databases Database: nr: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer "non-redundant". est: Database of GenBank+EMBL+DDBJ sequences from EST division. est_human: Human subset of GenBank+EMBL+DDBJ sequences from EST division. est_mouse: Mouse subset of GenBank+EMBL+DDBJ sequences from EST division. est_others: Non-Mouse, non-Human sequences from EST Division. sequences of GenBank+EMBL+DDBJ gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. htgs: Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2. Finished phase 3 HTG sequences are in nr. pat: Nucleotides from the Patent division of GenBank. yeast: Saccharomyces cerevisiae genomic nucleotide sequences. mito: Database of mitochondrial sequences. vector: Vector subset of GenBank(R), NCBI, in ftp://ftp.ncbi.nlm.nih.gov/blast/db/. ecoli: Escherichia coli genomic nucleotide sequences. pdb: Sequences derived from the 3-dimensional structures from the Brookhaven Protein Data Bank. drosophila genome: Drosophila genome provided by Celera and Berkeley Drosophila Genome Project (BDGP). month: All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days. alu: Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. It is available by FTP from ftp://ftp.ncbi.nlm.nih.gov/blast/db/alu.n.Z. See "Alu alert" by Claverie and Makalowski, Nature 371: 752 (1994). dbsts: Database of GenBank+EMBL+DDBJ sequences from STS division. chromosome: Searches Complete Genomes, Complete Chromosome, or contigs form the NCBI Reference Sequence project. wgs_anopheles: Anopheles gambiae (mosquito) whole genome shotgun sequences. * Peptide sequence database content Database: nr: All non-redundant GenBank CDS translations + PDB + SwissProt + PIR+PRF. swissprot: Last major release of the SWISS-PROT protein sequence database (no incremental updates). pat: Proteins from the Patent division of GenBank. yeast: Saccharomyces cerevisiae genomic CDS translations. e.coli: Escherichia coli genomic CDS translations pdb: Sequences derived from the 3-dimensional structures from the Brookhaven Protein Data Bank drosophila genome: Drosophila genome proteins provided by Celera and Berkeley Drosophila Genome Project (BDGP). month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days Procedimiento del ejercicio - Archivo de la secuencia: gggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctgagtcaggaaacattttcagacct atggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccg gacgatattgaacaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcg tggcccctgcaccagcagctcctacaccggcggcccctgcaccagccccctcctggcccctgtcatcttctgtccc ttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattctgggacagccaagtctgtgact tgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgatt ccacacccccgcccggcacccgcgtccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgag gcgctgcc Entrar a la página http://au.expasy.org/tools/dna.html denominada Translate tool, que sirve para traducir una secuencia de DNA o RNA en todos los marcos de lectura posibles Copiar sólo la secuencia incógnita, y pegarla en el recuadro del utilitario Translate. Ejecutar -Decidir cuál marco de lectura es el que puede leerse más adecuadamente como una secuencia corrida de aminoácidos. -PIntar la secuencia elegida, y salvarla en un archivo de texto. - Ir al sitio BLAST http://www.ncbi.nlm.nih.gov/BLAST/ donde se procederá a buscar si en el banco de datos de secuencias de proteínas hay alguna cuya secuencia coincida en parte con el ORF predicho. Elegir Standard protein blast. A partir del archivo donde se acaba de guardar el ORF seleccionado, copiar la secuencia de aminoácidos y pegar en el cuadro de trabajo del BLAST. Iniciar el programa de búsqueda Observar si inmediatamente el programa encuentra alguna característica muy relevante correspondiente a la secuencia entrada. Luego apretar FORMAT, y esperar a que aparezca el resultado. Mirar los resultados de las homologías encontradas. Luego de haber interpretado el formato en que aparecen los resultados, ir al sitio que corresponde a una de las secuencias encontradas con este procedimiento. El de la AF135121 (hacer click en el hyperlink). Hojear un poco esa pagina; ver la información que da. Salvar las secuencias de la proteina completa, de su DNA, y de su RNA; ademas grabar la página, para tener registrados cuales son los exones e intrones. Ir al sitio NetGene2 (http://genome.cbs.dtu.dk/services/NetGene2/ ) donde existe una herramienta para predecir sitios de splicing. Utilizarla dandole a analizar la secuencia de DNA genomica de la proteina incognita.Grabar la información recibida del programa, para analizar luego, o en el momento, si hay tiempo, los intrones predichos por dicho programa y los que realmente tiene el DNA. Analizar sólo los datos que corresponden a la cadena directa. Como complemento de este trabajo obtener más información sobre el gen en cuestión, yendo al sitio de Human Genome Resources (http://www.ncbi.nlm.nih.gov/genome/guide/human/) Buscar información sobre p53 humana. Ubicar la información sobre TP53 que es nuestro gen; ubicar en qué cromosoma se encuentra y visualizar el cromosoma con el gen localizado. Detectar cuáles son los genes vecinos, y cuál es el sentido de transcripción relativa de p53 y de sus dos vecinos. Cuántos exones tiene cada uno de los tres genes? Utilizar el hiperlink que se crea en TP53 para interiorizarse en el tipo de información que se puede obtener en internet sobre este gen/proteína. - Ejercicio suplementario: Analizar una secuencia de DNA en un programa que busca sitios de unión para factores de transcripción - Primero vamos al sitio de Genbank a buscar la secuencia de DNA que contiene la región promotora del gen p53. (Accession number J04238). (http://www.ncbi.nlm.nih.gov/). Abrir el archivo para ver la secuencia, y grabar los nucleotidos en un archivo de texto. Por si se pierden, aquí abajo está copiada gggagaaaacgttagggtgtggatattacggaaagccttcctaaaaaatgacatttaactgat gagaagaaaggatccagctgagagcaaacgcaaaagctttcttccttccacccttctatttga cacaatgcaggattcctccaaaatgatttccaccaattctgccctcacagctctggcttgcag aattttccaccccaaaatgttagtatctacggcaccaggtcggcgagaatcctgactctgcac cctcctccccaactccatttcctttgcttcctccggcaggcggattacttgcccttacttgtc atggcgactgtccagctttgtgccaggagcctcgcaggggttgatgggattggggttttcccc tcccatgtgctcaagactggcgctaaaagttttgagcttctcaaaagtctagagccaccgtcc agggagcaggtagctgctgggctccggggacactttgcgttcgggctgggagcgtgctttcca cgacggtgacacgcttccctggattgg Ahora ir al sitio (http://www.gene-regulation.com/pub/databases.html#transfac) donde hay todo tipo de información sobre factores de transcripción. Por ejemplo, entren a clasificación y verán cómo se clasifican todos los factores de transcripción. Ahora marquen en el margen superior, la legüeta de Programs; observen todos los programas que hay y quedense con el programa Ali-Baba. Hagan click donde dice "use Alibaba on this site". Si les pide un login pueden usar ell usuario smoreno, y la password sm3507. Pintar en el recuadro adecuado la secuencia del promotor que grabaron. Hagan la búsqueda y verán los sitios que aparecen. Esperamos que hayan aprovechado estos ejercicios.