Download Comparison between Human and Mouse genomes
Document related concepts
Transcript
Anotación de Genomas con ESTs Eduardo Eyras Bioinformática UPF – Marzo 2006 Objetivos: Conocer un poco más sobre como se anotan genomas automáticamente Y el uso de ESTs para anotar genomas Objetivo Localización en el genoma de genes conocidos (known) Proteínas conocidas Secuencias de mRNAs Alineamiento de proteínas/mRNAs al genoma en dos pasos 1 BLAST proteína/mRNA “query” contra genoma 2 Realinea proteína/mRNA “query” contra región genómica Resultado: estructura exónica Alineando mRNAs al genoma mRNA “query” . . . GCCGCACCTGAAGAGGGAAAAGC . . . 404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : 428 ||||||||||||||||||++ 792 bp ++||||||| 27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007 Secuencia genómica Programas: Exonerate, Blat, Sim4, Spidey Alineando Proteínas al genoma Proteína “query” DCUP_HUMAN HS307871 DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . . 75 RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM 2141 ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg La traducción de la secuencia genómica Secuencia genómica partida en codones Programas: GeneWise, Exonerate Combinando proteinas y mRNAs Proteína alineada al genoma mRNA alineado en el mismo locus Anotación de un tránscrito con CDS y UTR Como encontrar más genes (novel) Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc… Predicción Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc) Tránscrito 1 Tránscrito 2 Contruimos tráncritos a partir de predicciones con evidencia Anotación Funcional Anotación (predicción a partir de proteína o mRNA) Comparación con Bases de Datos con información Funcional A la caza de genes Consorcio Público (HGP): Inciativa privada (Craig Secuenciación del Genoma Venter): Secuenciación de ESTs ESTs (Expressed Sequence Tags) Traducción: Etiquetas de secuencias expresadas? Son fragmentos de secuencia obtenidos a partir de clones de cDNA Tiene una longitud de 300-600 bases Pueden contener parte del CDS y/o UTR Obtención de cDNA mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo. ESTs 5’ AAAAAA 3’ 3’ TTTTTT 5’ 5’ EST Single-pass sequence reads 3’ EST Clone cDNA into a vector Multiple cDNA clones Muestreando el Transcriptoma con ESTs Genoma Tránscrito primario Splicing Variantes de splicing oligo-dT primer Transcriptasa Reversa Clones de cDNA Secuencias de ESTs (una única lectura) 5’ 3’ 5’ 3’ Longitud de los ESTs ~ 450 bp Distribución de longitudes para ESTs de human (dbEST) Alineamiento de ESTs al genoma para anotar genes EST GT AG GT AG •El alineamiento define exones e intrones dbEST: Más de 7 MILLONES de ESTs de humano Alineamiento al genoma humano ~ 3 Gigabases Bioinformática como una Tecnología Desarrollo de software specializado: Programas que mejoran en rapidez sin perder en calidad en los alineamientos. Desarrollo de tecnología especializada: Computación en paralelo con más de 2000 CPUs Alineamiento de ESTs al genoma Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas Pueden contener contaminación del vector: tenemos que filtrarlos. Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC— AG Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%) Alineamiento de ESTs al genoma EST Stop * PolyA AAAA Pseudogene procesado GT AG GT AG Mejor alineamiento en todo el genoma Parálogo Alineamiento de ESTs al genoma EST quimérico Trozo de gen A Trozo de gen B Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000 Nov;10(11):1743-56 Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res. 2006 Jan;16(1):37-44 ESTs dan información sobre variantes de splicing ESTs Genoma ¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma? ¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente han dado lugar ha estos ESTs? Compatibilidades entre distintos ESTs 2 ESTs pueden tener estructura exónicas redundantes: x z x+z z es redundante con x -> es suficiente quedarnos con x Extensión de la estructura exónica Consider 2 ESTs in a Genomic Cluster with more ESTS x y x+y y extiende x, podemos asumir que provienen del mismo mRNA Extensión de la estructura exónica El resultado depende de la representación de exones en los ESTs. Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’. x z w ESTs como z no son muy frecuentes, por lo que tendremos fragmentación Complejidad de las estructuras exónicas x z w x+z z+w En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes: w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w Predicción de tránscritos a partir de ESTs ESTs Predicciones Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs. Eyras et al. Genome Research 2004 Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma ESTs proporcionan información sobre la expresión de genes Ontologías eVOC Sistema Anatómico Tipo de Célula http://www.sanbi.ac.za/evoc/ El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina. El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto. Patología El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma. Estado de Desarrollo El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto. ESTs proporcionan información sobre la expresión de genes Ontologías eVOC Tipo de Célula Patología http://www.sanbi.ac.za/evoc/ Sistema Anatómico … nervioso cerebro Librería 1 ESTs Estado de Desarrollo cerebelo Librería 2 ESTs … … Como conectar el vocabulario de expressión con los genes previamente anotados ESTs Genes V Curwen et al. Genome Research (2004) Vocabulario de expresión CONCLUSIONES La anotación de genomas requiere software especializado. ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión. La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento. Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma. FIN