Download Diapositiva 1
Document related concepts
Transcript
Genómica, proteómica y Bioinformática Sus aplicaciones al estudio de las células de la línea germinal Curso x, Fac. de Medicina, Abril 2009 Que son las ómicas? Se refiere al estudio de las cosas desde una perspectiva de completitud o gran escala Gen -- Genética Genoma -- Genómica Proteoma -- Proteómica Genética y Genómica La genómica, proteómica y otras ómicas están asociadas al gran adelanto tecnológico (robotización) Las ómicas por tanto están asociadas a la capacidad de generar datos en gran escala (tecnologías de alta procesividad, o en inglés high throughput), y a la capacidad de analizar esos volúmenes de datos. Esto último se llama Bioinformática Secuenciador Solid Cluster Beowulf Reconstrucción de Redes: la era de las “omicas” Genómica Fenómica Proteomica Transcriptómica Metabolómica Interactómica Secuenciamiento Genómico Dos estrategias de secuenciamiento Dos estrategias de secuenciamiento Secuenciamiento genómico shot-gun Los fragmentos secuenciados son alineados unos con otros para determinar los puntos de potencial ensamblaje. Una vez resueltos los puntos de ensamblaje los fragmentos solapantes son ensamblados en secuencias de mayor tamaño denominados “contigs” Ensamblado de un genoma El objetivo es reconstruir la estructura original del o los cromosomas que componen el genoma de un organismo a partir de la información producida por el secuenciador Transcriptómica - Producción Librerias de de ESTs -Clonado -Secuenciación -Ensamblado -Anotación -Ventajas Centro de secuenciamiento masivo del Sanger Centre (1999) El secuenciador 454 de ROCHE 454 Sequencing is a massively-parallel pyrosequencing system capable of sequencing roughly 100 megabases of raw DNA per 7hour run of their current sequencing machine, the GSFLX. The system relies on fixing nebulized and adapter-ligated DNA fragments to small DNAcapture beads in a water-in-oil emulsion. The DNA fixed to these beads is then amplified by PCR. Finally, each DNA-bound bead is placed into a ~44 μm well on a PicoTiterPlate, a fiber optic chip. A mix of enzymes such as polymerase, ATP sulfurylase, and luciferase are also packed into the well. Amplification emPCR (Emulsion PCR) One Fragment = One Bead Dos micrografías Tecnología Solexa (1Gb sequencer) SOLiD™ Sequencing System Next-Next Generetation Sequencers Secuenciación sin amplificación Oxford Nanopore α-hemolysin Staphylococcus aureus exonuclease Comparación de las tecnologías Tecnología Read Length Número de Reads Total throughput Capilar 600-800 96 100 kb Roche 350 1.6 millones 500 Mb 100 millones (x2) 50 millones 5 Gb (x2) (de 300 a 500) Solexa Solid 50 (76) 35 16 GB Proyecto Genoma Humano (terminado 2003) 13 años, 3 mil millones de dólares, cientos de laboratorios 2008 3 meses, 60 mil dólares, 1 laboratorio En pocos años Pocas horas, menos de 1000 dólares -Secuenciamiento genómico se convertirá en una técnica rutinaria de análisis clínico -Esto permitirá plantearse preguntas tales como: - Cual es la base genética de la longevidad, hipertensión, o cualquier carácter con una base genética compleja El análisis de los datos Genomico Qué es la Anotación Genómica? El objetivo de la anotación genómica es producir una base de datos sobre las características del genoma, sus genes, las funciones de estos, elementos regulatorios etc 1 A nivel nucleotídico 1 a- Encontrar secuencias repetidas 1 b- Encontrar genes de tRNA (tRNAscan). De ARAr, etc 1 c- Encontrar landmarks varias (SNPS, segmentos duplicados etc) 1 d- Encontrar los genes codificantes de proteínas (Gene finding) 2- Anotación a nivel de proteínas Encontramos los genes. Bueno ahora queremos saber proteínas codifican. 3- Anotación Funcional. Qué función cumplen? En que compartimentos celulares se ubican sus productos? Etc. La parte central de la anotación genómica es la búsqueda de genes ATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACC AGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAA ACACATGCATTGCATGCAATGCGTCACATGACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCAGTGAAACCGGTACCAACA CCACGTACAGTTATGCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAG TTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTT AAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGA CAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCA TGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTAC CTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTT GACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTA CCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAAC CGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATC ACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGC TCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTT CCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACA TGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACG TACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACC AGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGT TCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGAT CACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAAT GCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTATGAGTTACCTCGA TACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAG TTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGT TGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTA CCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGT ACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGAC CAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGA TTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCAT TGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAG TTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTA CAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCG GTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGT AAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGT CACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGT AATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTAC CAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCA AACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAAC ACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAG Organismos con Intrones En Haemophilus influenzae, 85% del genoma de 1.8 Mb es codificante En la levadura S. cerevisea el 70% En Drosophila y en C. elegans el 25% es codifcante En Vertebrados menos del 5%. Además un exón típico tiene unas 150 bp mientras que un intrón puede llegar a varios Kb Qué es la Anotación Genómica? El objetivo de la anotación genómica es producir una base de datos sobre las características del genoma, sus genes, las funciones de estos, elementos regulatorios etc 1 A nivel nucleotídico 1 a- Encontrar secuencias repetidas 1 b- Encontrar genes de tRNA (tRNAscan). De ARAr, etc 1 c- Encontrar landmarks varias (SNPS, segmentos duplicados etc) 1 d- Encontrar los genes codificantes de proteínas (Gene finding) 2- Anotación a nivel de proteínas Encontramos los genes. Bueno ahora queremos saber que proteínas codifican. 3- Anotación Funcional. Qué función cumplen? En que compartimentos celulares se ubican sus productos? Etc. Homology-based annotation transfer The most widely known and used in silico protein function prediction method is homology-based annotation transfer (i.e. the transfer of a function from one protein to another on the basis of their common evolutionary origin). That is to say assigns proteins that have not been annotated with the function of their annotated homologues. One significant problem of this approach is that it is not clear what level of sequence similarity ascertains that two proteins have the same function It has been claimed that annotation transfer is one of the main sources of incorrect functional annotations that occur in databases. Functional annotation base on the presence of motifs and domains PROSITE Pfam (HMM profiles of protein families) PRINTS (Short protein motifs)