Download Diapositiva 1

Document related concepts

Genómica wikipedia , lookup

Genómica funcional wikipedia , lookup

Genómica comparativa wikipedia , lookup

Proyecto del genoma wikipedia , lookup

Genómica computacional wikipedia , lookup

Transcript
Genómica, proteómica y
Bioinformática
Sus aplicaciones al estudio de las
células de la línea germinal
Curso x, Fac. de Medicina, Abril 2009
Que son las ómicas?
Se refiere al estudio de las cosas desde una
perspectiva de completitud o gran escala
Gen
-- Genética
Genoma
-- Genómica
Proteoma -- Proteómica
Genética y Genómica
La genómica, proteómica y otras ómicas están
asociadas al gran adelanto tecnológico (robotización)
Las ómicas por tanto están asociadas a la capacidad de
generar datos en gran escala (tecnologías de alta
procesividad, o en inglés high throughput), y a la
capacidad de analizar esos volúmenes de datos. Esto
último se llama Bioinformática
Secuenciador
Solid
Cluster Beowulf
Reconstrucción de Redes:
la era de las “omicas”
Genómica
Fenómica
Proteomica
Transcriptómica
Metabolómica
Interactómica
Secuenciamiento Genómico
Dos estrategias de secuenciamiento
Dos estrategias de secuenciamiento
Secuenciamiento genómico shot-gun
Los fragmentos secuenciados son alineados unos con otros para
determinar los puntos de potencial ensamblaje. Una vez resueltos los
puntos de ensamblaje los fragmentos solapantes son ensamblados en
secuencias de mayor tamaño denominados “contigs”
Ensamblado de un genoma
El objetivo es reconstruir la estructura original del o los cromosomas
que componen el genoma de un organismo a partir de la
información producida por el secuenciador
Transcriptómica
- Producción Librerias de de ESTs
-Clonado
-Secuenciación
-Ensamblado
-Anotación
-Ventajas
Centro de secuenciamiento masivo del
Sanger Centre (1999)
El secuenciador 454 de ROCHE
454 Sequencing is a massively-parallel
pyrosequencing system capable of sequencing
roughly 100 megabases of raw DNA per 7hour run of their current sequencing machine, the
GSFLX. The system relies on fixing nebulized and
adapter-ligated DNA fragments to small DNAcapture beads in a water-in-oil emulsion. The DNA
fixed to these beads is then amplified by PCR.
Finally, each DNA-bound bead is placed into a ~44
μm well on a PicoTiterPlate, a fiber optic chip. A mix
of enzymes such as polymerase, ATP sulfurylase,
and luciferase are also packed into the well.
Amplification
emPCR (Emulsion PCR)
One Fragment = One Bead
Dos micrografías
Tecnología Solexa (1Gb sequencer)
SOLiD™ Sequencing System
Next-Next Generetation Sequencers
Secuenciación sin amplificación
Oxford Nanopore
α-hemolysin Staphylococcus aureus
exonuclease
Comparación de las tecnologías
Tecnología
Read
Length
Número de
Reads
Total
throughput
Capilar
600-800
96
100 kb
Roche
350
1.6 millones
500 Mb
100 millones
(x2)
50 millones
5 Gb (x2)
(de 300 a 500)
Solexa
Solid
50 (76)
35
16 GB
Proyecto Genoma Humano (terminado 2003)
13 años, 3 mil millones de dólares, cientos de laboratorios
2008
3 meses, 60 mil dólares, 1 laboratorio
En pocos años
Pocas horas, menos de 1000 dólares
-Secuenciamiento genómico se convertirá en una técnica
rutinaria de análisis clínico
-Esto permitirá plantearse preguntas tales como:
- Cual es la base genética de la longevidad, hipertensión,
o cualquier carácter con una base genética compleja
El análisis de los datos Genomico Qué es la Anotación
Genómica?
El objetivo de la anotación genómica es producir una base de
datos sobre las características del genoma, sus genes, las
funciones de estos, elementos regulatorios etc
1 A nivel nucleotídico
1 a- Encontrar secuencias repetidas
1 b- Encontrar genes de tRNA (tRNAscan). De ARAr, etc
1 c- Encontrar landmarks varias (SNPS, segmentos
duplicados etc)
1 d- Encontrar los genes codificantes de proteínas (Gene
finding)
2- Anotación a nivel de proteínas
Encontramos los genes. Bueno ahora queremos saber
proteínas codifican.
3- Anotación Funcional.
Qué función cumplen? En que compartimentos celulares se
ubican sus productos? Etc.
La parte central de la anotación genómica es la búsqueda de genes
ATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACC
AGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAA
ACACATGCATTGCATGCAATGCGTCACATGACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCAGTGAAACCGGTACCAACA
CCACGTACAGTTATGCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAG
TTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTT
AAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGA
CAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCA
TGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTAC
CTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTT
GACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTA
CCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAAC
CGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATC
ACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGC
TCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTT
CCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACA
TGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACG
TACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACC
AGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGT
TCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGAT
CACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAAT
GCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTATGAGTTACCTCGA
TACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAG
TTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGT
TGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTA
CCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGT
ACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTAATGGCTCGAC
CAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGA
TTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCAT
TGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAG
TTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTA
CAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCG
GTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGT
AAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGT
CACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGT
AATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTAC
CAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAACACCACGTACAGTTACCTCGATACGTATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCA
AACACATGCATTGCATGCAATGCGTCACATCACGGTACAGTTAACCAGTTACAGTTGACAGTTACCAGGTTCCAGATTAGACAGGATCACGTAAACCGGTACCAAC
ACCACGTACAGTTACCTCGATACGTAATGGCTCGACCAGTTAAAGGTTCCCGGTTACCAGTTGCCAAACACATGCATTGCATGCAATGCGTCACATCACGGTACAG
Organismos con Intrones
En Haemophilus influenzae, 85% del genoma de 1.8 Mb es codificante
En la levadura S. cerevisea el 70%
En Drosophila y en C. elegans el 25% es codifcante
En Vertebrados menos del 5%.
Además un exón típico tiene unas 150 bp mientras que un intrón
puede llegar a varios Kb
Qué es la Anotación Genómica?
El objetivo de la anotación genómica es producir una base de
datos sobre las características del genoma, sus genes, las
funciones de estos, elementos regulatorios etc
1 A nivel nucleotídico
1 a- Encontrar secuencias repetidas
1 b- Encontrar genes de tRNA (tRNAscan). De ARAr, etc
1 c- Encontrar landmarks varias (SNPS, segmentos
duplicados etc)
1 d- Encontrar los genes codificantes de proteínas (Gene
finding)
2- Anotación a nivel de proteínas
Encontramos los genes. Bueno ahora queremos saber
que proteínas codifican.
3- Anotación Funcional.
Qué función cumplen? En que compartimentos celulares se
ubican sus productos? Etc.
Homology-based annotation transfer
The most widely known and used in silico protein
function prediction method is homology-based
annotation transfer (i.e. the transfer of a function from
one protein to another on the basis of their common
evolutionary origin). That is to say assigns proteins that
have not been annotated with the function of their
annotated homologues. One significant problem of this
approach is that it is not clear what level of sequence
similarity ascertains that two proteins have the same
function
It has been claimed that annotation transfer is one of
the main sources of incorrect functional annotations that
occur in databases.
Functional annotation base on the presence
of motifs and domains
PROSITE
Pfam (HMM profiles of protein families)
PRINTS (Short protein motifs)