Download Diapositiva 1 - Universidad de Granada

Document related concepts
no text concepts found
Transcript
Análisis de secuencias
Máster en Genética y Evolución
http://bioinfo2.ugr.es/secuencias
Dr. José L. Oliver
Dr. Michael Hackenberg
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
De ~nada a ~todo
Biología Molecular:
‘un gen una proteína’
‘un gen un laboratorio’
‘un gen una tesis’
Genómica :
‘un genoma una tesis’
Antes se estudiaba el efecto de un gen
…ignorando así al 99.99% restante
Ahora tenemos datos de todos los genes
¿Qué hacer con ellos?
¿Cómo derivar nuevo conocimiento?
 Es necesario un nuevo enfoque, un cambio de paradigma
2001
“If you can’t do Bioinformatics, you can’t do
Biology”…
J.D. Tisdall, Beginning Perl for Bioinformatics, 2003
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
¿Qué es la Bioinformática?
Biología Molecular
Genómica
•
•
•
•
•
•
Secuencias de genes y proteínas
Estructuras 3D
Expresión génica (microarrays)
Interacción entre proteínas (interactoma)
Secuenciación masiva
Genómica personalizada
Conocimiento biológico
Bases de datos
Programas
Salud
Biotecnología
Medio ambiente
Computación
Genómica comparada
Algorítmica
Prof. Dr. José L. Oliver
Evolución
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
bioinformática
informática
médica
usuarios
algoritmos
desarrolladores
informática en
salud pública
bases de datos
infrastructura
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Grandes proyectos genómicos:
• Genoma Humano
• 1000 Genomas
• ENCODE
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
El Proyecto Genoma Humano
Sus objetivos fueron:
• Identificar los aprox. 20.000-25.000 genes en el genoma humano
• Determinar la secuencia de los 3.2 Gbp de nucleótidos que componen el genoma
haploide y almacenar esta información en bases de datos
• Mejorar el software para analizar estos datos
• Transferencia de tecnología al sector privado
• Abordar los aspectos éticos, legales y sociales (ELSI) que pudiera provocar el
proyecto
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
El Proyecto Genoma Humano
• Fue una iniciativa internacional lanzada en la década de los 90 del
pasado siglo para mapear y secuenciar el conjunto de genes del ser
humano (genoma)
• Completado en 2003 con la publicación de la secuencia de referencia
del genoma humano
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Secuenciación masiva
454
Pyrosequencing (PS)
Illumina
Reversible Termination (RT)
SOLID
Sequencing by Ligation (SBL)
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Secuenciación masiva
Salida por
proceso
SANGER
SECUENCIACIÓN MASIVA
Di-deoxy
terminator
Roche 454 Illumina HiSeq
SOLID V4 (SBL)
GS FLX (PS)
2000 (RT)
1.6 Mb
600 Mb
200 GB
100 GB
Tiempo/Proceso
1h
10 h
9d
11 d
Longitud media
“reads”
800 pbs
400 pb
100 pb
75 pb
Salida por día
38.4 Mb
1.44 GB
22.2 GB
9 GB
Usos frecuentes
Prof. Dr. José L. Oliver
-
Secuenciación de
novo
Captura de exones
Universidad de Granada
Resecuenciación
Captura de exones
Metagenómica
Resecuenciación
Captura de exones
Metagenómica
http://bioinfo2.ugr.es/oliver/
Secuenciación de moléculas únicas: nanoporos
David Deamer made this sketch in 1989 when the
idea for nanopore sequencing came to him
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
MinION nanopore: a miniaturised single-molecule analysis system,
designed for single use and to work through the USB port of a laptop or
desktop computer
Vídeo demostrativo MinION
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Secuenciación de DNA mediante nanoporos de proteínas
• Proyecto financiado por los NIH: el nanoporo lo suministra una
proteína, la alfa-hemolisina (aHL)
• Una de las hebras del DNA atraviesa este nanoporo, movida por un
motor molecular de polimerasa
• Los nucleótidos se van identificando por un laser a medida que
atraviesan el nanoporo
Conectando miles o millones de estos nanoporos, se espera secuenciar
un genoma completo en… 10 minutos!
 Importancia para el diagnóstico/pronóstico del cáncer y otras
enfermedades
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Secuenciación masiva
APLICACIONES
Re-secuenciación
• SNVs y CNVs
• Inserciones y
deleciones
Prof. Dr. José L. Oliver
Regulación
• Expresión génica
• ARNs pequeños
Universidad de Granada
Epigenómica
• Metilación del ADN
• Histonas
• TFBSs
http://bioinfo2.ugr.es/oliver/
El proyecto 1000 Genomas pretende la
caracterización de la variación genética en el
genoma humano
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Trio project: whole-genome shotgun sequencing at high coverage
(average 42 X) of two families (one Yoruba from Ibadan, Nigeria (YRI);
one of European ancestry in Utah (CEU)), each including two parents
and one daughter.
Low-coverage project: whole-genome shotgun sequencing at low
coverage (2–6 X) of 59 unrelated individuals from YRI, 60 unrelated
individuals fromCEU, 30 unrelated Han Chinese individuals in Beijing
(CHB) and 30 unrelated Japanese individuals in Tokyo (JPT).
Exon project: targeted capture of 8,140 exons from 906 randomly
selected genes (total of 1.4 Mb) followed by sequencing at high
coverage (average >50 X) in 697 individuals from 7 populations of
African (YRI, Luhya inWebuye, Kenya (LWK)), European (CEU, Toscani
in Italia (TSI)) and East Asian (CHB, JPT, Chinese in Denver, Colorado
(CHD)) ancestry.
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
El proyecto ENCODE
• La ‘Encyclopedia of DNA Elements’ (ENCODE) surge de una
colaboración internacional iniciada en 2003 y financiada por el
‘National Human Genome Research Institute’ (NHGRI).
• El objetivo de ENCODE es elaborar un catálogo exhaustivo
de todos los elementos funcionales en el genoma humano,
incluyendo tanto ARNs como proteínas, asi como aquellos
elementos reguladores que controlan el tipo celular y el
momento del desarrollo en que un gen es activo.
• La cuestión es: la suma de los exones de los aprox. 21.000
genes humanos no llegan al 2% del genoma ¿para que sirve
el 98% restante? ¿es ADN basura?
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Algunas de las técnicas utilizadas en ENCODE
RNA-seq. Aislamiento y secuenciación masiva de ARN
CAGE. Captura y secuenciación masiva de los ‘caps’ metilados en los extremos 5’
del ARN. Estos ‘caps’ suelen formarse en los sitios de inicio de la transcripción
RNA-PET. Captura simultánea de ARNs con caps metilados y cola de poly-A, es
decir ARNs completos, seguida de la secuenciación de un trozo en cada extremo.
ChIP-seq. Inmunoprecipitación de las proteínas unidas a la cromatina y
secuenciación de las secuencias de ADN asociadas. Se suelen usar anticuerpos
frente a factores de transcripción, proteínas no-histonas que se unen a la
cromatina, o bien histonas modificadas por metilación, acetilación, etc.
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
DNase-seq. La enzima DNasa I corta preferencialmente regiones de la
cromatina unidas a proteínas no-histonas y que corresponden a regiones
de ‘cromatina abierta’. Los puntos de corte se secuencian, obteniéndose
así un listado de sitios hipersensibles a DNasa I que corresponden a sitios
de cromatina activa.
FAIRE-seq. (Formaldehyde assisted isolation of regulatory elements).
Permite aislar regiones genómicas libres de nucleosomas.
RRBS (Reduced representation bisulphite sequencing). El tratamiento del
ADN con bisulfito convierte las citosinas no-metiladas en uracilo, mientras
que no afecta a las citosinas metiladas. Se usan enzimas de restricción que
cortan alrededor de los dinucleótidos CpG, con lo que se limita el análisis a
aquellas regiones ricas en CpG (islas CpG).
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Principales hallazgos de ENCODE
La mayor parte del genoma (80.4%) se puede asociar con al menos una función
en alguno de los 147 tipos celulares analizados. Puesto que puede haber hasta
2.000 tipos celulares, este porcentaje podría llegar a ser mucho más alto!
Los elementos específicos de primates están sometidos a selección natural 
deben ser funcionales
Se han descubierto 399.124 enhancers y 70.292 promotores
Muchas de los elementos funcionales encontrados se localizan en las regiones
no-codificadoras de proteínas (fuera de los genes)
Los SNPs asociados con enfermedades mediante GWAS abundan en las
regiones no-codificadoras y residen en zonas funcionales identificadas por
ENCODE.
Muchas enfermedades se asocian con un determinado factor de transcripción
que varía entre tipos celulares.
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Felix Muerdter & Alexander Stark, Nature 512, 374–375 (28 August 2014)
Más de 1600 nuevos conjuntos de datos, lo que hace un total de 3300 entre ENCODE y
modENCODE
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Cautelas sobre el proyecto ENCODE (extraidas de las publicaciones de 2014):
“…although they are extremely data-rich, the papers expose how data sets that
are created to catalogue all functional elements under standardized conditions
are not sufficient for understanding the regulation of transcription, chromatin
biology and enhancer function, nor the evolution of these mechanisms.”
Según Dan Graur esto quiere decir que:
• Not every piece of chewing gum attached to the soles of your shoes is
functional.
• Moreover, the function of the sole of your shoe to which the chewing gum
stuck is NOT to bind chewing gum.
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Los programas y bases de datos que utilizaremos
funcionan en servidores web:
•
Bases de datos públicas en línea: EBI, NCBI
•
El software se ejecuta en servidores remotos de acceso público:
•
•
Formularios Web: Copiar/pegar datos  Resultados
Ventajas:
•
Datos actualizados on-line
•
Acceso a software profesional permanentemente actualizado por sus
propios autores
•
No tendremos que instalar ningún programa ni base de datos en
nuestra máquina local, todo lo haremos a través de un navegador web
•
Podremos acceder a las prácticas del curso desde cualquier ordenador
(Windows, Linux, Mac…) con acceso a Internet
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/
Análisis de secuencias
Máster en Genética y Evolución
http://bioinfo2.ugr.es/secuencias
Dr. José L. Oliver
Dr. Michael Hackenberg
Prof. Dr. José L. Oliver
Universidad de Granada
http://bioinfo2.ugr.es/oliver/