Download Análisis de Genoma

Document related concepts

Genómica comparativa wikipedia , lookup

Genómica wikipedia , lookup

Proyecto del genoma wikipedia , lookup

Genómica funcional wikipedia , lookup

Genómica computacional wikipedia , lookup

Transcript
Análisis de genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Puntos a tratar:
Interés de los proyectos genomas
La secuenciación de genomas
Bases de datos de genomas
Anotación de genomas
Genómica comparativa
Visualizadores del genoma humano
What's Next?
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Cada genoma completo suministra una fuente inagotable de información
biológica:
Conocimiento del número total de genes
Conocimiento de la estructura de genes, regiones reguladoras y otros
elementos funcionales
Principios sobre la organización básica del organismo (clases
funcionales,...)
Conocer funciones básicas de los genes conservados en distintas
especies (léxico biología molecular)
Organización secuencia en los cromosomas (saco de genes o sistema
integrado información)
Evolución genoma (conservación orden de genes, evolución secuencia)
Miramos el bosque, no el árbol
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Criterios para la secuenciación de genomas
Amplio conocimiento biológico previo
Patógeno humano
Interés filogenético
© Copyright Ebiointel,SL 2006
Secuenciación de Genomas
Hierarchical Shotgun Sequencing
vs
Shotgun Sequencing
• Borrador
(draft): 1
error en 1kb
(4x-5x)
• Acabado
(finished): 1
Ensamblado
error en 10
de la kb (8x-9x)
secuencia
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Bases de datos genómicas
GOLD
Genomes
OnLine
Database v 2.0
http://www.genomesonline.org
Genome
Sequencing
Proposals
http://www.genome.gov/1000215
4
Entrez
Genomes
http://www.ncbi.nlm.nih.gov/entrez/qu
ery.fcgi?db=genome&cmd=search&ter
m=
[TM]
Information regarding complete and
ongoing genome projects
•Buscar el número de genomas de mamíferos que se están secuenciando por el método
WSG (Whole Genome Shotgun)
Links genómica
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Bases de datos genómicas
TIGR Microbial
Database
http://www.tigr.org/tdb/mdb/mdbc
omplete.html
Microbial genomes and
chromosomes
ACeDB
http://www.acedb.org/
C. elegans, S. pombe, and human
sequences and genomic
information
FlyBase
http://www.fruitfly.org
Drosophila sequences and genomic
information
MITOMAP
http://www.mitomap.org/
Human mitochondrial genome
Links genómica
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genomas de microorganismos secuenciados
Nuestra visión del árbol de la vida debe ser modificada
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Tipos celulares
básicos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genomas de microorganismos secuenciados
Nuestra visión del árbol de la vida debe ser
modificada
40% genes son URFs (unidentified reading
frames)
Mínimo número de genes para sostener el tipo
moderno de célula es 256-80
Importancia de transferencia horizontal (en E. coli
12,5% genoma)
Gene shuffling
ORFs faltantes de genes existentes
Descubrimiento de antibióticos (broad spectrum
antibiotics)
Causas de patogenidad (ej. Yersinia
pseudotuberculosis y Yersinia pestis)
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genomas de microorganismos secuenciados
Causas de
patogenidad (ej.
Yersinia
pseudotuberculosis
y Yersinia pestis
Science 2002)
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Bases de datos genómicas
Arabidopsis
thaliana
http://www.arabidopsis.org/
Genoma arroz
http://rgp.dna.affrc.go.jp/
International Rice Genome
Sequencing Project, coordinado por
el RGP de Japón
Fugu genome
project
http://bahama.jgipsf.org/fugu/html/fugu_factsheet.
html
Fugu
Fugu genomics
project
Genoma ratón
Genoma rata
http://fugu.hgmp.mrc.ac.uk/PFW/
http://www.ensembl.org
http://www.ncbi.nih.gov/genome/
guide/mouse
http://www.informatics.jax.org/
http://rgd.mcw.edu/
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Vertebrados secuenciados
© Copyright Ebiointel,SL 2006
The human genome
El genoma
humano
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Bases de datos genoma humano
Genoma
Humano en
GenBank
http://www.ncbi.nlm.nih.gov/mapv
iew/map_search.cgi?chr=hum_c
hr.inf&query=
Visualizador Genoma Humano
Guía al genoma humano
http://www.ncbi.nlm.nih.gov/gen
ome/guide/human/
Ensembl
http://www.ensembl.org
Annotated human Genome
sequence data
UCSC
http://genome.ucsc.edu/
UCSC Genome Browser
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Se dispone de la secuencia de un genoma ensamblada
Anotación del genoma
Identificación de repeticiones (Repeat masker, Reputer, …)
Predicción de los genes que codifican para proteínas
Métodos ab initio (GenScan, Genmark, Glimmer,…)
Comparación genoma con mRNA (EST) (blastn, sim4,…)
Comparación genoma con proteínas (blastx, genewise)
•
Predicción de RNA genes
Métodos ab initio (tRNAScanSE, snoRNA,…)
Comparación genoma con RNA (EST) (blatn, sim4,…)
Otros elementos
Pseudogenes (por similitud, blastn, blastx)
Elementos reguladores (islas CpG, promotores??)
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Protocolo para localización de genes que codifican para proteína
a partir de la inspección de la secuencia
Traducción conceptual de la secuencia
Detección pautas abierta de lectura (ORFs): sucesión
de codones sin STOP (ORF promedio = ~150 nc
Distinción región codificante: composición bases
Sesgo de codones
Frec. Aminoácidos
Correlación entre aa vecinos
Mejora algoritmo probándola con genes conocidos
Frec. de oligómeros (Hidden Markow models)
Búsqueda señales: sitios conservados
Señales splicing: límites exón-intrón sitio aceptor y receptor, branch
point
Codón inicio traducción y terminación (STOP)
Ponderación por matrices (perfiles)
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Protocolo para localización de genes que codifican para proteína
a partir de la inspección de la secuencia (2)
Construcción un modelo del gen
Combinación del exón con las fases compatibles
Búsqueda de las secuencias limítrofes
Exones terminales (5’, 3’)
Promotores
Señal de poliadenilación
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Predicción de genes que codifican para proteína:
Resumen
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Links buscadores de genes
Ejemplo:
ORF Finder (Open Reading Frame Finder) al NCBI
Ejercicios
•Buscar ORF con Genscan, o Metagene en una
secuencia problema de Arabidopsis y de la secuencia
del gen BRCA1 de humanos
•Identificación de genes en secuencia genómica
http://ebiointel.uab.es/base/base.asp?sitio=canruti&anar=ejerci&item=&subitem=
Secuencia problema Arabidopsis
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Búsqueda de homologías
Análisis del proteoma
codificado por un
genoma secuenciado
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Anotación
• Predicción de genes “in silico“
• Asignación funcional (homología otras
proteínas, información patrones, estructura,..)
1. Predicción de genes
Métodos ab initio (in
silico)
2. Análisis proteoma
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Comparación entre
genomas
Localización de secuencias
ortólogas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Ensembl
Sistemas de anotación automáticos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Ortólogo vs Parálogo

Duplicación


Especiación



Especie 1

Presente
Especie 2
•Los pares 1 y 2, y 1 y  2 son ortólogos
•Los pares 1 y 1, 1 y 2, 2 y 1 y 2 y 1 son parálogos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Ortólogo vs Parálogo
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Localización de ortólogos
Criterios al comparar de proteomas
El par putativo de ortólogos deben dar el mejor hit al
consultar la secuencias de cada uno con la del genoma
del otro
E muy bajo < 10-20 (Conservativo) o 0,01 (no
conservativo) y alineamientos > 80% identidad
(conservativo) o 60% (no conservativos)
Análisis de clusters las secuencias agrupadas
Obtenemos los clusters de grupos homólogos
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genómica comparativa
Principio básico
Todo elementos funcional está
constreñido por la selección
natural
Detección de la huella de la
selección en las secuencias
genómicas
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Genómica comparativa
La genómica comparativa es fundamental para:
Detección Genes
Detección regiones reguladoras
Detectar funciones nuevas y conservadas
Evolución genoma
Evolución Proteínas
Modelos animales estudios fisiología y
enfermedades
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Rubin et al. Science 287: 2204-2215
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Distribución de homologías en proteínas humanas
Sólo procariotas
<1%
Eucariota y procariota
21%
Sólo vertebrados
22%
Animales y otros
eucariotas
32%
Vertebrados y
otros animales
24%
No homología
animal
1%
© Copyright Ebiointel,SL 2006
Genómica comparativa
Genoma ratón 14% menor genoma
humano (2,5 Gb vs 2,9 Gb)
90% ambos genomas presentan
sintenia
A nivel nucleotídico 40% GH se alinea
con GR
Tasa substitución neutra 0,5 por sitio.
Doble ratón que humanos
% genoma sometido a selec
purificadora >5%
Evolución no uniforme del genoma
Ambos ~ mismo número genes, 30.000.
80% único ortólogo, sin homología <1%
© Copyright Ebiointel,SL 2006
Genómica comparativa
Distribución de homologías en proteínas humanas
© Copyright Ebiointel,SL 2006
Genómica comparativa
Nature 2003, 423:241-254
© Copyright Ebiointel,SL 2006
Genómica comparativa
Metodología con una sensibilidad y
precisión comparable o superior al
análisis experimental
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Vertebrados secuenciados
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Clasificación funcional
Desde:
•Simples categorías
(energía, información, comunicación)
•Esquema de clasificación Gene Ontology (GO) que engloba:
•Papel biológico (Why?)
•Función molecular (What?)
•Localización celular (Where?)
Molecular Function
Ontology
the tasks performed by individual gene products; examples are carbohydrate binding and ATPase activity
Biological Process
Ontology
broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular
functions
Cellular Component
Ontology
subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition
complex
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Gene Ontology
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Clasificación funcional
GO:0003673 : Gene_Ontology ( 149784 )
GO:0008150 : biological_process ( 99849 )
•
GO:0007610 : behavior ( 2298 )
•
GO:0000004 : biological_process unknown ( 27969 )
•
GO:0009987 : cellular process ( 32926 )
•
GO:0007275 : development ( 14739 )
•
GO:0008371 : obsolete biological process ( 97 )
•
GO:0007582 : physiological process ( 62723 )
•
GO:0050789 : regulation of biological process ( 12540 )
•
GO:0016032 : viral life cycle ( 255 )
•
GO:0005575 : cellular_component ( 80819 )
•
GO:0005623 : cell ( 57332 )
•
GO:0008372 : cellular_component unknown ( 19622 )
•
GO:0005576 : extracellular ( 5011 )
•
GO:0019814 : immunoglobulin complex ( 19 )
•
GO:0008370 : obsolete cellular component ( 25 )
•
GO:0005941 : unlocalized ( 550 )
•
GO:0019012 : virion ( 127 )
•
GO:0003674 : molecular_function ( 101079 )
•
GO:0016209 : antioxidant activity ( 322 )
•
GO:0005488 : binding ( 27236 )
•
GO:0003824 : catalytic activity ( 33780 )
•
GO:0003754 : chaperone activity ( 894 )
•
GO:0030188 : chaperone regulator activity ( 13 )
•
GO:0030234 : enzyme regulator activity ( 1851 )
•
GO:0005554 : molecular_function unknown ( 28940 )
•
GO:0003774 : motor activity ( 423 )
•
GO:0045735 : nutrient reservoir activity ( 36 )
•
GO:0008369 : obsolete molecular function ( 675 )
•
GO:0004871 : signal transducer activity ( 6503
© Copyright
)
Ebiointel,SL 2006
•
Análisis de Genomas
Genes bien caracterizados
RefSeq
database
http://www.ncbi.nlm.nih.gov/LocusLink/re
fseq.html
Reference Sequence Project
LocusLink
http://www.ncbi.nlm.nih.gov/LocusLink/
Locus Link
GeneCards
http://bioinformatics.weizmann.ac.il/cards Genes humanos
© Copyright Ebiointel,SL 2006
OMIM
Online
Mendelian
Inheritance in
Man
http://www.ncbi.nlm.nih.gov/entre
z/query.fcgi?db=OMIM
Catalog of human genetic and
genomic disorders
MIM (Mendelian Inheritance
in Man):
•Victor A. McKusick. Catálogo
MIM (1966)- 12 ediciones
impresas
•OMIM Statistics
© Copyright Ebiointel,SL 2006
Análisis de Genomas
Bases de datos genoma humano
Genoma
Humano en
GenBank
http://www.ncbi.nlm.nih.gov/mapv
iew/map_search.cgi?chr=hum_c
hr.inf&query=
Visualizador Genoma Humano
Guía al genoma humano
http://www.ncbi.nlm.nih.gov/gen
ome/guide/human/
Ensembl
http://www.ensembl.org
Annotated human Genome
sequence data
UCSC
http://genome.ucsc.edu/
UCSC Genome Browser
Ejercicios de búsqueda en el genoma humano
© Copyright Ebiointel,SL 2006
Análisis de Genomas
What's Next?
Turning Genomics Vision Into Reality
•The International HapMap Project
•ENCyclopedia Of DNA Elements (ENCODE)
•Structural Genomics Consortium
© Copyright Ebiointel,SL 2006