Download Análisis y anotación de genomas

Document related concepts

Proyecto del genoma wikipedia , lookup

Integrated Microbial Genomes System wikipedia , lookup

Transcript
Análisis y anotación de genomas
Fernán Agüero
August 9, 2017
© 2001 - Fernán Agüero
Historia
• Primer proyecto de secuenciación de un
genoma: Escherichia coli (US + Japón).
Comenzó en 1992 y terminó en 1997. 4.6 MB
• Primer genoma (eubacteria): Haemophilus
influenzae (1995). 1.83 MB
• Primer genoma (archaea): Metanococcus
jannaschii (1996). 1.6 MB
• Primer genoma (eukarya): Caenorhabditis
elegans (). XXX MB
August 9, 2017
© 2001 - Fernán Agüero
Qué es un genoma?
• Una colección de
– genes
• que codifican productos proteicos
• que codifican RNAs
– pseudogenes
– regiones no codificantes
• regulatorias (expresión)
• estructurales
– attachment a matriz nuclear
– mitosis / meiosis
– elementos repetitivos
August 9, 2017
© 2001 - Fernán Agüero
Qué es anotar?
• Agregar información, de la manera más
confiable y actualizada que se pueda para
describir una secuencia
• Información asociada a coordenadas
genómicas (comienzo..fin), a distintos
niveles
• Interpretar la información cruda de
secuencia en un marco biológico
August 9, 2017
© 2001 - Fernán Agüero
Anotación genómica
• Dos niveles de anotación
– Estructural: encontrar genes y otros sitios con
relevancia biológica. Armar un modelo del genoma:
cada gen/sitio es un objecto asociado a una posición
en el genoma
– Funcional: los objetos son utilizados en búsquedas
(y experimentos). El objetivo es atribuir información
biológica relevante a los objetos.
August 9, 2017
© 2001 - Fernán Agüero
Más niveles de anotación
• Organismo: fenotipo: morfología, fisiología,
comportamiento, respuestas ambientales
• Celula: vías metabólicas, cascadas de
señalización, localización subcelular.
• Molecula: sitios de binding, actividad
catalítica, estructura tridimensional
• Dominio
• Motif
• Residuo
August 9, 2017
© 2001 - Fernán Agüero
De donde proviene la anotación?
• Fuentes utilizadas en la anotación:
– publicaciones que reportan nuevas secuencias
– reviews que actualizan periódicamente la anotación
de familias o grupos de proteínas
– expertos externos
– análisis de secuencia
August 9, 2017
© 2001 - Fernán Agüero
Anotación genómica
ab initio gene
prediction
Genomic DNA
transcription
Unprocessed RNA
RNA processing
Mature mRNA
Gm3
AAAAAAA
translation
Comparative gene
prediction
Nascent polypeptide
folding
Active enzyme
Functional
identification
Function
August 9, 2017
Reactant A
Product B
© 2001 - Fernán Agüero
Annotation & functional genomics
La anotación del genoma es esencial en el desarrollo de
estrategias funcionales (functional genomics)
proteome based functional genomics
RNAi phenotypes
Gene
Knockout
Expression Microarray
August 9, 2017
© 2001 - Fernán Agüero
Anotación: busqueda de genes
• Buscar genes en el genoma
– RNA
• ribosomal RNAs
 BLASTN
• tRNAs
 tRNAscan
– protein coding
• ab initio gene prediction  ORFs, codon usage, frecuencia de
hexámeros, modelos, etc.)
• similarity
 BLASTX, otros
• Buscar regiones no codificantes
– regulatorias
• ab initio
• similarity
– repetitivas
• similarity
• ab initio
• En todos los casos
August 9, 2017
 Gibbs sampling
 patterns, profiles
 literatura!
© 2001 - Fernán Agüero
Integrar resultados
BLASTX
BLASTN
Secuencia
genoma
DB
RepeatMasker
tRNASCan
flatfiles
gene prediction
Visualización
August 9, 2017
© 2001 - Fernán Agüero
Genome annotation: C. elegans
August 9, 2017
© 2001 - Fernán Agüero
Resumir resultados de análisis
• Guardar el reporte crudo de un BLAST (lista de hits,
alineamientos) es demasiado
• Prácticamente cualquiera de los análisis que se realizan
sobre DNA o proteínas para anotar un genoma pueden
resumirse en:
– secuencia
– cromosoma1
start
1723
end
3456
• Este formato básico es la base del formato GFF (Sanger)
secuencia
Contig1
Contig1
Contig1
metodo
similarity
cds
similarity
August 9, 2017
programa
blastx
glimmer
blastn
start
100
85
80
end
1000
1201
1300
frame
+1
+1
.
score
132
1321
136
extra
gi|12345|AF34093 casein kinase ...
ORF0001; overlap with ORF0002
gi|54321|AF09990 complete genome
© 2001 - Fernán Agüero
Anotación: herramientas
• Artemis
– http://www.sanger.ac.uk/Software/Artemis
– Permite visualizar
• secuencia, con sus traducciones virtuales (6)
• tracks de anotación (entries)
• plots (built-ins y creados por el usuario)
– Lee secuencias en formato FASTA, EMBL, GenBank
– Lee features en formato EMBL, GenBank, GFF,
MSPcrunch, BLAST
August 9, 2017
© 2001 - Fernán Agüero
Artemis: main window
Sequence view
Sequence view
Feature list
August 9, 2017
© 2001 - Fernán Agüero
Artemis: plots
%GC plot
AA properties
plot para un
CDS
August 9, 2017
© 2001 - Fernán Agüero
Artemis: display de análisis
Frameplot
BLASTX
BLASTN
August 9, 2017
© 2001 - Fernán Agüero
Artemis:
August 9, 2017
© 2001 - Fernán Agüero
Artemis: zoom
August 9, 2017
© 2001 - Fernán Agüero
Artemis: spliced genes
August 9, 2017
© 2001 - Fernán Agüero
Artemis: comparar análisis
August 9, 2017
© 2001 - Fernán Agüero
Otras estrategias
• Artemis se usa para anotar genomas bacterianos o
para pequeños proyectos (cósmidos, BACs, etc.)
• En genomas más grandes, la tendencia es a
distribuir la anotación
• Los tracks de anotación son generados en distintos
centros
• Ejemplo: UCSC Genome Browser (genoma
humano, ratón).
August 9, 2017
© 2001 - Fernán Agüero
Anotación automática: TrEMBL
• La anotación de TrEMBL (translated
EMBL) se hace por métodos automáticos.
– Requerimientos para anotar automáticamente
• Una base de datos de referencia bien anotada (ej.
Swissprot)
• Una base de datos que sea altamente confiable (en el
sentido diagnóstico) en la asignación de proteínas a
grupos o familias (ej CDD, InterPro)
• Una serie de reglas de anotación
August 9, 2017
© 2001 - Fernán Agüero
Transferencia directa de anotación
• Realizar una búsqueda
en la base de datos de
referencia y transferir
la anotación
XDB
Target
August 9, 2017
• Ejemplo: FASTA contra
una base de datos de
secuencias y
transferencia de la línea
DE del mejor hit
© 2001 - Fernán Agüero
Anotación a partir de múltiples fuentes
• Generalmente se
usa más de una
base de datos
externa
XDB
• Hay que combinar
los resultados
Target
August 9, 2017
© 2001 - Fernán Agüero
Conflictos
• Contradicción
• Inconsistencia
• Sinónimos
• Redundancia
August 9, 2017
© 2001 - Fernán Agüero
Traducción de anotaciones
• Es necesario utilizar un
traductor para mapear el
lenguaje utilizado en la base
de datos externa (XDB) al
lenguaje utilizado en la base
de datos target que queremos
anotar
XDB
Target
August 9, 2017
© 2001 - Fernán Agüero
Traducciones: algunos ejemplos
ENZYME TrEMBL
CA L-ALANINE=D-ALANINE
CC -!- CATALYTIC ACTIVITY: L-ALANINE=
CC
D-ALANINE.
PROSITE TrEMBL
/SITE=3,heme_iron
FT METAL
IRON
Pfam TrEMBL
FT DOMAIN
FT ZN_FING
August 9, 2017
zf_C3HC4
C3HC4-TYPE
© 2001 - Fernán Agüero
Requerimientos de un sistema de anotación automática
•
•
•
•
•
•
Corrección
Escalable
Actualizable
Poco redundante
Completo
Vocabulario controlado
August 9, 2017
© 2001 - Fernán Agüero
Cómo funciona?
• Una proteína en TrEMBL es reconocida
como un miembro de cierto grupo o
familia de proteínas
• Este grupo de proteínas en Swissprot
comparten entre sí partes de la anotación
• La anotación común es transferida
automáticamente a la proteína en TrEMBL
y marcada como ‘annotated by similarity’
August 9, 2017
© 2001 - Fernán Agüero
Anotación: evidencias
• Las anotaciones suelen estar acompañadas de TAGS que indican la
evidencia en la que se basa la anotación
• Ejemplos de algunos TAGS utilizados en TrEMBL:
– EMBL: la información fue copiada del original (EMBL/GenBank/DDBJ)
– TrEMBL: anotación modificada para corregir errores o para adecuarse a
la sintaxis propia de Swissprot
– Curator: juicio del curador
– Similarity: por similitud con otra secuencia, a juicio del curador
– Experimental: evidencia experimental de acuerdo a una referencia, que
usualmente es un paper.
– Opinion: opinión emitida por el autor de una referencia, usualmente con
poca o ninguna evidencia experimental
– Rulebase: información derivada del uso de una regla de anotación
automática
– SignalP: programa de predicción
August 9, 2017
© 2001 - Fernán Agüero
Anotación: manual vs automática
• La anotación de un genoma ocurre en
etapas
– anotación automática
• correr todos los análisis sobre el genoma
• generar un primer borrador con todos los datos
organizados. Por ejemplo en páginas web o integrando
todos los datos en un display unificado (Artemis)
– anotación manual: cura de los datos
• una persona (curador) revisa la anotación, gen por
gen, verificando la anotación automática, agregando
anotaciones manuales, corriendo eventualmente algún
programa particular
August 9, 2017
© 2001 - Fernán Agüero
Qué herramientas se usan?
• Oakridge Genome Annotation Channel
– http://compbio.ornl.gov/channel
• ENSEMBL
– http://ensembl.ebi.ac.uk
• Artemis
– http://www.sanger.ac.uk/Software/Artemis
• GeneQuiz
– http://www.sander.ebi.ac.uk/genequiz
• Genome browsers: varios
– cada consorcio/proyecto desarrolló el suyo: Apollo
(FlyBase, Drosophila), AceDB (C. elegans),
August 9, 2017
© 2001 - Fernán Agüero
Anotación: fuentes de error
• Transferencia transitiva de anotaciones
– gen1 mal anotado como ‘casein kinase’ presente en
los bancos de datos
– gen2 con alta similitud con gen1, resulta anotado
como casein kinase
• Solución:
– usar bases de datos curadas: por ejemplo Swissprot
– revisar la anotación de más de un hit
– verificar que las anotaciones de todos los hits
concuerden
August 9, 2017
© 2001 - Fernán Agüero
Anotación confiable: proyecto HAMAP
• High-quality Automated Microbial Annotation of
Proteomes
– Swissprot (Swiss Bioinformatics Institute-European
Bioinformatics Institute)
– CNRS Lyon
– INRIA Grenoble
– INRA Toulouse
– CNRS Marseille
– Pasteur Institute
August 9, 2017
© 2001 - Fernán Agüero
HAMAP
• Hay muchos genomas bacterianos terminados, pero va a
haber muchos más en los próximos años
• El número de proteínas bacterianas proveniente de estos
genomas llegará al millón muy rápidamente
• Pero el análisis funcional y una caracterización detallada
van a exsitir sólo en unos pocos casos:
– todas las proteínas de organismos modelo (E. coli, B. subtilis)
– proteínas involucradas en patogénesis (interés médico e
industrial)
– proteínas involucradas en vías metabólicas específicas (interés
biotecnológico)
August 9, 2017
© 2001 - Fernán Agüero
Prioridades del proyecto HAMAP
• Anotación de proteínas huérfanas
• Pre-anotación de proteínas pertenecientes a
familias grandes/complejas (transportadores ABC,
HTH, sistemas de dos componentes, SDH)
• Anotación de alta calidad de proteínas
pertenecientes a familias bien caracterizadas
• Anotación manual de proteínas caracterizadas
experimentalmente en ese organismo
• Anotación manual de proteínas no caracterizadas
que muestren similitud con otras proteínas
August 9, 2017
© 2001 - Fernán Agüero
Estrategia HAMAP
ORFans
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: ORFans
• No tienen similitud con otras proteínas (excepto
tal vez otras proteínas de organismos muy
cercanos)
• No tienen hits contra InterPro (Prosite, PRINTS,
Pfam, ProDom, SMART)
• Qué se hace:
–
–
–
–
Predicción de señales
Predicción de regiones trans-membrana
Predicción de coiled-coils
Anotación de repeticiones
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: ORFan antes
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: ORFan después
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: large/complex families
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: anotación automática
• Transferencia automática de anotación
– Usando reglas específicas para cada famila de proteínas
– Usando reglas específicas para un organismo particular
• La transferencia de anotación puede ir
acompañada de advertencias para el curador
– Por ejemplo:
• WARNING: this genome contains MF_00031 (ruvA) but not
MF_00016 (ruvB)
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: ejemplo reglas
August 9, 2017
© 2001 - Fernán Agüero
HAMAP: Escherichia coli
• De acuerdo al análisis original: 4286 proteínas
–
–
–
–
–
60 proteínas no detectadas (casi todas < 100 aa)
120 muy probablemente no existan
50 pares o tripletes de ORFs tuvieron que ser fusionados
719 con errores en la asignación del codón de inicio
~1800 todavía sin caracterización bioquímica
(aproximadamente una asignación funcional por semana)
August 9, 2017
© 2001 - Fernán Agüero
Chromosome browsers
• UCSC Genome Browser
– provee un display rápido de cualquier región genómica
– con varios “tracks” de anotación alineados al genoma
– Por el momento sólo: Human & Mouse
• Annotation tracks
–
–
–
–
–
–
–
–
–
genes conocidos (RefSeq, GenBank)
predicted genes (Genscan, FGENESH, GeneID, Acembly)
spliced ESTs
CpG islands
assembly gaps
cobertura
bandas cromosómicas
elementos repetitivos
etc
August 9, 2017
© 2001 - Fernán Agüero
UCSC Genome browser
• UCSC sólo genera la mitad de los tracks
• El resto proviene de la comunidad biomédica
• El Genome Browser es una herramienta de
visualización
• No saca conclusiones! Simplemente integra en
forma gráfica toda la información que posee
sobre una región, dejando la exploración y la
interpretación al usuario.
August 9, 2017
© 2001 - Fernán Agüero
UCSC Genome Browser: gene expression
August 9, 2017
© 2001 - Fernán Agüero
UCSC Genome browser: alternative splicing
August 9, 2017
© 2001 - Fernán Agüero
UCSC Genome browser: complex transcription
August 9, 2017
© 2001 - Fernán Agüero
UCSC Genoma browser: user tracks
•
•
•
•
Ustedes pueden agregar sus propios tracks
Pueden ser públicos o privados
No necesitan saber programar
Tienen que proveer información en formato
GFF (u otros similares: GTF, BED)
chrom start
end
[name strand score]
chr1 1302347 1302357 SP1 +
800
chr1 1504778 1504787 SP2 –
980
August 9, 2017
© 2001 - Fernán Agüero
Ejemplo
• Secuenciación de
ESTs de Tupaia
belangeri
– Mamífero pequeño
– Bibliotecas de cDNA
sustractivas de
hipocampo
Alfonso et al J Neurosci Res (2004) 78: 702
August 9, 2017
© 2001 - Fernán Agüero
Anotación ESTs
• Anotación y
clasificación
funcional de los
ESTs
Alfonso et al J Neurosci Res (2004) 78: 702
August 9, 2017
© 2001 - Fernán Agüero
ESTs Tupaia
• ESTs que mapean en intrones de genes
conocidos
August 9, 2017
© 2001 - Fernán Agüero
ESTs Tupaia
• ESTs que mapean dentro de intrones de
genes conocidos
August 9, 2017
© 2001 - Fernán Agüero
Tupaia ESTs
August 9, 2017
© 2001 - Fernán Agüero
Acknowledgements
• Nicola Mulder, EBI
• Daniel Lawson, Sanger Centre
August 9, 2017
© 2001 - Fernán Agüero