Download Análisis de Genoma
Document related concepts
Transcript
Análisis de genomas © Copyright Ebiointel,SL 2006 Análisis de Genomas Puntos a tratar: Interés de los proyectos genomas La secuenciación de genomas Bases de datos de genomas Anotación de genomas Genómica comparativa Visualizadores del genoma humano What's Next? © Copyright Ebiointel,SL 2006 Análisis de Genomas Cada genoma completo suministra una fuente inagotable de información biológica: Conocimiento del número total de genes Conocimiento de la estructura de genes, regiones reguladoras y otros elementos funcionales Principios sobre la organización básica del organismo (clases funcionales,...) Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular) Organización secuencia en los cromosomas (saco de genes o sistema integrado información) Evolución genoma (conservación orden de genes, evolución secuencia) Miramos el bosque, no el árbol © Copyright Ebiointel,SL 2006 Análisis de Genomas Criterios para la secuenciación de genomas Amplio conocimiento biológico previo Patógeno humano Interés filogenético © Copyright Ebiointel,SL 2006 Secuenciación de Genomas Hierarchical Shotgun Sequencing vs Shotgun Sequencing • Borrador (draft): 1 error en 1kb (4x-5x) • Acabado (finished): 1 Ensamblado error en 10 de la kb (8x-9x) secuencia © Copyright Ebiointel,SL 2006 Análisis de Genomas Bases de datos genómicas GOLD Genomes OnLine Database v 2.0 http://www.genomesonline.org Genome Sequencing Proposals http://www.genome.gov/1000215 4 Entrez Genomes http://www.ncbi.nlm.nih.gov/entrez/qu ery.fcgi?db=genome&cmd=search&ter m= [TM] Information regarding complete and ongoing genome projects •Buscar el número de genomas de mamíferos que se están secuenciando por el método WSG (Whole Genome Shotgun) Links genómica © Copyright Ebiointel,SL 2006 Análisis de Genomas Bases de datos genómicas TIGR Microbial Database http://www.tigr.org/tdb/mdb/mdbc omplete.html Microbial genomes and chromosomes ACeDB http://www.acedb.org/ C. elegans, S. pombe, and human sequences and genomic information FlyBase http://www.fruitfly.org Drosophila sequences and genomic information MITOMAP http://www.mitomap.org/ Human mitochondrial genome Links genómica © Copyright Ebiointel,SL 2006 Análisis de Genomas Genomas de microorganismos secuenciados Nuestra visión del árbol de la vida debe ser modificada © Copyright Ebiointel,SL 2006 Análisis de Genomas Tipos celulares básicos © Copyright Ebiointel,SL 2006 Análisis de Genomas Genomas de microorganismos secuenciados Nuestra visión del árbol de la vida debe ser modificada 40% genes son URFs (unidentified reading frames) Mínimo número de genes para sostener el tipo moderno de célula es 256-80 Importancia de transferencia horizontal (en E. coli 12,5% genoma) Gene shuffling ORFs faltantes de genes existentes Descubrimiento de antibióticos (broad spectrum antibiotics) Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis) © Copyright Ebiointel,SL 2006 Análisis de Genomas Genomas de microorganismos secuenciados Causas de patogenidad (ej. Yersinia pseudotuberculosis y Yersinia pestis Science 2002) © Copyright Ebiointel,SL 2006 Análisis de Genomas Bases de datos genómicas Arabidopsis thaliana http://www.arabidopsis.org/ Genoma arroz http://rgp.dna.affrc.go.jp/ International Rice Genome Sequencing Project, coordinado por el RGP de Japón Fugu genome project http://bahama.jgipsf.org/fugu/html/fugu_factsheet. html Fugu Fugu genomics project Genoma ratón Genoma rata http://fugu.hgmp.mrc.ac.uk/PFW/ http://www.ensembl.org http://www.ncbi.nih.gov/genome/ guide/mouse http://www.informatics.jax.org/ http://rgd.mcw.edu/ © Copyright Ebiointel,SL 2006 Análisis de Genomas Vertebrados secuenciados © Copyright Ebiointel,SL 2006 The human genome El genoma humano © Copyright Ebiointel,SL 2006 Análisis de Genomas Bases de datos genoma humano Genoma Humano en GenBank http://www.ncbi.nlm.nih.gov/mapv iew/map_search.cgi?chr=hum_c hr.inf&query= Visualizador Genoma Humano Guía al genoma humano http://www.ncbi.nlm.nih.gov/gen ome/guide/human/ Ensembl http://www.ensembl.org Annotated human Genome sequence data UCSC http://genome.ucsc.edu/ UCSC Genome Browser © Copyright Ebiointel,SL 2006 Análisis de Genomas Se dispone de la secuencia de un genoma ensamblada Anotación del genoma Identificación de repeticiones (Repeat masker, Reputer, …) Predicción de los genes que codifican para proteínas Métodos ab initio (GenScan, Genmark, Glimmer,…) Comparación genoma con mRNA (EST) (blastn, sim4,…) Comparación genoma con proteínas (blastx, genewise) • Predicción de RNA genes Métodos ab initio (tRNAScanSE, snoRNA,…) Comparación genoma con RNA (EST) (blatn, sim4,…) Otros elementos Pseudogenes (por similitud, blastn, blastx) Elementos reguladores (islas CpG, promotores??) © Copyright Ebiointel,SL 2006 Análisis de Genomas Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia Traducción conceptual de la secuencia Detección pautas abierta de lectura (ORFs): sucesión de codones sin STOP (ORF promedio = ~150 nc Distinción región codificante: composición bases Sesgo de codones Frec. Aminoácidos Correlación entre aa vecinos Mejora algoritmo probándola con genes conocidos Frec. de oligómeros (Hidden Markow models) Búsqueda señales: sitios conservados Señales splicing: límites exón-intrón sitio aceptor y receptor, branch point Codón inicio traducción y terminación (STOP) Ponderación por matrices (perfiles) © Copyright Ebiointel,SL 2006 Análisis de Genomas Protocolo para localización de genes que codifican para proteína a partir de la inspección de la secuencia (2) Construcción un modelo del gen Combinación del exón con las fases compatibles Búsqueda de las secuencias limítrofes Exones terminales (5’, 3’) Promotores Señal de poliadenilación © Copyright Ebiointel,SL 2006 Análisis de Genomas Predicción de genes que codifican para proteína: Resumen © Copyright Ebiointel,SL 2006 Análisis de Genomas Links buscadores de genes Ejemplo: ORF Finder (Open Reading Frame Finder) al NCBI Ejercicios •Buscar ORF con Genscan, o Metagene en una secuencia problema de Arabidopsis y de la secuencia del gen BRCA1 de humanos •Identificación de genes en secuencia genómica http://ebiointel.uab.es/base/base.asp?sitio=canruti&anar=ejerci&item=&subitem= Secuencia problema Arabidopsis © Copyright Ebiointel,SL 2006 Análisis de Genomas Búsqueda de homologías Análisis del proteoma codificado por un genoma secuenciado © Copyright Ebiointel,SL 2006 Análisis de Genomas Anotación • Predicción de genes “in silico“ • Asignación funcional (homología otras proteínas, información patrones, estructura,..) 1. Predicción de genes Métodos ab initio (in silico) 2. Análisis proteoma © Copyright Ebiointel,SL 2006 Análisis de Genomas Comparación entre genomas Localización de secuencias ortólogas © Copyright Ebiointel,SL 2006 Análisis de Genomas Ensembl Sistemas de anotación automáticos © Copyright Ebiointel,SL 2006 Análisis de Genomas Ortólogo vs Parálogo Duplicación Especiación Especie 1 Presente Especie 2 •Los pares 1 y 2, y 1 y 2 son ortólogos •Los pares 1 y 1, 1 y 2, 2 y 1 y 2 y 1 son parálogos © Copyright Ebiointel,SL 2006 Análisis de Genomas Ortólogo vs Parálogo © Copyright Ebiointel,SL 2006 Análisis de Genomas Localización de ortólogos Criterios al comparar de proteomas El par putativo de ortólogos deben dar el mejor hit al consultar la secuencias de cada uno con la del genoma del otro E muy bajo < 10-20 (Conservativo) o 0,01 (no conservativo) y alineamientos > 80% identidad (conservativo) o 60% (no conservativos) Análisis de clusters las secuencias agrupadas Obtenemos los clusters de grupos homólogos © Copyright Ebiointel,SL 2006 Análisis de Genomas © Copyright Ebiointel,SL 2006 Análisis de Genomas © Copyright Ebiointel,SL 2006 Análisis de Genomas © Copyright Ebiointel,SL 2006 Análisis de Genomas Genómica comparativa Principio básico Todo elementos funcional está constreñido por la selección natural Detección de la huella de la selección en las secuencias genómicas © Copyright Ebiointel,SL 2006 Análisis de Genomas Genómica comparativa La genómica comparativa es fundamental para: Detección Genes Detección regiones reguladoras Detectar funciones nuevas y conservadas Evolución genoma Evolución Proteínas Modelos animales estudios fisiología y enfermedades © Copyright Ebiointel,SL 2006 Análisis de Genomas Rubin et al. Science 287: 2204-2215 © Copyright Ebiointel,SL 2006 Análisis de Genomas Distribución de homologías en proteínas humanas Sólo procariotas <1% Eucariota y procariota 21% Sólo vertebrados 22% Animales y otros eucariotas 32% Vertebrados y otros animales 24% No homología animal 1% © Copyright Ebiointel,SL 2006 Genómica comparativa Genoma ratón 14% menor genoma humano (2,5 Gb vs 2,9 Gb) 90% ambos genomas presentan sintenia A nivel nucleotídico 40% GH se alinea con GR Tasa substitución neutra 0,5 por sitio. Doble ratón que humanos % genoma sometido a selec purificadora >5% Evolución no uniforme del genoma Ambos ~ mismo número genes, 30.000. 80% único ortólogo, sin homología <1% © Copyright Ebiointel,SL 2006 Genómica comparativa Distribución de homologías en proteínas humanas © Copyright Ebiointel,SL 2006 Genómica comparativa Nature 2003, 423:241-254 © Copyright Ebiointel,SL 2006 Genómica comparativa Metodología con una sensibilidad y precisión comparable o superior al análisis experimental © Copyright Ebiointel,SL 2006 Análisis de Genomas Vertebrados secuenciados © Copyright Ebiointel,SL 2006 Análisis de Genomas Clasificación funcional Desde: •Simples categorías (energía, información, comunicación) •Esquema de clasificación Gene Ontology (GO) que engloba: •Papel biológico (Why?) •Función molecular (What?) •Localización celular (Where?) Molecular Function Ontology the tasks performed by individual gene products; examples are carbohydrate binding and ATPase activity Biological Process Ontology broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular functions Cellular Component Ontology subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition complex © Copyright Ebiointel,SL 2006 Análisis de Genomas Gene Ontology © Copyright Ebiointel,SL 2006 Análisis de Genomas Clasificación funcional GO:0003673 : Gene_Ontology ( 149784 ) GO:0008150 : biological_process ( 99849 ) • GO:0007610 : behavior ( 2298 ) • GO:0000004 : biological_process unknown ( 27969 ) • GO:0009987 : cellular process ( 32926 ) • GO:0007275 : development ( 14739 ) • GO:0008371 : obsolete biological process ( 97 ) • GO:0007582 : physiological process ( 62723 ) • GO:0050789 : regulation of biological process ( 12540 ) • GO:0016032 : viral life cycle ( 255 ) • GO:0005575 : cellular_component ( 80819 ) • GO:0005623 : cell ( 57332 ) • GO:0008372 : cellular_component unknown ( 19622 ) • GO:0005576 : extracellular ( 5011 ) • GO:0019814 : immunoglobulin complex ( 19 ) • GO:0008370 : obsolete cellular component ( 25 ) • GO:0005941 : unlocalized ( 550 ) • GO:0019012 : virion ( 127 ) • GO:0003674 : molecular_function ( 101079 ) • GO:0016209 : antioxidant activity ( 322 ) • GO:0005488 : binding ( 27236 ) • GO:0003824 : catalytic activity ( 33780 ) • GO:0003754 : chaperone activity ( 894 ) • GO:0030188 : chaperone regulator activity ( 13 ) • GO:0030234 : enzyme regulator activity ( 1851 ) • GO:0005554 : molecular_function unknown ( 28940 ) • GO:0003774 : motor activity ( 423 ) • GO:0045735 : nutrient reservoir activity ( 36 ) • GO:0008369 : obsolete molecular function ( 675 ) • GO:0004871 : signal transducer activity ( 6503 © Copyright ) Ebiointel,SL 2006 • Análisis de Genomas Genes bien caracterizados RefSeq database http://www.ncbi.nlm.nih.gov/LocusLink/re fseq.html Reference Sequence Project LocusLink http://www.ncbi.nlm.nih.gov/LocusLink/ Locus Link GeneCards http://bioinformatics.weizmann.ac.il/cards Genes humanos © Copyright Ebiointel,SL 2006 OMIM Online Mendelian Inheritance in Man http://www.ncbi.nlm.nih.gov/entre z/query.fcgi?db=OMIM Catalog of human genetic and genomic disorders MIM (Mendelian Inheritance in Man): •Victor A. McKusick. Catálogo MIM (1966)- 12 ediciones impresas •OMIM Statistics © Copyright Ebiointel,SL 2006 Análisis de Genomas Bases de datos genoma humano Genoma Humano en GenBank http://www.ncbi.nlm.nih.gov/mapv iew/map_search.cgi?chr=hum_c hr.inf&query= Visualizador Genoma Humano Guía al genoma humano http://www.ncbi.nlm.nih.gov/gen ome/guide/human/ Ensembl http://www.ensembl.org Annotated human Genome sequence data UCSC http://genome.ucsc.edu/ UCSC Genome Browser Ejercicios de búsqueda en el genoma humano © Copyright Ebiointel,SL 2006 Análisis de Genomas What's Next? Turning Genomics Vision Into Reality •The International HapMap Project •ENCyclopedia Of DNA Elements (ENCODE) •Structural Genomics Consortium © Copyright Ebiointel,SL 2006