Download Diapositiva 1
Document related concepts
Transcript
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB) La idea de unidad taxonómica surge de la suposición de una creación divina Aristotle (-2400 years) Linnaeus (-300 years) Mayr & Simpson (-50 years) genus species kingdom class order genus species kingdom phylum subphylum superclass class infraclass cohort superorder order infraorder superfamily family subfamily tribe subtribe genus subgenus species subspecies ►un solo sistema ► toda la diversidad (MONISMO) ► de categorias respuesta a nuevas clasificaciones! ► El sistema ES artificial Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257 La definición de unidad va mejorando con el desarrollo tecnológico (Bergey) (Watson & Crieg) (Woese) (Venter) < 60’s 60’s 90’s >00’s Identificación fenotípica Descubrimiento del DNA hibridaciones DNA-DNA Análisis del GC use del RNAr como cronómetro molecular Genómica y metagenómica ¿qué es una especie? El concepto de especie en TAXONOMÍA ¿qué es una especie? CONCEPTO ESPECIE (concepto filo-fenético) “es una categoría que circunscribe (preferentemente) grupos genómicos coherentes y monofiléticos de aislados/cepas individuales que comparten un elevado grado de similitud en (muchos) caracteres independientes, comparados utilizando métodos estandarizados” Rosselló-Mora & Amann 2001, FEMS Rev. 25:39-67 ¿qué es una especie? DEFINICIÓN genomic coherence phylogenetic coherence phenotypic coherence 50% 60% 70% 70-50% 70% 80% 100% Reasociación DNA-DNA G+C, AFLP, MLSA Comparaciones genómicas (ANI; AAI) RNAr 16S Genes funcionales (MLSA) Análisis genómicos PARÁMETROS PARA CIRCUNSCRIBIR ESPECIES (no se pueden tomar como valores absolutos) RNAr 16S ≥ 97% Hibridación DNA-DNA ≥ 70% ≥ 94% MLSA ??? Fenotipo = coherencia en muchos carácteres ANI metabolismo quimiotaxonomía Espectrometría (Maldi-Tof; ICR-FT/MS) El gen del RNAr 16S permite reconstruir filogenias El RNAr 16S se ha convertido en la molécula de referencia para reconstruir la genealogía construir el sistema de clasificación indentificar diversidad ambiental ¿qué es una especie? Se pretende asumir el filotipo como especie basada en 16S RNAr one species with genomic and phylogenetic heterogeneity one species with 7 genomovars ∆Tm 0 - 10°C - 16S rRNA 98 - 99.9% Pseudomonas stutzeri Pseudomonas aeruginosa Proteus vulgaris Rahnella aquatilis one species with 3 genomospecies RBR 40 - 100% - 16S rRNA 97.8 - 100% Mycobacterium tuberculosis Staphylococcus aureus Amycolatopsis methanolica Amycolatopsis thermoflava two species RBR 21% - 16S rRNA 98.8% Staphylococcus piscifermentans Staphylococcus carnosus Staphylococcus condimenti three species RBR 51 - 58% - 16S rRNA 98.9 - 99.9% 10% Archaea several species with identical or nearly identical 16S rRNA En general dos organismos con <97% identidad pertenecen a especies distintas Lo contrario no es cierto ¿qué es una especie? Se pretende asumir el filotipo como especie basada en 16S RNAr even extreme cases where a single strain may contain different 16S rRNA genes even below 97% similarity!!!! one strain with three 16S rRNA operons with 94% similarity Haloarcula marismortui two species RBR 68% - 16S rRNA 97.3% Thermococcus barophilus Haloferax denitrificans Haloferax mediterranei "Thermococcus litoralis" Natronobacterium tibetense Natronobacterium bangense two species RBR 35% - 16S rRNA 95.2% 10% Bacteria a good correlation!!! En general dos organismos con <97% identidad pertenecen a especies distintas Lo contrario no es cierto Identificación de organismos (DNA / RNA) no cultivados ► filotipos de RNAr 16S 100% 100% reconditioning Librerías de clones gran variedad de filotipos errores en la amplificación agrupaciones por % identidad 97% por especie? Filotipos ≠ especies 99% 98% 97% OPU (operational phylogenetic unit) Se puede determinar a grandes rasgos la identidad de los organismos presentes a Acinas et al., 2004 Nature 430:551-554 BASES DE DATOS 1.443.326 16S rRNA 756.668 > 300 bases 324.342 > 900 bases 50% mala calidad 20% buena calidad 5% (10%) cultivados El crecimiento de la base de datos es exponencial BASES DE DATOS 95% de las secuencias son ambientales 5% de las secuencias son de organismos cultivados 1% de las secuencias se corresponden con especies conocidas La calidad de las secuencias aumenta con el tamaño de fragmento secuenciado rojo (secuencias totales) negro (buena calidad) El gen está conservado de distinta forma en distintos sectores. Las secuencias cortas pierden información relevante Son las más abundates en la base de datos No es recomendable reconstruir filogenias La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos 4 filos concentran el 87% de los taxones descritos La mayor parte de origen clínico Yarza et al. 2008 System Appl Microbiol 31: 241-250 Identificación de un DNA ambiental a nivel de especie poco probable hay 4 grupos que tienen la mayoria de aislados Hugenholz et al. 2002 AEM 18: 4765-4774 información metabólica información genética otros filos => difícil especular Una secuencia no garantiza identificar el metabolismo y genética El concepto de genoma de una especie Genes “auxiliares” no presentes en todos las poblaciones y con poca señal filogenética Genes “core” esenciales y con señal filogenética Genes “específicos” de población y sin señal filogenética Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401 Otras moléculas con señal filogenética Características de una molecula como reloj molecular universalmente representada Solo 34 genes ortólogos universales (Huynen & Bork, PNAS, 1998. 95:5849-5856) Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universales constancia funcional conservación en la secuencia suficiente para la reconstrucción suficiente complejidad para tener señal filogenética Marcadores que dan soporte a la filogenia global Marcadores que NO dan soporte a la filogenia global RNAr 16S RNAr 23S EF-Tu (algunos filos son parafiléticos e.g. Actinobacteria y Streptomyces) ATPasas DNA girasas Hsp70 RecA RNA polimerasa rpoB (algunos filos parafiléticos e.g. Epsilonproteobacteria y resto Proteobacteria) Heat Shock Hsp60 (Bacteria: GroEL, Archaea: Tf-55; tambien algunos parafiléticos) Aminoacyl tRNA sintetasas De todos modos, si tienen señal a niveles más concretos y pueden dar una idea de la identidad Ludwig and Schleifer. 2005 Microbial phylogeny and evolution (Sapp) 70-98. (Oxford University Press) La filogenia de Salinibacter ruber Filogenia con genes funcionales de S. ruber cepa M8 3 posibles filogenias 22 ortólogos seleccionados ► Filogenias individuales Of all 22 analyzed genes: (ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2, ffh, glyA, recN, ruvB, recG, rho, groEL, recA, uvrA, valS) 57 % Bacteroidetes 27 % Chlorobi 18 % Chlorobi- Bacteroidetes 22 secuencias concatenated ►10.757 posiciones 74 ortólogos seleccionados automáticamente ► 17.149 posiciones Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179 De los 29 genes analizados: 31% Chlorobi 38% Bacteroidetes 10% Chlorobi- Bacteroidetes 21% other reconstructions Árboles concatenados: Mucho más complejo para el mismo resultado misma topología que 16S rRNA resolución similar 16S ► aproximación más parsimoniosa confima la divergencia temprana mayor robustez 22 genes / 10.757 posiciones 74 genes / 17.149 posiciones Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179 El valor de los análisis multilocus (MLSA) DDH es el estándar para circunscribir especies Selecciones al azar de 22 genes ► checking branching robustness ► 12 genes give the minimal reliability ► el diseño de cebadores no es siempre fácil MLSA (multilocus sequence analysis) (Stackebrandt et al. 2002. IJSEM. 52:1043-1047) 5-10 secuencias completas/parciales house keeping genes dificultades en el diseño de cebadores biases en la selección de genes más trabajoso Bootstrap 50-70% genome similarity 100 90 80 70 60 50 40 30 20 10 0 4 8 12 16 Number of genes DDH será menos preciso pero más parsimonioso Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179 El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) DOS ESCUELAS Las incongruencias filogenéticas Las incongruencias filogenéticas hacen pensar en una transferencia horizontal exagerada que desdibuja la filogenia de los organismos Se pueden explicar por Doolittle y otros ► eventos de duplicaciones (paralogías) y pérdida de genes (hidden paralogy) ► falsa asignación de ortologías ► artefactos en los alineamientos La solución es siendo más estricto en la selección de genes y en la asignación de ortologías Kunin et al. 2005. Genome Res. 15:954-959 Soria-Carrasco & Castresana, 2008. Mol. Biol. Evol. 25: 2319-2329 Kurland. 2005. Bioessays 27:741-747 El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) Salinibacter M8 & M31 encode for 4 rhodopsins Proteorhodopsins Xanthorhodopsins A medida que se van secuenciando DNA ambientales aparecen más y más proteorhodopsinas (hasta en euriarcheotas) que se atribuyen a una enorme tasa de HGT Halorhodopsins McCarren & DeLong, Environ. Microbiol. 9:846-858 (2007) Sensory rhodopsins Bacteriorhodopsins Si los 3 tipos de proteorhodopsinas se consideraran distintos genes (como el resto), probablemente se hablaría de un ancestro común y no de HGT www.sorcerer2expedition.org 200 l agua de mar 2 millones de secuencias (media de 800 bases) 1.2 millones de genes 1400 ≠ 16S rRNA 600 ≠ recA 800 proteorhodopsinas nuevas Venter et al., 2004. Science 304:66-74 200 l agua de mar / estación 41 puntos de muestreo Incremento en información entre ambos estudios 41 muestras 3.9x secuenciaciones 5.1x número de genes 2.9x número de RNAr 16S ≠ 44,000 – 420,000 clones/estación 7,700,000 lecturas total 6,250,000 genes (3,081,849 contigs) 4,125 ≠ 16S rRNA (>5000 recA!) 811 ≠ ribotipos (97%) (50% novel) Alfaproteobacteria (SAR11) más abundante Rusch et al., 2007. PLoS Biol. 5:398-431 La probabilidad de encontrar un gen con señal filogenética Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing 6,250,944 ORFs 6,413 16S ≠ Ξ 0.1% (1/1000) fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético) cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético) Valores semejantes se obtendrán para otros genes con pocos parálogos Si hay 34 ortólogos universales Ξ 3.5% de los genes (29/1000) Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmido Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947 ) targeted metagenome libraries si un genoma tiene 4 Mb fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético) cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético) Ambas aproximaciones concuerdan con una media de genoma de 4Mb La precisión en la identificación depende de lo extensa que sea la base de datos Si el fragmento de metagenoma no contiene marcador filogenético SIGNATURAS DEL GENOMA Contenido G+C ►poco informativo Codon usage ► equivalente a trinucleotidos ► mayor información Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo Variaciones de tetranucleótidos: 44 = 256 Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos Índice de regresión dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89) dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45) Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos Probablemente de un mismo genoma u organismo En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a un mismo genoma o de organismos muy semejantes Teeling et al., 2004 Environ Microbiol. 6:938-947 Dos poblaciones de una misma especie pueden no compartir orfs Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede hipotetizar una identidad semejante Peña et al., manuscrito en preparación La identidad de un fragmento de DNA si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000 secuencias en bases de datos otros marcadores universales: 23S ► precisión adecuada > 12,506 secuencias en bases de datos otros genes esenciales ► poco precisa por falta de entradas en bases de datos otros marcadores no universales: depende del grupo y la exhaustividad en el estudio ► Proteobacteria vs Acidobacteria no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas secuenciados) La identidad depende de haber clasificado anteriormente el organismo; sólo 8000 especies descritas Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. aislados estudiados, información sobre autoecología…) El problema de la pérdida de identidad por transferencia horizontal de genes (HGT) Numbers of total existing species is very controversial Some Slava Epstein believe <40.000 Others Carles Pedrós-Alió believe >109 And even others Dykhuizen believe >1018 a Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263