Download Diapositiva 1

Document related concepts

ARN ribosomal 16S wikipedia , lookup

Ácido ribonucleico ribosómico wikipedia , lookup

Electroforesis en gel con gradiente de desnaturalización wikipedia , lookup

Transferencia genética horizontal wikipedia , lookup

Metagenómica wikipedia , lookup

Transcript
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA
Ramon Rosselló-Móra
Marine Microbiology Group
Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
La idea de unidad taxonómica surge de la suposición de una creación divina
Aristotle (-2400 years)
Linnaeus (-300 years)
Mayr & Simpson (-50 years)
genus
species
kingdom
class
order
genus
species
kingdom
phylum
subphylum
superclass
class
infraclass
cohort
superorder
order
infraorder
superfamily
family
subfamily
tribe
subtribe
genus
subgenus
species
subspecies
►un solo sistema ► toda la diversidad (MONISMO)
►  de categorias respuesta a  nuevas clasificaciones!
► El sistema ES artificial
Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257
La definición de unidad va mejorando con el desarrollo tecnológico
(Bergey)
(Watson & Crieg)
(Woese)
(Venter)
< 60’s
60’s
90’s
>00’s
Identificación fenotípica
Descubrimiento del DNA
hibridaciones DNA-DNA
Análisis del GC
use del RNAr como
cronómetro molecular
Genómica y
metagenómica
¿qué es una especie?
El concepto de especie en TAXONOMÍA
¿qué es una especie?
CONCEPTO
ESPECIE (concepto filo-fenético)
“es una categoría que circunscribe (preferentemente) grupos genómicos
coherentes y monofiléticos de aislados/cepas individuales que comparten un
elevado grado de similitud en (muchos) caracteres independientes, comparados
utilizando métodos estandarizados”
Rosselló-Mora & Amann 2001, FEMS Rev. 25:39-67
¿qué es una especie?
DEFINICIÓN
genomic coherence
phylogenetic coherence
phenotypic coherence
50%
60%
70%
70-50%
70%
80%
100%
Reasociación DNA-DNA
G+C, AFLP, MLSA
Comparaciones genómicas
(ANI; AAI)
RNAr 16S
Genes funcionales (MLSA)
Análisis genómicos
PARÁMETROS PARA CIRCUNSCRIBIR ESPECIES
(no se pueden tomar como valores absolutos)
 RNAr

16S ≥ 97%
Hibridación DNA-DNA ≥ 70%
≥ 94%
 MLSA ???
 Fenotipo = coherencia en muchos carácteres
 ANI
metabolismo
quimiotaxonomía
Espectrometría
(Maldi-Tof; ICR-FT/MS)
El gen del RNAr 16S permite reconstruir filogenias
El RNAr 16S se ha convertido en la molécula de referencia para
 reconstruir la genealogía
 construir el sistema de clasificación
 indentificar diversidad ambiental
¿qué es una especie?
Se pretende asumir el filotipo como especie basada en 16S RNAr
one species with genomic and
phylogenetic heterogeneity
one species with 7 genomovars
∆Tm 0 - 10°C - 16S rRNA 98 - 99.9%
Pseudomonas stutzeri
Pseudomonas aeruginosa
Proteus vulgaris
Rahnella aquatilis
one species with 3 genomospecies
RBR 40 - 100% - 16S rRNA 97.8 - 100%
Mycobacterium tuberculosis
Staphylococcus aureus
Amycolatopsis methanolica
Amycolatopsis thermoflava
two species
RBR 21% - 16S rRNA 98.8%
Staphylococcus piscifermentans
Staphylococcus carnosus
Staphylococcus condimenti
three species
RBR 51 - 58% - 16S rRNA 98.9 - 99.9%
10%
Archaea
several species with identical or nearly
identical 16S rRNA
En general dos organismos con <97% identidad pertenecen a especies distintas
Lo contrario no es cierto
¿qué es una especie?
Se pretende asumir el filotipo como especie basada en 16S RNAr
even extreme cases where a single strain may
contain different 16S rRNA genes even below 97%
similarity!!!!
one strain with three 16S rRNA
operons with 94% similarity
Haloarcula marismortui
two species
RBR 68% - 16S rRNA 97.3%
Thermococcus barophilus
Haloferax denitrificans
Haloferax mediterranei
"Thermococcus litoralis"
Natronobacterium tibetense
Natronobacterium bangense
two species
RBR 35% - 16S rRNA 95.2%
10%
Bacteria
a good correlation!!!
En general dos organismos con <97% identidad pertenecen a especies distintas
Lo contrario no es cierto
Identificación de organismos (DNA / RNA) no cultivados ► filotipos de RNAr 16S
100%
100%
reconditioning
Librerías de clones
 gran variedad de filotipos
 errores en la amplificación
 agrupaciones por % identidad
 97% por especie?
 Filotipos ≠ especies
99%
98%
97%
 OPU (operational phylogenetic unit)
Se puede determinar a
grandes rasgos la identidad
de los organismos presentes
a Acinas et al., 2004 Nature 430:551-554
BASES DE DATOS
 1.443.326 16S rRNA
 756.668 > 300 bases
 324.342 > 900 bases
 50% mala calidad
 20% buena calidad
 5% (10%) cultivados
El crecimiento de la base de datos es exponencial
BASES DE DATOS
 95% de las secuencias son ambientales
 5% de las secuencias son de organismos cultivados
 1% de las secuencias se corresponden con especies conocidas
La calidad de las secuencias aumenta con el tamaño de fragmento secuenciado
 rojo (secuencias totales)
 negro (buena calidad)
El gen está conservado de distinta forma en distintos sectores.
Las secuencias cortas pierden información relevante
Son las más abundates en la base de datos
No es recomendable reconstruir filogenias
La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos
4 filos concentran el 87% de los taxones descritos
La mayor parte de origen clínico
Yarza et al. 2008 System Appl Microbiol 31: 241-250
Identificación de un DNA ambiental
 a nivel de especie poco probable
 hay 4 grupos que tienen la mayoria de aislados
Hugenholz et al. 2002 AEM 18: 4765-4774
 información metabólica
 información genética
 otros filos => difícil especular
Una secuencia no garantiza identificar el metabolismo y genética
El concepto de genoma de una especie
Genes “auxiliares” no
presentes en todos las
poblaciones y con poca señal
filogenética
Genes “core” esenciales y
con señal filogenética
Genes “específicos” de
población y sin señal
filogenética
Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401
Otras moléculas con señal filogenética
Características de una molecula como reloj molecular
 universalmente representada
 Solo 34 genes ortólogos universales (Huynen & Bork, PNAS, 1998. 95:5849-5856)
 Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universales
 constancia funcional
 conservación en la secuencia suficiente para la reconstrucción
 suficiente complejidad para tener señal filogenética
Marcadores que dan soporte a la filogenia global
Marcadores que NO dan soporte a la filogenia global
 RNAr 16S
 RNAr 23S
 EF-Tu (algunos filos son parafiléticos e.g.
Actinobacteria y Streptomyces)
 ATPasas
 DNA girasas
 Hsp70
 RecA
 RNA polimerasa rpoB (algunos filos
parafiléticos e.g. Epsilonproteobacteria y resto
Proteobacteria)
 Heat Shock Hsp60 (Bacteria: GroEL, Archaea:
Tf-55; tambien algunos parafiléticos)
 Aminoacyl tRNA sintetasas
De todos modos, si tienen señal a niveles más
concretos y pueden dar una idea de la identidad
Ludwig and Schleifer. 2005 Microbial phylogeny and
evolution (Sapp) 70-98. (Oxford University Press)
La filogenia de Salinibacter ruber
Filogenia con genes funcionales de S. ruber cepa M8
3 posibles filogenias
 22 ortólogos seleccionados ► Filogenias individuales
Of all 22 analyzed genes:
(ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2, ffh, glyA, recN,
ruvB, recG, rho, groEL, recA, uvrA, valS)
 57 % Bacteroidetes
 27 % Chlorobi
 18 % Chlorobi- Bacteroidetes
 22 secuencias concatenated ►10.757 posiciones
 74 ortólogos seleccionados automáticamente ► 17.149 posiciones
Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
De los 29 genes analizados:
 31% Chlorobi
 38% Bacteroidetes
 10% Chlorobi- Bacteroidetes
 21% other reconstructions
Árboles concatenados:
Mucho más complejo para el mismo resultado
 misma topología que 16S rRNA
 resolución similar
16S ► aproximación más parsimoniosa
 confima la divergencia temprana
 mayor robustez
22 genes / 10.757 posiciones
74 genes / 17.149 posiciones
Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
El valor de los análisis multilocus (MLSA)
DDH es el estándar para circunscribir especies
Selecciones al azar de 22 genes
► checking branching robustness
► 12 genes give the minimal reliability
► el diseño de cebadores no es siempre fácil
MLSA (multilocus sequence analysis)
(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)
 5-10 secuencias completas/parciales
 house keeping genes
 dificultades en el diseño de cebadores
 biases en la selección de genes
 más trabajoso
Bootstrap
50-70% genome similarity
100
90
80
70
60
50
40
30
20
10
0
4
8
12
16
Number of genes
DDH será menos preciso pero más parsimonioso
Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-179
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
DOS ESCUELAS
Las incongruencias filogenéticas
Las incongruencias filogenéticas
hacen pensar en una transferencia
horizontal exagerada que desdibuja la
filogenia de los organismos
Se pueden explicar por
Doolittle y otros
► eventos de duplicaciones (paralogías)
y pérdida de genes (hidden paralogy)
► falsa asignación de ortologías
► artefactos en los alineamientos
La solución es siendo más estricto en la
selección de genes y en la asignación de
ortologías
Kunin et al. 2005. Genome Res. 15:954-959
Soria-Carrasco & Castresana, 2008. Mol.
Biol. Evol. 25: 2319-2329
Kurland. 2005. Bioessays 27:741-747
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Salinibacter M8 & M31 encode for 4 rhodopsins
Proteorhodopsins
Xanthorhodopsins
A medida que se van secuenciando
DNA ambientales aparecen más y
más proteorhodopsinas (hasta en
euriarcheotas) que se atribuyen a una
enorme tasa de HGT
Halorhodopsins
McCarren & DeLong, Environ. Microbiol.
9:846-858 (2007)
Sensory rhodopsins
Bacteriorhodopsins
Si los 3 tipos de proteorhodopsinas se consideraran
distintos genes (como el resto), probablemente se
hablaría de un ancestro común y no de HGT
www.sorcerer2expedition.org
 200 l agua de mar
 2 millones de secuencias (media de 800 bases)
 1.2 millones de genes
 1400 ≠ 16S rRNA
 600 ≠ recA
 800 proteorhodopsinas nuevas
Venter et al., 2004. Science 304:66-74
 200 l agua de mar / estación
 41 puntos de muestreo
Incremento en información entre ambos estudios
  41 muestras
  3.9x secuenciaciones
  5.1x número de genes
  2.9x número de RNAr 16S ≠
 44,000 – 420,000 clones/estación
 7,700,000 lecturas
 total 6,250,000 genes (3,081,849 contigs)
4,125 ≠ 16S rRNA (>5000 recA!)
811 ≠ ribotipos (97%) (50% novel)
Alfaproteobacteria (SAR11) más abundante
Rusch et al., 2007. PLoS Biol. 5:398-431
La probabilidad de encontrar un gen con señal filogenética
Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing
 6,250,944 ORFs
 6,413 16S ≠ Ξ 0.1% (1/1000)
 fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético)
 cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético)
 Valores semejantes se obtendrán para otros genes con pocos parálogos
 Si hay 34 ortólogos universales Ξ 3.5% de los genes (29/1000)
 Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmido
Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947 ) targeted metagenome
libraries
si un genoma tiene 4 Mb
 fósmido ►100 orfs Ξ 10% contendrá un RNAr 16S (o marcador filogenético)
 cósmido ►40 orfs Ξ 4% contendrá un RNAr 16S (o marcador filogenético)
Ambas aproximaciones concuerdan con una media de genoma de 4Mb
La precisión en la identificación depende de lo extensa que sea la base de datos
Si el fragmento de metagenoma no contiene marcador filogenético
SIGNATURAS DEL GENOMA
 Contenido G+C ►poco informativo
 Codon usage ► equivalente a trinucleotidos ► mayor información
 Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo
Variaciones de tetranucleótidos: 44 = 256
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Índice de regresión
 dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)
 dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Probablemente de un
mismo genoma u
organismo
En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a
un mismo genoma o de organismos muy semejantes
Teeling et al., 2004 Environ Microbiol. 6:938-947
Dos poblaciones de una misma especie pueden no compartir orfs
Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede
hipotetizar una identidad semejante
Peña et al., manuscrito en preparación
La identidad de un fragmento de DNA
 si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000 secuencias en bases de datos
 otros marcadores universales:
 23S ► precisión adecuada > 12,506 secuencias en bases de datos
 otros genes esenciales ► poco precisa por falta de entradas en bases de datos
 otros marcadores no universales:
 depende del grupo y la exhaustividad en el estudio ► Proteobacteria vs Acidobacteria
 no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas
secuenciados)
 La identidad depende de haber clasificado anteriormente el organismo; sólo 8000 especies descritas
 Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e.
aislados estudiados, información sobre autoecología…)
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Numbers of total existing
species is very controversial
Some
Slava Epstein
believe <40.000
Others
Carles Pedrós-Alió believe
>109
And even others
Dykhuizen
believe >1018
a Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263