Download UNA MEJOR RESOLUCION: ¿ARBOLES DE ESPECIES O DATOS

Document related concepts

Filogenética computacional wikipedia , lookup

Atracción de ramas largas wikipedia , lookup

Inferencia bayesiana en filogenia wikipedia , lookup

Transferencia genética horizontal wikipedia , lookup

Teoría de la coalescencia wikipedia , lookup

Transcript
UNA MEJOR RESOLUCION: ¿ARBOLES DE ESPECIES O DATOS
CONCATENADOS (EVIDENCIA TOTAL)?
Angie Tamara Guevara
2050163
Introducción
Actualmente las secuencias de genes múltiples se incrementan a una tasa muy
alta y están disponibles para la inferencia filogenética molecular. El análisis de
tales datos con el objetivo de reconstruir arboles filogenéticos se puede hacer
mediante dos métodos, en el primero de ellos la secuencias de cada uno de los
genes es concatenada o unida en lo que es conocido como una supermatrix para
generar el árbol de especies y en el segundo método se infiere separadamente de
cada gen un árbol y un consenso de estas filogenias es usado para representar el
árbol de especies (Kluge, 1998). En los últimos años, se han originado una gran
cantidad de métodos a partir de la premisa, que las diferencias en las historias de
genes individuales pueden causar que el procedimiento de la supermatrix o
evidencia total falle, debido a que ninguno de los programas en los cuales se
realiza este análisis modelan cómo surgió la variación en la historia de genes
individuales (Edwards et al., 2007), en contraste a los modelos de parsimonia de
arboles de gen (Slowinski & Page, 1999) y el método Takahata (Takahata, 1989),
estos métodos utilizan la coalescencia como modelo para incluir esta variación en
la estimación de arboles filogenéticos. El objetivo del presente estudio es a partir
de simulaciones examinar las diferencias entre las dos distintas aproximaciones
para inferir arboles de especies usando el programa BEST como implementación
de la metodología coalescente.
Metodología
Simulaciones
Para realizar las simulaciones se escogió una topología de un estudio anterior
como árbol modelo, esta corresponde a la filogenia de 66 especies de mamíferos
que incluyen longitudes de las ramas (Fig 1). Esta topología se uso con el fin de
generar datos de secuencias por simulaciones de computador usando 10
parámetros evolutivos disponibles del estudio de Rosemberg & Kumar (2003), lo
que representa 10 genes bajo el modelo HKY de sustitución nucleotídica y 100
replicas, en donde en total se obtuvieron 1000 set de datos.
Para el análisis filogenético se utilizaron los métodos de distancia mediante el
algoritmo Neighbor Joining (NJ) y el de parsimonia implementada en TNT, para así
obtener conclusiones generales con respecto al método de concatenación de
secuencias. Posteriormente se uso el programa BEST que es un método
bayesiano el cual estima la distribución de los arboles de especies y que trata con
las incongruencias observadas en las historias de los genes debido a la
coalescencia profunda como también a la incertidumbre de arboles de genes.
Para evaluar la distancia topológica la precisión de los arboles filogenéticos
inferidos fue medida por el porcentaje de clados reconstruidos correctamente
(Pc)=100 [1-dT/ (2m-6)], donde dT es la distancia topológica entre los arboles
inferidos y los arboles modelo y m es el numero de secuencias en la filogenia
(Robinson & Foulds, 1981).
Resultados
Las reconstrucciones de la topología mediante las dos aproximaciones cuando se
reconstruyeron con los 10 genes presentaron diferencias (figura 2,3), ya que el
índice de precisión fue bastante alto (tabla1) en la aproximación de la
concatenación de secuencias en una sola supermatrix con respecto a la topología
reconstruida por BEST, aunque muchos autores han listado las ventajas y
desventajas del análisis simultaneo y por separado, este análisis muestra la
ventaja de reconstruir las relaciones entre los taxa mediante el método de
concatenación (evidencia total) aunque es un tema bastante abierto y aun no se
podría dar la última palabra, en este trabajo cabe notar como al trabajar con datos
concatenados se obtiene una mejor resolución de las relaciones en comparación
con los nuevos métodos que están surgiendo que utilizan la coalescencia como
modelo.
Discusión
En este estudio se muestra que la aproximación de evidencia total es mas
“precisa” topológicamente hablando en comparación a la aproximación
implementada en BEST, posiblemente parte de la diferencia entre los dos métodos
es por el hecho de que en la concatenación de genes múltiples muchas ramas en
los arboles de genes individuales puede que no hayan experimentado
sustituciones o solo pocas, debido a razones tales como la baja tasa evolutiva
para el gen, tiempo muy corto después de la divergencia de especies y secuencias
de genes pequeñas, resultando esto en ramas internas multifurcadas. Otra cosa
importante es que la adición de genes a un set de datos por concatenación
incrementa el número absoluto de cambios evolutivos sobre tales ramas y hace
posible inferir estos con mayor precisión. En conclusión, una simple concatenación
de genes parece ser mejor que el método de BEST y su consenso implementado
para la reconstrucción filogenética cuando datos multigenes son disponibles,
especialmente cuando los genes individuales obtienen arboles imprecisos. Sin
embargo ninguna aproximación puede garantizar una filogenia de especies
completamente segura aun cuando se hayan usado grandes números de genes
esto debido a ciertos sesgos sistemáticos.
Bibliografía
Drummond AJ & Rambaut A (2007) "BEAST: Bayesian evolutionary analysis by
sampling trees." BMC Evolutionary Biology.
Edwards, S., L. Liu, and D. Pearl. 2007. High – resolution species trees without
concatenation. Proceedings of the National Academy of Sciences of the United
States of America 104: 5936 – 5941.
Goloboff, P.A., Farris, J.S., Nixon, K.C. 2007. T.N.T. Tree analysis using new
technology.
Programay
documentación
disponible
en:
http://www.zmuc.dk/public/phylogeny/TNT/
Rosenberg, M. S. 2005. MySSP: Non-stationary evolutionary sequence simulation,
including indels. Evolutionary Bioinformatics Online 1:51–53.
Slowinski, J. and R. D. Page. 1999 . How should species phylogenies be inferred
from sequence data? Systematic Biology 48: 814 – 825.
Takahata, N. 1989. Gene genealogy in three related populations: consistency
probability between gene and population trees. Genetics 122: 957 – 966.
Anexos
Fig 1. Topologia Modelo
Fig 2. Topología obtenida mediante el análisis de 10 genes mediante Parsimonia
en TNT.
Fig 3. Topología obtenida mediante el programa BEST
Tabla 1.. Valores de Pc obtenidas mediante la comparación de las topologías
reconstruidas bajo las dos aproximaciones y el árbol modelo.
Árbol modelo
Parsimonia
BEST
99.8 (mamíferos)
89.88 (mamíferos)