Download UNA MEJOR RESOLUCION: ¿ARBOLES DE ESPECIES O DATOS
Document related concepts
Transcript
UNA MEJOR RESOLUCION: ¿ARBOLES DE ESPECIES O DATOS CONCATENADOS (EVIDENCIA TOTAL)? Angie Tamara Guevara 2050163 Introducción Actualmente las secuencias de genes múltiples se incrementan a una tasa muy alta y están disponibles para la inferencia filogenética molecular. El análisis de tales datos con el objetivo de reconstruir arboles filogenéticos se puede hacer mediante dos métodos, en el primero de ellos la secuencias de cada uno de los genes es concatenada o unida en lo que es conocido como una supermatrix para generar el árbol de especies y en el segundo método se infiere separadamente de cada gen un árbol y un consenso de estas filogenias es usado para representar el árbol de especies (Kluge, 1998). En los últimos años, se han originado una gran cantidad de métodos a partir de la premisa, que las diferencias en las historias de genes individuales pueden causar que el procedimiento de la supermatrix o evidencia total falle, debido a que ninguno de los programas en los cuales se realiza este análisis modelan cómo surgió la variación en la historia de genes individuales (Edwards et al., 2007), en contraste a los modelos de parsimonia de arboles de gen (Slowinski & Page, 1999) y el método Takahata (Takahata, 1989), estos métodos utilizan la coalescencia como modelo para incluir esta variación en la estimación de arboles filogenéticos. El objetivo del presente estudio es a partir de simulaciones examinar las diferencias entre las dos distintas aproximaciones para inferir arboles de especies usando el programa BEST como implementación de la metodología coalescente. Metodología Simulaciones Para realizar las simulaciones se escogió una topología de un estudio anterior como árbol modelo, esta corresponde a la filogenia de 66 especies de mamíferos que incluyen longitudes de las ramas (Fig 1). Esta topología se uso con el fin de generar datos de secuencias por simulaciones de computador usando 10 parámetros evolutivos disponibles del estudio de Rosemberg & Kumar (2003), lo que representa 10 genes bajo el modelo HKY de sustitución nucleotídica y 100 replicas, en donde en total se obtuvieron 1000 set de datos. Para el análisis filogenético se utilizaron los métodos de distancia mediante el algoritmo Neighbor Joining (NJ) y el de parsimonia implementada en TNT, para así obtener conclusiones generales con respecto al método de concatenación de secuencias. Posteriormente se uso el programa BEST que es un método bayesiano el cual estima la distribución de los arboles de especies y que trata con las incongruencias observadas en las historias de los genes debido a la coalescencia profunda como también a la incertidumbre de arboles de genes. Para evaluar la distancia topológica la precisión de los arboles filogenéticos inferidos fue medida por el porcentaje de clados reconstruidos correctamente (Pc)=100 [1-dT/ (2m-6)], donde dT es la distancia topológica entre los arboles inferidos y los arboles modelo y m es el numero de secuencias en la filogenia (Robinson & Foulds, 1981). Resultados Las reconstrucciones de la topología mediante las dos aproximaciones cuando se reconstruyeron con los 10 genes presentaron diferencias (figura 2,3), ya que el índice de precisión fue bastante alto (tabla1) en la aproximación de la concatenación de secuencias en una sola supermatrix con respecto a la topología reconstruida por BEST, aunque muchos autores han listado las ventajas y desventajas del análisis simultaneo y por separado, este análisis muestra la ventaja de reconstruir las relaciones entre los taxa mediante el método de concatenación (evidencia total) aunque es un tema bastante abierto y aun no se podría dar la última palabra, en este trabajo cabe notar como al trabajar con datos concatenados se obtiene una mejor resolución de las relaciones en comparación con los nuevos métodos que están surgiendo que utilizan la coalescencia como modelo. Discusión En este estudio se muestra que la aproximación de evidencia total es mas “precisa” topológicamente hablando en comparación a la aproximación implementada en BEST, posiblemente parte de la diferencia entre los dos métodos es por el hecho de que en la concatenación de genes múltiples muchas ramas en los arboles de genes individuales puede que no hayan experimentado sustituciones o solo pocas, debido a razones tales como la baja tasa evolutiva para el gen, tiempo muy corto después de la divergencia de especies y secuencias de genes pequeñas, resultando esto en ramas internas multifurcadas. Otra cosa importante es que la adición de genes a un set de datos por concatenación incrementa el número absoluto de cambios evolutivos sobre tales ramas y hace posible inferir estos con mayor precisión. En conclusión, una simple concatenación de genes parece ser mejor que el método de BEST y su consenso implementado para la reconstrucción filogenética cuando datos multigenes son disponibles, especialmente cuando los genes individuales obtienen arboles imprecisos. Sin embargo ninguna aproximación puede garantizar una filogenia de especies completamente segura aun cuando se hayan usado grandes números de genes esto debido a ciertos sesgos sistemáticos. Bibliografía Drummond AJ & Rambaut A (2007) "BEAST: Bayesian evolutionary analysis by sampling trees." BMC Evolutionary Biology. Edwards, S., L. Liu, and D. Pearl. 2007. High – resolution species trees without concatenation. Proceedings of the National Academy of Sciences of the United States of America 104: 5936 – 5941. Goloboff, P.A., Farris, J.S., Nixon, K.C. 2007. T.N.T. Tree analysis using new technology. Programay documentación disponible en: http://www.zmuc.dk/public/phylogeny/TNT/ Rosenberg, M. S. 2005. MySSP: Non-stationary evolutionary sequence simulation, including indels. Evolutionary Bioinformatics Online 1:51–53. Slowinski, J. and R. D. Page. 1999 . How should species phylogenies be inferred from sequence data? Systematic Biology 48: 814 – 825. Takahata, N. 1989. Gene genealogy in three related populations: consistency probability between gene and population trees. Genetics 122: 957 – 966. Anexos Fig 1. Topologia Modelo Fig 2. Topología obtenida mediante el análisis de 10 genes mediante Parsimonia en TNT. Fig 3. Topología obtenida mediante el programa BEST Tabla 1.. Valores de Pc obtenidas mediante la comparación de las topologías reconstruidas bajo las dos aproximaciones y el árbol modelo. Árbol modelo Parsimonia BEST 99.8 (mamíferos) 89.88 (mamíferos)