Download INFLUENCIA DE LA SELECCIÓN DEL MODELO EN EL ANALISIS
Document related concepts
no text concepts found
Transcript
INFLUENCIA DE LA SELECCIÓN DEL MODELO EN EL ANALISIS MAXIMA LIKELIHOOD Diana Pilar Martínez Rangel cod: 2001786 INTRODUCCION Los métodos computacionales que utilizan un modelo explicito de evolución de las secuencias nucleares han llegado a dominar el análisis filogenético (Sullivan & Joyce, 2005). Se ha establecido que la buena ejecución de los métodos basados en modelos, como máxima likelihood (ML) y estimación bayesiana, dependen de la habilidad en la elección del modelo para determinar adecuadamente el proceso evolutivo fundamental para cada gen, además los modelos de sustitución nucleotidica pueden ser seleccionados en una estructura estadística y varios métodos han sido desarrollados para este trabajo (Posada, 2005). Aunque se conoce que el uso de modelos no soportados puede afectar el resultado del análisis filogenético (Sullivan & Swofford, 1997), se ha demostrado que los métodos de selección, resultan en modelos alternativos para un mismo set de datos lo que puede cambiar la topología resultante (Posada & Buckley, 2004). En este estudio se examino los efectos de usar, dos de los método de selección de modelos mas ampliamente utilizados en un estructura ML y se compararon los resultados con los obtenidos usando ML bajo un modelo por defecto común, y un análisis de parsimonia, analizando la convergencia de los dos métodos de selección al elegir modelos, posteriormente se realizo un análisis ML, para determinar si el uso de modelos alternativos influencia la topología y el soporte bootstrap. METODOLOGIA DATOS Se trabajo con 5 set de datos, 2 de ellos proveniente de TreeBase (http://www.treebase.org) y los 3 restantes de estudios anteriormente publicados (tabla1), estos datos son heterogéneos, representando los distintos reinos de la naturaleza e incluyen genes nucleares y mitocondriales. Estos set de datos no se modificaron para su posterior análisis y se mantuvieron todas las regiones del alineamiento, como inicialmente se presentaban. El número de taxa y caracteres no fue uniforme para los distintos set de datos. SELECCIÓN DEL MODELO El análisis de selección de modelos se realizo para cada set de datos, teniendo en cuenta los 28 modelos Markov reversibles incluidos en el software de selección de modelos Phyml 3.0 (Guindon & Gascuel 2008) implementado en R 2.0.8 (Venables & Smith 2008), ape 2.2-2 (Paradis et al., 2007), bajo los criterios estadísticos hLRT y AIC. ANALISIS FILOGENETICO Se realizaron análisis ML en Phyml 3.0 (Guindon & Gascuel 2008) para todos los set de datos usando los modelos obtenido bajo los diferentes criterios de selección, y además bajo el modelo K2P, se cuantifico el soporte Bootstrap para los nodos a cada estrategia de análisis utilizando 2000 replicas, en el programa Phyml 3.0 (Guindon & Gascuel 2008). Posteriormente se efectuó un análisis de parsimonia a cada set de datos e el programa Winclada 1.00.08 (Nixon, 2002) y se obtuvo igualmente el soporte bootsrap para cada uno de los nodos. RESULTADOS Para los 5 set de datos, se obtuvo que los dos criterios de selección hLRT y AIC, favorecieron el mismo modelo en solo una ocasión (Tabla1), además, hLRT no selecciona el modelo mas complejo GTR+I+G para la mayoría de los set de datos, como fue observado por Minin et al. (2003); se encontró que los métodos de selección de modelos tienden a seleccionar el mismo modelo para los set de datos mas grandes, contrario a lo que se encuentra en sets de datos mas pequeños, donde se observan modelos mas divergentes. El uso de modelos alternativos para la estimación de la filogenia, resultó en diferencias topológicas, para dos de los tres set de datos, donde se obtuvieron distintos modelos de evolución de acuerdo a los criterios de selección (fig 1-12). DISCUSION Aunque existen varios métodos de selección, la mayoría de usuarios de métodos de reconstrucción filogenética basado en modelos, seleccionan estos, vía hLRT o AIC. En este análisis se encuentra que diferentes métodos de selección de modelos, conduce a la selección de modelos alternativos para 60% de los set de datos. En teoría el criterio AIC presenta ciertas ventajas sobre el hLRT, en este análisis no se obtiene una diferencia notable en los distintos set de datos, sino apenas algo perceptible en nodos que poseen los soportes bootstrap más bajos, en comparación con el modelo por defecto su situación es similar y cambia un poco cuando se contrasta con el análisis de parsimonia, es el único análisis donde se recuperan nodos con un bootstrap de 100. Estos resultados sugieren que el uso de modelos alternativos y el modelo K2P el cual es ampliamente utilizado en estudios filogenéticos, no parecen influenciar la estructura de las topologías, esto no indica que cada gen no posea su propio modelo de evolución, posiblemente se han implementado un numero muy reducido de modelos en los programas que ejecutan esta tarea, además el tamaño de las secuencia del gen puede ser un punto importante a tener en cuenta. Por ultimo es importante señalar que para extraer conclusiones generales para los efectos de modelos alternativos sobre el análisis filogenético se necesitan aumentar en gran cantidad el set de datos evaluados, con la mayor diversidad posible de número de taxa, longitud de las secuencias, genes de diversos orígenes, muestreo taxonómico, y un análisis estadístico que evalué la verdadera diferencia de las topologías alternas, queda la sensación que la resolución de la pregunta, ¿cual método para la selección de modelos es el mejor para análisis filogenéticos que utilizan modelos? es inconclusa y difícil de responder. BIBLIOGRAFIA Guindon, S & Gascuel, O. 2008. A simple, fast and accurate algorithm to estímate large phylogenies by maximum likelihood. Systematic Biology 52; 696-704. Minin, V., Z. Abdo, P. Joyce, and J. Sullivan. 2003. Performance-based selection of likelihood models for phylogeny estimation. Syst. Biol. 52:1–10. Nixon, K.C. (2002). WINCLADA (BETA), Versión 1.00.08. Published by the author, Cornell University, Ithaca, New York. Nixon, K.C & Carpenter, J.M. Paradis, E. 2008. The ape Package. Analyses of Phylogenetics and Evolution. Posada, D & Buckley, T. 2004. Model selection and model averaging in phylogenetics: advantages of akaike information criterion and Bayesian approaches over likelihood ratio tests. Syst.Biol. 53(5):793-808. Posada D. 2003. Selecting models of evolution. In The Phylogenetic Handbook. Vandemme AM, Salemi M (eds).Cambridge University press. pp. 256-282. Sullivan, J & Joyce, P. 2005.Model selection in phylogenetics. Annu.Rev.Ecol.Syst 36:445-466. Sullivan, J. and D. L. Swofford. 1997. Are guinea pigs rodents? The utility of models in molecular phylogenetics. Journal of Mammalian Evolution, 4:77-86. Venables, W.N., Smith, D.M and the R Development Core Team. 2008. A programming environment for data analysis and graphics. ANEXOS Tabla1. Origen Espinasa et al.2007 M1257 M1177 Ejercicio R Organismo Cuabacubaninae Iguanidae Malvaceae Aspergillus Mamiferos Gen H3r ND4 NDHF AFLR Mitocondrial pb 370 899 1104 2031 7204 Fig. 1. Gen ND4, criterio AIC (GTR+I+G). (Gen nuclear/Iguanidae). Estrategias AIC hLRT K80+I+G TN93+I+G GTR+I+G HYK85+I+G GTR+I TN93+I+G GTR+I+G GTR+I+G GTR+I+G GTR+I+G Fig.2. Gen ND4, hLRT (HKY85+I+G) (Gen nuclear/Iguanidae). Fig 3. Gen ND4, (K2P). (Gen nuclear/Iguanidae). Fig 4. Gen ND4, Parsimonia. (Gen nuclear/Iguanidae). Fig 5. Gen Histona3, criterio AIC (K80+I+G). (Gen nuclear/CUBACUBANINAE). Fig 6. Gen Histona3, criterio hLRT (TN93+I+G). (Gen nuclear/CUBACUBANINAE). Fig 7. Gen Histona3, (K2P). (Gen nuclear/ CUBACUBANINAE). Fig 8. Gen histona3, Parsimonia. (Gen nuclear/ CUBACUBANINAE). Fig 9. Gen NDHf, criterio AIC (GTR+I+G). (Gen cloroplastico/Malvaceae). Fig 10. Gen NDHf, criterio hLRT (TN93+I+G). (Gen cloroplastico/Malvaceae). Fig 11. Gen NDHf, modelo K2P. (Gen cloroplastico/Malvaceae). Fig 12. Gen NDHf, parsimonia. (Gen cloroplastico/Malvaceae).