Download INFLUENCIA DE LA SELECCIÓN DEL MODELO EN EL ANALISIS

Document related concepts
no text concepts found
Transcript
INFLUENCIA DE LA SELECCIÓN DEL MODELO EN EL ANALISIS
MAXIMA LIKELIHOOD
Diana Pilar Martínez Rangel cod: 2001786
INTRODUCCION
Los métodos computacionales que utilizan un modelo explicito de evolución de las
secuencias nucleares han llegado a dominar el análisis filogenético (Sullivan & Joyce,
2005). Se ha establecido que la buena ejecución de los métodos basados en modelos,
como máxima likelihood (ML) y estimación bayesiana, dependen de la habilidad en la
elección del modelo para determinar adecuadamente el proceso evolutivo fundamental
para cada gen, además los modelos de sustitución nucleotidica pueden ser seleccionados
en una estructura estadística y varios métodos han sido desarrollados para este trabajo
(Posada, 2005). Aunque se conoce que el uso de modelos no soportados puede afectar el
resultado del análisis filogenético (Sullivan & Swofford, 1997), se ha demostrado que
los métodos de selección, resultan en modelos alternativos para un mismo set de datos
lo que puede cambiar la topología resultante (Posada & Buckley, 2004).
En este estudio se examino los efectos de usar, dos de los método de selección de
modelos mas ampliamente utilizados en un estructura ML y se compararon los
resultados con los obtenidos usando ML bajo un modelo por defecto común, y un
análisis de parsimonia, analizando la convergencia de los dos métodos de selección al
elegir modelos, posteriormente se realizo un análisis ML, para determinar si el uso de
modelos alternativos influencia la topología y el soporte bootstrap.
METODOLOGIA
DATOS
Se
trabajo con 5 set de datos, 2 de ellos
proveniente de
TreeBase
(http://www.treebase.org) y los 3 restantes de estudios anteriormente publicados (tabla1),
estos datos son heterogéneos, representando los distintos reinos de la naturaleza e incluyen
genes nucleares y mitocondriales. Estos set de datos no se modificaron para su posterior
análisis y se mantuvieron todas las regiones del alineamiento, como inicialmente se
presentaban. El número de taxa y caracteres no fue uniforme para los distintos set de datos.
SELECCIÓN DEL MODELO
El análisis de selección de modelos se realizo para cada set de datos, teniendo en cuenta
los 28 modelos Markov reversibles incluidos en el software de selección de modelos
Phyml 3.0 (Guindon & Gascuel 2008) implementado en R 2.0.8 (Venables & Smith
2008), ape 2.2-2 (Paradis et al., 2007), bajo los criterios estadísticos hLRT y AIC.
ANALISIS FILOGENETICO
Se realizaron análisis ML en Phyml 3.0 (Guindon & Gascuel 2008) para todos los set de
datos usando los modelos obtenido bajo los diferentes criterios de selección, y además
bajo el modelo K2P, se cuantifico el soporte Bootstrap para los nodos a cada estrategia
de análisis utilizando 2000 replicas, en el programa Phyml 3.0 (Guindon & Gascuel
2008). Posteriormente se efectuó un análisis de parsimonia a cada set de datos e el
programa Winclada 1.00.08 (Nixon, 2002) y se obtuvo igualmente el soporte bootsrap
para cada uno de los nodos.
RESULTADOS
Para los 5 set de datos, se obtuvo que los dos criterios de selección hLRT y AIC,
favorecieron el mismo modelo en solo una ocasión (Tabla1), además, hLRT no
selecciona el modelo mas complejo GTR+I+G para la mayoría de los set de datos, como
fue observado por Minin et al. (2003); se encontró que los métodos de selección de
modelos tienden a seleccionar el mismo modelo para los set de datos mas grandes,
contrario a lo que se encuentra en sets de datos mas pequeños, donde se observan
modelos mas divergentes. El uso de modelos alternativos para la estimación de la
filogenia, resultó en diferencias topológicas, para dos de los tres set de datos, donde se
obtuvieron distintos modelos de evolución de acuerdo a los criterios de selección (fig
1-12).
DISCUSION
Aunque existen varios métodos de selección, la mayoría de usuarios de métodos de
reconstrucción filogenética basado en modelos, seleccionan estos, vía hLRT o AIC. En
este análisis se encuentra que diferentes métodos de selección de modelos, conduce a la
selección de modelos alternativos para 60% de los set de datos.
En teoría el criterio AIC presenta ciertas ventajas sobre el hLRT, en este análisis no se
obtiene una diferencia notable en los distintos set de datos, sino apenas algo perceptible
en nodos que poseen los soportes bootstrap más bajos, en comparación con el modelo
por defecto su situación es similar y cambia un poco cuando se contrasta con el análisis
de parsimonia, es el único análisis donde se recuperan nodos con un bootstrap de 100.
Estos resultados sugieren que el uso de modelos alternativos y el modelo K2P el cual es
ampliamente utilizado en estudios filogenéticos, no parecen influenciar la estructura de
las topologías, esto no indica que cada gen no posea su propio modelo de evolución,
posiblemente
se han implementado un numero muy reducido de modelos en los
programas que ejecutan esta tarea, además el tamaño de las secuencia del gen puede ser
un punto importante a tener en cuenta.
Por ultimo es importante señalar que para extraer conclusiones generales para los
efectos de modelos alternativos sobre el análisis filogenético se necesitan aumentar en
gran cantidad el set de datos evaluados, con la mayor diversidad posible de número de
taxa, longitud de las secuencias, genes de diversos orígenes, muestreo taxonómico, y un
análisis estadístico que evalué la verdadera diferencia de las topologías alternas, queda
la sensación que la resolución de la pregunta, ¿cual método para la selección de
modelos es el mejor para análisis filogenéticos que utilizan modelos? es inconclusa y
difícil de responder.
BIBLIOGRAFIA
Guindon, S & Gascuel, O. 2008. A simple, fast and accurate algorithm to estímate large
phylogenies by maximum likelihood. Systematic Biology 52; 696-704.
Minin, V., Z. Abdo, P. Joyce, and J. Sullivan. 2003. Performance-based selection of
likelihood models for phylogeny estimation. Syst. Biol. 52:1–10.
Nixon, K.C. (2002). WINCLADA (BETA), Versión 1.00.08. Published by the author,
Cornell University, Ithaca, New York. Nixon, K.C & Carpenter, J.M.
Paradis, E. 2008. The ape Package. Analyses of Phylogenetics and Evolution.
Posada, D & Buckley, T. 2004. Model selection and model averaging in phylogenetics:
advantages of akaike information criterion and Bayesian approaches over likelihood
ratio tests. Syst.Biol. 53(5):793-808.
Posada D. 2003. Selecting models of evolution. In The Phylogenetic Handbook.
Vandemme AM, Salemi M (eds).Cambridge University press. pp. 256-282.
Sullivan, J & Joyce, P. 2005.Model selection in phylogenetics. Annu.Rev.Ecol.Syst
36:445-466.
Sullivan, J. and D. L. Swofford. 1997. Are guinea pigs rodents? The utility of models in
molecular phylogenetics. Journal of Mammalian Evolution, 4:77-86.
Venables, W.N., Smith, D.M and the R Development Core Team. 2008. A
programming environment for data analysis and graphics.
ANEXOS
Tabla1.
Origen
Espinasa et al.2007
M1257
M1177
Ejercicio R
Organismo
Cuabacubaninae
Iguanidae
Malvaceae
Aspergillus
Mamiferos
Gen
H3r
ND4
NDHF
AFLR
Mitocondrial
pb
370
899
1104
2031
7204
Fig. 1. Gen ND4, criterio AIC (GTR+I+G). (Gen nuclear/Iguanidae).
Estrategias
AIC
hLRT
K80+I+G
TN93+I+G
GTR+I+G HYK85+I+G
GTR+I
TN93+I+G
GTR+I+G
GTR+I+G
GTR+I+G
GTR+I+G
Fig.2. Gen ND4, hLRT (HKY85+I+G) (Gen nuclear/Iguanidae).
Fig 3. Gen ND4, (K2P). (Gen nuclear/Iguanidae).
Fig 4. Gen ND4, Parsimonia. (Gen nuclear/Iguanidae).
Fig 5. Gen Histona3, criterio AIC (K80+I+G). (Gen nuclear/CUBACUBANINAE).
Fig 6. Gen Histona3, criterio hLRT (TN93+I+G). (Gen nuclear/CUBACUBANINAE).
Fig 7. Gen Histona3, (K2P). (Gen nuclear/ CUBACUBANINAE).
Fig 8. Gen histona3, Parsimonia. (Gen nuclear/ CUBACUBANINAE).
Fig 9. Gen NDHf, criterio AIC (GTR+I+G). (Gen cloroplastico/Malvaceae).
Fig 10. Gen NDHf, criterio hLRT (TN93+I+G). (Gen cloroplastico/Malvaceae).
Fig 11. Gen NDHf, modelo K2P. (Gen cloroplastico/Malvaceae).
Fig 12. Gen NDHf, parsimonia. (Gen cloroplastico/Malvaceae).