Download EFECTOS DE 4 ESTRATEGIAS DE BUSQUEDA RAPIDAS EN

Document related concepts
no text concepts found
Transcript
EFECTOS DE 4 ESTRATEGIAS DE BUSQUEDA RAPIDAS EN
PARSIMONIA SOBRE LOS VALORES DE SOPORTE DE NODOS, EN TNT
Jeffrey Vega Aguilar
INTRODUCCIÒN
La reconstrucción filogenética en TNT implementa búsquedas heurísticas, junto
con ratchet, tree-drifting, sectorial-searches y Tree-fusing, que agilizan el
análisis, incluso en set de datos grandes. Esta ampliamente evidenciado que
tales algoritmos son eficaces encontrando el árbol mas corto (Goloboff, 1999).
Cuando este, es presentado, se hace indispensable el soporte de los nodos,
que permite interpretar con confianza sobre las relaciones encontradas,
incluso, tales valores han sido considerados como corroboración de la hipótesis
derivada de la congruencia de los caracteres (Brower, 2010). Como soporte,
los métodos de remuestreo, están basados en intervalos de confianza
estadística que revelan la frecuencia con la que un nodo es encontrado en
reconstrucciones aleatorias del mismo set de datos, seleccionando caracteres
desde un subyacente universo de posibilidades (Bootstrap) ó desde un subset
observado (Jacknife). Por consiguiente existe amplia relación entre el set de
datos y las seudoréplicas utilizadas en estos métodos (Freudenstein & Davis,
2010). También se ha determinado que para mejorar la confianza sobre el
soporte basado en remuestreo, es importante hacer el mayor esfuerzo posible
en la búsqueda de los árboles dentro de cada replica y guardar la mayor
cantidad de estos que sea posible (Freudenstein & Davis, 2010). En este
trabajo, se explora la relación entre el soporte de los nodos y el esfuerzo
realizado en la búsqueda del árbol mas corto, el cual es comparado con los
árboles de cada replica de remuestreo, calculados con una única búsqueda
tradicional.
MATERIALES Y MÉTODOS
Fueron analizados 3 set de datos: (i) “ZILLA”; secuencias rbcL para 500
especies de Angiospermas (Chase et al., 1993), (ii) “Simulacion1“con 386
caracteres para 84 terminales, (iii) “Simulacion2” con 200 terminales y 7142
caracteres. Estas dos ultimas simuladas con el software MySSP 1 (Rosenberg,
2005). Se evaluaron 4 estrategias de búsqueda para cada set de datos:
1)RAS1+SPR; con 100 árboles de Wagner, reteniendo uno, 2)RAS2+TBR; 100
Wagner, reteniendo 10, 3)RAT1+TBR; ratchet de 10 iteracciones,
4)RAT2+DRIF+; ratchet 50 iteracciones, búsqueda sectorial (RSS y CSS), tree
drifting y TBR. Se calcularon los soportes de Bootstrap (50) y Jacknife (36%)
para el árbol mas corto encontrado en cada tratamiento. Además se
implemento el soporte de Bremer relativo para el set de datos Zilla, ya que fue
el más sensible a los algoritmos de búsqueda, en los métodos de remuestreo.
Se escogieron los 5 primeros clados de cada topología (A, B, C, D y E),
omitiendo la raíz, para comparar sus valores de soporte en cada estrategia de
búsqueda. El clado A es el más interno, y E el más externo. Este Análisis fue
realizado en un computador Lenovo Z460, procesador Intelcore I5 con 4 GB de
RAM.
RESULTADOS
La tabla 1, muestra que el aumento en la intensidad de la búsqueda para el set
de datos Zilla, mejoró la longitud del árbol, pasando de 16227 (1) a 16218 (4).
Para la simulación 1, la búsqueda más rápida arrojo un árbol de 4865 y fue
superado solo en un paso mas corto con los demás tratamientos (Tabla2). En
la simulación 2, se recupera una topología inicial de 9849, y se mejora en un
solo paso a través del los tratamientos. Los valores de soporte para Zilla son
presentados el la tabla 4. Fue el set de datos más sensible a los tratamientos.
Sus valores de Bootstraping disminuyeron para A, D y E cuando se aumento la
intensidad de la búsqueda, mientras B y F fueron constantes. En C el soporte
disminuyó levemente (Figura 1). Los soportes de Jacknife fueron iguales en los
4 árboles correspondientes a las 4 estrategias de búsqueda. No se evidenció
sensibilidad, aun cuando, como se menciono antes, las longitudes de los
árboles fueron diferentes (Figura 2). El soporte de Bremer en cada clado
aumentó considerablemente del tratamiento 2 al 3, pasando de valores al
rededor de 45, a valores alrededor de 95. Es evidente que la intensidad de la
búsqueda mejoró los valores del soporte cuando se implemento el ratchet
como estrategia de base (Figura 3). En Zilla, cada clado fue afectado en
diferente forma; en A, cuando se implemento ratchet el Bootstrap disminuyó,
mientras el bremer aumento y el Jacknife fue el mismo siempre (Figura 4a).
B mostró no variación en los valores de Bootstrap y Jacknife, y el aumento del
bremer ya mencionado (Figura 4b). En C el Jacknife y el bremer se
comportaron así; insensible el primero y aumentó el segundo, mientras el
Bootstrap aumento levemente cuando el ratchet fue la estrategia inicial (Figura
4c). En D nuevamente vemos como el Bootstrap disminuye con la estrategia 3
(ratchet), situación similar a la sucedida en el clado A (Figura 4d). En el clado
E, la situación es similar a C, donde el Bootstrap aumenta muy levemente y los
demás soportes se comportan igual, aumentando el bremer y el Jacknife
indiferente al cambio de estrategia (Figura 4e). F es el caldo donde mayor
cambio hubo en los valores de bremer, además, el Bootstrap contrario al clado
anterior, disminuyó cuando se intensificó la búsqueda. Las estrategias 3 y 4,
muestran valores de soporte similares en todos los clados de las
reconstrucciones de Zilla, por lo tanto, tanto Bremer como Bootstrap fueron
insensibles a la implementación de la búsqueda sectorial + el tree-drifting +
tree-fusing.
Los set de datos simulados no mostraron variación en los valores de soporte en
ningún caso. Tales valores pueden observarse en las Tablas 5 y 6, y su
representación grafica fue omitida por su simplicidad.
DISCUSIÓN
Se ha focalizado el análisis sobre el set de datos Zilla por que es comúnmente
usado para los análisis de soporte y técnicas de remuestreo (Freudenstein &
Davis, 2010), y los valores encontrados fueron distintos en muchos casos. La
longitud de las topologías mejoró de acuerdo a lo esperado con la
implementación de cada tratamiento, solo en el caso de las búsquedas
sectoriales, tal disminución no era esperada, ya que raramente encuentran
árboles mas cortos para datos como Zilla, a razón de que la resolución de los
diferentes sectores del árbol no es realmente independiente (Goloboff, 1999).
El cambio en la longitud del árbol altera su estructura, de manera que el
análisis Bootstrap encontró estructuras diferentes en cada estrategia, las
cuales, al compararlas con los árboles replica, determino frecuencias diferentes
para los nodos. No se puede decir que tal efecto sea consecuencia del
acortamiento del árbol, ya que las replicas son determinadas por una estrategia
diferente. Este método exige idéntico esfuerzo en la búsqueda del árbol
hipótesis, como en las replicas, lo cual solo se puede conseguir implementando
el máximo esfuerzo posible, no logrado aquí. El porcentaje de deleción utilizado
en el Soporte de Jacknife puede haber afectado este análisis, siendo 36% un
valor de deleción del cual se espera menos variabilidad de aquellos obtenidos
con un 50% de deleción. Al implementar el 36% se busco tener suficiente
información para la reconstrucciones replica, y posiblemente evito que fuera
alterado como el Bootstrap. El Soporte de Bremer permite apreciar el esfuerzo
de la búsqueda, sus valores fueron influenciados por la longitud del árbol,
posiblemente porque el árbol consenso es menos conflictivo, luego la
examinación de todos los árboles de igual longitud es indispensable para inferir
su relación con el esfuerzo de la búsqueda, lo cual no se implemento es este
estudio. Con base en lo anterior, la respuesta a la pregunta ¿Cuánta de esta
variación se debe al esfuerzo en la búsqueda inicial del árbol mas corto?, no es
clara aun, y la manera en que se implementan los métodos de soporte, no
permite ir mas allá de la relación entre los datos y la hipótesis, permaneciendo
oscura la relación entre corroboración y el método con el cual se construye la
hipótesis.
BIBLIOGRAFIA
Goloboff, P.A., 1999. Analyzing Large Data Sets in Reasonable Times:
Solutions for Composite Optima. Cladistics 15, 415–428.
Brower, A. V., 2010. Stability, replication, pseudoreplication and support
Cladistics 26: 112–113.
Freudenstein, J. V. & Davis, J. I., 2010. Branch support via resampling: an
empirical study. Cladistic 26: 643–656.
Mort, M. E., Soltis, P. S., Soltis, D. E. & Mabry, M. L., 2000. Comparison of
Three Methods for Estimating Internal Support on Phylogenetic Trees. Syst.
Biol. 49(1):160–171.
Kopuchian, C. & Ramırez, M. J., 2009. Behaviour of resampling methods under
different weighting schemes, measures and variable resampling strengths.
Cladistics 26: 86–97.