Download Estimación del número de sustituciones de nts. entre secuencias
Document related concepts
Transcript
Biogeografía Filogeografía Fundamentos Definición • Filogeografía : – Herramienta para examinar el patrón geográfico dela distribución de un linaje de genes dentro de una o varias especies (Avise, 2008). – Hace posible poder inferir el papel de eventos pasados en la actual forma de patrones de biodiversidad (Excoffier, 2004) Definición • Filogeografía: – Trata de entender los procesos que explicarían la distribución de la variación genética entre y dentro de especies cercanamente relacionadas (Knowles, 2010) . Filogeografía del caracol de agua dulce Biomplhilaria glabrata (tomado de Bloomquist et al. 2010) Generación de datos masivos de secuenciación por SNG (Wang et al. Nature Protocols 11:2189. 2016) Datos para realizar análisis filogeográficos • Secuencias de ADN (más 3 secuencias o genes) • Más de 100 individuos (de una o varias especies N=6-30) • Más de 10 poblaciones Datos • Secuencias de ADN: – Mitocondrial por amplificación selectiva y secuenciación por Sanger de genes (cox1, cytb, nad4, RC, 16S), genera secuencias o haplotipos. – Nuclear por secuenciación de Sanger (200 a 800nts) (regiones codificantes de genes o no), SNG por RAD o secuenciación de genomas. Análisis de COI en lepidoptera (Wilson 2010) Análisis de miniCOI en insectos acuáticos (Hajibabaei et al 2011) Análisis de miRNA en sipunculidos (Sperling 2009) Fuentes de WWW para filogenia molecular (1) Compilaciones Lista de sitios y fuentes: http://www.ucmp.berkeley.edu/subway/phylogen.html List de programas de filogenia http://evolution.genetics.washington.edu/ phylip/software.html • Bases de datos de sec. de rARN sequences y programas asociados The rRNA WWW Server - Antwerp, Belgium. http://rrna.uia.ac.be The Ribosomal Database Project - Michigan State University http://rdp.cme.msu.edu/html/ Manipulación de secuencias Fuentes de WWW para filogenia molecular (1) Bases de datos públicas de secuencias NCBI GeneBank: https://www.ncbi.nlm.nih.gov/nuccore/ EMBL-EBI: http://www.ebi.ac.uk/ena DDBJ: http://www.ddbj.nig.ac.jp/ Phytozome: https://phytozome.jgi.doe.gov/pz/portal.html DNA Barcoding: http://www.barcodeoflife.org/ Fish Bol: http://www.fishbol.org/ Fuentes de WWW para filogenia molecular (2) Búsqueda de similitud en BD (Blast o Blastp) : http://www.ncbi.nlm.nih.gov/BLAST/ Alineamiento de sec. múltiple ClustalW : alineamiento de sec. múltiple con interfase gráfica (todas las plataformas). http://www.ebi.ac.uk/FTP/index.html MAFFT:rápido. http://www.ebi.ac.uk/Tools/msa/mafft/ MUSCLE: mejor que ClustalW http://www.ebi.ac.uk/Tools/msa/muscle/ Arboles generados por CLUSTAL (izq) y MUSCLE (der) Fuentes de WWW para filogenia molecular (3) • Editor de alineamiento de Sec. BioEdit: windows. http://www.mbio.ncsu.edu/bioedit/bioedit.html MEGA: windows y Mac. www.megasoftware.ne MESQUITE: windowns, linux/unix y Mac. http://mesquiteproject.wikispaces.com/installation STADEN: windows, mac. http://staden.sourceforge.net/ SEAVIEW : windows and unix http://pbil.univ-lyon1.fr/software/seaview.html Fuentes de WWW para filogenia molecular (3) • Programas para filogenia molecular • PHYLIP : todas las platforms. ML http://evolution.genetics.washington.edu/phylip.html PAUP* : a very performing commercial package (libre). MP http://paup.csit.fsu.edu/index.html MrBayes : Bayesian phylogenetic analysis http://www.molecularevolution.org/software/phylogenetics/mrbayes CIPRES2: (https://www.phylo.org/). Dispone de Distancia, ML, Bayes, MP RAxML: http://sco.h-its.org/exelixis/web/software/raxml/index.html PHYML : fast maximum likelihood tree building http://www.lirmm.fr/~guindon/phyml.html BEAST (http://beast.bio.ed.ac.uk/beast): coalescente y especiación por métodos bayesianos. Tiene varios programas ligados (BEAUti, FigTree). Sobre todo para filogeografía. SplitsTree (http://www.splitstree.org/): tiene opciones para UPGMA, NJ, ML, MP, Mediannetwork, Medianjoining, MinSpanningnetwork (últimas tres opciones para análisis de poblaciones, haplotipos, agrupaciones sin outgroup) y aplicar análisis de reemplazo (bootstrap). Requiere archivo en formato nexus. Software libre Básicos • BioEdit • Jmodeltest • Mega • DNASp • SplitsTree • TCS Tentativos • Mesquite • Beast • BaySCIS • MrBayes Estimación del número de sustituciones de nts. entre secuencias • Las sustituciones pueden tomar miles o millones de años (secuencias de virus cambian de generación en generación). Por lo tanto hay que basarse en la comparación de secuencias que han sido derivadas de una secuencia de un ancestro común. • Las tasas de sustitución entre secuencias codificantes de proteínas y no-codificantes son distintas. Tipos básico de sustituciones Código genético TTT TTC TTA TTG Phe Phe Leu Leu TCT TCC TCA TCG Ser Ser Ser Ser TAT TAC TAA TAG Tyr Tyr stop stop TGT TGC TGA TGG Cys Cys stop Trp CTT CTC CTA CTG Leu Leu Leu Leu CCT CCC CCA CCG Pro Pro Pro Pro CAT CAC CAA CAG His His Gln Gln CGT CGC CGA CGG Arg Arg Arg Arg ATT ATC ATA ATG Ile Ile Ile Met ACT ACC ACA ACG Thr Thr Thr Thr AAT AAC AAA AAG Asn Asn Lys Lys AGT AGC AGA AGG Ser Ser Arg Arg GTT GTC GTA GTG Val Val Val Val GCT GCC GCA GCG Ala Ala Ala Ala GAT GAC GAA GAG Asp Asp Glu Glu GGT GGC GGA GGG Gly Gly Gly Gly Calculó de Ka y Ks • Brevemente : – Separa todos los sitios de 2 genes comparados en 3 categorías: I: no degeneradas, II: parcialm. degenerados, III: totalm. degenerados – Calcula el No. de sitios no-sinónimos = I + 2/3 II – Calcula el No. de sitios sinónimos = III + 1/3 II – Calcula el No. de cambios sinónimos y no-sinónimos – Calcula, con método K2p, Ka y Ks • Frecuentemente, una de estas dos situaciones ocurren : – Sec. evolutivamente cercanas : Ks es informativa, Ka no lo es. – Sec. evolutivamente distantes : Ks esta saturada , Ka es informativa. Li, Wu & Luo (1985) Mol.Biol.Evol. 2:150 Ka y Ks : ejemplo # sites observed diffs. J&C K2P KA KS 10254 0.077 0.082 0.082 0.035 0.228 Urotrofina de rata (AJ002967) y ratón (Y12229) Cambios múltiples o escondidos • D (distance real evolutiva) fracción de diferencias observadas (p) • D = p + cambios escondidos • Por hipótesis sobre la naturaleza del proceso de sustitución, es posible estimar D a partir de las diferencias observadas entre las secuencias. Modelos más populares para estimar la tasa de sustitución • Secuencias no-codificantes: Jukes & Cantor, Kimura y Tajima & Nei. • Secuencias codificantes: Li et al. Método de Jukes & Cantor (1969) • Estima K, el número actual de sustituciones por sitio desde la divergencia de 2 sec. • Asume que no hay sesgo en la dirección de cambio, o sea, las sustituciones ocurren al azar. • La tasa de sustitución en c/u de las posibles direcciones es 3a por unidad de tiempo. • La tasa de sustitución en c/u de las 3 posibles direcciones es a. Modelo de sustitución para una dirección dada Matriz de sustitución de nucleótidos Método de Kimura ó 2 Parámetros (1980) • Las diferencias entre 2 sec. son calculadas en transiciones (P) y transversiones (Q). • Asume que no es aleatórea la sustitución. P es más frecuente que Q. • La tasa de sustitución en cada nt. es a por unidad de tiempo, mientras que la tasa para los 2 tipos de sustitución es b por unidad de tiempo. Distancia de Kimura de dos parámetros (ADN) • Hipótesis del modelo : (a) Todos los sitios evolucionan independientemente y siguen los mismos procesos. (b) Sustituciones ocurren según dos pobabilidades: Una para transiciones, una para transversiones. Transiciones : G <—>A or C <—>T Transversions : pu x py (c) El proceso de sustitución de bases es constante en el tiempo. • La cuantificación de distancia evolutiva (d) como una función de la fracción de diferencias observadas (p: transiciones, q: transversiones): 1 d = - ln[(1- 2 p - q) 1 - 2q ] 2 Kimura (1980) J. Mol. Evol. 16:111 PAM y distancias de Kimura (proteínas) • Hipótesis del modelo (Dayhoff, 1979) : (a) Todos los sitios evolucionan independientemente y siguen los mismos procesos. (b) Cada tipo de aa reemplazado es dado, probabilidad empírica : Muchas proteínas similares secuenciadas se han colectado, las probabilidades de reemplazo de cualquier aa por otro ha sido tabulada. (c) El proceso de sustitución de aa es constante en el tiempo. • La cuantificación de distancia evolutiva(d) : Número de reemplazos más compatibles con el patrón observado de cambios de aa y las probabilidades de reemplazo individuales. • Aproximación empírica de Kimura: 2 d = - ln( 1 - p - 0.2 p ) (Kimura, 1983) donde p = fracción de diferencias observadas Método de Tajima & Nei (1984) • Estima la varianza de K. • No requiere asumir el supuesto de igualdad de frecuencia de los 4 nts. • Asume la estacionalidad de las frecuencias. Método de Li et al. (1985) • Los codones de iniciación y terminación son excluidos. • Sitios no-degenerados (L0): todos los cambios son no-sinónimos (“missense” y “nonsense”). • Sitios doble-degenerado (L2): si uno de los 3 posibles cambios es sinónimo. • Cuadruple-degenerado: todos los cambios son sinónimos. Modelos de tasas de sustitución para ADN Arbol de decisión de modelo de tasa de sustitución (ModelTest, 1998) Modelo de tasa de sustitución (JModelTest) (Posada, 2008) Distancias vs. caracteres discretos • Se basa en cómo se tratan los datos: – métodos Distancia primero convierte las sec. alineadas en matriz de distancia apareadas, luego usa la matriz para construir el árbol según el método – métodos Discretos considera cada sitio (o la función de cada sitio) separadamente Secuencias Sitios 1 2 3 4 1 T A A A 2 T A A A 3 A T A A 4 T T A A 5 T T A A 6 A A T A 7 A A A T Distancias vs. caracteres discretos 1 Sequences Sites 1 2 3 4 1 T A A A 2 T A A A 3 A T A A 4 T T A A 5 T T A A 6 A A T A 7 A A A T 1 6 3 2 4 2 5 3 7 Arbol Parsimonia 4 Distancias vs. caracteres discretos Sequences Sites 1 2 3 4 1 T A A A 2 T A A A 3 A T A A 4 T T A A 5 T T A A 6 A A T A 7 A A A T 1 3 2 1 1 2 3 3 5 4 4 5 4 2 1 2 3 2 1 2 4 Arbol Distancia Métodos de Agrupamiento vs. métodos de búsqueda • Métodos de Agrupamiento siguen una serie de pasos (algoritmo) y llegan a un árbol: – Ventajas: • Fácil implementación, resultando en programas computación muy rápidos • Siempre produce un solo árbol – Desventajas: • Resultados dependen del orden en que las sec. fueron añadidas al árbol • No permite evaluar dos hipótesis: dos árboles diferentes podrían explicar bien los datos pero no la forma ajustar la medición entre los datos y los árboles Métodos de búsqueda • Estos métodos usan criterio de optimación para escoger entre un grupo de todos los árboles posibles: – Se asigna un “valor” o “ámbito” a cada árbol en función de la relación entre los datos y el árbol – Requiere una función explícita entre el árbol y los datos (e.g. modelo de cómo evoluciónan las sec.) – Permite evaluar dos hipótesis de relaciones evolutivas de datos – Desventaja es muy costosa computacionalmente: • Para un árbol y datos dados, qué valor es óptimo? • Cuál de todos los posibles árboles tiene el valor máximo de optimación? Un método de optimación A 4 B A 6 E C A 11 A 10 D C C A 12 D B D A C =8 E E C A E B E A C A 13 7 D C E A D E D A E E =1 5 D C C E D 14 D B D E C C A B E B A B C B E =8 B C D B B 15 C D E B A D E B B =1 D =1 D A B C Métodos para reconstrucción Filogenética Cuatro familias de métodos : – Métodos Distancia – Parsimonia – Métodos Maxima Similitud – Métodos Bayesianos Tipos de árboles Filogenéticos • UPGMA y NJ: son métodos de distancia con diferentes algoritmos de agrupamiento. • MP y ML: son métodos discretos con diferentes criterios de optimación. Propiedades ideales para un método ideal 1.- Eficiente: veloz 2.- Consistente: es perfectamente correcto conforme se agragan más datos. 3.- Poderoso: produce resultados correctos con pocos datos 4.-Robusto: invariable ante violaciones del modelo supuesto 5.- Confiable: capaz de detectar violaciones del modelo Propiedades de los métodos para construir árboles • UPGMA es eficiente pero no es robusto para supuestos del reloj molecular. • NJ es preciso pero no siempre correcto (“accurate”). • ML no es eficiente pero es consistente y confiable para supuestos del reloj molecular. • MP es fácil de entender, más eficiente que el ML pero menos directo de justificar matemáticamente. Método UPGMA o “ unweighted pairgroup method using arithmetic averages” • Se le atribuye a Sokal & Michener (1958). • Conocido como fenograma, se usó originalmente para representar el grado de similitud fenotípica para un grupo de especies en taxonomía numérica. • Se usa en filogenia molecular cuando las tasas de sustitución son constantes. Distancias Evolutivas • Mide el número total de sustituciones presentes en ambos linajes desde su divergencia del último ancestro común. • Divide por la longitud de la secuencia. • Expresado en sustituciones / sitio ancestro secuencia 1 secuencia 2 Correspondencia entre árboles y matrices de distancia • Cualquier árbol filogenético induce una matriz de distancias entre pares de sec. • Matrices de distancia “Perfecta” corresponde a un solo árbol filogenético A B tree C A B C A 0 3 4 B C 0 3 0 distance matrix Construcción de árboles filogenéticos por métodos de distancia Principio general : Alineamiento de Secuencia (1) Matriz de distancia evolutiva entre pares de secuencias (2) (sin raíz) árbol • (1) Medir distancias evolutivas. • (2) Calculo de árbol a partir de valores de distancia de la matriz. Matriz de Distancia -> árbol (1): Cualquier árbol sin raíz induce una distancia d entre sec. : i j li lj k lk lc lr lm d(i,m) = li + lc + lr + lm l m Es posible calcular los valores de longitud de ramas que crean el mejor comparación entre d y la distancia evolutiva d : minimiza Luego es posible calcular la longitud total del árbol: S = suma de todas las longitudes de ramas Método de Mínima Evolución Para todas las topologías posibles: Calcula su longitud total, S Guarda el árbol con el valor de S más pequeño. Problema: método es muy intesivo computacionalmente. No se usa practicamente con más de ~ 25 sequences. => método aproximativo (heurístico) necesario. Neighbor-Joining, un principio heurístico para la ME Método de vecino más cercano o “Neighbor-Joining” : algoritmo Paso 1: Usa distancias d medidas entre N secuencias Paso 2: Para todos pares i y j: considerar la siguiente topología pinzel, y calcula Si,j , la suma de todas las “mejores” longitudes de rama. Paos 3: Retiene el par (i,j) con menor valor Si,j. Grupo i y j en el árbol. Paso 4: Calcula nuevas distancias d entre objectos N-1 : par (i,j) y las sec. restantes N-2 : d(i,j),k = (di,k + dj,k) / 2 Paso 5: Regresa al paso 1 tan grande como N ≥ 4. Saitou & Nei (1987) Mol.Biol.Evol. 4:406 2 1 6 3 5 1 3 5 1 3 ....... 1 1 4 5 6 4 1 2 3 5 2 6 4 6 5 5 6 3 ....... 5 3 3 2 4 1 2 3 1 2 3 4 4 ............ 5 1 5 2 6 6 6 2 2 3 6 4 5 1 2 4 4 6 4 Representación del proceso de NJ Método Neighbor-Joining (NJ): propiedades • NJ es un método rápido, aún con cientos de sec. • Arbol NJ es una aproximación del árbol ME (aquel cuya longitud total es es mínima). • En ese sentido, el método NJ es muy parecido a parsimonia debido a que las longitudes de rama representan las sustituciones. • NJ produce siempre árboles sin raíz, usan el método de grupo de afuera para tener raíz. Método de Neighbor Joining (NJ) • NJ siempre encuentra el árbol correcto si las distancias son parecidas a un árbol. • NJ se comporta bien cuando las tasas de sustitución varian entre los linajes. Así que NJ debería encontrar el árbol correcto si las distancias son bien estimadas. • Lo importante es el “neighbor”, que son dos taxa conectados por un solo nodo en un árbol sin raíz. Método de Reemplazo Número de posibles topologías de árboles para n taxa Ntrees =3.5.7...(2n-5)= (2n-5)! 2n-3(n-3)! n Narboles 4 3 5 15 6 105 7 945 ... ... 10 2,027,025 ... ... 20 ~ 2 x1020 Parsimonia (1) • Paso 1: para una topología dada (forma), y para un sitio alineado, se determina que residuo ancestral (en los nodos del árbol) requiere el menor número total de cambios en todo el árbol. Sea d el número total de cambios. Ejemplo: En este sitio y para este árbol, al menos 3 eventos de sustitución se necesitan para explicar el patrón de nts. en los árboles. Varios escenarios distintos son posibles con 3 cambios. Parsimonia (2) • Paso 2: – Calcula d (paso 1) para cada sitio alineado. – Suman los valores d para todos los sitios alineados. – Esto da la longitud L del árbol. • Paso 3: – Compute L value (step 2) for each possible tree shape. – Retiene el árbol(es) más corto(s) = árbol(es) que requieren el menor número de cambios = árbol(es) más parsimonioso(s). Algunas propiedades de la Parsimonia • Varios árboles pueden ser igualmente parsimoniosos (misma longitud, la menor de todas la posibles longitudes). • La posición de cambios de cada rama no esta definida exclusivamente => parsimonia no permite definir longitudes de ramas de árboles en una forma única. • El número de árboles a evaluar crece muy rápido con el número de secuencias comparadas: La búsqueda del árbol más corto debe ser a menudo restringido a una fracción del total de posibles (búsqueda heurística) =>No hay certeza matemática de encontrar el árbol más corto (más parsimonioso). Método de Máxima Parsimonia • Originalmente usado para caracteres morfológicos desarrollado por Henning (1966). • El mínimo número de sustituciones de nt. / mutaciones; calcula el total de sitios k registrados; y escoge el árbol con el mínino total de registros. • MP se basan en sitios informativos, debe ser al menos 2 tipos distintos de nts. y cada uno representado al menos 2 veces. Método de Máxima Parsimonia • Asume que no hay homoplasia, o sea, mutaciones paralelas o reversas. • La realidad es que existe homoplasia, se han diseñado índices para medir la homoplasia: Indice de consistencia CI, Indice de retención RI. • Indice de homoplasia se expresa como HI=1CI. No hay homoplasia cuando CI=1 o HI=0. Sitios Informativos Sitio Sec. 1 2 3 4 5 6 7 8 9 1 2 3 4 A A A A A G G G G C A A A C T G G G A A T T T T G G C C C C C C C A A G Representación de construcción de árbol más parsimonioso Método de Máxima Probabilidad o Similitud (“Likelihood”) • La probabilidad (L) de un árbol (T) L(T)= probabilidad de los datos P (D/T, M) dado un árbol T con ciertas longitudes de brazo D y un modelo M de evolución del ADN. • Sitio registrado= ln Li(T) para los datos en un sitio • Total registro para ser maximizado Métodos de Máxima probabilidad (1) (programas fastDNAml, PAUP*, PROML, PROTML, GARLIC) • Hipótesis – El proceso de sustitución sigue un modelo probabilístico cuya expresión matemática, pero no valores de paramétro, es a priori. – Sitios evolucionan independientemente uno de otro. – Todos los sitios siguen el mismo proceso de sustitución (algunos métodos usan la distribución gama discreta de tasas por sitio). – Probabilidades de sustitución no cambian con el tiempo en ninguna rama del árbol. Ellas pueden variar entre las ramas. Métodos de Máxima probabilidad(2) Mod. Probabilístico de evolución de sec. homólogas li, longitudes de ramas = No. esperado de sust. por sitio a lo largo de la rama seq 2 seq 6 seq 3 l9 l8 seq 4 seq 1 l7 q, tasa relativa de sust. de base (e.g., transición/transversión, G+C-sesgo) Así, uno puede calcular seq 5 l4 l5 l3 l1 l10 l6 l2 Probabranch i(x y) Para cualquier base x & y, cualquier rama i, cualquier grupo de valores q q Algoritmo Métodos de Máxima probabilidad • Paso 1: Considere un árbol con raíz, un sitio dado, y un grupo de longitudes de ramas dado. Calcular la probabilidad que el patrón observado de nts. en ese sitio ha evolucionado a lo largo de ese árbol. S1, S2, S3, S4: bases observ. en sitio en sec. 1, 2, 3, 4 a, b, g : base desconocidas y ancestral l1, l2, …, l6: long. rama dadas P(S1, S2, S3, S4) = S2 S1 l2 l1 b S3 l3 S4 l4 g l5 a l6 SaSbSg P(a) Pl5(a,b) Pl6(a,g) Pl1(b,S1) Pl2(b,S2) Pl3(g,S3) Pl4(g,S4) donde P(S7) es estimado por el promedio de frecuencias de bases en sec. estudiadas. Algoritmo Métodos de Máxima probabilidad (2) • Paso 2: calcula la probabilidad de las sec. totales que han evolucionado : P(Sq1, Sq2, Sq3, Sq4) = P all sites P(S1, S2, S3, S4) • Paso 3: calcula la long. de la rama l1, l2, …, l6 y el valor del parametro q con el valor más alto P(Sq1, Sq2, Sq3, Sq4). Esta es la probabilidad del árbol. • Paso 3: calcula la probabilidad de todos los árboles posibles. El árbol predicho por el método es aquel que tiene la mayor probabilidad. Máxima probabilidad : propiedades • Este es el mejor método justificado desde el punto de vista teórico. • Experimentos de simulación de secuencia han mostrado que funcionan mejor en la mayoría de los casos. • Pero es un método computacionalmente intenso. • Es casi imposible evaluar todos los posibles árboles debido a que son muchos. Una exploración parcial del espacio de los posibles árboles se estima. PHYML : un algoritmo rápido, y preciso para estimar filogenias grandes por MP Guindon & Gascuel (2003) Syst. Biol. 52(5):696–704 MP requiere encontrar qué valor cuantitativo (e.g., long. rama) y cualitativo (topología del árbol) corresponde a la probabilidad más alta para las sec. que han evolucionado. PHYML ajusta simultáneamente la topología y long. ramas. Solo unas pocas interacciones son suficientes para alcanzar el óptimo Método Bayesiano (programa MrBayes) • Método muy relacionado con los probabilísticos, difieren solo en el uso de una distribución previa de la cantidad que esta siendo inferida. O sea, computa la probabilidad posterior a partir de una previa. • Posterior es proporcional a la probabilidad de tiempo previos • La probablidad total de los datos Inferencia Bayesiana de árboles filogenéticos Meta : calcular la probabilidad posterior de todas las topologías, dado el alineamiento de sec. Pr(t | X) µ òò Pr(X | t ,v,q ) . Pr v,q probabilidad de árbol+parámetros prior (v,q )dvdq probabilidad previa del valor de parámetro : topología del árbol X: alineamiento de sec. v: grupo de long. de rama del árbol q: parámetros of modelo sustitución (e.g., proporción transit/transv) Computación analítica de Pr(|X) es imposible en general. Una técnica computacional llamada Metropolis-coupled Markov chain Monte Carlo es usada para generar una muestra estadística de la distribución posterior de los árboles. [ MC3 ] (Ej.: genera una muestra aleatoria de 10,000 árboles) Resultado: - Retiene el árbol con la probabilidad más alta (la encontrada más a menudo en la muestra). - Calcula las probabilidades posteriores de todas las clades del árbol: fracción de árboles muestreados conteniendo la misma clade. De manera que, Valor de la clade Bayesiana es alta Valor de la clade de reemplazo (Bootstrap) es baja Cuál es más cercano al valor real ? Conclusión de experimentos de simulación : o Cuando la evolución de la sec. se ajusta exactamente al modelo probabilístico usado, valor Bayesiano es correcto, reemplazo es pesimista. o Inferencia Bayesiana es sensible a pequeños errores del modelo y se vuelve demasiado optimista. Un método heurístico Búsqueda heurística típica para MPar y MPro Arbol y experimento de simulación de sec. P, PHYML F, fastDNAml L, NJML D, DNAPARS N, NJ 5000 árboles azar 40 taxa, 500 bases Sin reloj molecular K2P, a = 2 Comparación de tiempo-máquina para varios algoritmos distance < parsimony ~ PHYML << Bayesian < classical ML NJ DNAPARS PHYML MrBayes fastDNAml,PAUP Comparasión de métodos de construcción de árboles Tipo de datos Algoritmo Agrupamiento Criterio Optimación Método de generar árbol Distancias Sitios nts. UPGMA Neighbour joining Minima evolución Máxima parsimonia Máxima probabilidad Comparación de métodos para la estimación de longitudes de rama Comparación de árboles generados por MPar y distancia para NJ Filogenia de redes (network) • Método alternativo de hacer árboles filogenéticos útiles para datos cuya evolución involucra eventos reticulados como hibridación (razas de humanos), transferencia horizontal de genes (bacterias, hongos, plantas), recombinación (mamíferos), duplicación/pérdida de genes (Hudson et al. 2010) Filogenia de redes (network) • Definición (Hudson et al. 2010): – Es cualquier gráfico usado para representar relaciones evolutivas (abstractas o explícitas) entre un grupo de taxones que remarca algunos de sus nodos. • Se usan de dos formar: – Para visualizar datos incompatibles (red abstracta), y para representar una historia evolutiva posible involucrando eventos reticulados (explícita) Red “median-joining” de cpADN en Tabebuia impetiginosa (Collevatti et al. 2012) Debates en Filogenia • No hay forma lógica para decidir como ponderar una duplicación de un carácter relacionado a una sustitución de un nt. o a.a. • Métodos Consenso vs. Análisis combinado: – Análisis separado y luego métodos consenso, – Análisis combinado de datos antes del análisis, – Combinar datos cuando los tests estadísticos sugiere compatibilidad.