Download Lección 7. Máxima verosimilitud Deducción El método de
Document related concepts
no text concepts found
Transcript
Máxima verosimilitud Deducción … Usted no quiere aplicar mis preceptos –me observó Sherlock. ¿Cuántas veces le he dicho que una vez eliminado lo imposible, lo que queda debe ser la verdad, por improbable que parezca? … Lección 7. Máxima verosimilitud Sherlock Holmes al Dr. Watson en El Signo de los Cuatro, de A. Conan Doyle. Curso “Análisis filogenético” David Posada Máster de Bioestadística 2006 Universidad de Santiago de Compostela Marzo 2006 Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Máxima verosimilitud El método de parsimonia ideal • • El método de máxima verosimilitud Idealmente, nos gustaría tener un método de parsimonia que – Tenga en cuenta las reconstrucciones de estados ancestrales más parsimoniosas pero también las menos parsimoniosas – Le diese un peso diferente a los cambios según la longitud de la rama en la que ocurren – Le diese un peso diferente a cambios diferentes (p.e., transiciones vs. transversiones) • L = P(D|H) = probabilidad de los datos dada una hipótesis. • Si tiramos una moneda 11 veces y obtenemos !!!!!!!!!!!, cual es la probabilidad esperada p de que salga !al tirar la moneda? L = P(D | p) = pp(1 ! p)(1 ! p)p(1 ! p)pp(1 ! p)(1 ! p)(1 ! p) = p 5 (1 ! p)6 dL " 5 6 % 5 = ! p (1 ! p)6 = 0 dp $# p 1 ! p '& 5 ! 11p = 0 5 p̂ = = 0.454 11 Ese método existe. Se llama máxima verosimilitud –… pero requiere un modelo de evolución creíble –…y es computacionalmente intensivo Lección 7. Verosimilitud Análisis filogenético 2006 David Posada ln L = 5 ln p + 6 ln(1 ! p) d(ln L) 5 6 = ! =0 dp p 1! p 5 ! 11p = 0 5 p̂ = = 0.454 11 Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Máxima verosimilitud Máxima verosimilitud Máxima verosimilitud en filogenias (I) • A medida que tenemos más datos, la estima de máxima verosimilitud mejora. • Fisher (1922) demostró que las estimas de máxima verosimilitud tienen una serie de propiedades convenientes, que incluyen: – Consistencia: convergencia al valor correcto del parámetro a medida que se disponen de más datos. – Eficiencia: tener la varianza mínima posible alrededor del valor verdadero del parámetro. • • • • Los datos son el alineamiento de secuencias de DNA observado, y la incógnita es el árbol (topología + longitudes de rama). Necesitamos un modelo de evolución que explique la conversión de una secuencia en otra. Este modelo puede estar completamente definido, o puede incluir parámetros que han de ser estimados a partir de los datos. Evaluamos la probabilidad de que la hipótesis evolutiva considerada (árbol + modelo evolución) haya generado el alineamiento de secuencias de DNA observado. La filogenia se infiere buscando la hipótesis evolutiva que resulta en la máxima verosimilitud. Sir R.A. Fisher (1890-1962) Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Joe Felsenstein (1942-) Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Máxima verosimilitud en filogenias (II) Cálculo de la verosimilitud de un árbol (I) La verosimilitud (L) es proporcional a la probabilidad de los datos (D) dado un modelo de evolución (M), un vector ! de K parámetros del modelo de evolución, una topología ! y un vector " de longitudes de rama. L = P(D M ,! , " , # ) • • • Enraíza el árbol en cualquier nodo interno (los modelos son tiemporeversibles). Asumiendo independencia de las ramas, calcula L para cada sitio por separado (Lj). Asumiendo independencia de los caracteres, combina todos los valores de Lj para cada sitio para obtener un valor global L. ! = ln P(D M ,!ˆ, "ˆ, #̂ ) Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Máxima verosimilitud Cálculo de la verosimilitud de un árbol (II) • • • Cálculo de la verosimilitud de un árbol (III) Para calcular L para un sitio j, debemos de considerar todos los escenarios posibles que pudieron haber dado lugar a los estados observados En la raíz, nodo 6, pudo haber existido A, C, T o G. Para cada una de esas posibilidades, en el nodo 5 a su vez pudo haber existido A, C, T o G En este caso hay 16 posibilidades, calculamos la probabilidad de cada una de ellas y las sumamos (asumimos que las ramas son independientes): Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Cálculo de la verosimilitud de un árbol (IV) Algoritmo de poda (“pruning algorithm”) • En un árbol con n especies hay n-1 nodos internos, y cada uno puede tener uno de 4 estados. Sumamos 4n-1 términos. Para n=20,…. ¡sumaríamos 274.877.906.944 términos!! Asumiendo que los N sitios son independientes, multiplicamos las verosimilitudes para cada sitio: N L = L(1) i!L(2) i!…!i!L( N ) = ! L( j ) • Se puede economizar mucho mediante el algoritmo de poda, que usa las verosimilitudes condicionales de los subárboles desde las puntas del árbol hacia la raíz. Implica sumar tan solo (n–1) # 16 términos. j =1 • Los valores de L(i) en las puntas del árbol serán 0 o 1, según su estado. Pero estos valores son extremadamente pequeños, así que: N ln L = ln L(1) + ln L(2) +!…!+!ln L( N ) = ! ln L( j ) • La verosimilitud del nodo “raíz”, ponderada por la frecuencia de las bases nos dará la verosimiitud total. j =1 Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Máxima verosimilitud Ejemplo del cálculo Reconstrucción de estados ancestrales L( j ) = " ! m m • El algoritmo de poda nos proporciona la contribución que cada estado hace a la verosimilitud total en ese sitio. • Estimación marginal: la estima de máxima verosimilitud será aquel estado con mayor contribución. • Estimación conjunta: la combinación de estados con mayor contribución a la verosimilitud total en ese sitio. % ( #! ' " Pm, k ($ FG )Pk, xAj ($ AF )Pk, xBj ($ BF ) * & k ) % ( #! ' " Pm,l ($ GH )Pl, xDj ($ DH )Pl, xEj ($ EH ) * & l ) #!Pm, xCj ($ CG ) Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Máxima verosimilitud Estimación de las longitudes de rama Parsimonia versus máxima verosimilitud • Se beneficia del uso del algoritmo de poda, ya cada rama conecta dos subárboles. •Parsimonia busca la solución que minimiza la tasa de cambio necesaria para explicar los datos (subestima cambios múltiples). • En general se optimizan las ramas de una en una, hasta que el proceso converge, o se pueden maximizar simultáneamente. •Máxima verosimilitud intenta estimar la tasa real de cambio, especificando un modelo de evolución. Los métodos que utilizan explícitamente modelos de evolución hacen un uso más eficiente de los datos. • Hasta hace poco se la optimización de topología y la estimación de las longitudes de rama eran pasos alternativos. El algoritmo del programa PHYML propone diferentes “movimientos” y es mucho más rapido. •Máxima verosimilitud tiene en cuenta las longitudes de las ramas. •La atracción de las ramas largas no afecta al método de máxima verosimilitud. •Máxima verosimilitud es mucho más lento que parsimonia. Lección 7. Verosimilitud Análisis filogenético 2006 David Posada Lección 7. Verosimilitud Análisis filogenético 2006 David Posada