Download Lección 7. Máxima verosimilitud Deducción El método de

Document related concepts
no text concepts found
Transcript
Máxima verosimilitud
Deducción
… Usted no quiere aplicar mis preceptos –me observó Sherlock.
¿Cuántas veces le he dicho que una vez eliminado lo imposible, lo
que queda debe ser la verdad, por improbable que parezca? …
Lección 7. Máxima verosimilitud
Sherlock Holmes al Dr. Watson en
El Signo de los Cuatro, de A. Conan Doyle.
Curso “Análisis filogenético”
David Posada
Máster de Bioestadística 2006
Universidad de Santiago de Compostela
Marzo 2006
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Máxima verosimilitud
El método de parsimonia ideal
•
•
El método de máxima verosimilitud
Idealmente, nos gustaría tener un método de parsimonia que
– Tenga en cuenta las reconstrucciones de estados ancestrales más
parsimoniosas pero también las menos parsimoniosas
– Le diese un peso diferente a los cambios según la longitud de la
rama en la que ocurren
– Le diese un peso diferente a cambios diferentes (p.e., transiciones
vs. transversiones)
•
L = P(D|H) = probabilidad de los datos dada una hipótesis.
•
Si tiramos una moneda 11 veces y obtenemos !!!!!!!!!!!, cual
es la probabilidad esperada p de que salga !al tirar la moneda?
L = P(D | p) = pp(1 ! p)(1 ! p)p(1 ! p)pp(1 ! p)(1 ! p)(1 ! p) = p 5 (1 ! p)6
dL " 5
6 % 5
=
!
p (1 ! p)6 = 0
dp $# p 1 ! p '&
5 ! 11p = 0
5
p̂ =
= 0.454
11
Ese método existe. Se llama máxima verosimilitud
–… pero requiere un modelo de evolución creíble
–…y es computacionalmente intensivo
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
ln L = 5 ln p + 6 ln(1 ! p)
d(ln L) 5
6
= !
=0
dp
p 1! p
5 ! 11p = 0
5
p̂ =
= 0.454
11
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Máxima verosimilitud
Máxima verosimilitud
Máxima verosimilitud en filogenias (I)
•
A medida que tenemos más datos, la estima de máxima verosimilitud
mejora.
•
Fisher (1922) demostró que las estimas de máxima verosimilitud tienen
una serie de propiedades convenientes, que incluyen:
– Consistencia: convergencia al valor correcto del parámetro a
medida que se disponen de más datos.
– Eficiencia: tener la varianza mínima posible alrededor del valor
verdadero del parámetro.
•
•
•
•
Los datos son el alineamiento de secuencias de DNA observado, y la incógnita
es el árbol (topología + longitudes de rama).
Necesitamos un modelo de evolución que explique la conversión de una
secuencia en otra. Este modelo puede estar completamente definido, o puede
incluir parámetros que han de ser estimados a partir de los datos.
Evaluamos la probabilidad de que la hipótesis evolutiva considerada (árbol +
modelo evolución) haya generado el alineamiento de secuencias de DNA
observado.
La filogenia se infiere buscando la hipótesis evolutiva que resulta en la máxima
verosimilitud.
Sir R.A. Fisher (1890-1962)
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Joe Felsenstein (1942-)
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Máxima verosimilitud en filogenias (II)
Cálculo de la verosimilitud de un árbol (I)
La verosimilitud (L) es proporcional a la probabilidad de los datos
(D) dado un modelo de evolución (M), un vector ! de K
parámetros del modelo de evolución, una topología ! y un vector
" de longitudes de rama.
L = P(D M ,! , " , # )
•
•
•
Enraíza el árbol en cualquier nodo interno (los modelos son tiemporeversibles).
Asumiendo independencia de las ramas, calcula L para cada sitio por
separado (Lj).
Asumiendo independencia de los caracteres, combina todos los
valores de Lj para cada sitio para obtener un valor global L.
! = ln P(D M ,!ˆ, "ˆ, #̂ )
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Máxima verosimilitud
Cálculo de la verosimilitud de un árbol (II)
•
•
•
Cálculo de la verosimilitud de un árbol (III)
Para calcular L para un sitio j, debemos de considerar todos los
escenarios posibles que pudieron haber dado lugar a los estados
observados
En la raíz, nodo 6, pudo haber existido A, C, T o G.
Para cada una de esas posibilidades, en el nodo 5 a su vez pudo
haber existido A, C, T o G
En este caso hay 16 posibilidades, calculamos la probabilidad de cada
una de ellas y las sumamos (asumimos que las ramas son
independientes):
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Cálculo de la verosimilitud de un árbol (IV)
Algoritmo de poda (“pruning algorithm”)
• En un árbol con n especies hay n-1 nodos internos, y cada uno puede
tener uno de 4 estados. Sumamos 4n-1 términos. Para n=20,….
¡sumaríamos 274.877.906.944 términos!!
Asumiendo que los N sitios son independientes,
multiplicamos las verosimilitudes para cada sitio:
N
L = L(1) i!L(2) i!…!i!L( N ) = ! L( j )
• Se puede economizar mucho mediante el algoritmo de poda, que usa
las verosimilitudes condicionales de los subárboles desde las puntas del
árbol hacia la raíz. Implica sumar tan solo (n–1) # 16 términos.
j =1
• Los valores de L(i) en las puntas del árbol serán 0 o 1, según su
estado.
Pero estos valores son extremadamente pequeños, así que:
N
ln L = ln L(1) + ln L(2) +!…!+!ln L( N ) = ! ln L( j )
• La verosimilitud del nodo “raíz”, ponderada por la frecuencia de las
bases nos dará la verosimiitud total.
j =1
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Máxima verosimilitud
Ejemplo del cálculo
Reconstrucción de estados ancestrales
L( j ) = " ! m
m
•
El algoritmo de poda nos proporciona la contribución que cada estado
hace a la verosimilitud total en ese sitio.
•
Estimación marginal: la estima de máxima verosimilitud será aquel
estado con mayor contribución.
•
Estimación conjunta: la combinación de estados con mayor
contribución a la verosimilitud total en ese sitio.
%
(
#! ' " Pm, k ($ FG )Pk, xAj ($ AF )Pk, xBj ($ BF ) *
& k
)
%
(
#! ' " Pm,l ($ GH )Pl, xDj ($ DH )Pl, xEj ($ EH ) *
& l
)
#!Pm, xCj ($ CG )
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Máxima verosimilitud
Estimación de las longitudes de rama
Parsimonia versus máxima verosimilitud
•
Se beneficia del uso del algoritmo de poda, ya cada rama conecta dos
subárboles.
•Parsimonia busca la solución que minimiza la tasa de cambio necesaria para
explicar los datos (subestima cambios múltiples).
•
En general se optimizan las ramas de una en una, hasta que el
proceso converge, o se pueden maximizar simultáneamente.
•Máxima verosimilitud intenta estimar la tasa real de cambio, especificando un
modelo de evolución. Los métodos que utilizan explícitamente modelos de
evolución hacen un uso más eficiente de los datos.
•
Hasta hace poco se la optimización de topología y la estimación de las
longitudes de rama eran pasos alternativos. El algoritmo del programa
PHYML propone diferentes “movimientos” y es mucho más rapido.
•Máxima verosimilitud tiene en cuenta las longitudes de las ramas.
•La atracción de las ramas largas no afecta al método de máxima verosimilitud.
•Máxima verosimilitud es mucho más lento que parsimonia.
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada
Lección 7. Verosimilitud
Análisis filogenético 2006
David Posada