Download Construcción y análisis de árboles filogenéticos

Document related concepts

Árbol filogenético wikipedia , lookup

Árbol Cartesiano wikipedia , lookup

Aprendizaje basado en árboles de decisión wikipedia , lookup

Transcript
Construcción y análisis
de árboles filogenéticos
Antonio Gómez Tato
Introducción
Árboles filogenéticos
Surgen a partir de la teoría
de la evolución de Darwin.
Son representaciones
gráficas de las relaciones
evolutivas entre un grupo
de organismos vivos.
Primer árbol filogenético
debido a Haeckel 1866
Todas las especies descienden
por evolución de una especie
ancestral común.
La aparición de una nueva
especie se produce por la
subdivisión de una existente
en dos subespecies que han
divergido tanto que pierden
la capacidad de cruzarse.
Los
conocimientos
también
evolucionan
http://tolweb.org/tree/
phylogeny.html
Página web del proyecto
“The tree of Life” donde
se muestra la raíz del
árbol universal.
Estamos hablando
de hace unos 3.000
millones de años
Métodos de distancia
Algo
más
cercano
Métodos de distancia
Estamos lejos
de entender lo
que dicen los
restos fósiles
Árboles filogenéticos
Punto de vista matemático
Ejemplo: Árbol filogenético para el grupo Hominidae
Orangután
Gorila
Raíz
án
t
u
ng
Chimpancé
a
Or
a
oril
G
c
pan
im
Ch
é
Ardiphitecus
Australophitecus
Humanos
Tiempo
Ejemplo: Árbol filogenético para el grupo Hominidae
Orangután
Gorila
Raíz
Chimpancé
Ardiphitecus
Australophitecus
Comienza la existencia
del ancestro común a
Austrolophitecus y Humanos
Periodo evolutivo del
ancestro común a
Austrolophitecus y Humanos
Momento en que
aparece la especie humana
Tiempo
Humanos
Ejemplo: Árbol filogenético para el grupo Hominidae
Orangután
Nodos
Gorila
Raíz
Chimpancé
Hojas
Ardiphitecus
Australophitecus
Humanos
Tiempo
Las Topologías
¿Cuántos árboles (topologías) hay?
Para 3 taxones
A
A
B
B
B
A
C
C
C
(A,(B,C))
((A,B),C)
(B,(A,C))
¿Cuántos árboles hay?
Para 4
taxones
B
A
D
B
D
C
D
C
D
A
3x5=15
D
¿Cuántos árboles hay?
Para N taxones con raíz
3x5x7x…..x(2N-3)= (2N-3)!!
Para N taxones sin raíz
3x5x7x…..x(2N-5)= (2N-5)!!
Especies! !
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17 18
19 20
30 40
50
!
Número de árboles
1
1
3
15
105
945
10.395
135.135
2.027.025
34.459.425
654.729.075
13.749.310.575
316.234.143.225
7.905.853.580.625
213.458.046.676.875
6.190.283.353.629.375
191.898.783.962.510.625
6.332.659.870.762.850.625
221.643.095.476.699.771.875
8.200.794.532.637.891.559.375
4.9518x1038
1.00985x1057
2.75292x1076
Segundos por año
365x24x60x60 = 31.536.000
Un Pentium IV ejecuta
4.000.000 de
instrucciones por segundo
Instrucciones en un año:
126.144x109
Si en cada instrucción
visitase un árbol tardaría...
Especies!
20
30 Años
65.011.380
3.925x1025
¡No hay que desesperar!
• No es necesario visitar TODOS los árboles
posibles.
• Hay procedimientos (algoritmos) de tipo
heurístico que permiten hacer una búsqueda
rápida y efectiva aunque no exhaustiva de los
“mejores” árboles.
La estimación
Orangután
Gorila
Chimpancé
Ardipithecus
Australopithecus
Hombres
Orangután
Gorila
Chimpancé
Hombres
Los datos
¿Qué datos se usan?
Secuencias
Secuencias alineadas “sin huecos” de ADN, ARN o mARN.
¿Qué datos se usan?
Secuencias
Datos morfológicos
Tabla de caracteres morfológicos codificados
¿Qué datos se usan?
Secuencias
Datos morfológicos
Lista ordenada
Lista ordenada de genes si se dispone
del genoma completo
¿Qué datos se usan?
Secuencias
Lugares de restricción, SNPs, Secuencias de
aminoácidos, etc
Datos morfológicos
Lista ordenada
En este curso nos
restringiremos a las secuencias
de ADN, ARN o mARN
Los métodos
Principales métodos
Métodos de distancia
Máxima parsimonia
Máxima verosimilitud
Métodos de distancia
Modelo
biológico
Estimación
ión
tru
Co
ns
ac
Modelo
biológico
tim
Es
cc
ió
n
Datos
Árbol
filogenético
Matriz
de distancias
Métodos de distancia
¿Qué mide la distancia
entre dos especies?
• Habitualmente la distancia entre dos especies mide el
número de años (o generaciones) transcurridos desde la
subdivisión de la especie ancestral común en las dos
especies en cuestión.
• Esa distancia no es conocida y hay que estimarla a partir de
los datos usando modelos evolutivos.
• El modelo usado depende, entre otros factores, del tipo de
datos que se tiene, del tipo de organismo y del criterio del
investigador.
Métodos de distancia
La matriz de distancias

T1
T2
.. 

.
Tn
T
T11
d11
d21
...
dn1
T
T22 .. .. .. T
Tn
d12 . . . d1n
d22 . . . d23
... ... ...
dn2 . . . dnn




dij es la distancia observada entre las especies i,j.
En general no es una distancia en el sentido
matemático del término
Métodos de distancia

d11
 d21

 ...
dn1
d12
d22
...
dn2

. . . d1n
. . . d2n 

... ... 
. . . dnn
Construcción
Cálculo
Métodos de distancia
La distancia medida en un árbol es “aditiva”
Dados 4 taxones A B C D
B
D
v
u
C
A
dAB + dCD ≤ max(dAC + dBD , dAD + dBC )
Métodos de distancia
Si el árbol tiene raíz, la distancia es ultramétrica
v1
v2
A
Dados tres taxones
cualesquiera, A,B,C, se tiene:
B
Hay uno que equidista de
los otros dos. (En el caso
de la figura, el A)
C
Esa distancia es mayor que
la distancia entre los dos
restantes.
v3
v4
dAC = v1 + v2 + v4 = v1 + v2 + v3 = dAB > dBC
Métodos de distancia
Si la matriz de distancia
corresponde a una
distancia ultramétrica
se puede reconstruir el
árbol de forma única
Se busca el
mínimo de las
distancias
C y D son las
más próximas
Paso 1
Métodos de distancia
Si la matriz de distancia
corresponde a una
distancia ultramétrica
se puede reconstruir el
árbol de forma única
UPGMA
dU A
(dAC + dAD )
=
2
Métodos de distancia
Si la matriz no es ultramétrica
Ancestro
común a B y C
B C
A
D
Datos
B
C
Reconstrucción
El algoritmo de Neighbor-Joining intenta corregir el
problema
Métodos de distancia
El algoritmo de Neighbor-Joining
El procedimiento es el mismo que el del UPGMA, salvo
que para buscar el mínimo usa una distancia corregida.
La idea es cambiar la noción de vecino.
Vecinos serán aquellos que están próximos pero
también alejados de los demás.
Métodos de distancia
El ajuste por mínimos cuadrados
El algoritmo de Fitch-Margoliash (1967)
A
DAB = v1 + v2
B
v1
v3
v2
C
v4
v5
D
DAB = 1 ∗ v1 + 1 ∗ v2 + 0 ∗ v3 + 0 ∗ v4 + 0 ∗ v5








1
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
0
0
1
0
1
0
1
0
0
1
0
1
1














v1
v2
v3
v4
v5










= 



DAB
DAC
DAD
DBC
DBD
DCD








Métodos de distancia
El ajuste por mínimos cuadrados
El algoritmo de Fitch-Margoliash (1967)
Para cada topología estimar los vi que minimizan
n !
n
!
1
2
Q=
(D
−
d
)
ij
ij
2
d
i=1 j=1 ij








1
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
0
0
1
0
1
0
1
0
0
1
0
1
1














v1
v2
v3
v4
v5










= 



DAB
DAC
DAD
DBC
DBD
DCD








Métodos de distancia
El ajuste por mínimos cuadrados
El algoritmo de Fitch-Margoliash (1967)
Fijada la topología encontrar la solución
es un problema sencillo.
Si no hay muchos taxones se busca la
mejor entre todas las topologías
Matriz=topología








1
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
0
0
1
0
1
0
1
0
0
1
0
1
1








n !
n
!
1
Q=
(Dij − dij )2
2
d
i=1 j=1 ij






v1
v2
v3
v4
v5










= 



DAB
DAC
DAD
DBC
DBD
DCD








Métodos de distancia
El ajuste por mínimos cuadrados
El algoritmo de Fitch-Margoliash (1967)
Fijada la topología encontrar la solución
es un problema sencillo.
Si no hay muchos taxones se busca la
mejor entre todas las topologías
En otro caso se recurre a algoritmos
heurísticos para encontrar una
solución aceptable
n !
n
!
1
Q=
(Dij − dij )2
2
d
i=1 j=1 ij
Matriz=topología








1
1
1
0
0
0
1
0
0
1
1
0
0
1
1
1
1
0
0
1
0
1
0
1
0
0
1
0
1
1










v1
 v2 


 v3 


 v4 
v5




= 



DAB
DAC
DAD
DBC
DBD
DCD








Cálculo de distancias
¿Cómo se calculan las distancias
entre secuencias de nucleótidos?
Podemos pensar en usar como distancia la proporción
de no coincidencias entre los nucleótidos; pero esta
distancia no refleja correctamente el proceso evolutivo.
Podría pasar que después de varias mutaciones
volviésemos al mismo nucleótido de partida
Lo más correcto es usar un modelo probabilístico de
evolución de nucleótidos.
Los modelos de
evolución
La probabilidad entra en escena
Las secuencias evolucionan mediante mutaciones,
inserciones, delecciones, etc. Nosotros nos
vamos a restringir al caso de mutaciones.
Hay muchos modelos aplicables. Nosotros sólo
veremos los dos más sencillos, Jules-Cantor y
Kimura con dos parámetros.
La probabilidad entra en escena
Los modelos sencillos asumen que en una
secuencia cada “sitio” evoluciona de forma
independiente.
Dadas dos
secuencias alineadas
La probabilidad de que
S haya evolucionado a
partir de R en un
tiempo t es:
S = s1 s2 s3 . . . sn−1 sn
R = r1 r2 r3 . . . rn−1 rn
P (S | R, t) =
n
!
P (si | ri , t)
i=1
Sólo necesitamos el modelo de evolución de cada sitio
Sólo necesitamos el modelo de evolución de cada sitio
Como en cada sitio puede haber 4 estados A,G,C,T
necesitamos conocer las probabilidades de cada una
de las mutaciones en un tiempo t.


P (A | A, t) P (A | G, t) P (A | C, t) P (A | T, t)
 P (G | A, t) P (G | G, t) P (G | C, t) P (G | T, t) 


 P (C | A, t) P (C | G, t) P (C | C, t) P (C | T, t) 
P (T | A, t) P (T | G, t) P (T | C, t) P (T | T, t)
Para modelizar se usan cadenas de Markov
continuas, por lo que la matriz anterior no se da
directamente. En su lugar se da la matriz de
“velocidades”
Modelo de Jules-Cantor (1969)
Matriz de “velocidades”

−3α
 α

 α
α
α
−3α
α
α
α
α
−3α
α

α
α 

α 
−3α
Matriz de probabilidades










1
4
+
3 −4αt
4e
1
4
−
1 −4αt
4e
1
4
−
1 −4αt
4e
1
4
−
1 −4αt
4e
1
4
− 41 e−4αt
1
4
+ 34 e−4αt
1
4
− 14 e−4αt
1
4
− 14 e−4αt
1
4
− 41 e−4αt
1
4
− 14 e−4αt
1
4
+ 34 e−4αt
1
4
− 14 e−4αt
1
4
− 41 e−4αt
1
4
− 14 e−4αt
1
4
− 14 e−4αt
1
4
+ 34 e−4αt










Modelo de Kimura 2 parámetros
A
G
Purinas
C
T
Piramidinas
Transiciones
Transversiones
Kimura (con dos parámetros)
A
G
C
T
A
−α − 2β

α


β
β

G
α
−α − 2β
β
β
C
β
β
−α − 2β
α
T
β
β
α
−α − 2β




Matriz de probabilidades
1
s = (1 − e−4βt )
4
A
C
G
T
A
r
s
u
s
G
s
r
s
u
C
u
s
r
s
T
s
u
s
r
1
u = (1 + e−4βt − 2e−2(α+β)t )
4
r = 1 − 2s − u
Una vez escogido el modelo, la distancia entre dos
secuencias se puede pensar como la suma del tiempo
de evolución transcurrido desde la “bifurcación” de su
ancestro común más cercano
R
S
Ancestro?
El problema es que este ancestro no es conocido!!
Por lo tanto hay que estimar esa distancia evolutiva.
La forma más usual, ya que estamos metidos de
lleno en probabilidades, es buscar lo más probable
(verosimil).
Como los sitios se suponen evolucionan de
forma independiente, nos basta trabajar el
principio con secuencias de longitud 1.
R
S
Datos iniciales:
El árbol, los nucleótidos de S y R
V1
V2
Datos a estimar: v1, v2
Ancestro?
Si el ancestro fuese una G tendríamos
Esto nos lo da el modelo
elegido
Como el ancestro puede ser cualquier nucleótido
de forma equiprobable obtenemos:
Lo que buscamos son los valores de v1, v2 que
hagan máxima esa probabilidad.
Como los modelos que usamos son reversibles, esa
probabilidad sólo depende de la suma v1+v2.
(Principio de la polea de Felsenstein)
Máxima verosimilitud
Máxima verosimilitud
Para un árbol arbitrario, se puede hacer algo análogo,
salvo que tendremos muchos más parámetros que
estimar.
El método de máxima verosimilitud se basa en la
optimización de una función de verosimilitud obtenida a
partir del árbol bajo el establecimiento de un modelo de
evolución y unas premisas o hipótesis simplificadoras.
Computacionalmente, si para un árbol, la búsqueda del
óptimo no es sencilla, la búsqueda del árbol óptimo es
casi imposible si el número de taxones es alto.
Máxima verosimilitud
Hipótesis iniciales (Felsenstein 1981) :
•Todos los sitios evolucionan de manera independiente.
•Todos
•Una
evolucionan según el mismo modelo y con la
misma velocidad.
vez se produce una ramificación, las nuevas
especies evolucionan de forma independiente.
Máxima verosimilitud
mejoras en el modelo
•Todos
los sitios evolucionan de manera independiente.
Hay evidencias de que sitios cercanos tienen una
dependencia evolutiva. Se intenta modelizar dicha
dependencia por modelos de Markov ocultos (HMM).
(Felsenstein Churchill 1996)
Máxima verosimilitud
mejoras en el modelo
•Todos
los sitios evolucionan según el mismo modelo y
con la misma velocidad (“rates”).
Se intenta solucionar permitiendo que los parámetros
que nos dan la velocidad de evolución se ajusten a una
cierta distribución.Yang 1994
Se mejoran los modelos, introduciendo muchos más
parámetros que permitan distintas tasas de mutación
entre los diferentes nucleótidos.
Etc…
Consecuencias
Computacionalmente es cada vez más complejo
ya que aparecen más parámetros, las secuencias
disponibles son más grandes y el número de ellas
es creciente.
A pesar del constante crecimiento de la capacidad
de cálculo de los ordenadores, esta sigue siendo
insuficiente y aparecen soluciones mediante la
paralelización de los algoritmos o el uso de redes
de ordenadores.
Se investiga activamente en la búsqueda de
soluciones analíticas.
Máxima parsimonia
Máxima parsimonia
Parece ser el más usado.
La idea de partida es que las hipótesis simples son
mejores que las más complejas y que las hipótesis
“ad hoc” deben ser evitadas si es posible.
Lo que se busca es encontrar el mínimo número
de cambios que explique los datos.
Máxima parsimonia
El algoritmo más simple es el de Fitch.
En un primer paso, se recorre el árbol hacia la
raíz para determinar el número mínimo de
cambios que se necesitan.
En un segundo paso se intenta, ya partiendo de la
raíz, reconstruir las secuencias de los ancestros
para obtener ese número mínimo.
Como los cambios en un sitio no afectan a los
otro sitios, se puede hacer sitio a sitio.
Máxima
parsimonia
a
g
a
1
2
3
a
t
4 5
Reconstrucción
{a,t}
{a, g}
{a}
{a}
El número mínimo de
cambios es 2.
Temas adicionales
Árboles consenso
Como los distintos métodos pueden dar distintos
árboles para una misma colección de datos, se
suelen hacer unos árboles consenso. Hay distintos
criterios y los árboles resultantes no tienen
porqué ser binarios.
Tipo de criterio: Si un nodo es compartido por la
mayoría de los árboles se adopta en el árbol
consenso.
Superárboles
Está apareciendo una nueva técnica que sirve para
englobar árboles de muy distintas procedencias. Por
ejemplo:
Árboles de datos morfológicos, de distintos genes, de
distintos cromosomas o de distintos autores.
Hay diversos métodos que no vamos a exponer.
Se puede pensar esa técnica como una etapa posterior
a un proceso del tipo “divide y vencerás” es decir, el
conjunto de datos dividirlo según distintos criterios y
después armonizar toda la información en un
superárbol.
Redes filogenéticas
Hay algunos investigadores que se cuestionan el uso
de árboles binarios, ya que los consideran que es un
modelo demasiado simple para una realidad tan
compleja.
Además parece que hay indicios de una transferencia
horizontal de genes entre especies, por lo que se
propugna el uso de redes filogenéticas en lugar de los
árboles. El tema está en sus comienzos.
Resumen
La filogenética es una ciencia antigua, pero la
aparición de nuevos tipos de datos “moleculares”
la renueva y da lugar a la filogenética molecular.
•
•Hay
tres (tipos) de métodos de reconstrucción:
distancia, verosimilitud y parsimonia. Todos con
sus ventajas e inconvenientes.
•El
problema de alineación múltiple es tan
complejo como el de reconstrucción filogenética.
•Las
soluciones generalmente no son las óptimas y
además muchas veces no está garantizado que
provengan de un máximo local.
Epílogo
La aparición de más datos e incluso de nuevos
tipos de datos necesita de la mejora y desarrollo
de nuevos y más potentes métodos.
•
• Ante
un problema real, lo mejor es aplicar varios
métodos y quedarnos con el más coherente con
nuestras hipótesis biológicas o con lo aceptado
hasta el momento. No derribar el “castillo” sin
grandes evidencias en contra.
• Existen
tests estadísticos, pero están en
constante controversia. Usarlos, pero con cuidado.
Muchas gracias