Download Estimación del número de sustituciones de nts. entre secuencias

Document related concepts

Aprendizaje basado en árboles de decisión wikipedia , lookup

Árbol Cartesiano wikipedia , lookup

Codificación Huffman wikipedia , lookup

Árbol filogenético wikipedia , lookup

Árbol binario indexado wikipedia , lookup

Transcript
Biogeografía
Filogeografía
Fundamentos
Definición
• Filogeografía :
– Herramienta para examinar el patrón geográfico
dela distribución de un linaje de genes dentro
de una o varias especies (Avise, 2008).
– Hace posible poder inferir el papel de eventos
pasados en la actual forma de patrones de
biodiversidad (Excoffier, 2004)
Definición
• Filogeografía:
– Trata de entender los procesos que explicarían
la distribución de la variación genética entre y
dentro de especies cercanamente relacionadas
(Knowles, 2010) .
Filogeografía del caracol de agua dulce
Biomplhilaria glabrata (tomado de Bloomquist et al.
2010)
Generación de datos masivos de secuenciación
por SNG (Wang et al. Nature Protocols 11:2189. 2016)
Datos para realizar análisis
filogeográficos
• Secuencias de ADN (más 3 secuencias o
genes)
• Más de 100 individuos (de una o varias
especies N=6-30)
• Más de 10 poblaciones
Datos
• Secuencias de ADN:
– Mitocondrial por amplificación selectiva y
secuenciación por Sanger de genes (cox1, cytb,
nad4, RC, 16S), genera secuencias o
haplotipos.
– Nuclear por secuenciación de Sanger (200 a
800nts) (regiones codificantes de genes o no),
SNG por RAD o secuenciación de genomas.
Análisis de COI en lepidoptera
(Wilson 2010)
Análisis de
miniCOI
en insectos
acuáticos
(Hajibabaei et al
2011)
Análisis de miRNA en sipunculidos (Sperling
2009)
Fuentes de WWW para filogenia molecular
(1)
Compilaciones
 Lista de sitios y fuentes:
http://www.ucmp.berkeley.edu/subway/phylogen.html
 List de programas de filogenia
http://evolution.genetics.washington.edu/
phylip/software.html
• Bases de datos de sec. de rARN sequences y
programas asociados
 The rRNA WWW Server - Antwerp, Belgium.
http://rrna.uia.ac.be
 The Ribosomal Database Project
- Michigan State University
http://rdp.cme.msu.edu/html/
Manipulación de secuencias
Fuentes de WWW para filogenia molecular
(1)
Bases de datos públicas de secuencias
 NCBI GeneBank:
https://www.ncbi.nlm.nih.gov/nuccore/
 EMBL-EBI: http://www.ebi.ac.uk/ena
 DDBJ: http://www.ddbj.nig.ac.jp/
 Phytozome: https://phytozome.jgi.doe.gov/pz/portal.html
 DNA Barcoding: http://www.barcodeoflife.org/
 Fish Bol: http://www.fishbol.org/
Fuentes de WWW para filogenia molecular (2)
Búsqueda de similitud en BD (Blast o
Blastp) :

http://www.ncbi.nlm.nih.gov/BLAST/

Alineamiento de sec. múltiple
ClustalW : alineamiento de sec. múltiple con interfase gráfica
(todas las plataformas).
http://www.ebi.ac.uk/FTP/index.html
MAFFT:rápido.
http://www.ebi.ac.uk/Tools/msa/mafft/
MUSCLE: mejor que ClustalW
http://www.ebi.ac.uk/Tools/msa/muscle/
Arboles generados por CLUSTAL (izq) y MUSCLE
(der)
Fuentes de WWW para filogenia molecular (3)
• Editor de alineamiento de Sec.
 BioEdit: windows. http://www.mbio.ncsu.edu/bioedit/bioedit.html
 MEGA: windows y Mac. www.megasoftware.ne
 MESQUITE: windowns, linux/unix y Mac.
http://mesquiteproject.wikispaces.com/installation
 STADEN: windows, mac. http://staden.sourceforge.net/
 SEAVIEW : windows and unix
http://pbil.univ-lyon1.fr/software/seaview.html
Fuentes de WWW para filogenia molecular (3)
• Programas para filogenia molecular
•







PHYLIP : todas las platforms. ML
http://evolution.genetics.washington.edu/phylip.html
PAUP* : a very performing commercial package (libre). MP
http://paup.csit.fsu.edu/index.html
MrBayes : Bayesian phylogenetic analysis
http://www.molecularevolution.org/software/phylogenetics/mrbayes
CIPRES2: (https://www.phylo.org/). Dispone de Distancia, ML, Bayes, MP
RAxML: http://sco.h-its.org/exelixis/web/software/raxml/index.html
PHYML : fast maximum likelihood tree building
http://www.lirmm.fr/~guindon/phyml.html
BEAST (http://beast.bio.ed.ac.uk/beast): coalescente y especiación por métodos
bayesianos. Tiene varios programas ligados (BEAUti, FigTree). Sobre todo para
filogeografía.
SplitsTree (http://www.splitstree.org/): tiene opciones para UPGMA, NJ, ML, MP,
Mediannetwork, Medianjoining, MinSpanningnetwork (últimas tres opciones para
análisis de poblaciones, haplotipos, agrupaciones sin outgroup) y aplicar análisis de
reemplazo (bootstrap). Requiere archivo en formato nexus.
Software libre
Básicos
• BioEdit
• Jmodeltest
• Mega
• DNASp
• SplitsTree
• TCS
Tentativos
• Mesquite
• Beast
• BaySCIS
• MrBayes
Estimación del número de
sustituciones de nts. entre secuencias
• Las sustituciones pueden tomar miles o millones de
años (secuencias de virus cambian de generación en
generación). Por lo tanto hay que basarse en la
comparación de secuencias que han sido derivadas
de una secuencia de un ancestro común.
• Las tasas de sustitución entre secuencias
codificantes de proteínas y no-codificantes son
distintas.
Tipos básico de sustituciones
Código genético
TTT
TTC
TTA
TTG
Phe
Phe
Leu
Leu
TCT
TCC
TCA
TCG
Ser
Ser
Ser
Ser
TAT
TAC
TAA
TAG
Tyr
Tyr
stop
stop
TGT
TGC
TGA
TGG
Cys
Cys
stop
Trp
CTT
CTC
CTA
CTG
Leu
Leu
Leu
Leu
CCT
CCC
CCA
CCG
Pro
Pro
Pro
Pro
CAT
CAC
CAA
CAG
His
His
Gln
Gln
CGT
CGC
CGA
CGG
Arg
Arg
Arg
Arg
ATT
ATC
ATA
ATG
Ile
Ile
Ile
Met
ACT
ACC
ACA
ACG
Thr
Thr
Thr
Thr
AAT
AAC
AAA
AAG
Asn
Asn
Lys
Lys
AGT
AGC
AGA
AGG
Ser
Ser
Arg
Arg
GTT
GTC
GTA
GTG
Val
Val
Val
Val
GCT
GCC
GCA
GCG
Ala
Ala
Ala
Ala
GAT
GAC
GAA
GAG
Asp
Asp
Glu
Glu
GGT
GGC
GGA
GGG
Gly
Gly
Gly
Gly
Calculó de Ka y Ks
•
Brevemente :
– Separa todos los sitios de 2 genes comparados en 3
categorías:
I: no degeneradas, II: parcialm. degenerados, III: totalm.
degenerados
– Calcula el No. de sitios no-sinónimos = I + 2/3 II
– Calcula el No. de sitios sinónimos = III + 1/3 II
– Calcula el No. de cambios sinónimos y no-sinónimos
– Calcula, con método K2p, Ka y Ks
• Frecuentemente, una de estas dos situaciones ocurren :
– Sec. evolutivamente cercanas : Ks es informativa, Ka no lo es.
– Sec. evolutivamente distantes : Ks esta saturada , Ka es
informativa.
Li, Wu & Luo (1985) Mol.Biol.Evol. 2:150
Ka y Ks : ejemplo
# sites
observed diffs.
J&C
K2P
KA
KS
10254
0.077
0.082
0.082
0.035
0.228
Urotrofina de rata (AJ002967) y ratón (Y12229)
Cambios múltiples o escondidos
• D (distance real evolutiva)  fracción de diferencias
observadas (p)
• D = p + cambios escondidos
• Por hipótesis sobre la naturaleza del proceso de
sustitución, es posible estimar D a partir de las
diferencias observadas entre las secuencias.
Modelos más populares para estimar
la tasa de sustitución
• Secuencias no-codificantes: Jukes & Cantor,
Kimura y Tajima & Nei.
• Secuencias codificantes: Li et al.
Método de Jukes & Cantor (1969)
• Estima K, el número actual de sustituciones por sitio
desde la divergencia de 2 sec.
• Asume que no hay sesgo en la dirección de cambio,
o sea, las sustituciones ocurren al azar.
• La tasa de sustitución en c/u de las posibles
direcciones es 3a por unidad de tiempo.
• La tasa de sustitución en c/u de las 3 posibles
direcciones es a.
Modelo de sustitución para una
dirección dada
Matriz de sustitución de nucleótidos
Método de Kimura ó 2 Parámetros
(1980)
• Las diferencias entre 2 sec. son calculadas en
transiciones (P) y transversiones (Q).
• Asume que no es aleatórea la sustitución. P es más
frecuente que Q.
• La tasa de sustitución en cada nt. es a por unidad
de tiempo, mientras que la tasa para los 2 tipos de
sustitución es b por unidad de tiempo.
Distancia de Kimura de dos parámetros (ADN)
• Hipótesis del modelo :
(a) Todos los sitios evolucionan independientemente y siguen los
mismos procesos.
(b) Sustituciones ocurren según dos pobabilidades:
Una para transiciones, una para transversiones.
Transiciones : G <—>A or C <—>T
Transversions : pu x py
(c) El proceso de sustitución de bases es constante en el tiempo.
• La cuantificación de distancia evolutiva (d) como una
función de la fracción de diferencias observadas (p:
transiciones, q: transversiones):
1
d = - ln[(1- 2 p - q) 1 - 2q ]
2
Kimura (1980) J. Mol. Evol. 16:111
PAM y distancias de Kimura (proteínas)
• Hipótesis del modelo (Dayhoff, 1979) :
(a) Todos los sitios evolucionan independientemente y siguen los
mismos procesos.
(b) Cada tipo de aa reemplazado es dado, probabilidad empírica :
Muchas proteínas similares secuenciadas se han colectado, las
probabilidades de reemplazo de cualquier aa por otro ha sido
tabulada.
(c) El proceso de sustitución de aa es constante en el tiempo.
• La cuantificación de distancia evolutiva(d) :
Número de reemplazos más compatibles con el patrón
observado de cambios de aa y las probabilidades de
reemplazo individuales.
• Aproximación empírica de Kimura:
2
d = - ln( 1 - p - 0.2 p ) (Kimura, 1983) donde p =
fracción de diferencias observadas
Método de Tajima & Nei (1984)
• Estima la varianza de K.
• No requiere asumir el supuesto de igualdad
de frecuencia de los 4 nts.
• Asume la estacionalidad de las frecuencias.
Método de Li et al. (1985)
• Los codones de iniciación y terminación son
excluidos.
• Sitios no-degenerados (L0): todos los cambios son
no-sinónimos (“missense” y “nonsense”).
• Sitios doble-degenerado (L2): si uno de los 3
posibles cambios es sinónimo.
• Cuadruple-degenerado: todos los cambios son
sinónimos.
Modelos de tasas de sustitución para
ADN
Arbol de decisión de modelo de tasa de
sustitución (ModelTest, 1998)
Modelo de tasa de sustitución (JModelTest)
(Posada, 2008)
Distancias vs. caracteres discretos
• Se basa en cómo se tratan los datos:
– métodos Distancia primero convierte las sec. alineadas en
matriz de distancia apareadas, luego usa la matriz para
construir el árbol según el método
– métodos Discretos considera cada sitio (o la función de
cada sitio) separadamente
Secuencias
Sitios
1
2
3
4
1
T
A
A
A
2
T
A
A
A
3
A
T
A
A
4
T
T
A
A
5
T
T
A
A
6
A
A
T
A
7
A
A
A
T
Distancias vs. caracteres discretos
1
Sequences
Sites
1
2
3
4
1
T
A
A
A
2
T
A
A
A
3
A
T
A
A
4
T
T
A
A
5
T
T
A
A
6
A
A
T
A
7
A
A
A
T
1
6
3
2
4
2
5
3
7
Arbol Parsimonia
4
Distancias vs. caracteres discretos
Sequences
Sites
1
2
3
4
1
T
A
A
A
2
T
A
A
A
3
A
T
A
A
4
T
T
A
A
5
T
T
A
A
6
A
A
T
A
7
A
A
A
T
1
3
2
1
1
2 3
3 5 4
4 5 4 2
1 2 3
2
1
2
4
Arbol Distancia
Métodos de Agrupamiento vs. métodos
de búsqueda
• Métodos de Agrupamiento siguen una serie de
pasos (algoritmo) y llegan a un árbol:
– Ventajas:
• Fácil implementación, resultando en programas
computación muy rápidos
• Siempre produce un solo árbol
– Desventajas:
• Resultados dependen del orden en que las sec. fueron
añadidas al árbol
• No permite evaluar dos hipótesis: dos árboles diferentes
podrían explicar bien los datos pero no la forma ajustar
la medición entre los datos y los árboles
Métodos de búsqueda
• Estos métodos usan criterio de optimación para escoger entre
un grupo de todos los árboles posibles:
– Se asigna un “valor” o “ámbito” a cada árbol en función de la
relación entre los datos y el árbol
– Requiere una función explícita entre el árbol y los datos (e.g.
modelo de cómo evoluciónan las sec.)
– Permite evaluar dos hipótesis de relaciones evolutivas de
datos
– Desventaja es muy costosa computacionalmente:
• Para un árbol y datos dados, qué valor es óptimo?
• Cuál de todos los posibles árboles tiene el valor máximo
de optimación?
Un método de optimación
A
4
B
A
6
E
C
A
11
A
10
D
C
C
A
12
D
B
D
A
C
=8
E
E
C
A
E
B
E
A
C
A
13
7
D
C
E
A
D
E
D
A
E
E
=1
5
D
C
C
E
D
14
D
B
D
E
C
C
A
B
E
B
A
B
C
B
E
=8
B
C
D
B
B
15
C
D
E
B
A
D
E
B
B
=1
D
=1
D
A
B
C
Métodos para reconstrucción
Filogenética
Cuatro familias de métodos :
– Métodos Distancia
– Parsimonia
– Métodos Maxima Similitud
– Métodos Bayesianos
Tipos de árboles Filogenéticos
• UPGMA y NJ: son métodos de distancia con
diferentes algoritmos de agrupamiento.
• MP y ML: son métodos discretos con diferentes
criterios de optimación.
Propiedades ideales para un método
ideal
1.- Eficiente: veloz
2.- Consistente: es perfectamente correcto
conforme se agragan más datos.
3.- Poderoso: produce resultados correctos con
pocos datos
4.-Robusto: invariable ante violaciones del modelo
supuesto
5.- Confiable: capaz de detectar violaciones del
modelo
Propiedades de los métodos para
construir árboles
• UPGMA es eficiente pero no es robusto para
supuestos del reloj molecular.
• NJ es preciso pero no siempre correcto
(“accurate”).
• ML no es eficiente pero es consistente y
confiable para supuestos del reloj molecular.
• MP es fácil de entender, más eficiente que el ML
pero menos directo de justificar
matemáticamente.
Método UPGMA o “ unweighted pairgroup method using arithmetic
averages”
• Se le atribuye a Sokal & Michener (1958).
• Conocido como fenograma, se usó
originalmente para representar el grado de
similitud fenotípica para un grupo de
especies en taxonomía numérica.
• Se usa en filogenia molecular cuando las
tasas de sustitución son constantes.
Distancias Evolutivas
• Mide el número total de sustituciones
presentes en ambos linajes desde su
divergencia del último ancestro común.
• Divide por la longitud de la secuencia.
• Expresado en sustituciones / sitio
ancestro
secuencia 1
secuencia 2
Correspondencia entre árboles y
matrices de distancia
• Cualquier árbol filogenético induce una matriz de
distancias entre pares de sec.
• Matrices de distancia “Perfecta” corresponde a un
solo árbol filogenético
A
B
tree
C
A
B
C
A
0
3
4
B
C
0
3
0
distance matrix
Construcción de árboles filogenéticos
por métodos de distancia
Principio general :
Alineamiento de Secuencia
 (1)
Matriz de distancia evolutiva entre pares de secuencias
 (2)
(sin raíz) árbol
• (1) Medir distancias evolutivas.
• (2) Calculo de árbol a partir de valores de distancia de la
matriz.
Matriz de Distancia -> árbol (1):
Cualquier árbol sin raíz induce una distancia d entre sec. :
i
j
li
lj
k
lk
lc
lr
lm
d(i,m) = li + lc + lr + lm
l
m
Es posible calcular los valores de longitud de ramas que crean el
mejor comparación entre d y la distancia evolutiva d :
minimiza
Luego es posible calcular la longitud total del árbol:
S = suma de todas las longitudes de ramas
Método de Mínima Evolución
 Para todas las topologías posibles:
 Calcula su longitud total, S
 Guarda el árbol con el valor de S más pequeño.
Problema: método es muy intesivo computacionalmente. No se
usa practicamente con más de ~ 25 sequences.
=> método aproximativo (heurístico) necesario.
Neighbor-Joining, un principio heurístico para la ME
Método de vecino más cercano o
“Neighbor-Joining” : algoritmo
Paso 1: Usa distancias d medidas entre N secuencias
Paso 2: Para todos pares i y j: considerar la siguiente topología
pinzel, y calcula Si,j , la suma de todas las “mejores” longitudes de
rama.
Paos 3: Retiene el par (i,j) con menor valor Si,j. Grupo i y j en el
árbol.
Paso 4: Calcula nuevas distancias d entre objectos N-1 :
par (i,j) y las sec. restantes N-2 : d(i,j),k = (di,k + dj,k) / 2
Paso 5: Regresa al paso 1 tan grande como N ≥ 4.
Saitou & Nei (1987) Mol.Biol.Evol. 4:406
2
1
6
3
5
1
3
5
1
3
.......
1
1
4
5
6
4
1
2
3
5
2
6
4
6
5
5
6
3
.......
5
3
3
2
4
1
2
3
1
2
3
4
4
............
5
1
5
2
6
6
6
2
2
3
6
4
5
1
2
4
4
6
4
Representación del proceso de NJ
Método Neighbor-Joining (NJ):
propiedades
• NJ es un método rápido, aún con cientos de sec.
• Arbol NJ es una aproximación del árbol ME (aquel
cuya longitud total es es mínima).
• En ese sentido, el método NJ es muy parecido a
parsimonia debido a que las longitudes de rama
representan las sustituciones.
• NJ produce siempre árboles sin raíz, usan el
método de grupo de afuera para tener raíz.
Método de Neighbor Joining (NJ)
• NJ siempre encuentra el árbol correcto si las
distancias son parecidas a un árbol.
• NJ se comporta bien cuando las tasas de sustitución
varian entre los linajes. Así que NJ debería encontrar
el árbol correcto si las distancias son bien estimadas.
• Lo importante es el “neighbor”, que son dos taxa
conectados por un solo nodo en un árbol sin raíz.
Método de Reemplazo
Número de posibles topologías de árboles
para n taxa
Ntrees =3.5.7...(2n-5)= (2n-5)!
2n-3(n-3)!
n
Narboles
4
3
5
15
6
105
7
945
...
...
10
2,027,025
...
...
20
~ 2 x1020
Parsimonia (1)
• Paso 1: para una topología dada (forma), y para un
sitio alineado, se determina que residuo ancestral (en
los nodos del árbol) requiere el menor número total
de cambios en todo el árbol.
Sea d el número total de cambios.
Ejemplo: En este sitio y para este árbol, al menos 3 eventos de
sustitución se necesitan para explicar el patrón de nts. en los árboles.
Varios escenarios distintos son posibles con 3 cambios.
Parsimonia (2)
• Paso 2:
– Calcula d (paso 1) para cada sitio alineado.
– Suman los valores d para todos los sitios alineados.
– Esto da la longitud L del árbol.
• Paso 3:
– Compute L value (step 2) for each possible tree shape.
– Retiene el árbol(es) más corto(s)
= árbol(es) que requieren el menor número de cambios
= árbol(es) más parsimonioso(s).
Algunas propiedades de la Parsimonia
• Varios árboles pueden ser igualmente parsimoniosos
(misma longitud, la menor de todas la posibles
longitudes).
• La posición de cambios de cada rama no esta definida
exclusivamente
=> parsimonia no permite definir longitudes de ramas
de árboles en una forma única.
• El número de árboles a evaluar crece muy rápido con
el número de secuencias comparadas:
 La búsqueda del árbol más corto debe ser a menudo
restringido a una fracción del total de posibles (búsqueda
heurística)
=>No hay certeza matemática de encontrar el árbol más corto
(más parsimonioso).
Método de Máxima Parsimonia
• Originalmente usado para caracteres
morfológicos desarrollado por Henning (1966).
• El mínimo número de sustituciones de nt. /
mutaciones; calcula el total de sitios k
registrados; y escoge el árbol con el mínino total
de registros.
• MP se basan en sitios informativos, debe ser al
menos 2 tipos distintos de nts. y cada uno
representado al menos 2 veces.
Método de Máxima Parsimonia
• Asume que no hay homoplasia, o sea,
mutaciones paralelas o reversas.
• La realidad es que existe homoplasia, se han
diseñado índices para medir la homoplasia:
Indice de consistencia CI, Indice de retención
RI.
• Indice de homoplasia se expresa como HI=1CI. No hay homoplasia cuando CI=1 o HI=0.
Sitios Informativos
Sitio
Sec.
1
2
3
4
5
6
7
8
9
1
2
3
4
A
A
A
A
A
G
G
G
G
C
A
A
A
C
T
G
G
G
A
A
T
T
T
T
G
G
C
C
C
C
C
C
C
A
A
G
Representación de construcción
de árbol más parsimonioso
Método de Máxima Probabilidad o
Similitud (“Likelihood”)
• La probabilidad (L) de un árbol (T)
L(T)= probabilidad de los datos P (D/T, M) dado
un árbol T con ciertas longitudes de brazo D y un
modelo M de evolución del ADN.
• Sitio registrado= ln Li(T) para los datos en un
sitio
• Total registro
para ser
maximizado
Métodos de Máxima probabilidad (1)
(programas fastDNAml, PAUP*, PROML, PROTML,
GARLIC)
• Hipótesis
– El proceso de sustitución sigue un modelo probabilístico
cuya expresión matemática, pero no valores de
paramétro, es a priori.
– Sitios evolucionan independientemente uno de otro.
– Todos los sitios siguen el mismo proceso de sustitución
(algunos métodos usan la distribución gama discreta de
tasas por sitio).
– Probabilidades de sustitución no cambian con el tiempo
en ninguna rama del árbol. Ellas pueden variar entre las
ramas.
Métodos de Máxima probabilidad(2)
Mod. Probabilístico de evolución
de sec. homólogas
li, longitudes de ramas = No. esperado
de sust. por sitio a lo largo de la rama
seq 2
seq 6
seq 3
l9
l8
seq 4
seq 1
l7
q, tasa relativa de sust. de base
(e.g., transición/transversión, G+C-sesgo)
Así, uno puede calcular
seq 5
l4
l5
l3
l1
l10
l6
l2
Probabranch i(x  y)
Para cualquier base x & y, cualquier rama i, cualquier grupo de valores q
q
Algoritmo Métodos de Máxima probabilidad
• Paso 1: Considere un árbol con raíz, un sitio dado, y un
grupo de longitudes de ramas dado. Calcular la probabilidad
que el patrón observado de nts. en ese sitio ha evolucionado
a lo largo de ese árbol.
S1, S2, S3, S4: bases observ. en sitio en sec. 1, 2, 3, 4
a, b, g : base desconocidas y ancestral
l1, l2, …, l6: long. rama dadas
P(S1, S2, S3, S4) =
S2
S1
l2
l1
b
S3
l3 S4
l4
g
l5
a
l6
SaSbSg P(a) Pl5(a,b) Pl6(a,g) Pl1(b,S1) Pl2(b,S2) Pl3(g,S3) Pl4(g,S4)
donde P(S7) es estimado por el promedio de frecuencias de bases en sec. estudiadas.
Algoritmo Métodos de Máxima probabilidad (2)
• Paso 2: calcula la probabilidad de las sec. totales que han
evolucionado :
P(Sq1, Sq2, Sq3, Sq4) =
P
all sites
P(S1, S2, S3, S4)
• Paso 3: calcula la long. de la rama l1, l2, …, l6 y el valor del
parametro q con el valor más alto P(Sq1, Sq2, Sq3, Sq4). Esta es
la probabilidad del árbol.
• Paso 3: calcula la probabilidad de todos los árboles posibles.
El árbol predicho por el método es aquel que tiene la mayor
probabilidad.
Máxima probabilidad : propiedades
• Este es el mejor método justificado desde el punto
de vista teórico.
• Experimentos de simulación de secuencia han
mostrado que funcionan mejor en la mayoría de los
casos.
• Pero es un método computacionalmente intenso.
• Es casi imposible evaluar todos los posibles árboles
debido a que son muchos. Una exploración parcial
del espacio de los posibles árboles se estima.
PHYML : un algoritmo rápido, y preciso para estimar
filogenias grandes por MP
Guindon & Gascuel (2003) Syst. Biol. 52(5):696–704
MP requiere encontrar qué valor cuantitativo (e.g., long. rama) y
cualitativo (topología del árbol) corresponde a la probabilidad más
alta para las sec. que han evolucionado.
PHYML ajusta simultáneamente la topología y long. ramas.
Solo unas pocas interacciones son suficientes para alcanzar el
óptimo
Método Bayesiano (programa MrBayes)
• Método muy relacionado con los probabilísticos,
difieren solo en el uso de una distribución previa
de la cantidad que esta siendo inferida. O sea,
computa la probabilidad posterior a partir de una
previa.
•
Posterior es
proporcional a la probabilidad de tiempo previos
• La probablidad total de los datos
Inferencia Bayesiana de árboles filogenéticos
Meta : calcular la probabilidad posterior de todas las topologías,
dado el alineamiento de sec.
Pr(t | X) µ
òò Pr(X | t ,v,q ) . Pr
v,q
probabilidad de
árbol+parámetros
prior
(v,q )dvdq
probabilidad previa
del valor de parámetro
: topología del árbol
X: alineamiento de sec.
v: grupo de long. de rama del árbol
q: parámetros of modelo sustitución (e.g., proporción transit/transv)
Computación analítica de Pr(|X) es imposible en general.
Una técnica computacional llamada
Metropolis-coupled Markov chain Monte Carlo
es usada para generar una muestra estadística de la
distribución posterior de los árboles.
[ MC3 ]
(Ej.: genera una muestra aleatoria de 10,000 árboles)
Resultado:
- Retiene el árbol con la probabilidad más alta (la encontrada
más a menudo en la muestra).
- Calcula las probabilidades posteriores de todas las clades
del árbol: fracción de árboles muestreados conteniendo la
misma clade.
De manera que,
Valor de la clade Bayesiana es alta
Valor de la clade de reemplazo (Bootstrap) es baja
Cuál es más cercano al valor real ?
Conclusión de experimentos de simulación :
o Cuando la evolución de la sec. se ajusta exactamente al
modelo probabilístico usado, valor Bayesiano es correcto,
reemplazo es pesimista.
o Inferencia Bayesiana es sensible a pequeños errores del
modelo y se vuelve demasiado optimista.
Un método heurístico
Búsqueda heurística típica para MPar y MPro
Arbol y experimento de simulación de sec.
P, PHYML
F, fastDNAml
L, NJML
D, DNAPARS
N, NJ
5000 árboles azar
40 taxa, 500 bases
Sin reloj molecular
K2P, a = 2
Comparación de tiempo-máquina para varios algoritmos
distance < parsimony ~ PHYML << Bayesian < classical ML
NJ
DNAPARS
PHYML
MrBayes
fastDNAml,PAUP
Comparasión de métodos de
construcción de árboles
Tipo de datos
Algoritmo Agrupamiento
Criterio Optimación
Método de generar árbol
Distancias
Sitios nts.
UPGMA
Neighbour
joining
Minima
evolución
Máxima
parsimonia
Máxima
probabilidad
Comparación de métodos para la estimación
de longitudes de rama
Comparación de árboles generados por
MPar y distancia para NJ
Filogenia de redes (network)
• Método alternativo de hacer árboles
filogenéticos útiles para datos cuya
evolución involucra eventos reticulados
como hibridación (razas de humanos),
transferencia horizontal de genes (bacterias,
hongos, plantas), recombinación
(mamíferos), duplicación/pérdida de genes
(Hudson et al. 2010)
Filogenia de redes (network)
• Definición (Hudson et al. 2010):
– Es cualquier gráfico usado para representar
relaciones evolutivas (abstractas o explícitas)
entre un grupo de taxones que remarca algunos
de sus nodos.
• Se usan de dos formar:
– Para visualizar datos incompatibles (red
abstracta), y para representar una historia
evolutiva posible involucrando eventos
reticulados (explícita)
Red “median-joining” de cpADN en
Tabebuia impetiginosa (Collevatti et al. 2012)
Debates en Filogenia
• No hay forma lógica para decidir como ponderar
una duplicación de un carácter relacionado a una
sustitución de un nt. o a.a.
• Métodos Consenso vs. Análisis combinado:
– Análisis separado y luego métodos consenso,
– Análisis combinado de datos antes del
análisis,
– Combinar datos cuando los tests estadísticos
sugiere compatibilidad.