Download efectos del uso de genes completos y parciales en la reconstrucción

Document related concepts

Ácido ribonucleico ribosómico wikipedia , lookup

Filogenética computacional wikipedia , lookup

Marcador de secuencia expresada wikipedia , lookup

Homología de secuencias wikipedia , lookup

Genómica wikipedia , lookup

Transcript
EFECTOS DEL USO DE GENES COMPLETOS Y PARCIALES EN
LA RECONSTRUCCIÓN FILOGENÉTICA BASADO EN MAXIMA
VEROSIMILITUD
Laura Inés Pinilla Mendoza
INTRODUCCION
El impacto de los datos incompletos en un análisis filogenético es un tema
importante del que hay que tener claridad, en particular si el objetivo es
reconstruir un árbol lo más completo y veras posible, el cual incluya datos
fósiles o secuencias parciales [1]. La falta de datos es una situación muy
común en particular cuando se combinan datos de dos o más genes diferentes,
o cuando no hay disponibilidad de la secuencia de alguno de los taxones, o en
el escenario más común cuando en el estudio se incluyen secuencias que no
son completas [2]. En un análisis filogenético molecular los taxones que
carecen de datos para un gen provocan que los caracteres asociados a este
gen sean codificados como desconocidos o ausentes pudiendo interferir en la
reconstrucción filogenetica [3].
Varios autores han sugerido que los taxones incluidos en un estudio
filogenético con datos faltantes son potencialmente una problemática para la
reconstrucción de la filogenia, basada en datos empíricos [2]. Sin embargo
Wiens en el 2003 realizó simulaciones en el que vario el número de bases
ampliamente, y observo que los datos faltantes en sí, no son una problemática,
siempre y cuando estos datos faltantes no excedan el 75% de la secuencia
completa [1].
Es por esto que con este estudio se busca determinar, que tanto afectan el uso
de secuencias completas y parciales en la reconstrucción filogenética en
diferentes genes tanto nucleares como mitocondriales, todo esto basado en
Máxima verosimilitud.
METODOLOGIA
En este estudio se tuvieron en cuenta cuatro set de datos moleculares, dos
genes nucleares, la SSU rDNA en Foraminifera [4;5], y el 18s rRNA en
Chilopoda [6]. Y dos genes mitocondriales, el COX 1 en la subfamilia Phocinae
[7] y el Citocromo b para el género Hynobius (Amphibia: Caudata) [8]. Estas
secuencias del gen completo y parcial se obtuvieron del Genbank. Sin
embargo, las secuencias parciales de los genes 18s rRNA y COX 1 por no
encontrarse en esta base de datos se alinearon y posteriormente se excluyo un
fragmento de la secuencia. Los alineamientos de todos los genes se realizaron
con Muscle v4.0 [9], para posteriormente usar estos resultados para determinar
los modelos de evolución de cada gen con el programa Jmodeltest [10]. Y por
último se procedió a realizar el análisis de máxima verosimilitud en PhyML 3.0
[11] utilizando NNI y SPR para la búsqueda de arboles con un Bootstrap de
1000 replicas para cada gen.
RESULTADOS
Los números de acceso de los set de datos moleculares se encuentran en las
tablas 1, 2, 3, 4 en los anexos. En cuanto a los modelo evolutivos, para el gen
18s rRNA con la secuencia completa y parcial el modelo seguido fue GTR+Γ, al
igual que para el gen SSU rDNA con la secuencia completa, y para la
secuencia parcial del mismo gen TPM1uf+Γ. Para el gen Citocromo b con la
secuencia completa el modelo obtenido fue GTR+I+Γ, y para la secuencia
parcial TRN+Γ, este último modelo también lo siguieron las secuencia completa
y parcial del gen COX1. Posteriormente en el análisis de máxima verosimilitud
para el gen SSU rDNA se observó que para la secuencia completa (Fig 1) se
evidencia la monofilia del grupo al igual que para la secuencia parcial (Fig 2).
Sin embargo, se observa que las relaciones de parentesco en las dos
topologías difieren un poco, al igual que los valores de bootstrap presentando
valores más altos el árbol obtenido con la secuencia completa cuyo valor
máximo fue 797 y el mínimo 622 a diferencia de los valores obtenidos con la
secuencia parcial cuyo valor máximo fue 707 y el mínimo 137. En el árbol
obtenido para el gen 18s rRNA se observa la monofilia del grupo tanto para el
gen completo (Fig. 3) como para el parcial (Fig. 4), a demás se observa que las
relaciones de parentesco de los dos árboles son similares excepto que en el
clado señalado en las dos topologías (Fig. 3 y 4) se observa que el orden de
las terminales se invierte; en cuanto a los valores de bootstrap se obtuvieron
valores menores para la topología obtenida con el gen parcial con un valor
máximo de 830 y un mínimo de 774, en comparación con la del gen completo
en el que se obtuvo un valor máximo de 962 y mínimo de 842. En cuanto a los
resultados obtenidos con los genes mitocondriales se obtuvo que para el gen
Citocromo b las relaciones de parentesco observadas en las topologías con la
secuencia completa y parcial son idénticas (Fig. 5 y 6). Presentándose el
mismo comportamiento en el gen COX1 (Fig 7 y 8), en cuanto a los valores de
bootstrap se obtuvieron valores mayores en los nodos de las topologías de las
secuencias completas de los dos genes mitocondriales.
DISCUSION
Los modelos obtenidos en el análisis para los diferentes set de datos no me
muestran un comportamiento definido, lo que es normal ya que cada secuencia
se comporta evolutivamente independiente así sea del mismo gen. Sin
embargo se observa que las secuencias parciales y completas de los genes
18s rRNA y el COX1 si presentan el mismo modelo evolutivo lo que puede ser
atribuido a que estas secuencias se trabajaron quitándole una parte de la
secuencia (post-alineamiento) del gen completo ya que no se encontraban en
el genbank, y tal vez la parte de la secuencia excluida del análisis no fue
suficiente para hacer variar el modelo evolutivo de la secuencia resultante.
En cuanto al análisis de máxima verosimilitud comparando las secuencias
parciales y completas para cada gen no se encontraron diferencias notorias
entre ellas e incluso en algunos genes no se encontró diferencia alguna en la
relación de parentesco de las terminales. En los genes donde se encontraron
pequeñas diferencias fueron en el SSU rDNA en el cual la relación de
parentesco entre los géneros Uvigerina con Pullenia no se presentan en la
reconstrucción obtenida con el gen parcial (Fig. 2) a diferencia de lo que
evidencia la reconstrucción con el gen completo (Fig. 1). En cuanto al gen 18s
rDNA se observa que se invirtió el orden en el clado señalado en las figuras 3 y
4. Estas dos discordancias entre las topologías solo se evidencian en los genes
nucleares lo que se puede atribuir a que estos genes se caracterizan por ser
mas conservados y cualquier cambio en las secuencias se puede ver reflejado
fácilmente en las reconstrucciones filogenéticas, a diferencia de lo observado
con los genes mitocondriales los cuales no mostraron ningún cambio en las
relaciones de parentesco de las topologías. En cuanto a los valores de
bootstrap se observo un comportamiento similar entre todos los genes
presentando mayor soporte los nodos de las topologías de los genes completos
y soportes menores los nodos de las topologías de los genes parciales. Lo que
es concordante con lo que afirma Wiens en el 2006 quien sugiere que los set
de datos incompletos pueden reflejar bajos niveles de confianza de los nodos,
confianza que se incrementa a medida que aumenta el número de datos en el
análisis.
En conclusión los análisis filogenéticos realizados con secuencias parciales de
y totales de genes nucleares no muestran mayores diferencias entre la
relaciones de parentesco de los individuos estudiados, y en cuanto a los genes
mitocondriales no se evidencia diferencia alguna entre estas relaciones de los
individuos. Pero si se evidencia que se minimiza el índice de confianza de los
nodos de las topologías obtenidas con las secuencias parciales de ambos tipos
de genes.
BIBLIOGRAFIA
[1] Wiens J. Missing Data, Incomplete Taxa, and Phylogenetic Accuracy. Syst.
Biol. 52(4):528–538, 2003
[2] Wiens J. Does Adding Characters with Missing Data Increase or Decrease
Phylogenetic Accuracy?. Syst. Biol 47(4):625–640, 1998
[3] Wiens J. Missing data and the design of phylogenetic analyses. Journal of
Biomedical Informatics 39 (2006) 34–42.
[4] Schweizer M, Pawlowski J, Kouwenhoven J, Guiard J & van der Zwaan B.
Molecular phylogeny of Rotaliida (Foraminifera) based on complete small
subunit rDNA sequences. Marine Micropaleontology 66 (2008) 233–246.
[5] Schweizer M., Pawlowski J., Duijnstee J,. Kouwenhoven T.J, van der Zwaan
G.J. Molecular phylogeny of the foraminiferal genus Uvigerina based on
ribosomal DNA sequences. Marine Micropaleontology 57 (2005) 51– 67.
[6] Gonzalo Giribet, Salvador Carranza, Marta Riutort, Jaume Bagun and Carles
Ribera. Internal phylogeny of the Chilopoda (Myriapoda, Arthropoda) using
complete 18S rDNA and partial 28S rDNA sequences. Phil.Trans. R. Soc. Lond.
B (1999) 354, 215-222.
[7] Davis C, Delisle I, Stirling I, Siniff D, Strobeck C. A phylogeny of the extant
Phocidae inferred from complete mitochondrial DNA coding regions. Molecular
Phylogenetics and Evolution 33 (2004) 363–377.
[8] Masafumi M, Tominaga A, Hayashi T, Misawa Y, Tanabe S. Phylogenetic
relationships and phylogeography of Hynobius tokyoensis (Amphibia: Caudata)
using complete sequences of cytochrome b and control region genes of
mitochondrial DNA. Molecular Phylogenetics and Evolution 44 (2007) 204–216
[9] Edgar, Robert C. (2004), MUSCLE: multiple sequence alignment with high
accuracy and high throughput, Nucleic Acids Research 32(5), 1792-97.
[10] Posada D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular
Biology and Evolution 25: 1253-1256.
[11] “A simple, fast and accurate algorithm to estimate large phylogenies by
maximum likelihood” Guindon S., Gascuel O. Systematic Biology 52(5):696-704
Tabla 1. Números de acceso del gen Subunidad pequeña del rADN (SSU rDNA) (Foraminifera)
Trochamina sp.
Bulmina marginata
Uvigerina peregrina
Epistominella vítrea
Cibicides lobatulus
Pullenia subcarinata
Melionis pompiliodes
Gen completo
X86095
DQ408646
DQ408642
DQ408647
DQ408650
DQ408655
DQ408657
Gen Parcial
Z69610
AY934747
AY914569
AY934750
AY934742
AY934756
AY934753
Tabla 2. Números de acceso del gen 18s rRNA (Chilopoda) Al gen parcial post alineamiento se le quito
un fragmento
Gen completo
Gen parcial
Scutigera coleoptrata
Craterostigmus tasmanianus
Scolopendra cingulata
AF000772
AF000774
U29493
FJ660708
EU024574
_
Cryptops trisulcatus
AF000775
_
Theatops erythrocephala
AF000776
_
Tabla 3. Números de acceso del gen Citocromo b (Caudata)
Hymnobius tokioensis
Hynobius nebulosus
Hynobius lichenatus
Hynobius naevius
Hynobius katoi
Hynobius kimurae
Hynobius boulengeri
Gen completo
Gen parcial
AB266631
AB266662
AB266669
AB266672
AB266673
AB266674
AB266675
AB266680
AB266713
AB266716
AB266717
AB266718
AB266719
AB2666720
Taba 4. Números de acceso del gen COX 1 (Sub familia Phocinae). Al gen completo se le quito un
fragmento post alineamiento
Hidrurga
Erginatus barbatus
Cytophora cristata
Phoca largha
Pusa hispida
Pagophilus groelandica
Gen completo
Gen parcial
AY377134
AY377143
AY377144
AY377147
AY377146
AY377145
_
_
_
_
_
_
Fig 1. Subunidad pequeña del rADN (SSU rDNA) (Foraminifera) con el gen completo
Fig 2. Subunidad pequeña del rADN (SSU rDNA) (Foraminifera) con el gen parcial
Fig 3. 18s rRNA (Chilopoda) con el gen parcial
Fig 4. 18s rRNA (Chilopoda) con el gen completo
Fig 5. Citocromo b (Caudata) con el gen completo
Fig 6. Citocromo b (Caudata) con el gen parcial
Fig 7. COX 1 (Sub familia Phocinae) con el gen completo
Fig 8. COX 1 (Sub familia Phocinae) con el gen parcial