Download efectos del uso de genes completos y parciales en la reconstrucción
Document related concepts
Transcript
EFECTOS DEL USO DE GENES COMPLETOS Y PARCIALES EN LA RECONSTRUCCIÓN FILOGENÉTICA BASADO EN MAXIMA VEROSIMILITUD Laura Inés Pinilla Mendoza INTRODUCCION El impacto de los datos incompletos en un análisis filogenético es un tema importante del que hay que tener claridad, en particular si el objetivo es reconstruir un árbol lo más completo y veras posible, el cual incluya datos fósiles o secuencias parciales [1]. La falta de datos es una situación muy común en particular cuando se combinan datos de dos o más genes diferentes, o cuando no hay disponibilidad de la secuencia de alguno de los taxones, o en el escenario más común cuando en el estudio se incluyen secuencias que no son completas [2]. En un análisis filogenético molecular los taxones que carecen de datos para un gen provocan que los caracteres asociados a este gen sean codificados como desconocidos o ausentes pudiendo interferir en la reconstrucción filogenetica [3]. Varios autores han sugerido que los taxones incluidos en un estudio filogenético con datos faltantes son potencialmente una problemática para la reconstrucción de la filogenia, basada en datos empíricos [2]. Sin embargo Wiens en el 2003 realizó simulaciones en el que vario el número de bases ampliamente, y observo que los datos faltantes en sí, no son una problemática, siempre y cuando estos datos faltantes no excedan el 75% de la secuencia completa [1]. Es por esto que con este estudio se busca determinar, que tanto afectan el uso de secuencias completas y parciales en la reconstrucción filogenética en diferentes genes tanto nucleares como mitocondriales, todo esto basado en Máxima verosimilitud. METODOLOGIA En este estudio se tuvieron en cuenta cuatro set de datos moleculares, dos genes nucleares, la SSU rDNA en Foraminifera [4;5], y el 18s rRNA en Chilopoda [6]. Y dos genes mitocondriales, el COX 1 en la subfamilia Phocinae [7] y el Citocromo b para el género Hynobius (Amphibia: Caudata) [8]. Estas secuencias del gen completo y parcial se obtuvieron del Genbank. Sin embargo, las secuencias parciales de los genes 18s rRNA y COX 1 por no encontrarse en esta base de datos se alinearon y posteriormente se excluyo un fragmento de la secuencia. Los alineamientos de todos los genes se realizaron con Muscle v4.0 [9], para posteriormente usar estos resultados para determinar los modelos de evolución de cada gen con el programa Jmodeltest [10]. Y por último se procedió a realizar el análisis de máxima verosimilitud en PhyML 3.0 [11] utilizando NNI y SPR para la búsqueda de arboles con un Bootstrap de 1000 replicas para cada gen. RESULTADOS Los números de acceso de los set de datos moleculares se encuentran en las tablas 1, 2, 3, 4 en los anexos. En cuanto a los modelo evolutivos, para el gen 18s rRNA con la secuencia completa y parcial el modelo seguido fue GTR+Γ, al igual que para el gen SSU rDNA con la secuencia completa, y para la secuencia parcial del mismo gen TPM1uf+Γ. Para el gen Citocromo b con la secuencia completa el modelo obtenido fue GTR+I+Γ, y para la secuencia parcial TRN+Γ, este último modelo también lo siguieron las secuencia completa y parcial del gen COX1. Posteriormente en el análisis de máxima verosimilitud para el gen SSU rDNA se observó que para la secuencia completa (Fig 1) se evidencia la monofilia del grupo al igual que para la secuencia parcial (Fig 2). Sin embargo, se observa que las relaciones de parentesco en las dos topologías difieren un poco, al igual que los valores de bootstrap presentando valores más altos el árbol obtenido con la secuencia completa cuyo valor máximo fue 797 y el mínimo 622 a diferencia de los valores obtenidos con la secuencia parcial cuyo valor máximo fue 707 y el mínimo 137. En el árbol obtenido para el gen 18s rRNA se observa la monofilia del grupo tanto para el gen completo (Fig. 3) como para el parcial (Fig. 4), a demás se observa que las relaciones de parentesco de los dos árboles son similares excepto que en el clado señalado en las dos topologías (Fig. 3 y 4) se observa que el orden de las terminales se invierte; en cuanto a los valores de bootstrap se obtuvieron valores menores para la topología obtenida con el gen parcial con un valor máximo de 830 y un mínimo de 774, en comparación con la del gen completo en el que se obtuvo un valor máximo de 962 y mínimo de 842. En cuanto a los resultados obtenidos con los genes mitocondriales se obtuvo que para el gen Citocromo b las relaciones de parentesco observadas en las topologías con la secuencia completa y parcial son idénticas (Fig. 5 y 6). Presentándose el mismo comportamiento en el gen COX1 (Fig 7 y 8), en cuanto a los valores de bootstrap se obtuvieron valores mayores en los nodos de las topologías de las secuencias completas de los dos genes mitocondriales. DISCUSION Los modelos obtenidos en el análisis para los diferentes set de datos no me muestran un comportamiento definido, lo que es normal ya que cada secuencia se comporta evolutivamente independiente así sea del mismo gen. Sin embargo se observa que las secuencias parciales y completas de los genes 18s rRNA y el COX1 si presentan el mismo modelo evolutivo lo que puede ser atribuido a que estas secuencias se trabajaron quitándole una parte de la secuencia (post-alineamiento) del gen completo ya que no se encontraban en el genbank, y tal vez la parte de la secuencia excluida del análisis no fue suficiente para hacer variar el modelo evolutivo de la secuencia resultante. En cuanto al análisis de máxima verosimilitud comparando las secuencias parciales y completas para cada gen no se encontraron diferencias notorias entre ellas e incluso en algunos genes no se encontró diferencia alguna en la relación de parentesco de las terminales. En los genes donde se encontraron pequeñas diferencias fueron en el SSU rDNA en el cual la relación de parentesco entre los géneros Uvigerina con Pullenia no se presentan en la reconstrucción obtenida con el gen parcial (Fig. 2) a diferencia de lo que evidencia la reconstrucción con el gen completo (Fig. 1). En cuanto al gen 18s rDNA se observa que se invirtió el orden en el clado señalado en las figuras 3 y 4. Estas dos discordancias entre las topologías solo se evidencian en los genes nucleares lo que se puede atribuir a que estos genes se caracterizan por ser mas conservados y cualquier cambio en las secuencias se puede ver reflejado fácilmente en las reconstrucciones filogenéticas, a diferencia de lo observado con los genes mitocondriales los cuales no mostraron ningún cambio en las relaciones de parentesco de las topologías. En cuanto a los valores de bootstrap se observo un comportamiento similar entre todos los genes presentando mayor soporte los nodos de las topologías de los genes completos y soportes menores los nodos de las topologías de los genes parciales. Lo que es concordante con lo que afirma Wiens en el 2006 quien sugiere que los set de datos incompletos pueden reflejar bajos niveles de confianza de los nodos, confianza que se incrementa a medida que aumenta el número de datos en el análisis. En conclusión los análisis filogenéticos realizados con secuencias parciales de y totales de genes nucleares no muestran mayores diferencias entre la relaciones de parentesco de los individuos estudiados, y en cuanto a los genes mitocondriales no se evidencia diferencia alguna entre estas relaciones de los individuos. Pero si se evidencia que se minimiza el índice de confianza de los nodos de las topologías obtenidas con las secuencias parciales de ambos tipos de genes. BIBLIOGRAFIA [1] Wiens J. Missing Data, Incomplete Taxa, and Phylogenetic Accuracy. Syst. Biol. 52(4):528–538, 2003 [2] Wiens J. Does Adding Characters with Missing Data Increase or Decrease Phylogenetic Accuracy?. Syst. Biol 47(4):625–640, 1998 [3] Wiens J. Missing data and the design of phylogenetic analyses. Journal of Biomedical Informatics 39 (2006) 34–42. [4] Schweizer M, Pawlowski J, Kouwenhoven J, Guiard J & van der Zwaan B. Molecular phylogeny of Rotaliida (Foraminifera) based on complete small subunit rDNA sequences. Marine Micropaleontology 66 (2008) 233–246. [5] Schweizer M., Pawlowski J., Duijnstee J,. Kouwenhoven T.J, van der Zwaan G.J. Molecular phylogeny of the foraminiferal genus Uvigerina based on ribosomal DNA sequences. Marine Micropaleontology 57 (2005) 51– 67. [6] Gonzalo Giribet, Salvador Carranza, Marta Riutort, Jaume Bagun and Carles Ribera. Internal phylogeny of the Chilopoda (Myriapoda, Arthropoda) using complete 18S rDNA and partial 28S rDNA sequences. Phil.Trans. R. Soc. Lond. B (1999) 354, 215-222. [7] Davis C, Delisle I, Stirling I, Siniff D, Strobeck C. A phylogeny of the extant Phocidae inferred from complete mitochondrial DNA coding regions. Molecular Phylogenetics and Evolution 33 (2004) 363–377. [8] Masafumi M, Tominaga A, Hayashi T, Misawa Y, Tanabe S. Phylogenetic relationships and phylogeography of Hynobius tokyoensis (Amphibia: Caudata) using complete sequences of cytochrome b and control region genes of mitochondrial DNA. Molecular Phylogenetics and Evolution 44 (2007) 204–216 [9] Edgar, Robert C. (2004), MUSCLE: multiple sequence alignment with high accuracy and high throughput, Nucleic Acids Research 32(5), 1792-97. [10] Posada D. 2008. jModelTest: Phylogenetic Model Averaging. Molecular Biology and Evolution 25: 1253-1256. [11] “A simple, fast and accurate algorithm to estimate large phylogenies by maximum likelihood” Guindon S., Gascuel O. Systematic Biology 52(5):696-704 Tabla 1. Números de acceso del gen Subunidad pequeña del rADN (SSU rDNA) (Foraminifera) Trochamina sp. Bulmina marginata Uvigerina peregrina Epistominella vítrea Cibicides lobatulus Pullenia subcarinata Melionis pompiliodes Gen completo X86095 DQ408646 DQ408642 DQ408647 DQ408650 DQ408655 DQ408657 Gen Parcial Z69610 AY934747 AY914569 AY934750 AY934742 AY934756 AY934753 Tabla 2. Números de acceso del gen 18s rRNA (Chilopoda) Al gen parcial post alineamiento se le quito un fragmento Gen completo Gen parcial Scutigera coleoptrata Craterostigmus tasmanianus Scolopendra cingulata AF000772 AF000774 U29493 FJ660708 EU024574 _ Cryptops trisulcatus AF000775 _ Theatops erythrocephala AF000776 _ Tabla 3. Números de acceso del gen Citocromo b (Caudata) Hymnobius tokioensis Hynobius nebulosus Hynobius lichenatus Hynobius naevius Hynobius katoi Hynobius kimurae Hynobius boulengeri Gen completo Gen parcial AB266631 AB266662 AB266669 AB266672 AB266673 AB266674 AB266675 AB266680 AB266713 AB266716 AB266717 AB266718 AB266719 AB2666720 Taba 4. Números de acceso del gen COX 1 (Sub familia Phocinae). Al gen completo se le quito un fragmento post alineamiento Hidrurga Erginatus barbatus Cytophora cristata Phoca largha Pusa hispida Pagophilus groelandica Gen completo Gen parcial AY377134 AY377143 AY377144 AY377147 AY377146 AY377145 _ _ _ _ _ _ Fig 1. Subunidad pequeña del rADN (SSU rDNA) (Foraminifera) con el gen completo Fig 2. Subunidad pequeña del rADN (SSU rDNA) (Foraminifera) con el gen parcial Fig 3. 18s rRNA (Chilopoda) con el gen parcial Fig 4. 18s rRNA (Chilopoda) con el gen completo Fig 5. Citocromo b (Caudata) con el gen completo Fig 6. Citocromo b (Caudata) con el gen parcial Fig 7. COX 1 (Sub familia Phocinae) con el gen completo Fig 8. COX 1 (Sub familia Phocinae) con el gen parcial