Download Homología de Isoformas Filogenia, Ortología y Adaptación
Document related concepts
Transcript
Homología de Isoformas Filogenia, Ortología y Adaptación Juan Antonio Rodríguez Pérez MAGISTER EN BIOINFORMÁTICA Y BIOLOGIA COMPUTACIONAL UNIVERSIDAD COMPLUTENSE DE MADRID 2010-2011 _________________________ CENTRO/EMPRESA DONDE SE DESARROLLARON LAS PRACTICAS Centro de Investigación Príncipe Felipe (Valencia) DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA) François Serra / Hernán J. Dopazo CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER) Federico Morán Abad FECHA: Septiembre 2011 CALIFICACIÓN: Homología de Isoformas. Filogenia. Ortología y Adaptación 2 Juan Antonio Rodriguez Perez Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez ÍNDICE 1. Introducción 2. Objetivos 3. Materiales y Métodos 3.1. Obtención del conjunto de genes. 3.1.1. Estrategia de la isoforma más larga (LIS) 3.1.2. Método de selección de isoformas por homología: BLAST2 3.1.3. Método de selección de isoformas por alineamiento: ALIGN 3.1.4. Método de selección de isoformas por filogenia: FILOALIGN 3.2. Selección de Metodologías 3.2.1. Selección de la mejor metodología (BLAST2 - ALIGN - FILOALIGN) 3.2.2. Comparación entre estrategias (LIS vs BLAST2) 3.3. Análisis del conjunto de datos BLAST2 vs LIS 3.3.1. Predicción de ortología 3.3.2. Análisis filogenético 3.3.3. Comparación de topologías de árboles 3.3.4. Análisis de adaptación molecular 3.3.4.1 Modelos de adaptación por sitio 3.3.4.2 Modelos de adaptación por rama y sitio 4. Resultados y Discusión 4.1. Conjunto de Datos 4.2. Comparación del conjunto de datos 4.3. Comparación de los métodos BLAST2 y LIS 4.4. Análisis de ortología y paralogía 4.5. Análisis de topologías 4.6. Análisis de adaptación 5. Conclusiones 6. Bibliografía 7. Anexo I 8. Anexo II 9. Experiencia adquirida 3 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 1. INTRODUCCIÓN El concepto de homología es la base fundamental de la biología comparada. Originalmente definido por Richard Owen [1] para estudiar las variantes del arquetipo vertebrado, el término fue finalmente despojado de toda raíz creacionista luego de la publicación del Origen de las Especies [2]. Esta publicación sentó las bases para la fundación de la biología moderna y el reconocimiento de la biología como una ciencia histórica. Desde el punto de vista Darwiniano la homología es evidencia de ancestralidad común y las relaciones de parentesco se ponen en evidencia a través de la reconstrucción filogenética [3]. En términos modernos el problema de la reconstrucción filogenética es un problema estadístico preferiblemente asociado a la evolución de marcadores moleculares y en general asociado a la evolución de los genes [4]. Sin embargo, los genes de especies eucariotas generalmente transcriben más de una forma proteica [5], con lo que el reconocimiento de la homología puede ser un problema comparativo no trivial para el análisis filogenético. Las metodologías empleadas para el reconocimiento de la homología génica se basan en la aproximación consensuada y generalmente aceptada de que la isoforma o transcripto más largo de cada gen, mostrará una mayor distribución de posiciones homólogas maximizando así la posibilidad de reconstruir las relaciones de parentesco entre las secuencias. Esta metodología es empleada por bases de datos tales como HomoloGene [6], PhylomeDB [7], OrthoDB [8], y EnsemblCompara [9]. En todas ellas, se parte de las isoformas más largas para, a partir de un conjunto de algoritmos variables, reconstruir las relaciones filogenéticas de estas secuencias. A continuación, a modo de ejemplo describiremos el procedimiento empleado por la base de datos de EnsemblCompara para la obtención de ortólogos, es decir genes homólogos cuya relación de descendencia se debe al proceso de diferenciación de especies. El resto de bases de datos emplean estrategias análogas con algunas modificaciones propias. Para seleccionar sus homólogos a partir de las proteínas para cada especie, HomoloGene y OrthoDB emplean BLASTP [10], PhylomeDB se basa en el algoritmo de Smith-Waterman [11], mientras que Ensembl [12] combina ambos, pero manteniéndose en todas ellas la selección de genes 4 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez homólogos a partir del transcripto más largo. El proyecto Ensembl es una iniciativa conjunta del EBI (European Bioinformatics Institute) y del Instituto Sanger, lanzada en 1999, como respuesta a la más que previsible finalización del Proyecto Genoma Humano. El acceso público a los datos genómicos a través de un servidor web, la anotación automática de genomas y la integración con otras bases de datos para genomas vertebrados fueron sus objetivos iniciales. El servidor web se puso en marcha a mediados del año 2000, y desde entonces, genomas de otras especies se han ido añadiendo a la base de datos, y el tipo de información a disposición de los usuarios se ha expandido para abarcar toda una serie de datos biológicos funcionales y comparativos entre diferentes especies de animales, plantas, eucariotas unicelulares y procariotas. La base de datos, denominada EnsemblCompara [9], nos permite actualmente, realizar predicciones de ortología y paralogía tras la secuenciación de un nuevo genoma. Estas predicciones se realizan a partir de árboles de máxima verosimilitud (ML, Maximum Likelihood; por sus siglas en inglés), tratando de reconstruir la historia de familias génicas. El algoritmo que se emplea para predecir las relaciones de homología consiste en: i. Buscar la isoforma de mayor largo de secuencia para cada gen por cada especie empleada en el análisis, en la base de datos de Ensembl. ii. Ejecutar un WUBLASTP [13], en combinación con el algoritmo de Smith-Waterman, para cada gen contra el resto (su misma especie incluida) iii. Construir un gráfico de las relaciones entre proteínas basadas en los mejores hits recíprocos para BLAST o en el ratio de scores de BLAST cuando es > 0.33. iv. Del gráfico se extraer los componentes conectados. Cada conexión representa un grupo o familia génica. v. Para cada agrupamiento construir un alineamiento múltiple, basado en la secuencia de proteínas, empleando una combinación de alineadores, consensuados por M-Coffee [14] vi. Construir un árbol filogenético empleando TreeBeST [9], con la secuencia codificante. vii. Inferir las relaciones de ortología y paralogía a partir de este árbol. En el paso I de dicho algoritmo se utiliza la selección de la isoforma más larga. Esto presupone que, al menos, una de las siguientes hipótesis es cierta: • • Las isoformas se conservan dentro de un mismo conjunto de homólogos El paso de alineamiento eliminará exones no-homólogos. 5 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez Esta estrategia de tomar “por consenso” la isoforma más larga de un gen para predecir relaciones de homología entre genes, puede acarrear problemas que se manifiesten y se acumulen a lo largo de todo el flujo de trabajo. Si por alguna razón biológica o algorítmica el transcripto más largo de alguna de las especies implicadas no es reconocido, los exones utilizados en el alineamiento podrían llegar a ser no homólogos, generando gaps y problemas de alineamiento (Fig. 1). En este caso, los análisis estadísticos a posteriori, ya sea en la reconstrucción filogenética, en la detección de ortología y paralogía, y/o en la detección de selección natural sobre dichas moléculas, se verían comprometidos . Isoforma 1 Isoforma 2 P. troglodytes H.sapiens M. musculus ALINEAMIENTO DE ISOFORMAS Isoforma 1 H. sapiens Isoforma 2 P. troglodytes Isoforma 1 M. musculus Figura 1. Problemas en la elección del transcripto más largo. En la especie Pan troglodytes la isoforma 1 no es reconocida como la más larga ya que ha habido un cambio en la configuración del transcripto a lo largo del proceso evolutivo. La forma más larga para esta especie es la isoforma 2 generando problemas de alineamiento entre isoformas no homólogas. Las cajas de colores indican exones. En esta tesis utilizaremos metodologías clásicas de la genómica comparativa. Concretamente: • La definición de conjuntos de genes homólogos. • El alineamiento de secuencias • La reconstrucción filogenética 6 Homología de Isoformas. Filogenia. Ortología y Adaptación • La predicción de las relaciones de ortología y paralogía • La detección de eventos de selección positiva. Juan Antonio Rodriguez Perez Finalmente, concluiremos que la selección de isoformas mediante uno de los métodos propuestos en esta tesis, sin ser el más eficiente produce mejoras, en el alineamiento y por lo tanto cambios en la definición de ortólogos, parálogos y sitios bajo selección positiva. 7 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 2. OBJETIVOS El objetivo principal de este trabajo consiste en definir una nueva metodología para la búsqueda y alineamiento de secuencias homologas que sirviendo a los propósitos del análisis de secuencia en bioinformática y evolución molecular mejore los resultados presentados por la estrategia de la forma más larga (LIS). La hipótesis que pondremos a prueba en este proyecto establece que el empleo de una metodología diferente al método comúnmente utilizado (LIS) mejora la calidad del alineamiento evitando así la obtención de falsos positivos a la hora de detectar eventos de ortología y selección positiva. 8 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 3. MATERIALES Y MÉTODOS 3.1. Obtención del conjunto de genes. Los conjuntos de genes homólogos correspondientes a cada gen de H. sapiens fueron obtenidos de Ensembl v56 [15] a través de Biomart [16]. Las especies implicadas en el estudio fueron: P. troglodytes , P. pygmaeus, M. mulatta, M. musculus, R. norvegicus , C. porcellus y B. taurus. 3.1.1. Estrategia de la isoforma más larga (LIS) Este set de homólogos precalculado por Ensembl está construido a partir del transcripto más largo del gen [9] y por ello, constituirá el conjunto de genes con la selección de las isoformas de mayor longitud de secuencia, empleadas como control en el estudio, conjunto al cual a partir de ahora nos referiremos como LIS (LongestIsoform Selection) . Para la construcción de un segundo conjunto de homólogos conteniendo una selección de isoformas similares usamos todas las isoformas disponibles en Ensembl v56. A la hora de proponer un método alternativo de selección de isoformas al transcripto más largo, hemos pensado en tres metodologías diferentes: 3.1.2. Método de selección de isoformas por homología. BLAST2 El método de BLAST2 utiliza el programa BLAST [10] sobre todas las isoformas existentes correspondientes a un grupo de genes homólogos. El algoritmo encuentra las isoformas mas cercanas a cada una de las isoformas del gen semilla, resultando en un grupo selecto de isoformas por cada una de las isoformas del gen semilla. Para evitar tener dos isoformas de un mismo gen en estos grupos de isoformas homólogas, se selecciona únicamente la isoforma mas cercana a la semilla para cada gen. Una vez definidos estos grupos de transcriptos homólogos, se selecciona aquel grupo para el que la suma de los scores de BLAST es mayor. (ANEXO I). Cuando sea necesario referirse al conjunto de isoformas seleccionadas a través de este 9 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez método lo haremos por el nombre de BIS (Blast-Isoform Selection). El tiempo de computación para producir BIS es de aproximadamente 2 horas de CPU a 2.0 GHz para 20.966 genes semilla humanos. 3.1.3. Método de selección de isoformas por alineamiento: ALIGN El método de ALIGN consiste en comparar todas las posibles combinaciones de isoformas correspondientes a cada grupo de genes homólogos. Para ello se alinean las secuencias con Muscle v3.7 [17] y a través del score de alineamiento (opción musclescore), se elige aquella combinación de isoformas que maximice esta puntuación. Hemos encontrado genes semilla humanos con homólogos que presentaban un número muy alto de isoformas, por lo que en ocasiones el número de combinaciones posibles, alcanza y sobrepasa los varios millones. Con el objetivo de poner un límite a esta combinatoria se ha elegido un umbral de 17.000 combinaciones por gen semilla; cálculo realizado previamente al cómputo del alineamiento, excluyendo el gen del grupo de comparación si se daba esta circunstancia. El tiempo de computación para el algoritmo ALIGN ha sido de aproximadamente 1-2 semanas dividiendo el trabajo entre 140 CPUs a 2GHz cada una para completar 2.000 genes semilla humanos. 3.1.4. Método de selección de isoformas por filogenia: FILOALIGN El método FILOALIGN se basa en la construcción de árboles filogenéticos, a partir del grupo de homólogos con todas las isoformas disponibles. Se utilizó el programa ProtTest [18] para estimar el mejor modelo de evolución del conjunto de isoformas. A partir de éstas se construyen los árboles por máxima verosimilitud empleando el programa PHYML [19]. Para cada uno de estos árboles se identificó cada una de las isoformas de la semilla del gen humano y el conjunto de sus homólogos correspondientes (ANEXO II). Para seleccionar un único conjunto de isoformas, se compararon los scores de alineamiento de cada uno de los conjuntos homologos a través de Muscle v3.7. Este método ha sido puesto en práctica para el mismo 10 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez subconjunto de genes que ALIGN. Para computar los 2000 genes, FILOALIGN requirió aproximadamente 3-4 días de computación dividiendo el trabajo entre 140 CPUs a 2 GHz 3.2. Selección de metodologías 3.2.1. Selección de la mejor metodología (BLAST2, ALIGN, FILOALIGN) Tras procesar los genes por las tres metodologías (BLAST2, ALIGN, FILOALIGN) y obtener sus respectivas selecciones de isoformas, se compararon los resultados mediante una media ponderada. Aquellos homólogos que presentaban sólo una isoforma han sido retirados de la ponderación ya que, evidentemente, ésta será elegida unánimemente por todos los métodos, no portando diferencias en la comparación. Las comparaciones entre métodos se han realizado comparando entre pares, y analizando las coincidencias entre los tres. La puntuación de comparación entre dos métodos se ha computado según los siguientes criterios: I. Se suma el número de homólogos para los que los dos métodos han elegido la misma isoforma, ponderado por el número de isoformas de cada uno de estos genes. II. Se divide este número entre la suma total de isoformas que presentan los genes que tienen más de una isoforma. Obtendremos así un porcentaje de coincidencia para un determinado gen entre dos de los tres métodos de selección. III. La media de este valor para todos los genes generará un único valor que representará el porcentaje de coincidencia entre dos métodos. La resultante es la media aritmética entre todos los valores. El porcentaje ponderado para un conjunto de homólogos (PPH) para un gen semilla es; 11 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez donde: Nt es el numero de genes (con mas de una isoforma); P = serie de datos representando la coincidencia o la discrepancia de ambos métodos para el gen i (Pi tomara un valor de 1 si ambos métodos coinciden para el gen i, y un valor de 0 si discrepan); T = serie de datos representando el número de isoformas correspondiente a cada gen; (Ti sería igual al numero de isoformas del gen i) 3.2.2. Comparación entre estrategias (LIS vs BLAST2) El alineamiento de las secuencias de las isoformas seleccionadas para cada gen por ambos métodos se realizó empleando el algoritmo Muscle v3.7, con la opción musclescore. Como test estadístico para verificar o rechazar si existen diferencias entre las medias totales de los scores obtenidos por ambos métodos para cada gen, se ha aplicado un tTest de muestras independientes. La aplicación de este test de contraste paramétrico requiere la normalidad de las observaciones para cada uno de los grupos. Se ha asumido esta condición por estar tratando tamaños relativamente grandes (>30), basándonos en el teorema central del límite. Para realizar el cálculo del test, empleamos la librería stats del paquete scipy, implementada en el lenguaje de programación Python. Los alineamientos de las isoformas de cada gen y por lo tanto de cada árbol, se han visualizado mediante la función correspondiente incluida en el paquete ETE (Environment for Tree Exploration) [20]. Para determinar que existen diferencias significativas en cuanto a score, hemos considerado significativo un p-valor de <0.05. 3.3. Análisis del conjunto de datos BLAST2 vs LIS 3.3.1. Predicción de ortología Dado que el árbol de especies correspondiente a la selección de especies es relativamente aceptado [21], la predicción de ortología se hizo mediante el algoritmo de “species overlap” [22] implementado en el paquete ETE. El conteo de las inconsistencias en esta predicción de ortología/paralogía entre los conjuntos de datos LIS y BIS se realizó también empleando el paquete ETE. 12 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 3.3.2. Análisis filogenético Las secuencias de las isoformas, obtenidas por uno y otro método se han alineado con el algoritmo Muscle v3.7 y se ha utilizado el programa trimAl v1.2 [23], para eliminar secuencias demasiado divergentes o mal alineadas. Para cada conjunto de isoformas seleccionadas por cada método se construyó un árbol filogenético de máxima verosimilitud empleando pMODELTEST [24], que permite inferir estadísticamente el mejor modelo evolutivo que explica la relación entre un conjunto de secuencias nucleotídicas. 3.3.3. Comparación de topologías Para la comparación de topologías se ha empleado el programa TreeKO [25], con dos estrategias de medición de distancias diferentes: 1- la distancia de Robinson & Foulds [26] (en su variante de distancia estricta y distancia de especiación); y 2- la distancia al filoma utilizando la topología de la figura 2. Figura 2. Relaciones filogenéticas de las 8 especies de estudio [21]. Esta última distancia fue seleccionada para identificar nodos en conflicto con la topología del filoma. Esta permite identificar la variabilidad en un conjunto de árboles de genes sobre los nodos de un árbol de referencia que le suministraremos y contra el 13 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez cuál se comparará cada árbol. 3.3.4 Análisis de adaptación Para el estudio de la adaptación de secuencias se han seleccionado topologías que contuviesen única y exclusivamente árboles compuestos por 8 especies diferentes y cuyo conjunto final de isoformas difiriese entre las metodologías BLAST2 y LIS. Por otro lado, se han aplicado filtros de divergencia mínimos (Tabla 1) para las tasas de sustituciones no sinónimas por sitio no sinónimo (dN) y la tasa de sustituciones sinónimas por sitio sinónimo (dS) entre especies [27,28]. Pares de especies dN dS P. troglodytes H. sapiens 0.0313 0.0625 P. pygmaeus H. sapiens 0.0862 0.1727 P. pygmaeus M. musculus 1.1704 2.3387 M. mulatta M. musculus 1.1807 2.3612 M. mulatta H. sapiens 0.1646 0.3293 H. sapiens M. musculus 0.4896 1.0224 M. musculus R. norvegicus 0.4375 0.8750 M. musculus C. porcellus 1.2430 2.4836 Tabla 1. Valores de dN y dS utilizados como filtros máxímos entre especies. El programa CODEML del paquete PAML [29] fue utilizado para el análisis de adaptación en secuencias. Este programa emplea métodos de máxima verosimilitud, basándose en modelos de evolución de codones. El modelo que emplea este programa es una versión simplificada del modelo de Goldman y Yang [30, 31]. Para estudiar los efectos que la adaptación ejerce sobre las secuencias del estudio, se han aplicado dos tipos de modelos; los modelos de sitios y los modelos de rama por sitio. 3.3.4.1. Modelos de adaptación por sitio Para analizar los efectos de la selección positiva que actúan sobre cada gen y su selección de isoformas por los dos métodos, se han utilizado los modelos M1a, 14 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez M2a, M7 y M8 [32] y los correspondientes test de tasas de verosimilitud (LRT). El primer test compara la verosimilitud de los modelos M1a y M2 sobre las secuencias alineadas. El modelo M1a (denominado cuasi-neutral) posee dos clases de sitios (0, 1) con proporciones p0, y p1; una con ω0 estimado entre 0 y 1, y la otra con ω1 = 1. El modelo M2a añade una nueva clase de sitios en proporciones p2 con ω2 > 1 , que se infiere de los datos. El test M7 vs M8 difiere del anterior por el número de clases de sitios. Mientras que en el modelo M7 las presiones selectivas se distribuyen en 10 clases de sitios en el modelo M8, lo hace sobre 11 clases de sitios. La clase adicional del modelo alternativo asume una proporción extra de sitios bajo selección positiva, (ω > 1) Para calcular la probabilidad a posteriori de pertenencia de un sitio a una clase, CODEML utiliza una aproximación Bayesiana (Bayes-Empirical Bayes; BEB). Los sitios con una probabilidad a posteriori de pertenecer a la clase con un p-valor < 0.05 luego del LRT, son seleccionados como sitios de selección positiva [33] 3.3.4.2. Modelos de adaptación por rama y sitio Este tipo de modelos permiten que ω varíe tanto entre ramas como entre sitios dentro del árbol, detectando selección positiva sobre sitios concretos en ramas determinadas. Las ramas seleccionadas para testear selección positiva se denominan foreground, mientras que el resto de las ramas del árbol se reconocen como background. En este trabajo se ha aplicado el denominado Test 2 de ramas por sitio, definido en Zhang, et al [33] y aplicado en Arbiza et al [27] y Serra et al [28]. Este test compara dos modelos (A y A1). Mientras que en el modelo nulo (A1), solo se consideran 2 clases de sitios (aquellos bajo selección purificadora y neutral) a lo largo del background, el modelo alternativo (A) agrega una clase de sitios bajo selección positiva solamente en el foreground. Estos modelos se comparan a través de una prueba de LRT. La identificación de sitios bajo selección positiva se determina a posteriori por inferencia bayesiana. 15 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 4. RESULTADOS Y DISCUSION 4.1. Conjunto de datos Las estrategias desarrolladas en esta tesis para la búsqueda de una forma de selección de genes homólogos a partir de la comparación de múltiples isoformas, ha generado un total de 3 conjuntos de datos originales, derivados de las tres metodologías ya mencionadas: BLAST2, ALIGN y FILOALIGN. A estas tres hay que sumar el conjunto de isoformas derivadas directamente de la propia búsqueda de Biomart sobre la base de datos de Ensembl-Compara v.56. Esta última corresponde a la mencionada como LIS (por Longest Isoform Selection). Biomart encontró un total de 20.966 grupos de homólogos a partir del genoma de H. sapiens con el resto de las 7 especies de mamíferos. El grupo de homólogos derivado de BLAST2 no observados en LIS corresponde a 9.564 genes. En estos, al menos una de las isoformas seleccionadas no corresponde a la transcripción más larga. 4.2. Comparación del conjunto de datos La comparación de los conjuntos de datos tomados de a pares y su ponderación por el número de isoformas homólogas comunes a través de la medida PPH (ver definición en Materiales y Métodos; sección 3.2.1), no arrojaron diferencias sustanciales en el descubrimiento de conjuntos de isoformas distintas entre los métodos (Figura 2). El hecho de que tanto BLAST2 y FILOALIGN como ALIGN y FILOALIGN presenten un valor más alto (~54%) de coincidencia entre si que ALIGN y BLAST (~48%), podría deberse a características compartida entre métodos. Efectivamente los métodos BLAST2 y FILOALIGN comparten un primer paso en común en el que ambos, partiendo del mismo conjunto de isoformas del gen semilla humano construyen conjuntos de homólogos en diferentes especies a partir de cada una de estas isoformas. Una vez definidos estos grupos BLAST2 selecciona a aquel conjunto de isoformas que maximiza el score del algoritmo BLAST, mientras que FILOALIGN recurre al alineamiento de cada conjunto de homólogos y escoge aquel con máximo score de alineamiento. Este segundo paso de FILOALIGN es compartido con la metodología e ALIGN. Contrariamente, los métodos BLAST2 y ALIGN 16 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez no comparten metodologías comunes. La búsqueda realizada por BLAST2 para agrupar homólogos es diferente a las practicada en ALIGN, donde la comparación de todas contra todos genera un universo mas basto de agrupamientos de secuencias. Dadas estas similitudes y diferencias entre los métdos es de esperar que el porcentaje de coincidencia entre los tres métodos sea más bajo aún (35.55%). Al momento de seleccionar la mejor estrategia debemos tener en cuenta que tanto los métodos ALIGN como FILOALIGN sólo contemplaron un limitado conjunto de datos. Como se ha explicado en el apartado 3.1, resulta computacionalmente muy costoso analizar el universo posible de combinaciones de isoformas en ambos métodos. Esta es la razón por la cual el diagrama de la figura 2 solo contempla 2.000 conjuntos de homólogos (extraídos de idénticas semillas) y no el total de los más de 20.000 conjuntos totales de isoformas homólogas. Por lo tanto, si bien las estrategias ALIGN y FILOALIGN resultan más fiables al momento de seleccionar conjuntos de homólogos, éstas son tan intensivas computacionalmente que resultan inaplicables cuando se tratan problemas de genomas completos. De aquí que escojamos la estrategia BLAST2 como la solución mas económica y sin embargo fiable de selección de isoformas entre los 3 métodos originales presentados en esta tesis para el análisis de datos genómicos. Figura 3: Diagrama de Venn representando los porcentajes de coincidencia entre métodos de selección de isoformas 17 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 4.3. Comparación de los métodos BLAST2 y LIS Para comprobar cuantitativamente si la metodología mas económica en términos de computación (BLAST2) resulta más efectiva que la selección de isoformas por el transcripto más largo (LIS) comparamos los valores del score de alineamiento para los 9.564 genes comunes entre estas metodologías. La media de estos valores fue 70.68 y 68.37 para BLAST2 y LIS, respectivamente. La diferencia resultó estadísticamente significativa tras la aplicación del t-Test de muestras independientes (t = 5.99; p-valor << 0.001). Este resultado valida la mejora en la calidad de los alineamientos que supone la selección de isoformas por el método BLAST2 en contraposición a la estrategia generalmente aplicada en todos los estudios de genómica comparativa llevados a cabo hasta la fecha. Para confirmar de forma gráfica este resultado la figura 4 muestra la distribución de los scores utilizand "notched" box-plot. La no-superposición de las muescas entre distribuciones señala que las medianas son diferentes con un 95% de confianza. De la misma forma que para el test de medias, observamos una diferencia significativa. Figura 4. Representación de los valores de score de alineamiento para los conjuntos de datos BLAST2 (1) y la selección de isoformas más largas (2). Las muescas de los box-plot no son solapantes, por lo que las medianas son estadísticamente diferentes. 18 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez Una vez verificado que la selección de isoformas a través de BLAST2 mejora significativamente la calidad del alineamiento veremos como influyen estas diferencias en cuanto a predicción de ortología, análisis filogenético y análisis de adaptación molecular. 4.4. Predicción de ortología y paralogía Para valorar los cambios en cuanto a la obtención de ortólogos y parálogos por BLAST2 y LIS, contamos el número de cambios de ortólogos a parálogos para los dos métodos. De los 9.564 genes hemos visto que en el 34.13 % de ellos existe al menos un cambio en cuanto a estas relaciones de tipos de homología molecular. Este resultado contrasta fuertemente con las pequeñas mejoras de calidad de los alineamientos vistas anteriormente. A nivel de predicción de ortología y paralogía, la selección de isoformas es un factor clave, y si bien no podemos afirmar que los cambios observados corresponden a una mejor interpretación del proceso evolutivo, si podemos evaluar el impacto que supone no escoger las isoformas mas largas. 4.5 Análisis de topologías La comparación entre topologías de los árboles obtenidos para cada gen entre los dos métodos mostró que en media los árboles tienen una distancia de especiación de 0.05. Si bien este número no parece ser muy elevado para diferenciar entre los métodos, esta medida de distancia no contempla las diferencias entre dos árboles marcadas por eventos tales como duplicaciones o pérdidas de genes. Sin embargo, si empleamos la distancia estricta la media entre ambos métodos se incrementa a 0.17, lo cual nos indica que las diferencias entre la manera de construir los árboles filogenéticos, son apreciables (en razón de un 20% de los arboles) tan pronto como tomamos en cuenta los eventos de duplicaciones y pérdida de genes ocurrido entre árboles. Esta diferencia, evidencia la repercusión en cuanto a las topologías construidas a partir de uno y otro método. La comparación de las topologías obtenidas en relación al árbol de referencia del filoma mamífero no reveló diferencias notables entre los métodos. No obstante los resultados 19 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez muestran diferencias entre las dos aproximaciones. La comparación contra el filoma, mostró que para los árboles construidos a partir de la isoforma más larga, existía un 65.9% de árboles, o particiones, que recuperaban la topología de referencia, mientras que para los árboles obtenidos a partir de BLAST2, este porcentaje se incrementaba a 67.6%. Este resultado, aunque sin soporte estadístico, apunta a que la metodología BLAST2 mejora el resultado de la topología obtenido a partir de estos alineamientos. 4.6 Análisis de adaptación Con el propósito de cuantificar las diferencias en eventos de adaptación derivados de las metodologías BLAST2 y LIS, dos tipos de test de adaptación se utilizaron: 1- test de sitios y 2- test de ramas por sitios. Para esto se han analizado el conjunto de genes comunes donde los ortólogos son “uno a uno” y difiriendo en el contenido de isoformas entre metodologías. Un total de 3.041 grupos de ortólogos cumplieron dichas condiciones. Luego de la aplicación del filtro de distancia máxima entre especies un total de 625 y 480 alineamientos fueron seleccionados dentro de los conjuntos BLAST2 y LIS, respectivamente. El número de genes bajo selección positiva contabilizados luego del LRT entre M1a y M2a fue de 33 y 56 para el conjunto de datos de BLAST2 y LIS. Este número representa el 5.3% para BLAST2 y 11.7% del total de alineamientos para LIS resaltando el carácter conservativo de BLAST2 al momento de detectar adaptación. El número total de sitios (codones) bajo selección positiva fue mas alto sin embargo en BLAST2 que en LIS, llegando 3,3 frente a 2.2 sitios de selección por gen en media para ambos métodos. Los resultados obtenidos mediante la comparación M7- M8, confirman los resultados de la comparación M1a vs M2a. Una mayor cantidad de genes bajo selección positiva El carácter mas conservativo de BLAST2 frente a LIS al momento de detectar genes bajo selección positiva (72 vs 101) y con una mayor cantidad de sitios positivamente seleccionados por gen (4.12 frente a 2.94). La figura 5 muestra un ejemplo gráfico de lo que ocurre a nivel de detección de sitios bajo 20 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez selección positiva en el alineamiento. El alineamiento de las isoformas más largas conlleva un alineamiento de exones no homólogos, por lo que se generan gaps mas grandes, provocando alineamientos que no reflejan la realidad, detectándose así los falsos positivos de sitios bajo selección natural, 3 en este caso, según el modelo M2a. Por el contrario, en las isoformas obtenidas a través de BLAST2 los exones que se alinean son verdaderos ortólogos mejorando la estima de selección natural sobre secuencias. Figura 5. Alineamientos e histograma de valores de dN/dS por sitio (M2a) correspondiente al conjunto de isoformas ortólogas a través de LIS (A) y BLAST2 (B) para el gen Ensembl_ID:ENSG00000187672. Los amino ácidos supuestamente sometidos a selección positiva están señalados en verde representando valores de ω=dN/dS >1. Estos sitios son falsos positivos al compararse con el alineamiento B. Los asteriscos remarcan diferencias de alineamiento.Las cajas amarillas muestran 5 residuos “EGIWA” separados por gaps debido a la selección de isoformas más largas (LIS) y el respectivo alineamiento de exones no homólogos. En B no se observan gaps y los residuos aparecen juntos mejorando la calidad del alineamiento. Note que no se observan sitios de seleccion positiva. Los resultados obtenidos luego del análisis del test de adaptación por ramas y sitios entre métodos confirma la misma tendencia observada en el análisis de sitios. La Tabla 2 muestra el número de genes totales, y por especie, bajo selección positiva deducidos a partir de ambas 21 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez metodologías. en la mayor parte de los casos estudiados el BLAST2 muestra ser más conservativo que el método de las isoformas más largas. Especies M. musculus R. norvegicus C. porcellus M. mulatta H.sapiens P. troglodytes P. pygmaeus Total BLAST2 85 7 64 12 30 38 61 297 LIS 77 14 76 17 34 36 85 339 COMUNES 45 3 34 2 18 21 36 159 Tabla 2. Número de genes bajo selección positiva según el modelo por rama y sitio. Por lo tanto, sin posibilidades de comparación con un conjunto de secuencias fiables para este conjunto de datos donde detectar falsos positivos y negativos concluimos que el comportamiento mas parsimonioso de la metodología BLAST2 sirve a los propósitos del estudio de la selección natural sobre secuencias de manera mas fiable que la metodología comúnmente utilizada del transcripto mas largo. 22 5. CONCLUSIONES En este trabajo se han presentado tres metodologías novedosas para la selección de conjuntos de secuencias homólogas: BLAST2, FILOALIGN y ALIGN. Estas metodologías fueron comparadas entre sí y con la metodología clásica de búsqueda de homólogos en estudios de genómica comparativa: la selección de isomorfas a partir del transcripto más largo (LIS). En estas comparaciones hemos demostrado que BLAST2 en contraposición a LIS es una metodología alternativa y equivalente en tiempos de computación para la resolución de problemas genómicos. En contraposición FILOALIGN resultaría más eficiente si los problemas a analizar tuviesen una disensión menor, pro ejemplo las que resulten de comparaciones en estudios de unas pocas familias multigénicas. La metodología ALIGN al ser exhaustiva es de difícil resolución por el inmenso número de combinatorias que plantea incluso para unas pocas secuencias por gen en pocas especies. BLAST2 mejoró de forma significativa la calidad de los alineamientos de genes homólogos. Dada la ausencia de un conjunto de referencia, no permite concluir que el uso de BLAST2 en contraposición a LIS mejore significativamente la selección de topologías y la detección de presiones selectivas adaptativas. Sin embrago a lo largo de este trabajo hemos observado que BLAST2 mejora para un tercio de los conjuntos de homólogos estudiados las distancias topológicas al árbol del filoma. Del mismo modo la utilización de BLAST2 hace a la predicción de las secuencias y sitios bajo selección positiva mucho mas conservativa que la metodología LIS. La inclusión de este conjunto de referencia es condición necesaria para la posterior publicación de este trabajo. Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 6. BIBLIOGRAFÍA 1. Owen, R. On the archetype and homologies of the vertebrate skeleton. (London, 1848). 2. Darwin, C. On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. (London, 1859). 3. Haeckel, E. Die systematische Phylogenie. (1894). 4. Felsenstein, J. Inferring phylogenies. Methods in enzymology 266, 1-681 (2004). 5. Jocelyn E. Krebs, Elliott S. Goldstein, S.T.K. Lewin’s GENES X. (2011). 6. Sayers, E.W. et al. Database resources of the National Center for Biotechnology Information. Nucleic acids research 39, D38-51 (2011). 7. Huerta-Cepas, J. et al. PhylomeDB v3.0: an expanding repository of genome-wide collections of trees, alignments and phylogeny-based orthology and paralogy predictions. Nucleic acids research 39, D556-60 (2011). 8. Waterhouse, R.M., Zdobnov, E.M., Tegenfeldt, F., Li, J. & Kriventseva, E.V. OrthoDB: the hierarchical catalog of eukaryotic orthologs in 2011. Nucleic acids research 39, D283-8 (2011). 9. Vilella, A.J. et al. EnsemblCompara GeneTrees: Complete, duplication-aware phylogenetic trees in vertebrates. Genome research 19, 327-35 (2009). 10. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool. Journal of molecular biology 215, 403-10 (1990). 11. Waterman, M.S. Identification of Common Molecular Subsequences Identification of Common Molecular Subsequences. 195-197 (1981). 12. Hubbard, T. et al. The Ensembl genome database project. Nucleic acids research 30, 38-41 (2002). 13. Chao, K.M., Pearson, W.R. & Miller, W. Aligning two sequences within a specified diagonal band. Computer applications in the biosciences": CABIOS 8, 481-7 (1992). 14. Wallace, I.M., O’Sullivan, O., Higgins, D.G. & Notredame, C. M-Coffee: combining multiple sequence alignment methods with T-Coffee. Nucleic acids research 34, 1692-9 (2006). 15. Hubbard, T.J.P. et al. Ensembl 2009. Nucleic acids research 37, D690-7 (2009). 16. Smedley, D. et al. BioMart--biological queries made easy. BMC genomics 10, 22 (2009). 24 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 17. Edgar, R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic acids research 32, 1792-7 (2004). 18. Abascal, F., Zardoya, R. & Posada, D. ProtTest: selection of best-fit models of protein evolution. Bioinformatics (Oxford, England) 21, 2104-5 (2005). 19. Guindon, S. & Gascuel, O. A Simple, Fast, and Accurate Algorithm to Estimate Large Phylogenies by Maximum Likelihood. Systematic Biology 52, 696-704 (2003). 20. Huerta-Cepas, J., Dopazo, J. & Gabaldón, T. ETE: a python Environment for Tree Exploration. BMC bioinformatics 11, 24 (2010). 21. Prasad, A.B., Allard, M.W. & Green, E.D. Confirming the phylogeny of mammals by use of large comparative sequence data sets. Molecular biology and evolution 25, 1795-808 (2008). 22. Huerta-Cepas, J., Dopazo, H., Dopazo, J. & Gabaldón, T. The human phylome. Genome biology 8, R109 (2007). 23. Capella-Gutiérrez, S., Silla-Martínez, J.M. & Gabaldón, T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics (Oxford, England) 25, 1972-3 (2009). 24. Posada, D. jModelTest: phylogenetic model averaging. Molecular biology and evolution 25, 1253-6 (2008). 25. Marcet-Houben, M. & Gabaldón, T. TreeKO: a duplication-aware algorithm for the comparison of phylogenetic trees. Nucleic acids research 39, e66 (2011). 26. D. R. Robinson, L.R.F. Comparison of phylogenetic trees. Mathematical Biosciences 53, 131-147 (1981). 27. Arbiza, L., Dopazo, J. & Dopazo, H. Positive selection, relaxation, and acceleration in the evolution of the human and chimp genome. PLoS computational biology 2, e38 (2006). 28. Serra, F., Arbiza, L., Dopazo, J. & Dopazo, H. Natural selection on functional modules, a genome-wide analysis. PLoS computational biology 7, e1001093 (2011). 29. Yang, Z. PAML: a program package for phylogenetic analysis by maximum likelihood. Computer applications in the biosciences": CABIOS 13, 555-6 (1997). 30. Goldman, N. & Yang, Z. A codon-based model of nucleotide substitution for protein-coding DNA sequences. Molecular biology and evolution 11, 725-36 (1994). 31. Yang, Z. Likelihood ratio tests for detecting positive selection and application to primate lysozyme evolution. Molecular biology and evolution 15, 568-73 (1998). 25 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 32. Yang, Z., Nielsen, R., Goldman, N. & Pedersen, a M. Codon-substitution models for heterogeneous selection pressure at amino acid sites. Genetics 155, 431-49 (2000). 33. Zhang, J., Nielsen, R. & Yang, Z. Evaluation of an improved branch-site likelihood method for detecting positive selection at the molecular level. Molecular biology and evolution 22, 2472-9 (2005). 26 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 7. ANEXO I ALGORITMO BLAST2 En este anexo se muestra el comportamiento de BLAST2 a la hora de realizar la selección de isoformas utilizando como "query" una secuencia semilla de H. sapiens. En BLAST2, la semilla corresponde a todos los transcriptos del gen humano en cuestión. La selección se realiza frente a una base de datos que contiene el conjunto total de isoformas de genes de otras especies. Así, para cada búsqueda obtendremos un subconjunto de isoformas más cercana en "score" al gen semilla (ver Figura S1). Para definir el conjunto de isoformas homólogas putativas se suma los valores de "scores" de la isoforma más cercana para cada especie a la isoforma "query". En la figura 1, podemos comprobar que la isoforma que corresponde al Ensembl ID Isoforma: ENST00000375464; Ensembl ID Gen: ENSG00000165233, tiene un largo de 183 aminoácidos, y su selección de isoformas suma un "score" total de 2.044. Este gen en la versión 56 de Ensembl presentaba dos isoformas de las cuales esta de 183 aminoacidos es la más corta. Sin embargo, la isoforma más larga ENST00000428473 para este mismo gen tiene una longitud de 228 aminoácidos (Figura S2). Cuando empleamos este transcripto como "query" en BLAST, este devuelve un conjunto de isoformas cuya suma de "score" es 1.518, resultado ~500 puntos más bajo que el anterior, por lo que en este caso BLAST2 ha mejorado a priori la elección de transcriptos homólogos. Fig S1: Captura de pantalla de la salida de BLAST para la isoforma más corta ENST00000375464 del gen ENSG00000165233. En el recuadro rojo están incluidas las isoformas, una por especie, con mayor valor de "score". El recuadro blanco remarca la isoforma semilla, y su longitud 27 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez Fig S2: Captura de pantalla de la salida de BLAST para la isoforma más larga ENST00000428473 del gen ENSG00000165233. En el recuadro rojo están incluidas aquellas isoformas, una por especie, con mayor valor de score. El recuadro azul remarca la isoforma semilla, y su longitud. 28 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez 8. ANEXO II. ALGORITMO FILOALIGN En este anexo se muestra el funcionamiento FILOALIGN. Este algoritmo utiliza el conjunto de isoformas de un gen colectas en EnsemblCompara para las 8 especies de este trabajo. FILOALIGN computa un árbol de ML utilizando el mejor modelo evolutivo del conjunto de estas isoformas (Figura S3). En este árbol, existen genes homólogos (Gen 1 y Gen 2) con más de una isoforma (A y B) (Fig S3). Para el gen semilla (recuadrado en rojo), la isoforma más cercana del gen 1 es la isoforma A, y para el gen 2 es de nuevo la isoforma A. Sin embargo, el grupo de isoformas seleccionadas partiendo de la isoforma amarilla, será diferente porque para el gen 1, la isoforma más cercana a esta semilla es la B en ambos casos. Finalmente, cada combinación se alinea, y aquella que maximice el score de alineamiento será la combinación de homólogos elegida. Figura S3: Figura que representa el árbol completo para el gen ENSG00000165233, construido a partir de todas sus isoformas existentes. 29 Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez Experiencia adquirida durante la realización de este proyecto. Programación • Linux OS • Shell-Scripting • Emacs. Editor de texto • Python. Lenguaje de programación • Manejo de computación distribuida (Sun Grid Engine) • Construcción de pipelines Bases de Datos • Ensembl Compara. Base de datos de genomas completos • Phylome DB. Base de datos de filomas. Manejo de Software • BLAST. Programa para búsqueda de secuencias similares • PHYML. Phylogenetic Maximum Likelihood • PAML. Phylogenetic Analysis using Maximum Likelihood • PHYLIP. Phylogeny Inference Package • trimAl. Trim Alignments • TreeKO. Duplication-aware algorithm for the comparison of phylogenetic trees • ETE. Environment for tree explorer 30