Download Homología de Isoformas Filogenia, Ortología y Adaptación

Document related concepts

CTBP2 wikipedia, lookup

MRE11A wikipedia, lookup

SPI1 wikipedia, lookup

Histona deacetilasa 7A wikipedia, lookup

Sp3 wikipedia, lookup

Transcript
Homología de Isoformas
Filogenia, Ortología y Adaptación
Juan Antonio Rodríguez Pérez
MAGISTER EN BIOINFORMÁTICA Y BIOLOGIA COMPUTACIONAL
UNIVERSIDAD COMPLUTENSE DE MADRID
2010-2011
_________________________
CENTRO/EMPRESA DONDE SE DESARROLLARON LAS PRACTICAS
Centro de Investigación Príncipe Felipe (Valencia)
DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA)
François Serra / Hernán J. Dopazo
CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER)
Federico Morán Abad
FECHA:
Septiembre 2011
CALIFICACIÓN:
Homología de Isoformas. Filogenia. Ortología y Adaptación
2
Juan Antonio Rodriguez Perez
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
ÍNDICE
1. Introducción
2. Objetivos
3. Materiales y Métodos
3.1. Obtención del conjunto de genes.
3.1.1. Estrategia de la isoforma más larga (LIS)
3.1.2. Método de selección de isoformas por homología: BLAST2
3.1.3. Método de selección de isoformas por alineamiento: ALIGN
3.1.4. Método de selección de isoformas por filogenia: FILOALIGN
3.2. Selección de Metodologías
3.2.1. Selección de la mejor metodología (BLAST2 - ALIGN - FILOALIGN)
3.2.2. Comparación entre estrategias (LIS vs BLAST2)
3.3. Análisis del conjunto de datos BLAST2 vs LIS
3.3.1. Predicción de ortología
3.3.2. Análisis filogenético
3.3.3. Comparación de topologías de árboles
3.3.4. Análisis de adaptación molecular
3.3.4.1 Modelos de adaptación por sitio
3.3.4.2 Modelos de adaptación por rama y sitio
4. Resultados y Discusión
4.1. Conjunto de Datos
4.2. Comparación del conjunto de datos
4.3. Comparación de los métodos BLAST2 y LIS
4.4. Análisis de ortología y paralogía
4.5. Análisis de topologías
4.6. Análisis de adaptación
5. Conclusiones
6. Bibliografía
7. Anexo I
8. Anexo II
9. Experiencia adquirida
3
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
1. INTRODUCCIÓN
El concepto de homología es la base fundamental de la biología comparada. Originalmente
definido por Richard Owen [1] para estudiar las variantes del arquetipo vertebrado, el término fue
finalmente despojado de toda raíz creacionista luego de la publicación del Origen de las Especies
[2]. Esta publicación sentó las bases para la fundación de la biología moderna y el
reconocimiento de la biología como una ciencia histórica.
Desde el punto de vista Darwiniano la homología es evidencia de ancestralidad común y las
relaciones de parentesco se ponen en evidencia a través de la reconstrucción filogenética [3]. En
términos modernos el problema de la reconstrucción filogenética es un problema estadístico
preferiblemente asociado a la evolución de marcadores moleculares y en general asociado a la
evolución de los genes [4]. Sin embargo, los genes de especies eucariotas generalmente
transcriben más de una forma proteica [5], con lo que el reconocimiento de la homología puede
ser un problema comparativo no trivial para el análisis filogenético.
Las metodologías empleadas para el reconocimiento de la homología génica se basan en la
aproximación consensuada y generalmente aceptada de que la isoforma o transcripto más largo
de cada gen, mostrará una mayor distribución de posiciones homólogas maximizando así la
posibilidad de reconstruir las relaciones de parentesco entre las secuencias. Esta metodología es
empleada por bases de datos tales como HomoloGene [6], PhylomeDB [7], OrthoDB [8], y
EnsemblCompara [9]. En todas ellas, se parte de las isoformas más largas para, a partir de un
conjunto de algoritmos variables, reconstruir las relaciones filogenéticas de estas secuencias.
A continuación, a modo de ejemplo describiremos el procedimiento empleado por la base de
datos de EnsemblCompara para la obtención de ortólogos, es decir genes homólogos cuya
relación de descendencia se debe al proceso de diferenciación de especies. El resto de bases de
datos emplean estrategias análogas con algunas modificaciones propias. Para seleccionar sus
homólogos a partir de las proteínas para cada especie, HomoloGene y OrthoDB emplean
BLASTP [10], PhylomeDB se basa en el algoritmo de Smith-Waterman [11], mientras que
Ensembl [12] combina ambos, pero manteniéndose en todas ellas la selección de genes
4
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
homólogos a partir del transcripto más largo.
El proyecto Ensembl es una iniciativa conjunta del EBI (European Bioinformatics Institute) y del
Instituto Sanger, lanzada en 1999, como respuesta a la más que previsible finalización del
Proyecto Genoma Humano. El acceso público a los datos genómicos a través de un servidor web,
la anotación automática de genomas y la integración con otras bases de datos para genomas
vertebrados fueron sus objetivos iniciales. El servidor web se puso en marcha a mediados del año
2000, y desde entonces, genomas de otras especies se han ido añadiendo a la base de datos, y el
tipo de información a disposición de los usuarios se ha expandido para abarcar toda una serie de
datos biológicos funcionales y comparativos entre diferentes especies de animales, plantas,
eucariotas unicelulares y procariotas.
La base de datos, denominada EnsemblCompara [9], nos permite actualmente, realizar
predicciones de ortología y paralogía tras la secuenciación de un nuevo genoma. Estas
predicciones se realizan a partir de árboles de máxima verosimilitud (ML, Maximum Likelihood;
por sus siglas en inglés), tratando de reconstruir la historia de familias génicas. El algoritmo que
se emplea para predecir las relaciones de homología consiste en:
i.
Buscar la isoforma de mayor largo de secuencia para cada gen por cada especie empleada en el análisis, en la
base de datos de Ensembl.
ii.
Ejecutar un WUBLASTP [13], en combinación con el algoritmo de Smith-Waterman, para cada gen contra el
resto (su misma especie incluida)
iii. Construir un gráfico de las relaciones entre proteínas basadas en los mejores hits recíprocos para BLAST o en el
ratio de scores de BLAST cuando es > 0.33.
iv. Del gráfico se extraer los componentes conectados. Cada conexión representa un grupo o familia génica.
v. Para cada agrupamiento construir un alineamiento múltiple, basado en la secuencia de proteínas, empleando una
combinación de alineadores, consensuados por M-Coffee [14]
vi. Construir un árbol filogenético empleando TreeBeST [9], con la secuencia codificante.
vii. Inferir las relaciones de ortología y paralogía a partir de este árbol.
En el paso I de dicho algoritmo se utiliza la selección de la isoforma más larga. Esto presupone
que, al menos, una de las siguientes hipótesis es cierta:
•
•
Las isoformas se conservan dentro de un mismo conjunto de homólogos
El paso de alineamiento eliminará exones no-homólogos.
5
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
Esta estrategia de tomar “por consenso” la isoforma más larga de un gen para predecir relaciones
de homología entre genes, puede acarrear problemas que se manifiesten y se acumulen a lo largo
de todo el flujo de trabajo.
Si por alguna razón biológica o algorítmica el transcripto más largo de alguna de las especies
implicadas no es reconocido, los exones utilizados en el alineamiento podrían llegar a ser no
homólogos, generando gaps y problemas de alineamiento (Fig. 1). En este caso, los análisis
estadísticos a posteriori, ya sea en la reconstrucción filogenética, en la detección de ortología y
paralogía, y/o en la detección de selección natural sobre dichas moléculas, se verían
comprometidos .
Isoforma 1
Isoforma 2
P. troglodytes
H.sapiens
M. musculus
ALINEAMIENTO DE ISOFORMAS
Isoforma 1 H. sapiens
Isoforma 2 P. troglodytes
Isoforma 1 M. musculus
Figura 1. Problemas en la elección del transcripto más largo. En la especie Pan troglodytes la isoforma 1 no es
reconocida como la más larga ya que ha habido un cambio en la configuración del transcripto a lo largo del proceso
evolutivo. La forma más larga para esta especie es la isoforma 2 generando problemas de alineamiento entre
isoformas no homólogas. Las cajas de colores indican exones.
En esta tesis utilizaremos metodologías clásicas de la genómica comparativa. Concretamente:
•
La definición de conjuntos de genes homólogos.
•
El alineamiento de secuencias
•
La reconstrucción filogenética
6
Homología de Isoformas. Filogenia. Ortología y Adaptación
•
La predicción de las relaciones de ortología y paralogía
•
La detección de eventos de selección positiva.
Juan Antonio Rodriguez Perez
Finalmente, concluiremos que la selección de isoformas mediante uno de los métodos propuestos
en esta tesis, sin ser el más eficiente produce mejoras, en el alineamiento y por lo tanto cambios
en la definición de ortólogos, parálogos y sitios bajo selección positiva.
7
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
2. OBJETIVOS
El objetivo principal de este trabajo consiste en definir una nueva metodología para la búsqueda y
alineamiento de secuencias homologas que sirviendo a los propósitos del análisis de secuencia en
bioinformática y evolución molecular mejore los resultados presentados por la estrategia de la
forma más larga (LIS).
La hipótesis que pondremos a prueba en este proyecto establece que el empleo de una
metodología diferente al método comúnmente utilizado (LIS) mejora la calidad del alineamiento
evitando así la obtención de falsos positivos a la hora de detectar eventos de ortología y selección
positiva.
8
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
3. MATERIALES Y MÉTODOS
3.1. Obtención del conjunto de genes.
Los conjuntos de genes homólogos correspondientes a cada gen de H. sapiens fueron
obtenidos de Ensembl v56 [15] a través de Biomart [16]. Las especies implicadas en el
estudio fueron: P. troglodytes , P. pygmaeus, M. mulatta, M. musculus, R. norvegicus , C.
porcellus y B. taurus.
3.1.1. Estrategia de la isoforma más larga (LIS)
Este set de homólogos precalculado por Ensembl está construido a partir del
transcripto más largo del gen [9] y por ello, constituirá el conjunto de genes con la
selección de las isoformas de mayor longitud de secuencia, empleadas como control en
el estudio, conjunto al cual a partir de ahora nos referiremos como LIS (LongestIsoform Selection) .
Para la construcción de un segundo conjunto de homólogos conteniendo una selección
de isoformas similares usamos todas las isoformas disponibles en Ensembl v56. A la
hora de proponer un método alternativo de selección de isoformas al transcripto más
largo, hemos pensado en tres metodologías diferentes:
3.1.2. Método de selección de isoformas por homología. BLAST2
El método de BLAST2 utiliza el programa BLAST [10] sobre todas las isoformas
existentes correspondientes a un grupo de genes homólogos. El algoritmo encuentra las
isoformas mas cercanas a cada una de las isoformas del gen semilla, resultando en un
grupo selecto de isoformas por cada una de las isoformas del gen semilla. Para evitar
tener dos isoformas de un mismo gen en estos grupos de isoformas homólogas, se
selecciona únicamente la isoforma mas cercana a la semilla para cada gen. Una vez
definidos estos grupos de transcriptos homólogos, se selecciona aquel grupo para el
que la suma de los scores de BLAST es mayor. (ANEXO I).
Cuando sea necesario referirse al conjunto de isoformas seleccionadas a través de este
9
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
método lo haremos por el nombre de BIS (Blast-Isoform Selection). El tiempo de
computación para producir BIS es de aproximadamente 2 horas de CPU a 2.0 GHz
para 20.966 genes semilla humanos.
3.1.3. Método de selección de isoformas por alineamiento: ALIGN
El método de ALIGN consiste en comparar todas las posibles combinaciones de
isoformas correspondientes a cada grupo de genes homólogos. Para ello se alinean las
secuencias con Muscle v3.7 [17] y a través del score de alineamiento (opción musclescore), se elige aquella combinación de isoformas que maximice esta
puntuación. Hemos encontrado genes semilla humanos con homólogos que
presentaban un número muy alto de isoformas, por lo que en ocasiones el número de
combinaciones posibles, alcanza y sobrepasa los varios millones. Con el objetivo de
poner un límite a esta combinatoria se ha elegido un umbral de 17.000 combinaciones
por gen semilla; cálculo realizado previamente al cómputo del alineamiento,
excluyendo el gen del grupo de comparación si se daba esta circunstancia.
El tiempo de computación para el algoritmo ALIGN ha sido de aproximadamente 1-2
semanas dividiendo el trabajo entre 140 CPUs a 2GHz cada una para completar 2.000
genes semilla humanos.
3.1.4. Método de selección de isoformas por filogenia: FILOALIGN
El método FILOALIGN se basa en la construcción de árboles filogenéticos, a partir del
grupo de homólogos con todas las isoformas disponibles. Se utilizó el programa
ProtTest [18] para estimar el mejor modelo de evolución del conjunto de isoformas. A
partir de éstas se construyen los árboles por máxima verosimilitud empleando el
programa PHYML [19]. Para cada uno de estos árboles se identificó cada una de las
isoformas de la semilla del gen humano y el conjunto de sus homólogos
correspondientes (ANEXO II). Para seleccionar un único conjunto de isoformas, se
compararon los scores de alineamiento de cada uno de los conjuntos homologos a
través de Muscle v3.7. Este método ha sido puesto en práctica para el mismo
10
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
subconjunto de genes que ALIGN. Para computar los 2000 genes, FILOALIGN
requirió aproximadamente 3-4 días de computación dividiendo el trabajo entre 140
CPUs a 2 GHz
3.2. Selección de metodologías
3.2.1. Selección de la mejor metodología (BLAST2, ALIGN, FILOALIGN)
Tras procesar los genes por las tres metodologías (BLAST2, ALIGN, FILOALIGN) y
obtener sus respectivas selecciones de isoformas, se compararon los resultados
mediante una media ponderada.
Aquellos homólogos que presentaban sólo una isoforma han sido retirados de la
ponderación ya que, evidentemente, ésta será elegida unánimemente por todos los
métodos, no portando diferencias en la comparación.
Las comparaciones entre métodos se han realizado comparando entre pares, y
analizando las coincidencias entre los tres.
La puntuación de comparación entre dos métodos se ha computado según los
siguientes criterios:
I.
Se suma el número de homólogos para los que los dos métodos han elegido la misma
isoforma, ponderado por el número de isoformas de cada uno de estos genes.
II. Se divide este número entre la suma total de isoformas que presentan los genes que
tienen más de una isoforma. Obtendremos así un porcentaje de coincidencia para un
determinado gen entre dos de los tres métodos de selección.
III. La media de este valor para todos los genes generará un único valor que representará
el porcentaje de coincidencia entre dos métodos. La resultante es la media aritmética
entre todos los valores.
El porcentaje ponderado para un conjunto de homólogos (PPH) para un gen semilla es;
11
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
donde: Nt es el numero de genes (con mas de una isoforma); P = serie de datos representando la
coincidencia o la discrepancia de ambos métodos para el gen i (Pi tomara un valor de 1 si ambos
métodos coinciden para el gen i, y un valor de 0 si discrepan); T = serie de datos representando el
número de isoformas correspondiente a cada gen; (Ti sería igual al numero de isoformas del gen i)
3.2.2. Comparación entre estrategias (LIS vs BLAST2)
El alineamiento de las secuencias de las isoformas seleccionadas para cada gen por
ambos métodos se realizó empleando el algoritmo Muscle v3.7, con la opción musclescore.
Como test estadístico para verificar o rechazar si existen diferencias entre las medias
totales de los scores obtenidos por ambos métodos para cada gen, se ha aplicado un tTest de muestras independientes.
La aplicación de este test de contraste paramétrico requiere la normalidad de las
observaciones para cada uno de los grupos. Se ha asumido esta condición por estar
tratando tamaños relativamente grandes (>30), basándonos en el teorema central del
límite. Para realizar el cálculo del test, empleamos la librería stats del paquete scipy,
implementada en el lenguaje de programación Python. Los alineamientos de las
isoformas de cada gen y por lo tanto de cada árbol, se han visualizado mediante la
función correspondiente incluida en el paquete ETE (Environment for Tree
Exploration) [20]. Para determinar que existen diferencias significativas en cuanto a
score, hemos considerado significativo un p-valor de <0.05.
3.3. Análisis del conjunto de datos BLAST2 vs LIS
3.3.1. Predicción de ortología
Dado que el árbol de especies correspondiente a la selección de especies es
relativamente aceptado [21], la predicción de ortología se hizo mediante el algoritmo
de “species overlap” [22] implementado en el paquete ETE. El conteo de las
inconsistencias en esta predicción de ortología/paralogía entre los conjuntos de datos
LIS y BIS se realizó también empleando el paquete ETE.
12
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
3.3.2. Análisis filogenético
Las secuencias de las isoformas, obtenidas por uno y otro método se han alineado con
el algoritmo Muscle v3.7 y se ha utilizado el programa trimAl v1.2 [23], para eliminar
secuencias demasiado divergentes o mal alineadas. Para cada conjunto de isoformas
seleccionadas por cada método se construyó un árbol filogenético de máxima
verosimilitud empleando pMODELTEST [24], que permite inferir estadísticamente el
mejor modelo evolutivo que explica la relación entre un conjunto de secuencias
nucleotídicas.
3.3.3. Comparación de topologías
Para la comparación de topologías se ha empleado el programa TreeKO [25], con dos
estrategias de medición de distancias diferentes: 1- la distancia de Robinson & Foulds
[26] (en su variante de distancia estricta y distancia de especiación); y 2- la distancia al
filoma utilizando la topología de la figura 2.
Figura 2. Relaciones filogenéticas de las 8 especies de estudio [21].
Esta última distancia fue seleccionada para identificar nodos en conflicto con la
topología del filoma. Esta permite identificar la variabilidad en un conjunto de árboles
de genes sobre los nodos de un árbol de referencia que le suministraremos y contra el
13
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
cuál se comparará cada árbol.
3.3.4 Análisis de adaptación
Para el estudio de la adaptación de secuencias se han seleccionado topologías que
contuviesen única y exclusivamente árboles compuestos por 8 especies diferentes y
cuyo conjunto final de isoformas difiriese entre las metodologías BLAST2 y LIS.
Por otro lado, se han aplicado filtros de divergencia mínimos (Tabla 1) para las tasas de
sustituciones no sinónimas por sitio no sinónimo (dN) y la tasa de sustituciones
sinónimas por sitio sinónimo (dS) entre especies [27,28].
Pares de especies
dN
dS
P. troglodytes
H. sapiens
0.0313
0.0625
P. pygmaeus
H. sapiens
0.0862
0.1727
P. pygmaeus
M. musculus
1.1704
2.3387
M. mulatta
M. musculus
1.1807
2.3612
M. mulatta
H. sapiens
0.1646
0.3293
H. sapiens
M. musculus
0.4896
1.0224
M. musculus
R. norvegicus
0.4375
0.8750
M. musculus
C. porcellus
1.2430
2.4836
Tabla 1. Valores de dN y dS utilizados como filtros máxímos entre especies.
El programa CODEML del paquete PAML [29] fue utilizado para el análisis de
adaptación en secuencias. Este programa emplea métodos de máxima verosimilitud,
basándose en modelos de evolución de codones. El modelo que emplea este programa
es una versión simplificada del modelo de Goldman y Yang [30, 31]. Para estudiar los
efectos que la adaptación ejerce sobre las secuencias del estudio, se han aplicado dos
tipos de modelos; los modelos de sitios y los modelos de rama por sitio.
3.3.4.1. Modelos de adaptación por sitio
Para analizar los efectos de la selección positiva que actúan sobre cada gen y su
selección de isoformas por los dos métodos, se han utilizado los modelos M1a,
14
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
M2a, M7 y M8 [32] y los correspondientes test de tasas de verosimilitud (LRT).
El primer test compara la verosimilitud de los modelos M1a y M2 sobre las
secuencias alineadas. El modelo M1a (denominado cuasi-neutral) posee dos clases
de sitios (0, 1) con proporciones p0, y p1; una con ω0 estimado entre 0 y 1, y la otra
con ω1 = 1. El modelo M2a añade una nueva clase de sitios en proporciones p2 con
ω2 > 1 , que se infiere de los datos.
El test M7 vs M8 difiere del anterior por el número de clases de sitios. Mientras
que en el modelo M7 las presiones selectivas se distribuyen en 10 clases de sitios
en el modelo M8, lo hace sobre 11 clases de sitios. La clase adicional del modelo
alternativo asume una proporción extra de sitios bajo selección positiva, (ω > 1)
Para calcular la probabilidad a posteriori de pertenencia de un sitio a una clase,
CODEML utiliza una aproximación Bayesiana (Bayes-Empirical Bayes; BEB). Los
sitios con una probabilidad a posteriori de pertenecer a la clase con un p-valor <
0.05 luego del LRT, son seleccionados como sitios de selección positiva [33]
3.3.4.2. Modelos de adaptación por rama y sitio
Este tipo de modelos permiten que ω varíe tanto entre ramas como entre sitios
dentro del árbol, detectando selección positiva sobre sitios concretos en ramas
determinadas. Las ramas seleccionadas para testear selección positiva se
denominan foreground, mientras que el resto de las ramas del árbol se reconocen
como background. En este trabajo se ha aplicado el denominado Test 2 de ramas
por sitio, definido en Zhang, et al [33] y aplicado en Arbiza et al [27] y Serra et al
[28]. Este test compara dos modelos (A y A1). Mientras que en el modelo nulo
(A1), solo se consideran 2 clases de sitios (aquellos bajo selección purificadora y
neutral) a lo largo del background, el modelo alternativo (A) agrega una clase de
sitios bajo selección positiva solamente en el foreground. Estos modelos se
comparan a través de una prueba de LRT. La identificación de sitios bajo selección
positiva se determina a posteriori por inferencia bayesiana.
15
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
4. RESULTADOS Y DISCUSION
4.1. Conjunto de datos
Las estrategias desarrolladas en esta tesis para la búsqueda de una forma de selección de
genes homólogos a partir de la comparación de múltiples isoformas, ha generado un total
de 3 conjuntos de datos originales, derivados de las tres metodologías ya mencionadas:
BLAST2, ALIGN y FILOALIGN. A estas tres hay que sumar el conjunto de isoformas
derivadas directamente de la propia búsqueda de Biomart sobre la base de datos de
Ensembl-Compara v.56. Esta última corresponde a la mencionada como LIS (por Longest
Isoform Selection).
Biomart encontró un total de 20.966 grupos de homólogos a partir del genoma de H.
sapiens con el resto de las 7 especies de mamíferos. El grupo de homólogos derivado de
BLAST2 no observados en LIS corresponde a 9.564 genes. En estos, al menos una de las
isoformas seleccionadas no corresponde a la transcripción más larga.
4.2. Comparación del conjunto de datos
La comparación de los conjuntos de datos tomados de a pares y su ponderación por el
número de isoformas homólogas comunes a través de la medida PPH (ver definición en
Materiales y Métodos; sección 3.2.1), no arrojaron diferencias sustanciales en el
descubrimiento de conjuntos de isoformas distintas entre los métodos (Figura 2).
El hecho de que tanto BLAST2 y FILOALIGN como ALIGN y FILOALIGN presenten un
valor más alto (~54%) de coincidencia entre si que ALIGN y BLAST (~48%), podría deberse
a características compartida entre métodos. Efectivamente los métodos BLAST2 y
FILOALIGN comparten un primer paso en común en el que ambos, partiendo del mismo
conjunto de isoformas del gen semilla humano construyen conjuntos de homólogos en
diferentes especies a partir de cada una de estas isoformas. Una vez definidos estos grupos
BLAST2 selecciona a aquel conjunto de isoformas que maximiza el score del algoritmo
BLAST, mientras que FILOALIGN recurre al alineamiento de cada conjunto de homólogos y
escoge aquel con máximo score de alineamiento. Este segundo paso de FILOALIGN es
compartido con la metodología e ALIGN. Contrariamente, los métodos BLAST2 y ALIGN
16
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
no comparten metodologías comunes. La búsqueda realizada por BLAST2 para agrupar
homólogos es diferente a las practicada en ALIGN, donde la comparación de todas contra
todos genera un universo mas basto de agrupamientos de secuencias.
Dadas estas similitudes y diferencias entre los métdos es de esperar que el porcentaje de
coincidencia entre los tres métodos sea más bajo aún (35.55%).
Al momento de seleccionar la mejor estrategia debemos tener en cuenta que tanto los
métodos ALIGN como FILOALIGN sólo contemplaron un limitado conjunto de datos. Como
se ha explicado en el apartado 3.1, resulta computacionalmente muy costoso analizar el
universo posible de combinaciones de isoformas en ambos métodos. Esta es la razón por la
cual el diagrama de la figura 2 solo contempla 2.000 conjuntos de homólogos (extraídos de
idénticas semillas) y no el total de los más de 20.000 conjuntos totales de isoformas
homólogas. Por lo tanto, si bien las estrategias ALIGN y FILOALIGN resultan más fiables al
momento de seleccionar conjuntos de homólogos, éstas son tan intensivas
computacionalmente que resultan inaplicables cuando se tratan problemas de genomas
completos. De aquí que escojamos la estrategia BLAST2 como la solución mas económica y
sin embargo fiable de selección de isoformas entre los 3 métodos originales presentados en
esta tesis para el análisis de datos genómicos.
Figura 3: Diagrama de Venn representando los porcentajes de coincidencia entre métodos de selección de isoformas
17
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
4.3. Comparación de los métodos BLAST2 y LIS
Para comprobar cuantitativamente si la metodología mas económica en términos de
computación (BLAST2) resulta más efectiva que la selección de isoformas por el transcripto
más largo (LIS) comparamos los valores del score de alineamiento para los 9.564 genes
comunes entre estas metodologías. La media de estos valores fue 70.68 y 68.37 para
BLAST2 y LIS, respectivamente. La diferencia resultó estadísticamente significativa tras la
aplicación del t-Test de muestras independientes (t = 5.99; p-valor << 0.001).
Este resultado valida la mejora en la calidad de los alineamientos que supone la selección de
isoformas por el método BLAST2 en contraposición a la estrategia generalmente aplicada en
todos los estudios de genómica comparativa llevados a cabo hasta la fecha.
Para confirmar de forma gráfica este resultado la figura 4 muestra la distribución de los
scores utilizand "notched" box-plot. La no-superposición de las muescas entre distribuciones
señala que las medianas son diferentes con un 95% de confianza. De la misma forma que
para el test de medias, observamos una diferencia significativa.
Figura 4. Representación de los valores de score de alineamiento para los conjuntos de datos BLAST2 (1) y la
selección de isoformas más largas (2). Las muescas de los box-plot no son solapantes, por lo que las medianas
son estadísticamente diferentes.
18
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
Una vez verificado que la selección de isoformas a través de BLAST2 mejora
significativamente la calidad del alineamiento veremos como influyen estas diferencias en
cuanto a predicción de ortología, análisis filogenético y análisis de adaptación molecular.
4.4. Predicción de ortología y paralogía
Para valorar los cambios en cuanto a la obtención de ortólogos y parálogos por BLAST2 y
LIS, contamos el número de cambios de ortólogos a parálogos para los dos métodos. De los
9.564 genes hemos visto que en el 34.13 % de ellos existe al menos un cambio en cuanto a
estas relaciones de tipos de homología molecular. Este resultado contrasta fuertemente con
las pequeñas mejoras de calidad de los alineamientos vistas anteriormente. A nivel de
predicción de ortología y paralogía, la selección de isoformas es un factor clave, y si bien no
podemos afirmar que los cambios observados corresponden a una mejor interpretación del
proceso evolutivo, si podemos evaluar el impacto que supone no escoger las isoformas mas
largas.
4.5 Análisis de topologías
La comparación entre topologías de los árboles obtenidos para cada gen entre los dos
métodos mostró que en media los árboles tienen una distancia de especiación de 0.05. Si bien
este número no parece ser muy elevado para diferenciar entre los métodos, esta medida de
distancia no contempla las diferencias entre dos árboles marcadas por eventos tales como
duplicaciones o pérdidas de genes. Sin embargo, si empleamos la distancia estricta la media
entre ambos métodos se incrementa a 0.17, lo cual nos indica que las diferencias entre la
manera de construir los árboles filogenéticos, son apreciables (en razón de un 20% de los
arboles) tan pronto como tomamos en cuenta los eventos de duplicaciones y pérdida de genes
ocurrido entre árboles. Esta diferencia, evidencia la repercusión en cuanto a las topologías
construidas a partir de uno y otro método.
La comparación de las topologías obtenidas en relación al árbol de referencia del filoma
mamífero no reveló diferencias notables entre los métodos. No obstante los resultados
19
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
muestran diferencias entre las dos aproximaciones. La comparación contra el filoma, mostró
que para los árboles construidos a partir de la isoforma más larga, existía un 65.9% de
árboles, o particiones, que recuperaban la topología de referencia, mientras que para los
árboles obtenidos a partir de BLAST2, este porcentaje se incrementaba a 67.6%. Este
resultado, aunque sin soporte estadístico, apunta a que la metodología BLAST2 mejora el
resultado de la topología obtenido a partir de estos alineamientos.
4.6 Análisis de adaptación
Con el propósito de cuantificar las diferencias en eventos de adaptación derivados de las
metodologías BLAST2 y LIS, dos tipos de test de adaptación se utilizaron: 1- test de sitios y
2- test de ramas por sitios. Para esto se han analizado el conjunto de genes comunes donde
los ortólogos son “uno a uno” y difiriendo en el contenido de isoformas entre metodologías.
Un total de 3.041 grupos de ortólogos cumplieron dichas condiciones. Luego de la aplicación
del filtro de distancia máxima entre especies un total de 625 y 480 alineamientos fueron
seleccionados dentro de los conjuntos BLAST2 y LIS, respectivamente.
El número de genes bajo selección positiva contabilizados luego del LRT entre M1a y M2a
fue de 33 y 56 para el conjunto de datos de BLAST2 y LIS. Este número representa el 5.3%
para BLAST2 y 11.7% del total de alineamientos para LIS resaltando el carácter
conservativo de BLAST2 al momento de detectar adaptación.
El número total de sitios (codones) bajo selección positiva fue mas alto sin embargo en
BLAST2 que en LIS, llegando 3,3 frente a 2.2 sitios de selección por gen en media para
ambos métodos.
Los resultados obtenidos mediante la comparación M7- M8, confirman los resultados de la
comparación M1a vs M2a. Una mayor cantidad de genes bajo selección positiva El carácter
mas conservativo de BLAST2 frente a LIS al momento de detectar genes bajo selección
positiva (72 vs 101) y con una mayor cantidad de sitios positivamente seleccionados por gen
(4.12 frente a 2.94).
La figura 5 muestra un ejemplo gráfico de lo que ocurre a nivel de detección de sitios bajo
20
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
selección positiva en el alineamiento. El alineamiento de las isoformas más largas conlleva
un alineamiento de exones no homólogos, por lo que se generan gaps mas grandes,
provocando alineamientos que no reflejan la realidad, detectándose así los falsos positivos de
sitios bajo selección natural, 3 en este caso, según el modelo M2a. Por el contrario, en las
isoformas obtenidas a través de BLAST2 los exones que se alinean son verdaderos ortólogos
mejorando la estima de selección natural sobre secuencias.
Figura 5. Alineamientos e histograma de valores de dN/dS por sitio (M2a) correspondiente al conjunto de
isoformas ortólogas a través de LIS (A) y BLAST2 (B) para el gen Ensembl_ID:ENSG00000187672. Los
amino ácidos supuestamente sometidos a selección positiva están señalados en verde representando valores de
ω=dN/dS >1. Estos sitios son falsos positivos al compararse con el alineamiento B. Los asteriscos remarcan
diferencias de alineamiento.Las cajas amarillas muestran 5 residuos “EGIWA” separados por gaps debido a la
selección de isoformas más largas (LIS) y el respectivo alineamiento de exones no homólogos. En B no se
observan gaps y los residuos aparecen juntos mejorando la calidad del alineamiento. Note que no se observan
sitios de seleccion positiva.
Los resultados obtenidos luego del análisis del test de adaptación por ramas y sitios entre
métodos confirma la misma tendencia observada en el análisis de sitios. La Tabla 2 muestra
el número de genes totales, y por especie, bajo selección positiva deducidos a partir de ambas
21
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
metodologías. en la mayor parte de los casos estudiados el BLAST2 muestra ser más
conservativo que el método de las isoformas más largas.
Especies
M. musculus
R. norvegicus
C. porcellus
M. mulatta
H.sapiens
P. troglodytes
P. pygmaeus
Total
BLAST2
85
7
64
12
30
38
61
297
LIS
77
14
76
17
34
36
85
339
COMUNES
45
3
34
2
18
21
36
159
Tabla 2. Número de genes bajo selección positiva según el modelo por rama y sitio.
Por lo tanto, sin posibilidades de comparación con un conjunto de secuencias fiables para
este conjunto de datos donde detectar falsos positivos y negativos concluimos que el
comportamiento mas parsimonioso de la metodología BLAST2 sirve a los propósitos del
estudio de la selección natural sobre secuencias de manera mas fiable que la metodología
comúnmente utilizada del transcripto mas largo.
22
5. CONCLUSIONES
En este trabajo se han presentado tres metodologías novedosas para la selección de conjuntos
de secuencias homólogas: BLAST2, FILOALIGN y ALIGN. Estas metodologías fueron
comparadas entre sí y con la metodología clásica de búsqueda de homólogos en estudios de
genómica comparativa: la selección de isomorfas a partir del transcripto más largo (LIS).
En estas comparaciones hemos demostrado que BLAST2 en contraposición a LIS es una
metodología alternativa y equivalente en tiempos de computación para la resolución de
problemas genómicos. En contraposición FILOALIGN resultaría más eficiente si los
problemas a analizar tuviesen una disensión menor, pro ejemplo las que resulten de
comparaciones en estudios de unas pocas familias multigénicas.
La metodología ALIGN al ser exhaustiva es de difícil resolución por el inmenso número de
combinatorias que plantea incluso para unas pocas secuencias por gen en pocas especies.
BLAST2 mejoró de forma significativa la calidad de los alineamientos de genes homólogos.
Dada la ausencia de un conjunto de referencia, no permite concluir que el uso de BLAST2 en
contraposición a LIS mejore significativamente la selección de topologías y la detección de
presiones selectivas adaptativas. Sin embrago a lo largo de este trabajo hemos observado que
BLAST2 mejora para un tercio de los conjuntos de homólogos estudiados las distancias
topológicas al árbol del filoma. Del mismo modo la utilización de BLAST2 hace a la
predicción de las secuencias y sitios bajo selección positiva mucho mas conservativa que la
metodología LIS.
La inclusión de este conjunto de referencia es condición necesaria para la posterior
publicación de este trabajo.
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
6. BIBLIOGRAFÍA
1. Owen, R. On the archetype and homologies of the vertebrate skeleton. (London, 1848).
2. Darwin, C. On the Origin of Species by Means of Natural Selection, or the Preservation of
Favoured Races in the Struggle for Life. (London, 1859).
3. Haeckel, E. Die systematische Phylogenie. (1894).
4. Felsenstein, J. Inferring phylogenies. Methods in enzymology 266, 1-681 (2004).
5. Jocelyn E. Krebs, Elliott S. Goldstein, S.T.K. Lewin’s GENES X. (2011).
6. Sayers, E.W. et al. Database resources of the National Center for Biotechnology Information.
Nucleic acids research 39, D38-51 (2011).
7. Huerta-Cepas, J. et al. PhylomeDB v3.0: an expanding repository of genome-wide
collections of trees, alignments and phylogeny-based orthology and paralogy predictions.
Nucleic acids research 39, D556-60 (2011).
8. Waterhouse, R.M., Zdobnov, E.M., Tegenfeldt, F., Li, J. & Kriventseva, E.V. OrthoDB: the
hierarchical catalog of eukaryotic orthologs in 2011. Nucleic acids research 39, D283-8
(2011).
9. Vilella, A.J. et al. EnsemblCompara GeneTrees: Complete, duplication-aware phylogenetic
trees in vertebrates. Genome research 19, 327-35 (2009).
10. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment
search tool. Journal of molecular biology 215, 403-10 (1990).
11. Waterman, M.S. Identification of Common Molecular Subsequences Identification of
Common Molecular Subsequences. 195-197 (1981).
12. Hubbard, T. et al. The Ensembl genome database project. Nucleic acids research 30, 38-41
(2002).
13. Chao, K.M., Pearson, W.R. & Miller, W. Aligning two sequences within a specified
diagonal band. Computer applications in the biosciences": CABIOS 8, 481-7 (1992).
14. Wallace, I.M., O’Sullivan, O., Higgins, D.G. & Notredame, C. M-Coffee: combining
multiple sequence alignment methods with T-Coffee. Nucleic acids research 34, 1692-9
(2006).
15. Hubbard, T.J.P. et al. Ensembl 2009. Nucleic acids research 37, D690-7 (2009).
16. Smedley, D. et al. BioMart--biological queries made easy. BMC genomics 10, 22 (2009).
24
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
17. Edgar, R.C. MUSCLE: multiple sequence alignment with high accuracy and high
throughput. Nucleic acids research 32, 1792-7 (2004).
18. Abascal, F., Zardoya, R. & Posada, D. ProtTest: selection of best-fit models of protein
evolution. Bioinformatics (Oxford, England) 21, 2104-5 (2005).
19. Guindon, S. & Gascuel, O. A Simple, Fast, and Accurate Algorithm to Estimate Large
Phylogenies by Maximum Likelihood. Systematic Biology 52, 696-704 (2003).
20. Huerta-Cepas, J., Dopazo, J. & Gabaldón, T. ETE: a python Environment for Tree
Exploration. BMC bioinformatics 11, 24 (2010).
21. Prasad, A.B., Allard, M.W. & Green, E.D. Confirming the phylogeny of mammals by use of
large comparative sequence data sets. Molecular biology and evolution 25, 1795-808
(2008).
22. Huerta-Cepas, J., Dopazo, H., Dopazo, J. & Gabaldón, T. The human phylome. Genome
biology 8, R109 (2007).
23. Capella-Gutiérrez, S., Silla-Martínez, J.M. & Gabaldón, T. trimAl: a tool for automated
alignment trimming in large-scale phylogenetic analyses. Bioinformatics (Oxford,
England) 25, 1972-3 (2009).
24. Posada, D. jModelTest: phylogenetic model averaging. Molecular biology and evolution
25, 1253-6 (2008).
25. Marcet-Houben, M. & Gabaldón, T. TreeKO: a duplication-aware algorithm for the
comparison of phylogenetic trees. Nucleic acids research 39, e66 (2011).
26. D. R. Robinson, L.R.F. Comparison of phylogenetic trees. Mathematical Biosciences 53,
131-147 (1981).
27. Arbiza, L., Dopazo, J. & Dopazo, H. Positive selection, relaxation, and acceleration in the
evolution of the human and chimp genome. PLoS computational biology 2, e38 (2006).
28. Serra, F., Arbiza, L., Dopazo, J. & Dopazo, H. Natural selection on functional modules, a
genome-wide analysis. PLoS computational biology 7, e1001093 (2011).
29. Yang, Z. PAML: a program package for phylogenetic analysis by maximum likelihood.
Computer applications in the biosciences": CABIOS 13, 555-6 (1997).
30. Goldman, N. & Yang, Z. A codon-based model of nucleotide substitution for protein-coding
DNA sequences. Molecular biology and evolution 11, 725-36 (1994).
31. Yang, Z. Likelihood ratio tests for detecting positive selection and application to primate
lysozyme evolution. Molecular biology and evolution 15, 568-73 (1998).
25
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
32. Yang, Z., Nielsen, R., Goldman, N. & Pedersen, a M. Codon-substitution models for
heterogeneous selection pressure at amino acid sites. Genetics 155, 431-49 (2000).
33. Zhang, J., Nielsen, R. & Yang, Z. Evaluation of an improved branch-site likelihood method
for detecting positive selection at the molecular level. Molecular biology and evolution 22,
2472-9 (2005).
26
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
7. ANEXO I
ALGORITMO BLAST2
En este anexo se muestra el comportamiento de BLAST2 a la hora de realizar
la selección de isoformas utilizando como "query" una secuencia semilla de
H. sapiens. En BLAST2, la semilla corresponde a todos los transcriptos
del gen humano en cuestión. La selección se realiza frente a una base de
datos que contiene el conjunto total de isoformas de genes de otras
especies. Así, para cada búsqueda obtendremos un subconjunto de isoformas
más cercana en "score" al gen semilla (ver Figura S1).
Para definir el conjunto de isoformas homólogas putativas se suma los
valores de "scores" de la isoforma más cercana para cada especie a la
isoforma "query".
En la figura 1, podemos comprobar que la isoforma que
corresponde al Ensembl ID Isoforma: ENST00000375464; Ensembl ID Gen:
ENSG00000165233, tiene un largo de 183 aminoácidos, y su selección de
isoformas suma un "score" total de 2.044. Este gen en la versión 56 de
Ensembl presentaba dos isoformas de las cuales esta de 183 aminoacidos es
la más corta.
Sin embargo, la isoforma más larga ENST00000428473 para este mismo gen
tiene una longitud de 228 aminoácidos (Figura S2). Cuando empleamos este
transcripto como "query" en BLAST, este devuelve un conjunto de isoformas
cuya suma de "score" es 1.518, resultado ~500 puntos más bajo que el
anterior, por lo que en este caso BLAST2 ha mejorado a priori la elección
de transcriptos homólogos.
Fig S1: Captura de pantalla de la salida de BLAST para la isoforma más corta
ENST00000375464 del gen ENSG00000165233.
En el recuadro rojo están incluidas las
isoformas, una por especie, con mayor valor de "score". El recuadro blanco remarca
la isoforma semilla, y su longitud
27
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
Fig S2: Captura de pantalla de la salida de BLAST para la isoforma más larga
ENST00000428473 del gen ENSG00000165233.
En el recuadro rojo están incluidas
aquellas isoformas, una por especie, con mayor valor de score. El recuadro azul
remarca la isoforma semilla, y su longitud.
28
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
8. ANEXO II.
ALGORITMO FILOALIGN
En este anexo se muestra el funcionamiento FILOALIGN. Este algoritmo utiliza
el conjunto de isoformas de un gen colectas en EnsemblCompara para las 8
especies de este trabajo. FILOALIGN computa un árbol de ML utilizando el
mejor modelo evolutivo del conjunto de estas isoformas (Figura S3).
En este árbol, existen genes homólogos (Gen 1 y Gen 2) con más de una
isoforma (A y B) (Fig S3). Para el gen semilla (recuadrado en rojo), la
isoforma más cercana del gen 1 es la isoforma A, y para el gen 2 es de nuevo
la isoforma A. Sin embargo, el grupo de isoformas seleccionadas partiendo de
la isoforma amarilla, será diferente porque para el gen 1, la isoforma más
cercana a esta semilla es la B en ambos casos.
Finalmente, cada combinación se alinea, y aquella que maximice el score de
alineamiento será la combinación de homólogos elegida.
Figura S3: Figura que representa el árbol completo para el gen ENSG00000165233,
construido a partir de todas sus isoformas existentes.
29
Homología de Isoformas. Filogenia. Ortología y Adaptación
Juan Antonio Rodriguez Perez
Experiencia adquirida durante la realización de este proyecto.
Programación
• Linux OS
• Shell-Scripting
• Emacs. Editor de texto
• Python. Lenguaje de programación
• Manejo de computación distribuida (Sun Grid Engine)
• Construcción de pipelines
Bases de Datos
• Ensembl Compara. Base de datos de genomas completos
• Phylome DB. Base de datos de filomas.
Manejo de Software
• BLAST. Programa para búsqueda de secuencias similares
• PHYML. Phylogenetic Maximum Likelihood
• PAML. Phylogenetic Analysis using Maximum Likelihood
• PHYLIP. Phylogeny Inference Package
• trimAl. Trim Alignments
• TreeKO. Duplication-aware algorithm for the comparison of
phylogenetic trees
• ETE. Environment for tree explorer
30