Download Perspectiva genómica de las familias de proteínas

Document related concepts

Homología de secuencias wikipedia , lookup

Genómica comparativa wikipedia , lookup

HomoloGene wikipedia , lookup

Genómica funcional wikipedia , lookup

Gen wikipedia , lookup

Transcript
Perspectiva genómica de las
familias de proteínas
Andrés Cuadros Suárez
Cristina Donaire Ávila
Trifón Giménez Vázquez
Introducción a la Biología Computacional
Origen de la vida

Ideas principales:

Subdivisiones en dominios

Evolución a partir de un gen ancestro
Secuenciación de genomas Agrupamientos naturales
Relación de los genomas

Familias homólogas:

Ortólogos:
 Especiación
 Conservan

la función (normalmente)
Parálogos:
 Duplicación
 Evolucionan
con nuevas funciones
Relación de los genomas (II)
Formación de COGs
COG: grupo de ortólogos o grupo
ortólogo de parálogos
 Buscar los BeTs

BeT: Mejor acierto en otro genoma
Necesarios al menos 3 BeTs para
formar un COG
 Representar con líneas continuas las
relaciones simétricas (ortólogos)
 Representar con líneas discontinuas
las relaciones asimétricas (parálogos)

Formación de COGs (II)

Agrupar triángulos con lado común
hasta que no haya ninguno nuevo
ANÁLISIS DE RESULTADOS

Los COGs no suplantan métodos
tradicionales de análisis filogenéticos,
sino más bien, proveen del material
apropiado para comenzar esos
métodos.

El análisis descrito obtuvo un total de
720 COGs que incluyen 6814
proteínas y distintos dominos y
multidominios de proteínas.
ANÁLISIS DE RESULTADOS

Muchos de los COGs son grupos de
proteínas relativamente pequeños. Un
tercio de los COGs (240 COGs con 1406
proteínas) contienen un representante de
cada una de las especies incluidas, y 192
COGs más incluyen parálogos de una sola
especie.

El número medio de proteínas por
COGs aumenta según el número de genes
de un genoma, de 1.2 para el M.
genitalium a 2.9 para la levadura.
ANÁLISIS DE RESULTADOS

Un aspecto notable es que es típico que uno de
los parálogos muestre consistentemente una
alta similitud a los ortólogos en una o muchas
de las otras especies (Figura 1, B y C). Así, para
numerosos parálogos de la levadura,
particularmente componentes del equipo de
traducción, la causa subyacente es obvia: el gen
cuyo producto es más similar a los ortólogos
bacterianos es de origen mitocondrial (Fig. 1B).

Se han encontrado 549 proteínas en 302 COGs
cuyos parálogos han mostrado consistentemente
una baja similitud con otros miembros del COG
(rápida evolución).
ANÁLISIS DE RESULTADOS
E
E. coli
H
H. influenzae
G
M. genitalium
P
M. pneumoniae
C
Synechocystis
M
M. jannaschii
Y
S. cerevisiae
En esta figura podemos ver el
análisis de los COGs en función
de las funciones definidas y las
especies. Para la mayor parte de
los COGs, la función de la
proteína se obtiene directamente
de los experimentos,
principalmente de E.Coli o
levadura, o puede ser inferida de
secuencias significativas similares
a proteínas caracterizadas
funcionalmente de otras especies
ANÁLISIS DE RESULTADOS

En la figura podemos observar la falta de proteínas de la
bacteria patogénica (H. influenzae (H) y particularmente los
mycoplasmas (G y P) ) en muchos COGs en cada una de las
otras categorías funcionales que traducen y trascriben, pero
especialmente en las clases con funcionalidad metabólica.

En cambio, la congruencia entre las dos bacterias sin
parásitos, E. coli (E) y Synechocystis sp.(C), se mantienen
para todos las clases funcionales.
ANÁLISIS DE RESULTADOS

Fracción de proteinas pertenecientes a COGs:



70% M.genitalium
40% E.Coli
26% Levadura

Como vemos esta fracción es muy alta cuando
trabajamos con genomas pequeños de
micoplasmas y mucho más baja en grandes
genomas como el E.Coli o la levadura.

Estos resultados se corresponden con lo esperado
en las familias conservadas, asociadas con la
administración de las funciones celulares.
ANÁLISIS DE RESULTADOS

La distribución filogenética de los miembros de un
COG puede ser convenientemente presentada en
términos de patrones filogenéticos los cuales
muestran la presencia o ausencia de cada especie
analizada
ANÁLISIS DE RESULTADOS

Los dos patrones más abundantes pueden ser fácilmente
predichos:


Todas las especies (Ehgpcmy)
Todas las especies excepto los micoplasmas (Eh__cmy).

Lo que parece mucho menos trivial es que estos patrones
juntos abarcan sólo un tercio de todos los COGs. Este hecho
enfatiza la gran fluidez de la evolución de los genomas,
revelada a pesar del análisis concentrado de familias
antiguas conservadas.

Múltiples soluciones para la misma función celular parecen
ser más una regla que una excepción, al menos cuando se
consideran especies filogenéticamente distantes. Por otro
lado, los 8 patrones más frecuentes que juntos componen el
85% de los COGs, incluyen tanto a E.coli como a
Synechoscystis, enfatizando la congruencia entre estos
genomas.
ANÁLISIS DE RESULTADOS

Resaltar el alto orden de distribución de los COGs
por los tres dominios de vida, donde sólo el 45%
de los COGs incluyen representantes de Bacteria,
Archaea, y Eucarya. Esto es otra manifestación de
la dinámica de las familias de genes en la
evolución (Fig. 3).

Se espera que el dibujo pueda convertirse en algo
más complejo, y la fracción de COGs de los tres
dominios probablemente disminuirá, pero los
COGs sólo de eucariotas, sólo de archaea y el
conjunto de archaea-eucariota, emergerán con la
acumulación de secuencias del genoma.
Conectar y Expandir COGs

Conectar COGs en super-familias
Usamos PSI-BLAST
 Dos COGs están conectados si dos
proteínas de un COG están en otro COG


Expandir COGs
Hay proteínas distantes
 Usamos los motivos de las super-familias
y PSI-BLAST para conectarlas con COGs

Predicción de Funciones de Proteínas
con el Sistema COG
El sistema COG permite la anotación
automática funcional y filogenética de
un gen
 Para conectar una proteína con un
COG

Se realiza un análisis de la proteína con
el sistema
 La proteína se conecta con aquellos
COGs en los que se hayan dado dos o
mas BeTs

Conclusiones y Perspectiva

Con los COGs podemos:
comparar genomas
 clasificar proteínas, predicción funcional
(con algunos problemas)

Cuando se aumente el número de
genomas el sistema mejorará
 Es un gran marco de trabajo, tanto
funcional como evolutivo, para los
nuevos genomas
