Download MOM para la prediccion de genes

Document related concepts

no text concepts found

Transcript

'
$
Modelos de Markov ocultos
Predicción de genes
Alex Sánchez i Mireia Vilardell
Departament d’Estadı́stica U.B.
Estadı́stica i Bioinformàtica
&
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Esquema del tema
Introducción: Genes y predicción de genes
Predicción con modelos tradicionales: Glimmer, geneid
Predicción con HMM (1): Conceptos básicos
Extensiones del modelo: SemiHMM y Genscan
Comparación de programas de predicción
&
Departament d’Estadı́stica U.B.
%
1
MMO en Biologia Computacional
'
1.
Alex Sánchez
$
Introducción
1.1.
El problema de la identificación de genes
El problema de la identificación de los genes se puede describir
como el problema de deducir la secuencia de aminoácidos
codificada por una determinada región de ADN
Es un problema difı́cil pero muy relevante puesto que ...
• Es necesario para anotar los datos procedentes de los
proyectos de secuenciación
• Ayuda a entender los mecanismos implicados en la
codificación–decodificación de la información biológica
El problema es más simple en organismos inferiores
(procariotas) que en los superiores (eucariotas) cuya estructura
genómica es más compleja
&
Departament d’Estadı́stica U.B.
2
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Figura 1: Modelos de transcripción y traslación en procariotas y
eucariotas
&
Departament d’Estadı́stica U.B.
%
3
MMO en Biologia Computacional
'
1.2.
Alex Sánchez
$
Estructura de los genes en procariotas
El genoma de los procariotas (“sin nucleo celular”) suele ser
rico en genes: El 80 %–90 % de la secuencia es codificante
De forma simplificada un gen procariota es una secuencia de
codones que
• Empieza con un codon de inicio, (ATG),
• Continua con un número múltiplo de tres de nucleótidos
• Acaba con un codon de stop (TAA / TAG / TGA)
&
%
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
4
Alex Sánchez
$
Figura 2: Un gen procariota
&
Departament d’Estadı́stica U.B.
%
5
MMO en Biologia Computacional
'
1.3.
Alex Sánchez
$
Estructura de los genes en eucariotas
En los organismos superiores los genes no son ni contı́nuos ni
contiguos
Los genes suelen estar fragmentados en cierto número de
fragmentos codificantes conocidos como exones separados por
grandes fragmentos no codificantes conocidos como intrones.
Existen una diversidad de señales, algunas más claras que
otras, que es preciso localizar e identificar para la predicción de
los genes
&
%
6
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 3: Estructura de un gen eucariota
&
Departament d’Estadı́stica U.B.
%
7
MMO en Biologia Computacional
'
1.4.
Alex Sánchez
$
Las señales de especificación de los genes
Durante el camino del ADN a la secuencia de aminoácidos los
genes son ensamblados por un proceso en tres etapas conocido
como splicing
Durante este proceso se eliminan los intrones antes de traducir
el ADN a proteı́nas
Distintas señales que indican como debe actuar la maquinaria
celular que regula el proceso se hallan codificadas en la
secuencia original del ADN
1.
En la transcripcion intervienen elementos promotores y
señales de fin de transcripción
2.
En el splicing participan los sitios dadores y aceptores
3.
En la traducción intervienen los codones de iniciación o de
parada
&
%
8
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 4: De la secuencia de ADN a la de Aminoácidos
&
Departament d’Estadı́stica U.B.
%
9
MMO en Biologia Computacional
'
2.
Alex Sánchez
$
Predicción de genes (1)
2.1.
Predicción en procariotas
El problema principal suele ser identificar cual de dos o más
pautas abiertas de lectura contiene un gen (se supone que sólo
una)
Una pauta abierta de lectura es una secuencia de codones que
empieza con un codon de inicio (ATG) y acaba en un codon de
stop (TAA / TAG / TGA) sin que haya ningún otro codon de
stop entre ellos
Existen señales de inicio y final que es preciso identificar y
distinguir del “ruido de fondo”
&
%
10
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.2.
Alex Sánchez
$
Predicción con modelos de markov
El programa GeneMark, (Borodovsky et al., 1993) utiliza
cadenas de Markov de orden 5 para identificar genes
microbianos.
Esto representa analizar 2 codones cada vez
Los genomas bacterianos suelen ser lo bastante largos como
para proporcionar buenos estimadores de 46 = 4096
probabilidades de transición necesarias
Un modelo de orden ocho seria preferible, pero el número de
probabilidades a estimar es excesivo
&
Departament d’Estadı́stica U.B.
%
11
MMO en Biologia Computacional
'
Alex Sánchez
$
ALgoritmo simplificado de GenMark
De forma simplificada el algoritmo que utiliza GeneMark es el
siguiente:
1.
Entrenar un modelo de orden 5 con genes conocidos
(=pautas de lectura largas, “hits” en bases de datos)
2.
Entrenar un modelo de orden 0 como modelo nulo
3.
Puntuar cada pauta abierta de lectura siguiendo las 6
posibles pautas de lectura (3 forward, 3 backward )
4.
Si la pauta de lectura con mayor puntuación es la pauta
abierta, llamésele “un gen”
5.
Si hay pautas abiertas superpuestas puntúese las regiones
superpuestas separadamente.
&
%
12
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.3.
Alex Sánchez
$
Predicción en eucariotas (1)
Identificacion de genes mediante señales
Un método habitual de predicción consiste en:
• Construir un conjunto de exones potenciales, identificados a
traves de señales de inicio/aceptores y de donores/stop
• Puntuarlos mediante un modelo estadı́stico apropiado
• Ensamblar los genes mediante programación dinámica
Se elegirán como candidatos aquellos genes cuya puntuación
total sea más elevada
&
Departament d’Estadı́stica U.B.
%
13
MMO en Biologia Computacional
'
2.4.
Alex Sánchez
$
Modelos estadı́sticos de puntuación
En análisis de secuencias biológicas son comunes los sistemas
de puntuación en donde se compara la puntuación que se
asigna a una secuencia bajo un modelo concreto con la que le
asigna un modelo nulo o “background”.
Por motivos computacionales dichas puntuaciones suelen
expresarse como logaritmos de razones de verosimilitudes
(“log-likelihood ratios scores”, “LLR scores” o “LODs”)
Aparecen sistemas de puntuación basados en LLRs en:
• Matrices PAM o BLOSUM
• Identificación de islas CpG
• Identificación de motivos mediante matrices de pesos
posicionales (PWM)
&
%
14
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
El sistema de puntuación de geneid
2.5.
El programa de predicción de genes geneid utiliza LLRs en la
puntuación de los exones potenciales
Un gen, concebido como una sucesión de exones e intrones
alternados, puede representarse de forma simplificada como:
S = e1 i1 e2 i2 e3 i3 e4 i4 ....eN
Sea ei = si1 si2 si3 ...sini un exon potencial que consta de tres
partes diferenciadas:
−−−
eia :Inicio/Aceptor
− − − − − − − − − − − − −−
eiM :P arte codif icante
−−−
eid :Stop/Donor
geneid puntua cada parte separadamente utilizando un modelo
para los extremos y otro para la parte codificante.
&
Departament d’Estadı́stica U.B.
%
15
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelo de puntuación de un exon
Sea eia el punto de inicio o un “acceptor site” y eid el punto de
stop o un “donor site”. El exon potencial se puntua:
LE (ei ) = LA (eia ) + LD (eid ) + LM (ei )


nA
nD
n
i −5
Asij j +
Dsij j + LI l ei1..,5 +
LF l eij...j+5  ,
=
j=1
j=1
j=1
LA (eia ) y LD (eid ) son las puntuaciones de los extremos del
exon, que se obtienen mediante LLRs basados en matrices de
pesos posicionales para los sitios dadores o aceptores
LM (ei ) es el potencial de codificación, que se calcula mediante
un modelo de Markov de orden 5
&
%
16
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
2.6.
Alex Sánchez
$
Modelo de puntuación (1) Sitios aceptores y
donores
El calculo LA (eia ) y LD (eid ) esta basado en matrices de pesos
posicionales
Asij j , Dsij j son elementos de esta PWM, determinadas a partir
de secuencias en las que se conocen las posiciones de los genes
(y por tanto de los aceptores, donores, y sitios de start y stop).
Se definen como:
Aij = log
PijA
, (respectivament, Dij , Bij )
QA
ij
&
Departament d’Estadı́stica U.B.
%
17
MMO en Biologia Computacional
'
Alex Sánchez
$
Matrices de pesos posicionales
PijA (respectivamente, PijD , PijB ) representan la probabilidad
de observar el nucleótido i (i ∈ A, C, T, G) en la posición j
(j ∈ −3, −2, ..., 5) en un acceptor site (respectivament, donor o
start), y por tanto se estima a partir de la frecuencia relativa
de nucleótids i que ocupen la posición j en los acceptor sites
“reales”, es decir conocidos (respectivament, donor o start).
D
S
QA
ij (respectivamente, Qij , Qij ) representan la probabilidad
de observar el nucleótido i (i ∈ A, C, T, G) en la posición j
(j ∈ −3, −2, ..., 5) entorno de cualquier dinucleótido AG
(respectivament GT para los donors o AT G para los start
codons). Representa pues el modelo nulo, o más exactamente
“background”.
&
%
18
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 5: Matrices de pesos posicionales
&
Departament d’Estadı́stica U.B.
%
19
MMO en Biologia Computacional
'
Alex Sánchez
$
Modelo de puntuación (2) Potencial de codificación
El potencial de codificación consta de dos componentes:
F j (h) = F j (s1 s2 s3 s4 s5 s6 ) es la probabilidad (de transición) de
observar dentro de un exon el hexámero h = s1 s2 s3 s4 s5 s6
con el nucleótido s1 en la posición j (j = 1, 2, 3 correspondiente
a las tres posibles pautas de lectura) suponiendo que s1 se
encuentre en la posición j en el pentámero s1 s2 s3 s4 s5 .
I j (p) es la probabilidad inicial para cada pentámero p en cada
posición dentro de los exones para las pautas de lectura 1,2,3.
F 0 (h) i I 0 (p) son las probabilidades de transición iniciales
correspondientes a los intrones
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
%
20
Alex Sánchez
$
Ensamblado de los genes
El modelo anterior permite puntuar cada uno de los posibles
exones de un gen
Como las señales son muy débiles el número de exones
potenciales es muy alto, la mayoria de ellos superpuestos entre
si
Para escoger un conjunto “óptimo” que configura un gen se
utiliza un algoritmo de programación dinámica que realiza el
ensamblado maximizando la suma de las puntuaciones de
conjuntos de exones compatibles con un gen (i.e. sin
superposición, sin stop codons en medio etc...)
&
Departament d’Estadı́stica U.B.
%
21
MMO en Biologia Computacional
'
Alex Sánchez
$
&
%
22
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
&Figura 6: El número de exones potenciales es muy alto
Departament d’Estadı́stica U.B.
%
23
MMO en Biologia Computacional
'
3.
Alex Sánchez
$
Predicción de genes con MOM
Los MOM resultan especialmente adecuados para la predicción
de genes por su capacidad para modelizar estructuras
gramaticales, es decir, estructuras en las que aparecen
restricciones relativas
• al tipo de elementos que las constituyen
• al orden en que aparecen estos elementos
Los genes tienen una estructura gramatical sencilla: No se trata
tan sólo de conjuntos de caracteres (nucleótidos), palabras
(exones /intrones) o frases (genes): Hay una estructura en el
sentido que ciertas expresiones no tienen sentido, no son
posibles. Por ejemplo, en genes eucariotas
1.
Las frases nunca acaban en un intron
2. Un exon nunca sigue a otro exon
&
%
24
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.1.
Alex Sánchez
$
MOM para predicción de genes procariotas
Los genes procariotas tienen una gramática particularmente
sencilla
• Codon de inicio
• Region codificante
• Codon de parada
Un MOM para predecir genes de tal tipo deberá contemplar
estados para los tres tipos de regiones
&
Departament d’Estadı́stica U.B.
%
25
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 7: Un MMO para genes procariotas
&
%
26
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.2.
Alex Sánchez
$
MOM para predicción de genes eucariotas
La estructura de los genes eucariotas es compleja. De forma
simplificada contempla
• Codon de inicio
• Region codificante: Un cierto número de exones (≥ 1) e
intrones (≥ 0) terminados por un exón
• Codon de parada
Los MOM desarrollados para genes eucariotas suelen constar
de varios modelos encadenados, unos para modelizar las señales
de inicio o finalización y otros para la región codificante.
&
Departament d’Estadı́stica U.B.
%
27
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 8: Para los sitios aceptores se construye un MMO sencillo.
Excepto en casos raros el intron acaba con un AG, sombreado. El
modelo contemplará no tan sólo estos dos nucleótidos con probabilidades de emisión 1, sino 16 bases anteriores y tres bases siguientes.
Puesto que no hay huecos el modelo será equivalente a una matriz
de pesos.
&
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
%
28
Alex Sánchez
$
&
Departament d’Estadı́stica U.B.
%
29
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 9: Para las regiones codificantes se construye otro MMO. Los
estados uno, dos y tres del modelo representan respectivamente el
primer, segundo y tercer codon Cualquier región codificante puede
ser representada por este modelo porque del estado tres se puede
volver al uno En la parte inferior se muestra un modelo sencillo en
el que los tres primeros estados coinciden con un codon de inicio,
los tres siguientes con el modelo de región codificante de la parte
superior y los tres últimos con un codon de parada (solo se muestra
uno de los tres posibles estados de parada)
&
Departament d’Estadı́stica U.B.
30
MMO en Biologia Computacional
'
%
Alex Sánchez
$
Figura 10: Los modelos se encadenan en un modelo general. Una “x”
indica un estado para DNA no codificante y una “c” un estado para
DNA codificante (solo se muestra uno de los tres posibles estados de
parada)
&
Departament d’Estadı́stica U.B.
%
31
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 11: Un modelo combinado que contempla el splicing
&
%
32
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
3.3.
Alex Sánchez
$
Identificación de genes con MMO
Los MMO como los anteriores implican una estructura
determinada para el gen
Una secuencia que no cumpla las restricciones impuestas
recibirá probabilidad cero bajo este modelo
Si se desea localizar los genes en un fragmento de genoma
• Aplicar el algoritmo de Viterbi a la secuencia
• Identificar como genes aquellas sucesiones de observaciones
del camino más probable que cumplan las reglas
gramaticales impuestas por el modelo:
ATG→ Ex → Int → Ex → Int ...→ TAA → Fin
&
Departament d’Estadı́stica U.B.
%
33
MMO en Biologia Computacional
'
Alex Sánchez
$
Figura 12: Predicción de genes: Dada una secuencia observada la
predicción del gen se obtiene aplicaandole el Algoritmo de Viterbi
&
%
34
Departament d’Estadı́stica U.B.
MMO en Biologia Computacional
'
Alex Sánchez
$
En la practica
Los MMO que se utilizan en los programas “reales” de
predicción de genes son mucho más complejos que el ejemplo
anterior.
1.
VEIL utiliza un modelo simple con muchos estados
2.
HMMGene Utiliza CHMM: MMO con clases
3.
Genie usa GHMM: MMO generalizados: Los estados del
modelo general son, a su vez MMO completos
4.
GENSCAN (Burge & Karlin) usa SHMM: MMO con
capacidad de incluir la longitud de los exones e intrones...
&
Departament d’Estadı́stica U.B.
%
35

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download MOM para la prediccion de genes