Download Diapositiva 1

Document related concepts
Transcript
PREDICCION DE GENES
CON GENSCAN
José María Hidalgo Utrera
Joan Miquel Fuster Mollá
Ana Isabel Martínez García
ÍNDICE








Introducción
Problemas
Conocimientos básicos
Objetivos
Modelo general. Métodos
Limitaciones
Resultados
Conclusión
Introducción
GENSCAN: modelo probabilístico capaz de
encontrar múltiples genes o genes parciales
en una secuencia.
(http://genes.mit.edu/GENSCAN.html)
 Tipos de predicción




Por Homología
Por uso de Señales
Por análisis Estadístico
Problemas


Al principio, encontrar elementos funcionales,
promotores, splice, regiones codificadas (por
métodos biológicos).
Después, predicción de genes completos
(por métodos informáticos) con limitaciones:


Algoritmo suponen las secuencias contienen
genes completos.
Sólo 50% de exones identificados.
Conocimientos básicos
PROMOTOR
Secuencia que no se traduce
Intrón 1
Intrón 2
Secuencia que no se traduce
Intrón 3
3`
5`
Región reguladora
EXON 1
EXON 2
UTR
EXON 3
EXON 4
EXON n
CDS
UTR
intron
exon
start
exon
donor acceptor
Región reguladora
Splice Sites
Objetivos

Intenta encontrar, mediante métodos
computacionales, la localización de zonas
importantes, como:



Actividad transcripcional.
Las zonas de corte y empalme (splicing).
Utiliza un modelo probabilístico para la
predicción de la localización de
exones/genes en secuencias genómicas.
Objetivos

Algunas características del modelo:



Capturar diferencias en la estructura de genes
entre distintas regiones C + G.
Capacidad de predecir múltiples genes de una
secuencia, genes parciales y completos.
Modelos estadísticos para las zonas de splicing
del donante y del aceptador que capturan
dependencias importantes entre las posiciones de
la señal.
Objetivos


Genscan puede ser usado para detectar genes noveles (genes
que no se encuentran en la BD).
En la práctica se suelen utilizar distintos programas a la vez que
usamos Genscan:
1. CENSOR: identifica y enmascara secuencias repetidas.
2. Uso de Genscan y las secuencias obtenidas buscarlas en bases
de datos de proteínas con BLASTP para detectar posibles
homólogos.
3.1 Si homólogos detectados, refinar la predicción sometiendo la
región del genoma correspondiente junto con la proteína
homologa usando Procrustes (algoritmo ”spliced alignment”).
3.2 Sino, se podría usar la base de datos Expressed Sequence
Tags para precisar terminos 3’.
4. RT-PCR y 3’ RACE: para precisar las posiciones exactas de los
exones/intrones y posibles zonas de unión (splice).
Modelo general

Modelos de Markov:



Modelo probabilístico basado en la estadística.
Toma información adicional de los residuos de los
vecinos.
Hay órdenes:


Primer orden: Toma la información del nucleótido
adyacente (precedencias y sucesores)
Orden N: Toma la información de los N nucleótidos más
cercanos.
Modelo general

Aquí usamos un modelo de Markov de 5º
Orden:
Modelo general
Algorithmic
issues
State length
distributions
Initial,
transition
probabilities
Signal
Models
Splice
Signals
Acceptor splice
Site model
Transcriptional
Translational
signals
MDD
Exon models
Reverse-strand
states
HMM
Modelo general










Estados: representan una unidad
funcional de un gen eukariota (exón,
intrón,etc...)
N = región intergénica
P = promotor
F = región no traducida 5’ Esngl = gen
de exon único
Einit = exon inicial
Eterm = exon final
T = región no traducida 3’
Ik = intron de fase k (0<=k<=2)
A = señal polyadenylation
Ek = Exon interno de fase k
(0<=k<=2)
Modelo general

Fase k (+):




Fase k (-)


k= 0. Aceptador
k = 1. Región codificante
k = 2. Donador.
Al revés.
Donadores, aceptadores y
señales de inicio y fin se
consideran dentro del exon
correspondiente.
Método: Conjunto de secuencias

Proceso para elegir las secuencias de genes:

GenBank: Conjunto inicial no redundante (Kulp/Reese):




Limpieza genes:






Secuencias completas (ATG a stop por lo menos) a
Inclusión regiones 5’ 3’ no traducidas X
Uso BLASP: elimina redundancia
CDS
Exones inciertos o putativos
Genes solapados
Pseudogenes
De origen viral
Quedan 428 secuencias
Método: Conjunto de secuencias



Borrado de genes con más de 25% igualdad a nivel de
aminoácidos (PROSET).
Quedan 238 secuencias multi-exón y 142 de exón único =
2,580,965 pbs.
Todos los parámetros en los métodos se basan en
estos datos, salvo:


Modelo promotor: basado en las fuentes publicadas
Modelo de región codificante: sustitución por otro conjunto
de proteinas humanas de 100 aminoácidos de longitud
mínimo (también PROSET).
Método: Algorithmic issues

Dado una secuencia S de longitud L, la probabilidad
de unión de generar el parse Φi:
n
P{ i , S}   q1 f q1 (d1 ) P{si | q1 , d1}   Tqk 1 ,qk P{sk | qk , d k }
k 2


Uso del agortimo recursivo de Viterbi modificado porque
aquí usamos un modelo semi-Markov.
P{S} se calcula con el algoritmo hacia delante; hacia atrás
para el evento E (exon):
P{E[ x , y ] | S} 
(K )

 i :E[(xk,)y ]  i
P{ i , S }
P{S }
Método: Probabilidades inicial y de
transición
Método: State length distributions

Importante: longitud en los exones internos.



Pueden producir fallos al incluir el exon en el
mRNA final.
Pueden producir interferencias en los factores
que reconocen los splicing y podría hacer la unión
de exones pequeños más difícil.
Idea “medium-sized” entre 50 y 300 bp, todo más
fácil.
Método: State length distributions

Poner figura 4
Método: Signal models

Modelo weight matrix method WMM de Staden.




Frecuencia pij de cada nucleótido j a cada posición i de
una señal de longitud n.
: probabilidad de generar una
secuencia particular (X=x1,x2,…,xn).
Modelo más simple usado para cierto tipo de señales.
Modelo weight array (WAM)de Zhang & Marr

Considera las
adyacentes
dependencias
las
posiciones
: probabilidad de generar una


entre
secuencia particular.
Deriva al modelo MDD.
Método: Transcriptional and translational
signals



Señal polyA: 6 bp WMM (consensus:
AATAAA) model.
Señal de iniciación de la traducción: (“CDS”).
12 bp WMM model.
Señal de terminación de la traducción: codón
de parada (UAA, UAG, UGA) y siguientes
tres nucleótidos usamos modelo WMM.
Método: Splice signals



Señales de donante y aceptador son las más
críticas para la buena predicción de genes.
Significantes dependencias tanto en
posiciones no adyacentes como en las
adyacentes en la señal del donante.
La región de consenso del donante se
encuentra en los últimos 3 bp del exón
(posiciones -3 a -1) y los primeros 6 bp del
siguiente intrón (1 a 6).
Método: Splice signals
Método: MDD


Estudio sobre un conjunto de zonas de corte
y empalme.
Subdividir el conjunto hasta encontrar la
secuencia modelo, basándonos en la tabla
de dependencias creada.
Método: MDD
Método: Aceptor splice site model


Consiste en el modelado de la región de
splice utilizando una ventana WAM.
Objetivo: calcular probabilidades
condicionales de todas y cada una de las
posiciones.
Método: Exon Models



Utilizado cuando es mayor la concentración
A+T.
No es posible utilizar probabilidades
calculadas.
Utiliza una matriz derivada de C+G < 43%.
Método: Reserve-strand states


Depende del sentido en el que se lea la
hebra.
Ej:
se predice TAG – TAA – TGA
se generan CTA – TTA - TCA
Limitaciones





Número de genes
Organismo
Tests no representativos
Tipo de exón
Señales de Splice
Resultados


Test con conjunto Burset/Guigó: 570 vertebrados
(multiexones).
La evaluación del conjunto de Burset/Guigó
consiste en tres pasos:
1.
2.
3.
Extraer un conjunto de secuencia de vertebrados de los
que se conoce su estructura génica (Conjunto de Test);
Definición de un número de medidas de exactitud de
predicción; y
Evaluación de un número de programas con el conjunto
de test usando las medidas.
Resultados

Nivel de Base (Nucleótido).


Nivel de Exón (Estructura del exón).


Fiabilidad de la predicción por base
Fiabilidad de la predicción con respecto a la
predicción exacta del comienzo y fin del exón.
Nivel de Proteína (Proteína).

Fiabilidad de la predicción con respecto a la
proteina codificada por el gen predicho
Resultados

Nivel de Base (Nucleótido)
•TP: verdadero
positivo
•TN: verdadero
negativo
•FP: falso positivo
•FN: falso negativo
Resultados

Nivel de Base (Nucleótido).



Sn: Sensibilidad = TP/(TP+FN)
Sp: Especificidad = TN/(TN+FP)
AC: Correlación aproximada
1  TP TP TN TN 
AC  



1

2  AP PP AN PN 

CC: Coeficiente de correlación
TP * TN  FP * FN
CC 
PP * PN * AP * AN
Resultados

Nivel de Exón (Estructura del exón)




Sn: Sensibilidad =Num exones correctos/Num exones reales
Sp: Especificidad =Num exones correctos/Numero exones
predichos
ME = Numero exones perdidos/Numero exones reales
WE = Numero exones erroneos/Numero exones predichos
Resultados

Nivel de Proteína (Proteína).

% Sim: porcentaje de similaridad entre la secuencia de
aminoácidos codificada por el gen predicho y la
secuencia de aminoácidos codificada por el gen real
Resultados: Nivel de estructuras completas
Superado por
GeneID+

No por homología: los de arriba:




FGENEH: Para secuencias de genes único
GeneID: Utiliza matrices de posición y un modelo de Markov
Genie: Solo para genes multiexon. Secuencias de un solo gen.
GeneID+ y GeneParser3: incorporan resultados de búsqueda
de aminoácidos en base de datos para hacer la predicción de
genes (homología).
Resultados: Nivel de gen



Resultados a nivel de gen (GA) para un
conjunto de secuencias: proporción de genes
que realmente son predichos exactamente.
Resultados: 0.43 (243/570) => es posible
predecir estructuras multi-exón con un
resultado razonable.
Ejemplo: Gen gástrico humano con 22
exones codificantes
Resultados: Nivel de gen


Relativamente insensible al contenido C+G (CC)
Similar a AC.
Resultados: Nivel de Gen


Factor p (Probabilidad
adelante-atrás) =
Probabilidad de que un
exon predicho sea correcto
y pueda ser usado para
señalar regiones de una
predicción que son más o
menos ciertos.
Total: 2678 exones
predichos en el conjunto
Burset/Guigó
p
Número
exones
Porcentaje
correctos
>0.99
917
98%
[0.95,0.99]
551
92%
[0.90,0.95]
263
88%
[0.75,0.90]
337
75%
[0.50,0.75]
362
54%
[0.00,0.50]
248
30%
Resultados: Entrenamiento


Uso de un conjunto independiente.
Por solapamiento: Eliminación genes con más de 25% idénticos
a los genes del conjunto de test GeneParser a nivel de
aminoácidos
Resultados: Entrenamiento


Fueron los mismos que con el conjunto Burset/Guigó.
Pero sí hay diferencia entre proporciones de C+G
Resultados: Entrenamiento

Conjunto I: 28 secuencias.

Conjunto II: 34 secuencias
Resultados: Notas

Ninguno de los resultados son verdaderamente
significativos de la realidad. Aquí usamos
secuencias cortas.

Sólo GRAIL ha conseguido resultados
aceptables en secuencias grandes, e incluso se
encontraron dificultades
Resultados: Secuencias largas

Los dos encuentran exones conocidos, pero con
diferencias
Resultados: Secuencias largas


GENSCAN predice genes.
GRAIL predice exones en la secuencia.
Conclusión

GENSCAN es lo “mejor”