Download Alineamiento de dos secuencias Alineamiento de dos secuencias

Document related concepts

Alineamiento de secuencias wikipedia , lookup

BLAST wikipedia , lookup

Alineamiento múltiple de secuencias wikipedia , lookup

FASTA wikipedia , lookup

BLOSUM wikipedia , lookup

Transcript
Alineamiento de dos secuencias
Alineamiento de dos secuencias
Para alinear dos secuencias de longitud n y m, respectivamente, se
colocan una encima de la otra de manera que el número de símbolos
coincidentes sea máximo. Si es necesario, se introducen huecos (gaps).
indel
* Un sistema de puntuación
Alineamiento de dos secuencias
Alineamiento de dos secuencias
En cada una de las posiciones de un
alineamiento de secuencias se puede encontrar:
Un símbolo idéntico (match) que
conservado a lo largo de la evolución
se
ha
Un símbolo distinto (mismatch) que ha sido
sustituido (o que ha mutado) a lo largo de la
evolución
Un hueco (gap), que es el resultado de la
desaparicón (deletion) de un símbolo en una
secuencia o de la inserción (insertion) de un
símbolo en la otra. Como ambos casos son
indistinguibles, también se les llama indels.
Las tres posibilidades: match, mismatch, gap
Alineamiento de dos secuencias
1.- Alineamiento global
2.- Alineamiento local
3.- Alineamiento
semiglobal
Un alineamiento global se extiende
por toda la longitud de la secuencia
Un alineamiento local se limita a una
región concreta de la secuencia
Un alineamiento semiglobal se produce entre
el final de una secuencia y el inicio de otra
Tipos de alineamiento de dos secuencias
Alineamiento de dos secuencias
Un alineamiento global intenta alinear cada residuo de
una secuencia con un residuo (o un indel) de la otra.
Un alineamiento global permite (1) establecer relaciones
de homología y (2) hacer un análisis filogenético.
Es especialmente adecuado cuando:
• Se comparan genes o proteínas con una misma función
• Las secuencias tienen aproximadamente la misma longitud
• Las secuencias están estrechamente relacionadas
• Los dominios conservados se encuentran en el mismo orden
Para hacer un alineamiento global se utiliza
el algoritmo de Needleman y Wunsch
Alineamiento global
Alineamiento de dos secuencias
En un alineamiento local, una o más regiones de una
secuencia se alinean con una o más regiones de la otra.
Un alineamiento local permite (1) detectar pequeñas regiones
conservadas de similitud local (centros activos, dominios
proteicos, exones), (2) distinguir entre exones e intrones y (3)
ensamblar contigs a partir de fragmentos más pequeños
Es especialmente adecuado cuando:
• Se comparan secuencias muy divergentes (de igual longitud o no)
• No se conoce el orden de los dominios conservados
• Se compara ADNc (o ESTs) con el ADN genómico
Para hacer un alineamiento local se
utiliza el algoritmo de Smith y Waterman
Alineamiento local
Alineamiento de dos secuencias
Un alineamiento semiglobal se utiliza para
alinear secuencias con una longitud muy distinta
Un alineamiento semiglobal permite (1) ensamblar contigs a
partir de fragmentos más pequeños y (2) comparar ADNc (o
ESTs) con el ADN genómico para establecer la estructura del gen
Es especialmente adecuado cuando:
• Se comparan secuencias de muy distinta longitud
• El final de una secuencia se solapa con el inicio de la otra
• Los dominios conservados se encuentran en el mismo orden
Para hacer un alineamiento semiglobal se utiliza una
variante del algoritmo de Smith y Waterman que no aplica
penalizaciones ni al principio ni al final de la secuencia
Alineamiento semiglobal
Alineamiento de dos secuencias
Ejemplo de alineamientos semiglobales
Alineamiento de dos secuencias
Búsqueda de secuencias en BD
Alineamiento de dos secuencias
Existen diversos métodos para el
alineamiento de dos secuencias:
1.- El algoritmo de fuerza bruta
2.- Matrices de puntos (dot-plots)
3.- El algoritmo de programación dinámica
4.- Métodos heurísticos (FASTA, BLAST)
Estrategias para alinear dos secuencias
Alineamiento de dos secuencias
O (2n × 2m)
Alineamiento de dos secuencias
A lo bestia: el algoritmo de fuerza bruta
Alineamiento de dos secuencias
Trata de encontrar la secuencia común de mayor tamaño (LCS)
entre dos secuencias X e Y de longitudes m y n, respectivamente.
Se determinan todas las subsecuencias posibles de X (2m) y
se comparan con todas las subsecuencias posibles de Y (2n)
En total, hay que hacer 4(m+n) comparaciones
Con gaps, hay que repetir los cálculos 2N veces
para examinar la presencia de gaps en todas las
posiciones posibles de las dos secuencias
Según Waterman (1989) comparar dos secuencias de 300
aminoácidos requiere examinar 1088 posibilidades, casi el mismo
número de partículas elementales que hay en el Universo.
En la práctica, resulta imposible, tanto por el tiempo que se necesita
como por los recursos de memoria que le harían falta al ordenador
Con alineamientos locales es aún peor
Alineamiento de dos secuencias
O (m × n)
Alineamiento de dos secuencias
Dot-plot (Gibbs and McIntyre, 1970)
Alineamiento de dos secuencias
1.- Se necesitan dos secuencias: A (de longitud =
m) y B (de longitud = n).
2.- Se escribe la secuencia A en la fila superior y
la secuencia B (longitud = n) en la columna de la
izquierda.
3.- Se construye una matriz con m columnas y n
filas (m  n).
4.- Se compara cada letra de la secuencia A con
cada letra de la secuencia B. Si coinciden los
caracteres se marca esa posición con un punto.
Si no, se deja en blanco.
El algoritmo
Alineamiento de dos secuencias
Construcción de la matriz
Alineamiento de dos secuencias
Rellenado de la matriz
Alineamiento de dos secuencias
Es un método visual que detecta
todas las coincidencias posibles
entre dos secuencias. Es tarea
del investigador determinar
cuáles son relevantes.
No proporciona un alineamiento
de las secuencias pero nos da una
idea de qué regiones deberían
estar alineadas después de utilizar
cualquiera de los otros métodos y
nos puede ayudar a decidir cuál es
el alineamiento óptimo.
Detecta relaciones entre las
secuencias, o dentro de una misma
secuencia que, de otra forma,
serían muy difíciles de encontrar
Características del dot plot
Alineamiento de dos secuencias
Secuencia horizontal: gen/proteína c2 del fago P22
Secuencia vertical: gen/proteína cI del fago l
DNA
Proteína
Como sólo hay 4 nucleótidos,
aparecen muchas coincidencias
por mero azar que generan ruido
Como hay 20 aminoácidos, hay
muchas menos coincidencias por
azar y presenta mucho menos ruido
DNA vs. proteína
Alineamiento de dos secuencias
Se puede eliminar el ruido mediante un filtrado
- Secuencia horizontal: gen c2 del fago P22
- Secuencia vertical: gen cI del fago l
Sin filtrar
Tras aplicar un filtro
Filtrado de los datos
Alineamiento de dos secuencias
La ventana deslizante se define
mediante dos parámetros:
Ventanas deslizantes
(t = 11 y r = 7)
- TAMAÑO (t): es el número de
símbolos que abarca la ventana.
Suele ser 15 en el caso del DNA
y 2 ó 3 en el caso de proteínas.
- RIGOR (r): es el mínimo
número de coincidencias
que debe haber entre las
dos ventanas para colocar
un punto en la matriz
Se colocará un punto en la posición
correspondiente al centro de la
ventana cuando entre ambas
ventanas exista, como mínimo, el
número de coincidencias indicado
por el parámetro r.
Reducción del ruido: filtrado mediante ventanas deslizantes
Alineamiento de dos secuencias
Secuencia horizontal: gen c2 del fago P22
Secuencia vertical: gen cI del fago l
(t = 1 y r = 1)
(t = 11 y r = 7)
(t = 23 y r = 15)
(sin filtrado)
Ejemplo de la reducción del ruido
Alineamiento de dos secuencias
En general, hay que utilizar una ventana del
tamaño del elemento que quiero localizar
- Al comparar secuencias de ácidos nucleicos:
- Se utilizan ventanas largas y con rigor elevado (t = 15 y
r = 10, por ejemplo)
- Al comparar secuencias de proteínas:
- Muchas veces no se filtra la matriz (t = 1 y r = 1).
- Si se filtra, se utilizan ventanas cortas con un rigor muy
pequeño: (t = 2 y r = 2), (t = 3 y r = 2)
- Si intento buscar dominios cortos con similitud parcial en
secuencias largas usaré una ventana larga y un rigor medio
(t = 20 y r = 5, por ejemplo)
- A la hora de filtrar se pueden utilizar matrices de puntuación o
se puede tener en cuenta la similitud entre las cadenas laterales
de los aminoácidos.
Valores apropiados para los parámetros de filtrado
Alineamiento de dos secuencias
Comparación de
una secuencia
(DNA o proteína)
consigo misma
Alineamiento de dos secuencias
(Receptor LDL humano)
- Aparece una diagonal de lado a lado
- Hay simetría respecto a esa diagonal
- Las líneas paralelas a ambos
lados de la diagonal corresponden
a repeticiones de la secuencia.
- Las repeticiones invertidas o las
secuencias palindrómicas aparecen
como líneas perpendiculares a la
diagonal principal
- Las áreas con alta densidad de
puntos son repeticiones cortas de
un mismo nucleótido o aminoácido
(regiones de poca complejidad)
- Se ve mejor con un filtrado
Comparación de una secuencia consigo misma (1)
Alineamiento de dos secuencias
Región de poca
complejidad
Regiones
repetidas
Repeticiones
invertidas
(t = 1 y r =1)
(t = 23 y r =7)
(t = 1 y r =1)
Receptor
LDL humano
(sin filtrar)
Receptor LDL
humano
(filtrado)
Factor de
transcripción
humano
Comparación de una secuencia consigo misma (2)
Alineamiento de dos secuencias
Proteína SLIT de Drosophila melanogaster
- En el extremo amino hay 4
regiones repetidas, ricas en
leucina (A)
- Hay otro dominio que se
repite unas 6 veces en un
tramo pequeño y otra vez
más cerca del extremo
carboxilo (B). Es el dominio
EGF.
Secuencias repetidas
Alineamiento de dos secuencias
Repetición en
tándem de un
fragmento de la
secuencia
…ABCDEFGEFGHIJKLMNO…
Repetición en tándem
Alineamiento de dos secuencias
En las repeticiones invertidas
(inverted repeats), dos
segmentos distintos de la
doble hélice se leen igual,
pero en sentidos opuestos:
5' AGAACAnnnTGTTCT 3'
3' TCTTGTnnnACAAGA 5'
Repeticiones invertidas
Alineamiento de dos secuencias
Las repeticiones invertidas se pueden encontrar en:
- Secuencias implicadas en
la unión de los factores de
transcripción
- Transposones de plantas
- Genes de retrovirus
insertados en el genoma del
huésped
- Genes duplicados
- Estructuras secundarias
(stem-loop) del RNA
(horquillas de terminación
de la transcripción)
Repeticiones invertidas
Alineamiento de dos secuencias
Horquilla de terminación en la secuencia del gen UTPglucosa-1-fosfato uridililtransferasa de Bacillus subtilis
- En las regiones con
apareamientos locales
(estructuras stem-loop) la
secuencia directa
coincide con la de la
hebra complementaria
escrita en sentido inverso
Repeticiones invertidas
Alineamiento de dos secuencias
En las secuencias
palindrómicas, la
secuencia de una
hebra se lee igual
que la de su hebra
complementaria:
5' GGCC 3'
3' CCGG 5'
Secuencias palindrómicas
Alineamiento de dos secuencias
Las secuencias palindrómicas
se pueden encontrar en:
- Secuencias reconocidas
por enzimas de restricción:
Secuencias palindrómicas
Alineamiento de dos secuencias
Receptor LDL humano
- Las regiones de baja
complejidad aparecen
como zonas con una
elevada densidad de
puntos
Regiones con poca complejidad
Alineamiento de dos secuencias
Proteína P21997
(UniProtKB/Swiss-Prot)
- En las regiones de poca
complejidad hay un
aminoácido que se repite
mucho más de lo normal.
En este caso es la prolina.
- En el dot plot, estas
regiones aparecen como
cuadrados con una elevada
densidad de puntos.
Regiones con poca complejidad
Alineamiento de dos secuencias
Comparación de dos
secuencias similares
(de DNA o de proteína),
pero no idénticas
Alineamiento de dos secuencias
Se coloca la secuencia A en la parte superior y la secuencia
B en el costado izquierdo. Se coloca un punto allí donde
ambas coordenadas contengan un mismo símbolo.
Es un método visual que detecta rápidamente todas las coincidencias
- Las regiones similares aparecen como
diagonales (puede haber más de una)
- Los indel provocan desplazamientos
de la diagonal (en sentido vertical u
horizontal)
- Las transposiciones y las secuencias
repetidas aparecen como diagonales
paralelas a la principal
- Las repeticiones inversas y las
secuencias palindrómicas aparecen
como líneas perpendiculares a la
diagonal principal
- Las regiones con poca complejidad
aparecen como regiones con una
elevada densidad de puntos
Lo que se puede detectar con un dot-plot
Alineamiento de dos secuencias
Diagonal principal
Huecos
- La diagonal principal
corresponde a las
regiones similares que
pueden alinearse
- Con frecuencia, estas
regiones corresponden
a dominios proteicos
conservados
- Los huecos corresponden
a las regiones que no son
similares y que no podrían
alinearse
Dominios conservados
Alineamiento de dos secuencias
Región
insertada
- Un indel provoca un
desplazamiento de la
diagonal
- El desplazamiento de la
diagonal es paralelo a la
secuencia que presenta la
inserción
- Comparando cDNA con
el DNA genómico, se
pueden identificar los
intrones y los exones
Indels (insertion/deletions)
Alineamiento de dos secuencias
Región
repetida
Región
repetida
Región
repetida
- Una región
repetida provoca
un solapamiento
en las diagonales
Secuencia repetida en tándem
Alineamiento de dos secuencias
- Una repetición
invertida o una
secuencia
palindrómica
provoca una línea
perpendicular a la
diagonal
Repetición invertida o secuencia palindrómica
Alineamiento de dos secuencias
Comparación de una secuencia
de proteína con su gen de ADN
Alineamiento de dos secuencias
- Secuencia horizontal: gen J05545.1
- Secuencia vertical: proteína P60204 (una calmodulina)
- Al comparar un gen con
su producto proteico se
pueden diferenciar los
exones y los intrones.
* En rojo: exones.
* En azul: intrones.
- También se pueden
diferenciar intrones y
exones al comparar un
cDNA, una EST (expressed
sequence tag) o un mRNA
con el DNA genómico
Identificación de los intrones y exones
Alineamiento de dos secuencias
http://myhits.isb-sib.ch/cgi-bin/dotlet
El programa Dotlet
Alineamiento de dos secuencias
http://www.vivo.colostate.edu/molkit/dnadot/
El programa Dnadot
Alineamiento de dos secuencias
http://sonnhammer.sbc.su.se/Dotter.html
Descárgate el programa
(varias plataformas)
El programa Dotter
Alineamiento de dos secuencias
http://emboss.bioinformatics.nl/cgi-bin/emboss/dottup
El programa Dottup
Alineamiento de dos secuencias
http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dottup
El programa Dottup
Alineamiento de dos secuencias
http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::dotmatcher
El programa Dotmatcher
Alineamiento de dos secuencias
http://www.genebee.msu.su/services/dhm/advanced.html
El programa Dothelix
Alineamiento de dos secuencias
http://www.cbs.dtu.dk/services/MatrixPlot/
El programa MatrixPlot