Download ALINEAMIENTO nueva version

Document related concepts
no text concepts found
Transcript
DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD
ENTRE DOS SECUENCIAS
COMPARACION DE DOS ATPASAS DE PECES
El DOT PLOT permite una visualización rápida
de la similitud entre dos secuencias
Inconvenientes:
No identifica directamente los fragmentos similares
No permite cuantificar el grado de similitud
Ventajas:
Nos muestra inversiones y estructuras repetidas
Computacionalmente eficiente
ALINEAMIENTO:
ALINEAR DOS SECUENCIAS CONSISTE EN IDENTIFICAR
LAS CORRESPODENCIAS RESIDUO-RESIDUO ENTRE
AMBAS
EL ALINEAMIENTO ES LA HERRAMIENTA BÁSICA
EN BIOINFORMATICA
necesitamos criterios para distinguir entre
Buenos alineamientos y malos alineamiento
Distancia de Hamming: dadas dos cadenas de
igual longitud, se define como el número de
posiciones no coincidentes (mismatches)
Distancia se Levenshtein: dadas dos cadenas, no
necesariamente de la misma longitud, se define
como el número de operaciones de edición
(inserción, deleción, alteración) necesarias para
convertir una en otra
Scores
Las distancias son medidas de la disimilaridad
entre secuencias
El score es una medida de la similaridad entre
secuencias
El score tiene introducir una penalización por
introducir espacios (gap penalty)
La puntuación asignada a residuos coincidentes
no tiene por qué ser igual en todos los casos, y
dicha puntuación debería tener un sentido biológico
¿Cuál es la mejor ruta entre Malmo y Tromso?
Algoritmos de programación
dinámica
global
local
Para un score x, la probabilidad de observar un
score ≥x es:
P(score≥x)=1-exp(-ke–λx)
exacto
P≤10-100
-
casi idénticas
-10
relacionadas
10-100 10-50
10-50 10-10
10-5
P≤10-1
-1
Relación distante
Probablemente no
relacionadas
Distribución de valor extremo
Z-score = (score-media)/dev estandar
Z=0
Similitud
observada
equivalente a la
aleatoria
Z≥5
Probablemente
significativo
E-value de un alineamiento encontrado en una base de datos,
es el número esperado de secuencias que por azar dar un score
igual o mayor al obtenido. Resulta de multiplicar P por el tamaño
de la base de datos
E≤0.02
Probablemente
homólogas
0.02<E <1
No descartar
homología
E>1
Indistinguible del azar
Interpretación del nivel de similaridad entre
dos protéinas
<45%
Muy probablemente
Idéntica función
45-25%
Alta probabilidad de
Estructura y función
similar
18-25%
<18%
Zona difusa
Indistinguible del azar
Significación de alineamientos
Técnica de Montecarlo:
Barajar secuencias>
Repetir alineamiento>
Apuntar score
Interpretación de la homología
•
Regla de Doolitle para proteínas
(Doolitle’s rule of thumb)
Si dos secuencias son >100 aa y su identidad es:
– > 25%, probablemente están relacionadas
– 15-25 % (twilight zone), podrían estar relacionadas, pero habría
que demostrarlo con otras pruebas
– <15 %, probablemente no están relacionadas
Interpretación de la homología
• Los alineamientos son fáciles con secuencias
muy parecidas
• Por debajo de un umbral, los alineamientos
pueden no tener un significado biológico
– Twilight zone
• Por debajo de este umbral hay que disponer
de más información (estructura, etc.)
Filtros
Se aplican filtros para evitar el efecto de:
Regiones de baja complejidad (filtros SEG
y DUST)
Secuencias repetidas (filtros específicos)
Regiones coil-coil (filtro COILS)
Conceptos básicos
• Homología (homology):
• Concepto cualitativo
• Implica la existencia de una relación evolutiva
• Similitud (similarity):
• Concepto cuantitativo
• Concepto o cantidad que expresa cómo de parecida
es una cosa a otra:
• Identidad (DNA y proteínas)
• Conservación funcional (prot.)
Reeck et al. 1987 "Homology" in proteins and nucleic acids : a terminology muddle and a way out of it. Cell 50: 667
Principales algoritmos para alineamientos
•
Para alineamientos múltiples
•
Métodos progresivos
– Alinean las secuencias más parecidas y luego van incorporando el
resto poco a poco
– Más rápidos, aunque menos precisos que en prog. dinámica
– Producen un buen alineamiento, pero que no es necesariamente el
óptimo
– Ej. Clustal, PILEUP, T-Coffee
•
Métodos iterativos
– Rápidos y precisos
– Construyen un alineamiento inicial que se revisa progresivamente para
conseguir mejorar la puntuación
– Ej. Multalin, Dialign
Clustal
•
Dos versiones:
– Clustal W: en servidor web
– Clustal X: con interfaz gráfica para Windows
•
Método:
– Se alinean separadamente todos los pares de secuencias y calcula una
matriz de distancias que indica la divergencia entre cada par de
secuencias
– A partir de la matriz de distancias se calcula un “arbol guía” (NeighborJoining)
– Las secuencias se alinean progresivamente siguiendo el orden de las
ramas del arbol guía
Características:
– Fortalezas:
• Alta velocidad
– Problemas:
• Alineamiento depende de las secuencias iniciales
• No se puede corregir en el alineamiento la adición inicial de gaps
•
Operational options
Output options
Input options, matrix
choice, gap opening
penalty
Gap information,
output tree type
File input in GCG,
FASTA, EMBL,
GenBank, Phylip, or
several other formats
Secuencias no alineadas
Misma región, después del alineamiento
Multalin
•
Disponible en servidores Web; también versión local, pero sin
interfaz gráfica
•
Método:
– Alinea progresivamente, primero por pares y luego grupos de
secuencias, y calcula sus puntuaciones
– Recalcula las puntuaciones de los alineamientos de cada dos
secuencias durante la producción del alineamiento
– Los alineamientos recalculados se incorporan al alineamiento global
– El programa para cuando nos e mejoran las puntuaciones
•
Características:
– Puede producir mejores alineamientos que algoritmos progresivos
– Problemas:
• Requiere mucha computación
Editores de alineamientos
•
Sirven para
– Editar manualmente un alineamiento
– importar o exportar datos
– Mejorar la presentación visual de los alineamientos
Secuencias consenso
AGTVATVSC
AGTSATHAC
IGRCARGSC
IGEMARLAC
IGDYARWSC
.........
IGTVARVSC <= Ejemplo de secuencia consenso
Expresiones regulares
Ejemplo:
AGTVATVSC
AGTSATHAC
IGRCARGSC
IGEMARLAC
IGDYARWSC
.........
IGTVARVSC <= Ejemplo de secuencia consenso
podríamos generar el siguiente patrón:
[AI]-G-X-X-A-[RT]-[SA]-C
prosite
Perfiles
Permiten mejorar alin
en secuencias distantes
Position-specific scoring matrix
Dominios y
Familias de proteínas
REDES NEURONALES
Modelos ocultos de Markov
HMM
PSI-BLAST