Download De secuencias a Biología: Genómica / Bioinformática

Document related concepts

BLAST wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

FASTA wikipedia , lookup

Alineamiento múltiple de secuencias wikipedia , lookup

Genómica funcional wikipedia , lookup

Transcript
AGROBIOTECNOLOGIA
CURSO 2015
De secuencias a Biología:
Genómica / Bioinformática
Maximo Rivarola PhD
[email protected]
Departamento de Fisiología, Biología Molecular y Celular
Facultad de Ciencias Exactas y Naturales
Universidad de Buenos Aires
-
Experimentación in-silico:
Calculo e interpretación

Podemos generar gran cantidad de datos.
Resultados complejos provenientes de algoritmos
complejos.

Tiempos cortos (dependiendo del volumen de datos).

Existen herramientas especificas muy útiles para realizar las
tareas que se plantean con la pregunta biológica que
queremos contestar.
Es muy importante:
 Saber que pregunta queremos contestar.
 Saber que estamos haciendo con el software y en lo
posible como lo hace.
 Saber que la salida del software es una cuenta, la
interpretación de esa cuenta por parte nuestra es el
verdadero resultado.
 Los resultados in-silico deben ser validados
experimentalmente.


Temario
Usando la bacteria Buty como ejemplo:






Ensamblado.
Anotación estructural y funcional.
Algoritmos de alineamiento (BLAST).
Ontologías y Vocabulario controlado
Porque usar Unix (Linux).
Galaxy, acercándose a Linux.
Un ejemplo de un Proyecto Genómico
desarrollado en el INTA
Una bacteria aislada
en el Instituto de
Patobiología-INTA

Se obtuvo ~ 500 mil
lecturas del genoma
de Butyrivibrio
fibrisolvens con Roche
454 (cobertura 26X)

Descubrir genes involucrados
en la degradación de celulosa y
en metanogénesis

Llegaron los datos, que hacemos?
Datos crudos
Ensamblado
Análisis
de calidad
Contigs / Scaffolds
Anotación
Estructural
Predicción de genes
Anotación
Funcional
Anotación de genoma
Ensamblado



Es actualmente objeto de investigación ya que no
es un problema totalmente resuelto (como muchos
de los temas de los cuales hablaremos).
Problema general: “Armar” el genoma a patir de
pequeños fragmentos (lecturas).
Algoritmos de ensamblado:
 Overlap layout consensus
Lecturas largas
 Grafos de De Brujin
Lecturas cortas
Un juego...
Rompecabezas de
~ 0.5 millón de piezas
(caso Buty)
Ingredientes para un “buen”
ensamblado
Overlap layout consensus
Ensamblado de-novo del Genoma
Reads
Contig
Ensamblado del Genoma de Buty
Anotación estructural



Búsqueda de genes in-silico.
Debido al tipo de algoritmos utilizado esta
búsqueda se denomina predicción.
Métodos de predicción:

Extrínsecos


Búsqueda utilizando herramientas de alineamiento
(Ej. BLAST)
Ab-initio



Métodos matemáticos-probabilísticos con o sin
información externa.
Modelos ocultos de Markov (Ej. glimmerhmm)
Redes neuronales


Entrenamiento
Procedimientos híbridos
Anotación estructural
Procariotas:



Genomas pequeños
Ausencia de intrones
Alta densidad de
genes
Eucariotas:



Genomas grandes
Presencia de intrones y
exones
Baja densidad de genes
Paso 1
• Encontrar marcos de lecturas
abierto (ORFs).
…TAGAAAAATGGCTCTTTAGATAAATTTCATGAAAAATATTGA…
Stop
codon
Stop
codon
Un “ORF” es de stop a stop
Paso 2
• Buscar en otra hebra (ORFs).
Reverse
strand
Stop
codon
…ATCTTTTTACCGAGAAATCTATTTAAAGTACTTTTTATAACT…
…TAGAAAAATGGCTCTTTAGATAAATTTCATGAAAAATATTGA…
Stop
codon
Shifted
Stop
Stop
codon
• Pero se sobre-ponen!!!!!! problema
(distintos marcos de lectura)
%GC genera mas problemas
Campylobacter jejuni RM1221 30.3%GC
Mycobacterium smegmatis MC2 67.4%GC
Lineas Violetas son verdaderos genes! El resto, NO
(muchos ORFs NO son verdaderos genes)
Herramientas para encontrar y
decidir que es un Gen?
(no todo ORF es gen)
Por homología a Genes conocidos? → no se
descubren genes “nuevos”
Usar genes mas “obvios” (por ejemplo por
BLASTX) para entrenar el “software” y después
buscar otros vía otros métodos (ab initio):
- codon composition
- Ribosome binding site
“Codon Composition”
Nucleotide variation at codon position:
Mycobacterium smegmatis
Campylobacter jejuni
Codon Position
Codon Position
1
2
1
3
2
3
a
36%
36%
36%
a
19%
23%
6%
c
13%
17%
9%
c
27%
28%
48%
g
30%
14%
10%
g
42%
20%
39%
t
21%
33%
44%
t
12%
28%
7%
“Reverse Scoring”
• A los “Orfs” se les asigna un puntaje que refleja si
usan una determinada frecuencia de codones
desde su 3’ a su 5’; del “stop” hacia su codon
inicio.
• Este tipo de puntaje ayuda a encontrar el
verdadero codon inicio y suma evidencia a que
ese Orf sea un “gen”
– El codon inicio deberia ser cuando la funcion se
encuentre en su pico de puntaje acumulativo.
Reverse Scoring
Probable sitio de
codon inicio
5'
Codon stop
3'
Codon stop
Validar genes con herramientas para
encontrar patrones en ADN
• Se utilizan los ORFs (secuencias) obtenidas para
identificar / validar genes, buscando:
• Motivos específicos, por ejemplo el del
Ribosome binding site
position weight
matrix (PWM) for the
ribosome binding
site.
Anotación funcional
Anotación funcional
Alineamientos?
Cuantificar el alineamiento
Son iguales todos los
“mismatches”?

Matrices de sustitución

Significado evolutivo

PAM
 Modelo evolutivo.
 Mutaciones observadas en alineamientos globales.
 PAMX: Altos valores de X
Grandes distancias
evolutivas.

BLOSUM
 Secuencias de proteínas empíricamente relacionadas.
 Regiones altamente conservadas (BLOCKS).

BLOSUMX: Altos valores de X
evolutivas.
Bajas distancias
Algoritmos de alineamiento


Alineamiento global:
 Útil para secuencias de tamaño similar.
 Algoritmo Needleman-Wunsh:
 Programación dinámica.
 Algoritmo completo, siempre encuentra el mejor
alineamiento.
 Realiza todas las comparaciones posibles y se queda con
la mejor, en consecuencia es computacionalmente
costoso.
Alineamiento múltiple:
 ClustalW:
 Método progresivo (heurística).
 Construye un alineamiento final a partir de alineamientos
entre pares de secuencias.
 La determinación del orden de los alineamientos se da a
partir de un árbol filogenético (Algoritmo de clustering).
Algoritmos de alineamiento

Alineamiento local:



Útil para secuencias diferenciadas que poseen regiones
similares.
Algoritmo Smith-Waterman:
 Similar a NW para alineamientos locales.
BLAST (Basic local alignment search tool):
 Algoritmo heurístico, sacrifica exactitud absoluta
para poder funcionar mas rápido.
 Elijo la mejor solución en base a un criterio elegido con
anterioridad (problema de mínimos locales).
 Búsqueda de fragmentos y extensión del alineamiento.
 Brinda información estadística sobre la significancia del
resultado.
 E-value (No es el único): Para valores bajos, representa
la probabilidad que el alineamiento sea obtenido al azar,
teniendo en cuenta el tamaño de la base de datos.
BLAST
WORD size: 3
Tamaño de palabra en BLAST
• La comparación entre secuencias no se realiza residuo a
residuo sino por grupos de residuos,
– 2 residuos en AA.
– 6 bases en DNA.
• A mayor tamaño de palabra menor es la sensibilidad
y mayor la especificidad.
• El efecto de variar el tamaño de palabra se muestra en
los dot-plots: A mayor tamaño menor numero de
coincidencias.
BLAST
• Aproximación en aparear fragmentos cortos que irá
extendiendo para buscar alineamientos locales
• Utiliza un modelo estadístico para encontrar los
mejores alineamientos entre la secuencia desconocida
y la DB
• HSP: High-scoring Segment Pair
– La unidad fundamental de trabajo con BLAST
– Corresponde a una región de máxima similitud entre
dos subsecuencias (palabras, W) con una
puntuación más grande o igual a una puntuación
umbral, T
BLAST: Algoritmo
1. Compilar todas las palabras de medida n que den una
puntuación superior al umbral (HSP)
2. Comparar estas palabras con las de la BD para identificar
las identidades exactas (“hits”)
3. Extender las palabras que han superado el umbral, en las
dos direcciones mirando de mejorar la puntuación
– La extensión acabará si baja la puntuación por debajo de
otro umbral, si llega a cero o si se acaba la secuencia
Listar los segmentos extendidos de puntuación más alta
Algoritmo de BLAST (1)
Algoritmo de BLAST (2)
Algoritmo de BLAST (3)
Tamaño de Base de Datos vs
significancia
Una secuencia (un alineamiento con un score S) encontrada en
una búsqueda contra un genoma bacteriano con 1000-5000
secuencias va a ser 50-250 veces más significativa que un
alineamiento con exactamente el mismo score en una base de
datos como nr (varios millones de secuencias)
Anotación funcional


Búsqueda de función biológica de secuencia de interés.
Nuevamente tenemos 2 métodos principales:
 Inferencia de función mediante búsqueda de secuencias
homologas con algoritmos de alineamiento local (Ej.
Blast2GO).

Búsqueda de motivos funcionales:
 Secuencias consenso generadas a partir de alineamientos
múltiples (Ej BlastProDom)
 Modelos ocultos de Markov (Ej. PFAM, TIGRFAM)
Anotación funcional


Búsqueda de función biológica de secuencia de interés.
Nuevamente tenemos 2 métodos principales:
 Inferencia de función mediante búsqueda de secuencias
homologas con algoritmos de alineamiento local (Ej.
Blast2GO).
 Búsqueda de motivos funcionales:
 Secuencias consenso generadas a partir de alineamientos
múltiples (Ej BlastProDom)
 Modelos ocultos de Markov (Ej. PFAM, TIGRFAM)
Anotación funcional
Utilización de dominios:
Familia → Grupo de proteínas con una función común
Dominio → Unidad evolutiva básica
 La función de una proteína es el resultado de las funciones
de sus dominios... (punto de vista simple)
 Proteínas homólogas pueden tener diferente organización
de dominios
Anotación funcional
GO: Gene Ontology
Vocabulario controlado aplicado a describir
funcionalmente los genes de cualquier organismo
Organizado en forma de grafo → Terminos hijos
amplian el nivel de especificidad
Se encontraron ~57 proteínas
involucradas con el metabolismo
de polisacáridos
Validar/Confirmar el uso de estas
secuencias para su uso biotecnológico
Como guardamos todos esos datos y
luego analizarlos/verlos?
Visualizador de Anotación Funcional: ATGC
Porque utilizar Unix



Unix es un entorno de programación muy potente
para el manejo de texto, la mayoría de las
aplicaciones bioinformáticas trabajan con
archivos de texto.
Posee herramientas altamente optimizadas
dedicadas para este propósito, por ejemplo,
herramientas para buscar, seleccionar, combinar
y manipular texto.
Debido a los volúmenes de datos que se manejan
en la actualidad (y seguiremos creciendo) ya no
nos es posible manejar los archivos con
procesadores de texto con formato (Ej. Word).
Galaxy, acercándose a
Linux



Es una plataforma web
que posee una gran
cantidad de herramientas
(no solo bioinformáticas)
disponibles orientadas al
procesamiento de
archivos.
Podemos realizar tareas
complicadas de
procesamiento sobre
archivos de manera
simple y organizada.
Permite la creación de
workflows
Impacto de la Bioinformática
La Genómica produce datos de alta
fidelidad y de gran procesividad;
La Bioinformática provee el análisis e
interpretación a este masivo grupo de
datos

Es imposible separar las nuevas
Tecnologías en Genómica con las
herramientas bioinformáticas

Anotación funcional
Pequeñas zonas conservadas
Caracteres funcionales
 Centros Activos
 Sitios de unión de ligandos
Anotación funcional
Utilización de alineamientos múltiples
BLAST es menos sensible frente a homólogos remotos
Alineamiento múltiple
 Observación de posiciones mas importantes
 Búsquedas de homólogos mas sensibles
Dos secuencias
alineadas:
ADGHLSCETR-DLWYALDSOP--RL
-EGHI-CECSSELWPILDTOPPPDL
Anotación funcional
Cómo aprovechamos la información de
un alineamiento múltiple?
-Secuencias consenso:
AGTVATVSC
AGTSATHAC
IGRCARGSC
IGEMARLAC
IGDYARWSC
.........
IGTVARVSC <= Ejemplo de secuencia
consenso
-Patrones o expresiones regulares:
(para caracterizar motivos)
ALRDFATHDDF
SMTAEATHDSI
ECDQAATHEAS
ATH[DE]
-Perfiles y perfiles HMM (Modelos ocultos de Markov)
Anotación funcional
Perfiles HMM (Modelos ocultos de Markov)
Base probabilistica compleja
Modela probabilidad de aparición de un aminoácido en una
determinada posición en función de sus vecinos
Anotación funcional
Software y bases de datos de interés:
InterProScan
Secuencias consenso
Patrones
Perfiles simples y HMM
Organiza información de conjunto de programas
PFAM
TIGRFAM
TMHMM
signalP
...