Download Dr. Omar Orellana

Document related concepts

Genómica funcional wikipedia , lookup

Homología de secuencias wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

Genómica computacional wikipedia , lookup

BLAST wikipedia , lookup

Transcript
¿Qué podemos resolver mediante Bioinformática ? :
¿ Qué es la bioinformática ?
• Identificar genes específicos en un genoma, identificar todos los genes y
todas las proteínas de un organismo.
• Inferir la forma de una proteína (estructura terciaria) y su función a partir
de una secuencia de aminoácidos.
• Determinar los sitios en la estructura de una proteína donde se pueden unir
ligandos.
Dr. Omar Orellana
2013
• Determinar las interacciones entre los genes y proteínas que pertenecen a
un sistema biológico.
Para estos propósitos, la búsqueda de SIMILITUDES entre secuencias o
estructuras conocidas es el criterio principal.
Procedimientos que se utilizan en bioinformática
•
Búsquedas por similitud
•
Alineamiento de estructuras primarias (secuencias)
•
Construcción de árboles filogenéticos
•
Predicción de estructura secundaria (RNA y proteínas)
•
Alineamiento de estructuras terciarias
•
Predicción de estructuras terciarias (RNA y proteínas)
•
Clasificación de dominios y estructuras (familias)
•
Predicción de función de proteínas
•
Agrupamiento de datos de expresión (microarrays, geles 2-D)
•
Reconstrucción metabólica
•
Simulación de procesos celulares
1
Secuenciamento del DNA:
método con dideoxinucleótidos
(Técnica 1)
Secuenciamento del DNA:
método con dideoxinucleótidos
(Técnica 1)
Secuenciamento del DNA:
“pirosecuenciamiento”
(Técnica 1)
2
Secuenciamento del DNA:
“pirosecuenciamiento”
Genoma de Haemophilus influenzae
(Técnica 1)
3
Genomas secuenciados
4
Bases de datos de proteínas:
Bases de datos de secuencias de ácidos nucleicos
EMBL
http://www.ebi.ac.uk/embl/
GeneBank
http://www.ncbi.nlm.nih.gov/
DDBJ
Expressed sequence tag (EST)
http://www.ncbi.nlm.nih.gov/dbEST/
KEGG
http://www.genome.jp/kegg/
Primarias (secuencias)
PIR (Protein Information Resource)
http://pir.georgetown.edu/pirwww/dbinfo/iproclass.shtml
Swiss-Prot
http://www.expasy.ch/sprot/
Secundarias (patrones)
Prosite
http://expasy.org/prosite/
Pfam
Identify
PDBsum (estructuras)
¿Cómo se ingresa una secuencia a una base de datos?
Motivos estructurales:
Secuencias cortas que se conservan.
[GR] - C - [IV] - G - R - [ILS] - x – W
Unión de hemo
Zinc finger
CXXC
anotación automática:
es la integración de diversas herramientas
bioinformáticas con múltiples bases de datos
en una única “suite” para gestionar
automáticamente
el
análisis
y
almacenamiento de una secuencia.
anotación manual:
una persona (anotador) revisa la anotación,
gen por gen, verificando la anotación
automática,
agregando
anotaciones
manuales, corrigiendo eventualmente algún
problema particular.
5
http://www.oxfordjournals.org/nar/database/a
Análisis de secuencias de macromoléculas:
Identificar genes en una secuencia
Determinar la función de un gen
Identificar proteínas y su función
Identificar regiones conservadas (patrones)
Identificar regiones funcionales en un genoma
Inferir relaciones evolutivas
Algoritmos para el análisis de secuencias:
Alineamiento simple (dos secuencias)
Nucl. Acids Res. (2011) 39 (suppl 1): D1-D6.
The 2011 Nucleic Acids Research Database Issue and
the online Molecular Biology Database Collection (1330)
Michael Y. Galperin1,* and Guy R. Cochrane2
Matrices de puntos (“dot plots”)
Alineamiento global (Needleman – Wunsch)
Alineamiento local (Smith – Waterman)
Programación dinámica
Heurísticas para búsqueda en bases de datos de secuencias
FastA
BLAST
6
Alineamiento de pares de secuencias
Definición: comparación lineal de secuencias aminoacídicas
o nucleotídicas donde se han hecho inserciones de espacios
(“gaps”) para ubicar correctamente las posiciones
equivalentes en secuencias adyacentes.
Son la base de los métodos de análisis de secuencias, y se
usan para identificar la ocurrencia de motivos conservados.
¿Cómo alinear dos secuencias de
forma óptima?
GAC G GAT T
GAT C G GTT
GA- C G GATT
GAT C G G - TT
¿Qué nos interesa saber de una secuencia de DNA?
¿Cómo identificamos la función de una secuencia nueva?
>ttttggccgtatcggtcgcattgttttccgtgctgctcaga
Aacgttctgacatcgagatcgttgcaatcaacgacctgtta
Gacgctgattacatggcatacatgctgaaatatgactccac
Tcacggccgtttcgacggtaccgttgaagtgaaagacggtc
Atctgatcgttaacggtaaaaaaatccgtgttaccgctgaa
Cgtgatccggctaacctgaaatgggacgaagttggtgttga
Cgttgtcgctgaagcaactggtctgttcctgactgacgaaa
Ctgctcgtaaacacatcaccgctggtgcgaagaaagtggtt
Atgactggtccgtctaaagacaacactccgatgttcgttaa
Aggcgctaacttcgacaaatatgctggccaggacatcgttt
Ccaacgcttcctgcaccaccaactg
Ir a BLAST
7
8
MARCO 1
MARCO 2
MARCO 3
ttttggccgtatcggtcgcattgttttccgtgctgctcagaaacgttctgacatcgagatcgttgcaatcaacgacctgttagacgc
F W P Y R S H C F P C C S E T F * H R D R C N Q R P V R R
F G R I G R I V F R A A Q K R S D I E I V A I N D L L D A
L A V S V A L F S V L L R N V L T S R S L Q S T T C * T L
MARCO 1
MARCO 2
MARCO 3
tgattacatggcatacatgctgaaatatgactccactcacggccgtttcgacggtaccgttgaagtgaaagacggtcatctgatcgt
* L H G I H A E I * L H S R P F R R Y R * S E R R S S D R
D Y M A Y M L K Y D S T H G R F D G T V E V K D G H L I V
I T W H T C * N M T P L T A V S T V P L K * K T V I * S L
MARCO 1
MARCO 2
MARCO 3
taacggtaaaaaaatccgtgttaccgctgaacgtgatccggctaacctgaaatgggacgaagttggtgttgacgttgtcgctgaagc
* R * K N P C Y R * T * S G * P E M G R S W C * R C R * S
N G K K I R V T A E R D P A N L K W D E V G V D V V A E A
T V K K S V L P L N V I R L T * N G T K L V L T L S L K Q
MARCO 1
MARCO 2
MARCO 3
aactggtctgttcctgactgacgaaactgctcgtaaacacatcaccgctggtgcgaagaaagtggttatgactggtccgtctaaaga
N W S V P D * R N C S * T H H R W C E E S G Y D W S V * R
T G L F L T D E T A R K H I T A G A K K V V M T G P S K D
L V C S * L T K L L V N T S P L V R R K W L * L V R L K T
MARCO 1
MARCO 2
MARCO 3
caacactccgatgttcgttaaaggcgctaacttcgacaaatatgctggccaggacatcgtttccaacgcttcctgcaccaccaactg
Q H S D V R * R R * L R Q I C W P G H R F Q R F L H H Q L
N T P M F V K G A N F D K Y A G Q D I V S N A S C T T N C
T L R C S L K A L T S T N M L A R T S F P T L P A P P T A
http://www.ncbi.nlm.nih.gov/
Ir a ORFFINDER
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV
NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD
NTPMFVKGANFDKYAGQDIVSNASCTTNC
Ir a BLAST
http://www.ncbi.nlm.nih.gov/
9
Matriz PAM 250
10
Matriz Blosum62
¿Cómo definimos un gen en bacterias?
11
Predicción de Promotores
Criterios y herramientas para la
anotación de genes
Glimmer
Critica
Testcode
Genscan
RBS finding
Neuralnetworks
Codon usage
%GC
HMM-based
Comparative Analyses
Probabilistic tools
Probabilistic tools
Motif-based
Motif based
Genome properties
Genome properties
•NNPP es un Programa
para
búsqueda
de
promotores eucarióticos y
procarioticos en una
secuencia de DNA.
• La base del programa es
una red neural (timedelay) que reconoce la
caja TATA y la secuencia
iniciadora,
que
se
encuentra en la región
que comprende el inicio
de la transcripción.
http://www.fruitfly.org/seq_tools/promoter.html
12
Búsqueda de terminadores de la transcripción.
Búsqueda de terminadores de la transcripción.
•Transterm encuentra
terminadores de la
transcripción
rhoindependiente
en
genomas bacterianos.
•A cada terminador
se le asigna un valor
de confianza que
estima
la
probabilidad de ser
un
terminador
verdadero
http://rna.igmors.u-psud.fr/toolbox/arnold/index.php
ARNold
• ARNold encuentra terminadores rho independientes en secuencias de
ácidos nucleicos. La búsqueda usa dos programas complementarios Erpin y
RNAmotif.
• En el programa Erpin, a partir de un set de entrenamiento de 1200
secuencias terminadoras de Bacillus subtilis y Escherichia coli, se
construye un perfil de puntuación y en base a este perfil se busca en las
secuencias entregadas por el usuario.
• RNAmotif usa un algoritmo que reconoce terminadores de E. coli que
además puede ser aplicado para búsqueda de terminadores de cualquier
especie. Se basa en la descripción de una hélice de 4-18 pb, un espaciador
de 0 a 2 nt y una región rica en T. A las búsquedas de RNAmotif se les
asigna un valor de puntuación dependiendo del contenido de T y la
estabilidad del stem-loop.
• Se calcula la energía libre de la estructura stem-loop terminadora usando
RNAfold. Este valor de energía libre se usa como valor de confianza para
la predicción de terminadores.
13
Genoma de Haemophilus influenzae
Predicción de la estructura secundaria de la
Gliceraldehído 3 fosfato deshidrogenasa
Análisis de la estructura de una proteína
11
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVE
VKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKH
Secuencia aminoacídica de un segmento de una proteína
ITAGAKKVVMTGPSKDNTPMFVKGANFDKYAGQDIVSNASCTTNCLAPLA
FGRIGRIVFRAAQKRSDIEIVAINDLLDADYMAYMLKYDSTHGRFDGTVEVKDGHLIV
NGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVVMTGPSKD
NTPMFVKGANFDKYAGQDIVSNASCTTNC
KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST
GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA
VKAAAEGEMKGVLGYTEDDVVSTDFNGEVCTSVFDAKAGIALNDNFVKLV
http://www.ncbi.nlm.nih.gov/
SWYDNETGYSNKVLDLIAHISK
estructura alfa
estrctura beta
vuelta (loop)
14
http://swissmodel.expasy.org/workspace/[email protected]&key=a121072a984a78c349cc5a3a3f77c965
&func=workspace_modelling&prjid=P000001
15
Estructura primaria (secuencia de aminoácidos)
Modelo final
Predicción estructura secundaria
Generación de modelos basados en un molde
Refinamiento y validación del modelo
9
Alineamiento de las secuencias de la Gliceraldehído 3 fosfato
deshidrogenasa de
de diferentes organismos
E.coli
S.typhimurium
S.cerevisiae
H.sapiens
H.pylori
FGRIGRIVFRAAQKRSDIEIVAIND-LLDADYMAYMLKYDSTHGRFDGTV
FGRIGRIVFRAAQKRSDIEIVAIND-LLDAEYMAYMLKYDSTHGRFDGTV
FGRIGRLVLRLALQRKDIEVVAVNDPFISNDYAAYMVKYDSTHGRYKGTV
FGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV
TGRIGLCAIRVASQRKDVEIVAINS-TAELETLLHLIRHDSVHGHFEAKL
**** . * * : .:::**:*.
. :
::.::**.**::...:
E.coli
S.typhimurium
S.cerevisiae
H.sapiens
H.pylori
EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGLFLTDETARKHITAGAKKVV
EVKDGHLIVNGKKIRVTAERDPANLKWDEVGVDVVAEATGIFLTDETARKHITAGAKKVV
SHDDKHIIIDGVKIATYQERDPANLPWGSLKIDVAVDSTGVFKELDTAQKHIDAGAKKVV
KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI
NANRTLNIGHSKNILVLSERDINKLDFSVANAEIIIECTGKFNSLEASSAHLKNSVKKVI
. .
: .. *
*** :: :.
:
:.** *
: : *: ..*:*:
118
112
118
120
118
E.coli
S.typhimurium
S.cerevisiae
H.sapiens
H.pylori
MTGPSKDNTPMFVKGANFDKYA-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH
LTGPSKDNTPMFVKGANFDKYE-GQDIVSNASCTTNCLAPLAKVINDNFGIIEGLMTTVH
ITAPSS-SAPMFVVGVNHTKYTPDKKIVSNASCTTNCLAPLAKVINDAFGIEEGLMTTVH
ISAPSA-DAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVH
ISAPAQ-NAPTFVYGVNHTNYH-NESVISNASCTTNATAPLLKILDEAFKVENALLTTIH
::.*: .:* ** *.*. :* . .::********. *** *::.: * : :.*:**:*
177
171
177
179
176
58
52
58
60
58
16
Predicción de la estructura y función
de ácidos ribonucleicos
Predicción de genes que codifican para RNA de transferencia
17
Acidithiobacillus ferrooxidans
•Gram negative, γ proteobacterium
• acidophile (pH 1,5-4,0), autotrophic
• chemolithotrophic:
• oxidizes ferrous ions
• reduced sulfur compounds
• bioleaching of minerals
• high cytochromes content
• Two GluRS (GluRS1, GluRS2)
• GluQRS
• AspRS
• four tRNAGlu, four tRNAGln
• No GlnRS, AsnRS
• gatCAB (AdT)
Río Tinto,
Spain
• GluTR
• GSAm
Comparación de dos genomas de A. ferrooxidans
Genes
tRNA
59
96
37
= genes de tRNA
18
Predicción de posibles operones en el Cluster de genes
de tRNA
19
Predicción de la estructura secundaria de un RNA similar a tRNA
Fin
20