Download Bioinformática: lo “bio” - Departamento de Informática USM

Document related concepts

Genómica computacional wikipedia , lookup

Homología de secuencias wikipedia , lookup

Shoshana Wodak wikipedia , lookup

Ensembl wikipedia , lookup

Epigenética computacional wikipedia , lookup

Transcript
I
Bioinformática: una panorámica
Andrés Moreira
Departamento de Informática UTFSM
¿Qué es la bioinformática?
De un artículo en Nature :
“El desarrollo y aplicación de herramientas
computacionales para adquirir, almacenar, organizar,
archivar, analizar y visualizar datos biológicos.”
¿Qué es la bioinformática?
Qué dice Wikipedia:
“La bioinformática y la biología computacional
involucran el uso de técnicas que incluyen las
matemáticas aplicadas, la informática, la estadística,
la inteligencia artificial, la química y la bioquímica
para resolver problemas biológicos, generalmente a
un nivel molecular.”
¿Qué es la bioinformática?
Qué dice Wikipedia:
Bioinformática y biología computacional son usados casi
como sinónimos.
Diferencia:
•Bioinformática  énfasis en los datos
( más cerca de la definición en Nature )
•Biología computacional  énfasis en las teorías,
hipótesis
¿Qué es la bioinformática?
MATEMÁTICAS
Desarrollo de
algoritmos
Testeo de hipótesis
HCI
Web
INFORMÁTICA
Análisis
(semi)automatizado
a gran escala
BIOLOGÍA
¿Qué NO es la bioinformática?
Si bien existe amplio campo informático en otras
áreas de la biología (por ejemplo, ecología), la palabra
bioinformática se suele reservar para cosas cercanas
a la biología molecular.
Por otro lado... Al hablar de “biología computacional”
casi podría pensarse en “mirada computacional de la
biología”. Ese es otro tema, pero no tan descabellado
como puede parecer a primera vista.
¿Qué NO es la bioinformática?
De hecho es una perspectiva a la que a veces
volveremos.
“If you want to understand life, don’t
think about vibrant, throbbing gels and
oozes, think about information
technology.”
Richard Dawkins,
en “The Blind Watchmaker”
Así que no es sólo prestación de servicios... Es una
invasión!
Bioinformática: lo “bio”
¿De qué está hecha la vida?
Proteínas:
• Cadenas formadas por aminoácidos:
{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}
• Realizan casi todos los trabajos: estructura,
mensajería, catálisis, manejo de energía
Ácidos nucleicos:
• Cadenas formadas por nucleótidos:
{a, c, g, t} para DNA, {a, c, g, u} para RNA.
• Almacenamiento y porte de información,
síntesis de proteínas.
Bioinformática: lo “bio”
Bioinformática: lo “bio”
augccuaguaug...


...ugugcaacguga
aug ccu auu aug ...
M
P
S
M
...
... ugu gca acg uga
...
C
A
T
stop
Bioinformática: lo “bio”
Bioinformática: lo “bio”
RNAs
tRNA
Bioinformática: lo “bio”
Estructura 1d, 2d, 3d (“primaria”, “secundaria”...)
Es aún más importante en las proteínas: ahí la forma
básicamente determina la función.
Bioinformática: lo “bio”
¿Quién decide qué se copia y se fabrica?
Básicamente proteínas, pegándose a un punto apropiado
en el DNA (regulación).
Eso determinará qué tanto se fabrica de cada gen (el
nivel de expresión).
Varias proteínas pueden regular un mismo gen, y ese a su
vez puede regular a otros  aparecen redes de
regulación.
Bioinformática: lo “bio”
Un ciclo diario
•van cambiando a través del
tiempo
•determinan el tipo de célula
nivel gen 2
Los niveles de expresión:
nivel gen 1
Los cambios en la regulación y expresión de los genes
pueden ser tanto o más importantes para la evolución
que los cambios en la secuencia del DNA.
Bioinformática: lo “bio”
Una célula hace
cosas:
•Metabolismo
•Comunicación
•Reproducción
•Evolución
Así que se agregan fenómenos a otros niveles: de
organismo multicelular, de linaje que evoluciona, etc etc
Bioinformática: perspectiva histórica
1953: Watson & Crick descifran
la estructura del DNA
En las décadas siguientes, se
aprende sobre el código
genético.
Más tarde, se empiezan a leer
genes. Desde hace un tiempo,
genomas.
Bioinformática: perspectiva histórica
Número de letras
___________________________________________________________
1971
1977
1982
1992
1995
1996
1998
2000
2001
2003
Se publica la primera secuencia de DNA
PhiX174
Lambda
Cromosoma III de la levadura
Haemophilus influenza
Saccharomyces
C. elegans
D. melanogaster
H. sapiens (borrador)
H. sapiens
12
5,375
48,502
316,613
1,830,138
12,068,000
97,000,000
120,000,000
2,600,000,000
2,850,000,000
Bioinformática: perspectiva histórica
Proyecto de genoma humano:
•Terminado el 2001
• Se pensó que iba atrasado.
Celera Genomics
Consorcio Público (HGP)
Bioinformática: perspectiva histórica
Simultáneamente, va creciendo el número de secuencias
de proteínas que se conocen.
Y el número de estructuras de proteínas.
Y una serie de otros tipos de información.
Y la cantidad de publicaciones.
Bases de datos de bases de datos.
Bioinformática: perspectiva histórica
Bioinformática: perspectiva histórica
Pronto aparecieron los repositorios de información.
Paralelamente, algoritmos crecientemente complejos:
•ensamblado de genomas
•detección de genes en las secuencias
•alineamiento de secuencias
•predicción de estructura 2d y/o 3d
Bioinformática: perspectiva histórica
Además de aumentar el volumen, aumentó la
complejidad:
•Genes escritos en trozos
•Genes con más de un producto
•Interacciones complejas de regulación
•Genes saltarines
•RNA con funciones “propias de proteínas”
Bioinformática: perspectiva histórica
Un torrente de información que ha crecido de manera
exponencial, cada vez con más matices y más
complejidad.
No cesan de aparecer cosas nuevas, ya sea por
disponibilidad de datos o por nuevos descubrimientos:
•Metagenómica
•Epigenética
•Variación en la población (SNPs)
•interferencia de RNA (microRNA)
•...
Bioinformática: perspectiva histórica
Se ha ido refinando y especializando el nivel de las
aplicaciones computacionales:
•De repositorios, a bases de datos anotadas, a
protocolos para interoperabilidad
•De hacer regresiones lineales, a construir modelos
complejos vía machine learning
•De gráficos simples a minería de datos
•De revistas en papel, a textos online semánticamente
anotados (y cuando no, procesamiento de lenguaje
natural)
Pero: Los datos nos llevan la delantera.
Bioinformática: perspectiva histórica
Bioinformática: perspectiva histórica
•Toda la biología se ha
“molecularizado”, y por lo tanto,
“informatizado”: la biología es hoy
una “ciencia de la información”
•Esto afecta toda la investigación
en ámbito biológico, incluyendo la
agropecuaria, ecológica, etc.
•La biotecnología es una industria
en crecimiento, y no sólo en el
mundo desarrollado.
Bioinformática: Chile
•Chile produce madera, salmones, productos agrícolas....
•Pero incluso para el cobre la bioinformática resulta
importante:
•Biolixiviacion : se logró
aumentar la velocidad con que
la bacteria Thiobacillus
ferrooxidans recupera cobre
a partir de desechos de la
explotación primaria.
Problemas clásicos (siempre vigentes)
Ensamblar DNA:
dada una serie de fragmentos secuenciados,
reconstruir el genoma completo.
Una versión aún más complicada, ahora que existe la
metagenómica:
dada una serie de fragmentos provenientes de
muchos genomas distintos, reconstruir cada uno (o
por lo menos clasificar bien los fragmentos!)
Problemas clásicos (siempre vigentes)
Alineamiento de secuencias (DNA o proteínas):
Encontrar la ruta más corta que pudo convertir una
secuencia en otra
10
20
30
40
50
Sec. 1 KVYGYDSNIHKCVYCDNAKRLLTVKKQPFEFINIMPEKGV---FDD—EKIAELLTKLGR
..::
.. :: : .: ::
:
.:.: .. . .
::
::. : .. .
Sec. 2 EIYGIPEDVAKCSGCISAIRLCFEKGYDYEIIPVLKKANNQLGFDYILEKFDECKARANM
10
20
30
40
50
60
--T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC
| || | || | | | |||
|| | | | | ||||
|
AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C
Problemas clásicos (siempre vigentes)
Se detectan relaciones de parentesco, o
eventualmente similitud funcional
Dada una secuencia de consulta, se encuentran las más
cercanas en una base de datos
Alineamiento múltiple: para familias de secuencias
Problemas clásicos (siempre vigentes)
También se hace alineamiento
de estructuras (para reconocer
familias de proteínas)
Problemas clásicos (siempre vigentes)
Búsqueda en secuencias:
•Inicialmente, encontrar genes (secuencias
que codifican proteínas)
•En el genoma humano, son el 3%.
•Con estadística y un poco más, se puede hacer
bastante.
Complicación:
hay otras cosas que encontrar, y son más sutiles
redes neuronales, modelos markovianos, largo etc
Problemas clásicos (siempre vigentes)
Predicción de estructura bi- y tridimensional:
•No es trivial ni siquiera para RNA; para proteínas, es
extremadamente difícil.
•Incluso una simplificación
extrema es NP
•Y, por otro lado, es vital
(para discernir la función,
relaciones de interacción,
parentezcos...)
Problemas
Detección de la expresión :
•¿Bajo qué circunstancias se
expresa un gen?
•¿Qué gen se expresa bajo una
circunstancia dada?
•¿Cuáles se expresan siempre
juntos (o vinculados por algún
patrón)?
Una aproximación experimental
que se ha vuelto muy popular:
microarrays
DATOS
INFORMACION
Problemas
Detección de regulación y construcción de redes:
¿Quién regula a quién?
Los microarrays también pueden ayudar (como series
de tiempo: se saca “la foto” en momentos distintos)
Determinando las redes de regulación es posible
además analizarlas: ¿qué tan robustas son? ¿Cómo
pueden evolucionar? ¿Cómo se las puede intervenir?
Problemas
Problemas
Se pueden aproximar los
estados mediante variable
booleanas (binarias):
encendido o apagado
El resultado será un grafo
en cuyos nodos se ponen
funciones lógicas. Ha sido
un modelo muy productivo.
Problemas
Problemas
Modelamiento y simulación:
•Dinámica celular
•Morfogénesis
•Interacción en organismos multicelulares (o entre
unicelulares)
•Evolución
•...
Datos de secuencias
• GenBank, en el National Center of Biotechnology Information,
National Library of Medicine, EEUU (nucleotidos y proteinas)
http://www.ncbi.nlm.nih.gov/Entrez
• European Molecular Biology Laboratory (EMBL) Outstation en
Hixton, England http://www.ebi.ac.uk/embl/index.html
• DNA DataBank of Japan (DDBJ) en Mishima, Japan
http://www.ddbj.nig.ac.jp/
• Protein International Resource (PIR) en la National Biomedical
Research Foundation, EEUU http://wwwnbrf.georgetown.edu/pirwww/
• SwissProt (secuencias de proteínas) Swiss Institute for
Experimental Cancer Research, en Epalinges/Lausanne
http://www.expasy.ch/cgi-bin/sprot-search-de
Datos de secuencias
Datos de secuencias
Datos de secuencias
Datos de secuencias
Datos de secuencias
Datos de estructuras
• RCSB Protein Data Bank (PDB):
www.rcsb.org
• BioMagResBank:
http://www.bmrb.wisc.edu/
• MMDB:
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
 RNA:
http://www.rnabase.org/
Datos de estructuras: PDB
Datos de estructuras: PDB
Datos
Datos...
•de tipos de estructuras de proteínas (SCOP, CATH,
Dali, VAST)
•de dominios funcionales de proteínas
•de familias de RNAs (RNABASE)
•de redes de regulación genética
•de redes de interacción de proteínas
•de literatura (PubMed)
•de bases de datos
•...
También bases de datos especializadas en organismos
(moscas, ratón, levadura...). Y muchas más.
Datos
Niveles de expresión:
Cruce de datos
Cruce de datos
Datos: Índices
Datos: ejemplos
FASTA
Un comentario, seguido por la secuencia
>gi|1040960|gb|U35641.1|MMU35641 Mus musculus Brca1 mRNA, complete cds
GGCACGAGGATCCAGCACCTCTCTTGGGGCTTCTCCGTCCTCGGCGCTTGGAAGTACGGATCTTTTTTCT
CGGAGAAAAGTTCACTGGAACTGGAAGAAATGGATTTATCTGCCGTCCAAATTCAAGAAGTACAAAATGT
CCTTCATGCTATGCAGAAAATCTTAGAGTGTCCGATCTGTTTGGAACTGATCAAAGAACCTGTTTCCACA
AAGTGTGACCACATATTTTGCAAATTTTGTATGCTGAAACTTCTTAACCAGAAGAAAGGGCCTTCACAAT
GTCCTTTGTGTAAGAATGAGATAACCAAAAGGAGCCTACAGGGAAGCACAAGGTTTAGTCAGCTTGCTGA
AGAGCTGCTGAGAATAATGGCTGCTTTTGAGCTTGACACGGGAATGCAGCTTACAAATGGTTTTAGTTTT
TCAAAAAAGAGAAATAATTCTTGTGAGCGTTTGAATGAGGAGGCGTCGATCATCCAGAGCGTGGGCTACC
GGAACCGTGTCAGAAGGCTTCCCCAGGTCGAACCTGGAAATGCCACCTTGAAGGACAGCCTAGGTGTCCA
GCTGTCTAACCTTGGAATCGTGAGATCAGTGAAGAAAAACAGGCAGACCCAACCTCGAAAGAAATCTGTC
TACATTGAACTAGACTCTGATTCTTCTGAAGAGACAGTAACTAAGCCAGGTGATTGCAGTGTGAGAGACC
…
Datos: ejemplos
SWISS-PROT
Incluye anotación y otras informaciones (al igual que Genbank)
ID
AC
DT
DT
DT
DE
GN
OS
OC
OC
OX
RN
RP
RC
RX
RA
RT
RT
RL
…
BRC1_MOUSE
STANDARD;
PRT; 1812 AA.
P48754; Q60957; Q60983;
01-FEB-1996 (Rel. 33, Created)
01-NOV-1997 (Rel. 35, Last sequence update)
16-OCT-2001 (Rel. 40, Last annotation update)
Breast cancer type 1 susceptibility protein homolog.
BRCA1.
Mus musculus (Mouse).
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.
NCBI_TaxID=10090;
[1]
SEQUENCE FROM N.A.
STRAIN=C57BL/6; TISSUE=Embryo;
MEDLINE=96177659; PubMed=8634697;
Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.;
"Mouse Brca1: localization sequence analysis and identification of
evolutionarily conserved domains.";
Hum. Mol. Genet. 4:2265-2273(1995).
Datos: ejemplos
ASN.1: un estándar internacional
 Formato semiestructurado
 Es el formato base para GenBank
Seq-entry ::= set {
level 1 ,
class nuc-prot ,
descr {
title "Mus musculus Brca1 mRNA, and translated products" ,
source {
org {
taxname "Mus musculus" ,
db {
{
db "taxon" ,
tag
id 10090 } } ,
orgname {
name
binomial {
genus "Mus" ,
species "musculus" } ,
…
Datos: ejemplos
XML
<?xml version="1.0"?>
<!DOCTYPE GBSeq PUBLIC "-//NCBI//NCBI GBSeq/EN" “http://www.ncbi.nlm.nih.gov/dtd/NCBI_GBSeq.dtd
<GBSet>
<GBSeq>
<GBSeq_locus>MMU35641</GBSeq_locus>
<GBSeq_length>5538</GBSeq_length>
<GBSeq_strandedness value="not-set">0</GBSeq_strandedness>
<GBSeq_moltype value="mrna">5</GBSeq_moltype>
<GBSeq_topology value="linear">1</GBSeq_topology>
<GBSeq_division>ROD</GBSeq_division>
<GBSeq_update-date>18-OCT-1996</GBSeq_update-date>
<GBSeq_create-date>25-OCT-1995</GBSeq_create-date>
<GBSeq_definition>Mus musculus Brca1 mRNA, complete cds</GBSeq_definition>
<GBSeq_primary-accession>U35641</GBSeq_primary-accession>
<GBSeq_accession-version>U35641.1</GBSeq_accession-version>
Datos
•SBML: System Biology Markup Language,
representa modelos de reacciones bioquímicas
•OBO: Open Biomedical Ontologies
•Gene Ontology: la más conocida de las ontologías
biológicas; describe los genes y productos de genes
de cualquier organismo