Download Almacenamiento y representación de la información biomédica

Document related concepts

Base de datos química wikipedia , lookup

Base de datos biológica wikipedia , lookup

Centro Nacional para la Información Biotecnológica wikipedia , lookup

Transcript
Almacenamiento y representación
de la información biomédica
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Puntos a tratar:
Tipos de datos biomédicos
Formatos de presentación de datos
Envío de datos
Formatos de secuencias
Sistemas gestores de bases de datos
© Copyright Ebiointel,SL 2006
Milenio
Libro
1er
Religiosos:
Biblia, Corán,...
2º
El origen de la
especies
3er
El genoma
humano
© Copyright Ebiointel,SL 2006
Human
Genome
DB
Almacenamiento y representación de la información
Bases de datos biomédicas
Tipos de datos
Literatura
Secuencias
Estructuras
3D
2D
Geles 2D
Asociación genética (Desequilibrio)
Tecnología informática de almacenamiento y
recuperación de datos
Archivo de texto
Base de datos relaciones
Base de datos deductivas
Base de datos orientada a objetos
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Evolución de las bases de datos moleculares
Categoría de
base de datos
Contenido de
los datos
Bases de datos
de literatura
Citaciones
bibliográficas
Revistas on-line
MEDLINE (1971)
Bases de datos
factuales o datos
brutos
Seq. ácidos
nucleicos,
Seq. Aminoácidos
Estructuras
moleculares 3D
GenBank (1982),
EMBL (1982),
DDBJ (1984), PIR
(1968), SWISSPROT (1986),
PDB (1971)
Base de datos
de conocimientos
Biblioteca de
motivos
Clasif. molecular
Rutas
metabólicas
PROSITE (1988)
SCOP (1994)
KEGG (1995)
© Copyright Ebiointel,SL 2006
Ejemplos
Almacenamiento y representación de la información
Niveles de secuencia proteica y organización estructural
Primarias
Secundarias
Terciarias
Secuencia
Motivo
Dominio
AVILDRYFH
[A S] - [IL ] 2-X [ DE ] – R- [FYW ] 2-H
Módulo
A,b,c @,*,#
© Copyright Ebiointel,SL 2006
Base de datos
primarias
Base de datos
secundarias
Base de datos
de estructuras
Almacenamiento y representación de la información
Formato presentación datos
Formato de archivo de texto (flat file) o html
(GenBank, EMBL)
Formato gráfico o applets (PDB, Drosophila
GeneView, Human Genoma MapViewer)
Formato código binario o texto interpretable por
aplicaciones de visualización (archivo dnd de ClustaW)
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Recopilación de las Secuencias de las
grandes bases de datos
Envío de secuencias a las bases de datos por el
investigador
Vía Web en BankIt
Usar programa Sequin en Mac, Windows, UNIX
E-mail
Obsoleto
En disquete por correo
Revisión de las nuevas entradas o actualización
Asignación de número de acceso de la base de datos
a las nuevas entradas
Intercambio de las nuevas secuencias entre las tres
principales bases de datos
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Fiabilidad de las secuencias
Se suelen enviar las secuencias previo a
la publicación
Proyectos genomas (High Throughtput
Sequence, HTG):
Borrador (draft): 1 error en 1kb (4x-5x)
Acabado (finished): 1 error en 10 kb (8x-9x)
•
Genome Survey Sequence (GSS)
Una única lectura de secuencias de clones
genómicos al azar
1 error en 100 bp
ESTs (Expressed Tagged Sites)
Una única lectura de secuencias de clones
de cDNA al azar
1 error en 100 bp
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Códigos de bases de ácidos nucleicos
IUB/GCG
------A
C
G
T/U
M
R
W
S
Y
K
V
H
D
B
X/N
.
Significado
Complemento
--------------------A
T
C
G
G
C
T
A
A or C
K
A or G
Y
A or T
W
C or G
S
C or T
R
G or T
M
A or C or G
B
A or C or T
D
A or G or T
H
C or G or T
V
G or A or T or C
X
not ©GCopyright
orEbiointel,SL
A or
T or C
.
2006
Almacenamiento y representación de la información
Códigos de aminoácidos
Símbolo de una y tres letras
G Glycine Gly
P Proline Pro
A Alanine Ala
V Valine Val
L Leucine Leu
I Isoleucine Ile
M Methionine Met
C Cysteine Cys
F Phenylalanine Phe
Y Tyrosine Tyr
W Tryptophan Trp
H Histidine His
K Lysine Lys
R Arginine Arg
Q Glutamine Gln
N Asparagine Asn
E Glutamic Acid Glu
D Aspartic Acid Asp
S Serine Ser
T Threonine Thr
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Formatos de secuencias
Ficheros ASCII (editor de texto)
Fasta
GenBank
GCG
...
Fasta
Múltiples
secuencias
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Formato GenBank
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Más formatos de secuencias
ASN.1
EMBL Swiss Prot
FASTA
GCG
GCG-MSF
GCG-RSF
GenBank/GenPept
NEXUS
PHYLIP
NBRF y PIR
Definición de formatos de secuencias:
http://www.genomatix.de/online_help/help/sequence_formats.html
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Conversor de formatos
•ReadSeq: http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
•Conversores de formato
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Tecnología informática de almacenamiento
y recuperación de datos
Base de datos
Sistema gestor de la base de datos
Especifica la estructura lógica de la base de
datos en función de la definición de los datos
Archivo de texto
Base de datos relaciones
Base de datos orientada a objetos
Base de datos deductivas
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Base de datos relaciones (Codd 1970)
Todos los datos se organizan en tablas
Álgebra relacional
Intuitivo y comprensible
Consultas en lenguaje SQL (Structured Query Language,
estándar 1986, 1992, 1999, 2003)
Lenguaje declarativo de acceso a bases de datos
cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT.
SELECT
lista de atributos
FROM
lista de relaciones
WHERE
condición
SELECT * FROM TABLA_CITACION WHERE year = ‘2005’
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Paper 1
Year
Pages
Volume
Journal
MUID
SELECT * FROM TABLA_CITACION WHERE year = ‘2005’
2004
2005
Pages
Volume
Journal
MUID
Paper 4
........
2005
2005
2005
PROJECT
© Copyright Ebiointel,SL 2006
Year
Paper 3
SELECT
Year
2003
2005
2005
2004
MUID
Paper 2
Year
Pages
Volume
Journal
MUID
Almacenamiento y representación de la información
Author
MUID
JOIN
Author 1-1
Author 1-2
Author 2-1
16777514
Author 2-2
16777514
Author 2-3
16777514
Author 3-1
........
© Copyright Ebiointel,SL 2006
Author
Year
Pages
Volume
Journal
MUID
16777514
Almacenamiento y representación de la información
SELECT
Ejemplo 1:
SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE
Ejemplo 2:
SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >=
'2006/1/01' ORDER BY ID, FECHA, NOMBRE
Ejemplo 3:
SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE
FECHA >= '2006/1/01' GROUP BY NOMBRE
DELETE
Este comando SQL elimina registros de una tabla especifica.
Ejemplo 1:
DELETE FROM TABLA_NOMBRE WHERE ID = 2
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
DPDB DATA MODEL
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Ejemplos SGBD relacionales
Comerciales
ORACLE
SQLServer
Access
Código abierto
MySQL
PostgreSQL
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Base de datos orientada a objetos (Kay 1972)
Objetos son tipos abstractos de datos
Una representación más flexible del mundo real de datos
Falta de lógica robusta
Incorpora los conceptos importantes del paradigma de objetos:
Encapsulación - Propiedad que permite ocultar la información al resto de los objetos,
impidiendo así accesos incorrectos o conflictos.
Herencia - Propiedad a través de la cual los objetos heredan comportamiento dentro de una jerarquía de
clases.
Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de
objetos.
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Base de datos orientada a objetos (Kay 1972)
Similitud (X)
Objeto X
mensaje
Clase de similitud de secuencia
Clase de similitud de estructura
Clase de similitud de expresión
Clase de similitud de rutas metabólicas
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Integración de Bases de datos
Integración basada en Links
Base de datos: entrada
Base de datos 1:entrada1  Base de datos 2:entrada2
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
Evolución de las Bases de datos
Programación
orientada a objetos
(Kay,1972)
Base de datos
relacional
(Codd,1970)
Base de datos
orientada a objetos
(1986)
Programación
lógica
(Kowalski,1972)
Base de datos
deductiva
(1977)
Base de datos
deductiva y
orientada a objetos
(1989)
© Copyright Ebiointel,SL 2006
Almacenamiento y representación de la información
•Internet y la interoperabilidad de datos
Evolución de Internet
Desarrollos de
estándares en XML
Servicios de
aplicaciones Web
(Visual Studio.Net,
Java JBoss, SAD,
BioMOBY)
© Copyright Ebiointel,SL 2006
Programación
Java, C#, Visual
Basic, JScript, AJAX,..