Download Almacenamiento y representación de la información biomédica
Document related concepts
Transcript
Almacenamiento y representación de la información biomédica © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Puntos a tratar: Tipos de datos biomédicos Formatos de presentación de datos Envío de datos Formatos de secuencias Sistemas gestores de bases de datos © Copyright Ebiointel,SL 2006 Milenio Libro 1er Religiosos: Biblia, Corán,... 2º El origen de la especies 3er El genoma humano © Copyright Ebiointel,SL 2006 Human Genome DB Almacenamiento y representación de la información Bases de datos biomédicas Tipos de datos Literatura Secuencias Estructuras 3D 2D Geles 2D Asociación genética (Desequilibrio) Tecnología informática de almacenamiento y recuperación de datos Archivo de texto Base de datos relaciones Base de datos deductivas Base de datos orientada a objetos © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Evolución de las bases de datos moleculares Categoría de base de datos Contenido de los datos Bases de datos de literatura Citaciones bibliográficas Revistas on-line MEDLINE (1971) Bases de datos factuales o datos brutos Seq. ácidos nucleicos, Seq. Aminoácidos Estructuras moleculares 3D GenBank (1982), EMBL (1982), DDBJ (1984), PIR (1968), SWISSPROT (1986), PDB (1971) Base de datos de conocimientos Biblioteca de motivos Clasif. molecular Rutas metabólicas PROSITE (1988) SCOP (1994) KEGG (1995) © Copyright Ebiointel,SL 2006 Ejemplos Almacenamiento y representación de la información Niveles de secuencia proteica y organización estructural Primarias Secundarias Terciarias Secuencia Motivo Dominio AVILDRYFH [A S] - [IL ] 2-X [ DE ] – R- [FYW ] 2-H Módulo A,b,c @,*,# © Copyright Ebiointel,SL 2006 Base de datos primarias Base de datos secundarias Base de datos de estructuras Almacenamiento y representación de la información Formato presentación datos Formato de archivo de texto (flat file) o html (GenBank, EMBL) Formato gráfico o applets (PDB, Drosophila GeneView, Human Genoma MapViewer) Formato código binario o texto interpretable por aplicaciones de visualización (archivo dnd de ClustaW) © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Recopilación de las Secuencias de las grandes bases de datos Envío de secuencias a las bases de datos por el investigador Vía Web en BankIt Usar programa Sequin en Mac, Windows, UNIX E-mail Obsoleto En disquete por correo Revisión de las nuevas entradas o actualización Asignación de número de acceso de la base de datos a las nuevas entradas Intercambio de las nuevas secuencias entre las tres principales bases de datos © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Fiabilidad de las secuencias Se suelen enviar las secuencias previo a la publicación Proyectos genomas (High Throughtput Sequence, HTG): Borrador (draft): 1 error en 1kb (4x-5x) Acabado (finished): 1 error en 10 kb (8x-9x) • Genome Survey Sequence (GSS) Una única lectura de secuencias de clones genómicos al azar 1 error en 100 bp ESTs (Expressed Tagged Sites) Una única lectura de secuencias de clones de cDNA al azar 1 error en 100 bp © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Códigos de bases de ácidos nucleicos IUB/GCG ------A C G T/U M R W S Y K V H D B X/N . Significado Complemento --------------------A T C G G C T A A or C K A or G Y A or T W C or G S C or T R G or T M A or C or G B A or C or T D A or G or T H C or G or T V G or A or T or C X not ©GCopyright orEbiointel,SL A or T or C . 2006 Almacenamiento y representación de la información Códigos de aminoácidos Símbolo de una y tres letras G Glycine Gly P Proline Pro A Alanine Ala V Valine Val L Leucine Leu I Isoleucine Ile M Methionine Met C Cysteine Cys F Phenylalanine Phe Y Tyrosine Tyr W Tryptophan Trp H Histidine His K Lysine Lys R Arginine Arg Q Glutamine Gln N Asparagine Asn E Glutamic Acid Glu D Aspartic Acid Asp S Serine Ser T Threonine Thr © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Formatos de secuencias Ficheros ASCII (editor de texto) Fasta GenBank GCG ... Fasta Múltiples secuencias © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Formato GenBank © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Más formatos de secuencias ASN.1 EMBL Swiss Prot FASTA GCG GCG-MSF GCG-RSF GenBank/GenPept NEXUS PHYLIP NBRF y PIR Definición de formatos de secuencias: http://www.genomatix.de/online_help/help/sequence_formats.html © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Conversor de formatos •ReadSeq: http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi •Conversores de formato © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Tecnología informática de almacenamiento y recuperación de datos Base de datos Sistema gestor de la base de datos Especifica la estructura lógica de la base de datos en función de la definición de los datos Archivo de texto Base de datos relaciones Base de datos orientada a objetos Base de datos deductivas © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Base de datos relaciones (Codd 1970) Todos los datos se organizan en tablas Álgebra relacional Intuitivo y comprensible Consultas en lenguaje SQL (Structured Query Language, estándar 1986, 1992, 1999, 2003) Lenguaje declarativo de acceso a bases de datos cuatro operaciones básicas: INSERT, UPDATE, DELETE y SELECT. SELECT lista de atributos FROM lista de relaciones WHERE condición SELECT * FROM TABLA_CITACION WHERE year = ‘2005’ © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Paper 1 Year Pages Volume Journal MUID SELECT * FROM TABLA_CITACION WHERE year = ‘2005’ 2004 2005 Pages Volume Journal MUID Paper 4 ........ 2005 2005 2005 PROJECT © Copyright Ebiointel,SL 2006 Year Paper 3 SELECT Year 2003 2005 2005 2004 MUID Paper 2 Year Pages Volume Journal MUID Almacenamiento y representación de la información Author MUID JOIN Author 1-1 Author 1-2 Author 2-1 16777514 Author 2-2 16777514 Author 2-3 16777514 Author 3-1 ........ © Copyright Ebiointel,SL 2006 Author Year Pages Volume Journal MUID 16777514 Almacenamiento y representación de la información SELECT Ejemplo 1: SELECT * FROM TABLA_NOMBRE ORDER BY ID, FECHA, NOMBRE Ejemplo 2: SELECT NOMBRE, DESCRIPCION FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' ORDER BY ID, FECHA, NOMBRE Ejemplo 3: SELECT NOMBRE, COUNT(*) AS CANTIDAD FROM TABLA_NOMBRE WHERE FECHA >= '2006/1/01' GROUP BY NOMBRE DELETE Este comando SQL elimina registros de una tabla especifica. Ejemplo 1: DELETE FROM TABLA_NOMBRE WHERE ID = 2 © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información DPDB DATA MODEL © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Ejemplos SGBD relacionales Comerciales ORACLE SQLServer Access Código abierto MySQL PostgreSQL © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Base de datos orientada a objetos (Kay 1972) Objetos son tipos abstractos de datos Una representación más flexible del mundo real de datos Falta de lógica robusta Incorpora los conceptos importantes del paradigma de objetos: Encapsulación - Propiedad que permite ocultar la información al resto de los objetos, impidiendo así accesos incorrectos o conflictos. Herencia - Propiedad a través de la cual los objetos heredan comportamiento dentro de una jerarquía de clases. Polimorfismo - Propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de objetos. © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Base de datos orientada a objetos (Kay 1972) Similitud (X) Objeto X mensaje Clase de similitud de secuencia Clase de similitud de estructura Clase de similitud de expresión Clase de similitud de rutas metabólicas © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Integración de Bases de datos Integración basada en Links Base de datos: entrada Base de datos 1:entrada1 Base de datos 2:entrada2 © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información Evolución de las Bases de datos Programación orientada a objetos (Kay,1972) Base de datos relacional (Codd,1970) Base de datos orientada a objetos (1986) Programación lógica (Kowalski,1972) Base de datos deductiva (1977) Base de datos deductiva y orientada a objetos (1989) © Copyright Ebiointel,SL 2006 Almacenamiento y representación de la información •Internet y la interoperabilidad de datos Evolución de Internet Desarrollos de estándares en XML Servicios de aplicaciones Web (Visual Studio.Net, Java JBoss, SAD, BioMOBY) © Copyright Ebiointel,SL 2006 Programación Java, C#, Visual Basic, JScript, AJAX,..