Download Bases De Datos En Biología Computacional

Document related concepts

Base de datos wikipedia , lookup

Modelo de base de datos wikipedia , lookup

SQL wikipedia , lookup

Base de datos relacional wikipedia , lookup

Denormalización (base de datos) wikipedia , lookup

Transcript
Bases De Datos En Biología
Computacional
Cristian S. Rocha
28 de Mayo del 2002
¿Qué Es Una Base De Datos?
- Objetivos:
- Almacenar datos organizados de alguna manera para su
eventual consulta.
- Operaciones básicas:
- Ingresar.
- Eliminar.
- Consultar.
- Propiedades:
- Finita.
- Organización restringida desde la creación.
- Consultas limitadas a la información almacenada.
Ventajas
• Fácil acceso a la información.
• Fuerza la organización de los datos.
• Automatización de operaciones.
Datos Biológicos
•
•
•
•
•
•
•
•
Bibliografía.
Nucleótidos.
Proteínas.
Genoma.
Estructuras.
Alineamientos.
Organismos.
Genes.
•
•
•
•
•
•
•
Expresión.
Dominios.
Mapas.
Mutaciones.
Repeticiones.
Anatomía.
???
Características
• Alta complejidad.
• Gran cantidad y variabilidad de la
información.
• Interpretaciones múltiples.
• Consultas impredecibles.
Inserción
• Supone consulta a futuro.
• Supone alguna relación con la BD.
• Formato restringido.
Eliminación
• Nunca se volverá a consultar.
• No se pierde relaciones de interés.
• Mantiene consistencia de la BD.
Consulta
•
•
•
•
Formulario o lenguaje de consulta.
Exacta o inexacta.
Presentación.
Tiempo de respuesta.
Tipos
• Analíticas.
• Operacionales.
Bases de datos analíticas
• Optimizada para consultas.
• Los datos están confirmados.
• La información no esta actualizada
continuamente.
Bases de datos operacionales
• Optimizadas para la inserción de datos.
• Los datos provienen de un proceso
automático o repetitivo, pueden traer error.
• Es información actualizada.
Modelos
•
•
•
•
•
•
•
Planas.
Jerárquicas.
Redes.
Relaciónales.
Orientada a objetos.
Base de objetos.
Especializadas.
Organización
• Centralizada.
• Distribuida.
• Mixta.
Motores De Base De Datos
• Soporte para el diseño y operación de la
base de datos.
– Diseño: definición de la base de datos y sus
propiedades.
– Operación: manejo de la base de datos. Manejo
de los datos.
Tipo: Operacional.
Modelo: Relacional.
Organización: Centralizada.
Estado Del Arte
DDBJ
EMBL
NCBI
Tipo: Analítica.
Modelo: Mixtas.
Organización: Distribuida.
Transparencia E Integración
• Transparencia.
– El usuario no debe conocer la implementación
de la base de datos.
– Para el usuario debe existir una única base de
datos.
• Integración.
– Las herramientas deben interactuar con las
consultas de manera transparente.
Limitaciones
• Nadie conoce cual es la mejor
implementación.
• Definición de un estándar.
• Problemas políticos.
Base De Datos Local
Internet
HTML
XML
FASTA
Etc..
SQL
GUI
HTML
BioPerl
MySQL
BD
Motores De Base de Datos
• Relaciónales (SQL).
– Postgres, mysql, oracle.
• Jerárquicas.
– Acedb.
• Especializadas.
– Blast.
Ventajas & Limitaciones
• Las consultas están limitadas a la
información requerida.
• Las modificaciones solo afectan a la base de
datos local.
• No se puede operar directamente sobre la
información de la base de datos.
• Las consultas son 100% especializadas.
• No existe una única solución.
Bioperl (www.bioperl.org)
• Extensión del lenguaje de programación
perl para:
– Manejo de secuencias genómicas.
– Manejo de diferentes formatos de información.
– Intercomunicación de motores de bases de
datos especializadas.
Acedb (www.acedb.org)
• Base datos orientada a objetos con
organización jerárquica.
• Especializada para genómas.
• Integra herramientas de visualización.
• Apis a java, perl y C.
Blast (NCBI)
• Motor de base de datos de secuencias de
genómicas.
• Archivos planos.
• La inteligencia esta concentrada en los
índices.
Roles (1/2)
• Usuarios.
– Consultar.
– Ingresar datos.
• Analista.
– Relevar la información a almacenar.
– Diseñar un modelo consistente al problema
planteado.
Roles (2/2)
• Administrador del sistema.
– Mantener el sistema funcionando.
• Administrador de la base de datos.
– Mantener el motor de base de datos estable.
• Curador.
– Clasificar, publicar y chequear la validez de los
datos.
Herramientas de Diseño
• Diagramas Entidad Relación.
• UML.
Conclusiones
• No existe una única solución para
almacenar datos biológicos.
• Es necesario aprender lenguajes de
programación y de consulta.
• Mantener una base de datos biológica
necesita mantenimiento constante o la
responsabilidad de los usuarios.