Download ENGINYERIA INFORMÀTICA MEMORIA PREVIA DEL PROYECTO

Document related concepts

ARN mensajero wikipedia , lookup

Genómica nutricional wikipedia , lookup

Genómica computacional wikipedia , lookup

Chip de ADN wikipedia , lookup

Programación de expresiones de genes wikipedia , lookup

Transcript
ENGINYERIA INFORMÀTICA
MEMORIA PREVIA DEL PROYECTO:
2658-1: BIOINFORMÁTICA: INTERFAZ WEB PARA MOSTRAR LAS RELACIONES DE
EXPRESIÓN ENTRE GRUPOS DE GENES
Firma del estudiante:
Firma del director/a o director/es
Nombre: Jose Luis Aylas Flores
Nombre/s: Jordi Gonzalez Sabaté
Mario Huerta
Dpt: CVC
Data:
Data:
Página 1 de 5
1. Objetivo del proyecto
Los genes al expresarse sintetizan las diferentes proteínas y estas proteínas, una vez
expresadas, son las que llevan a cabo las diferentes funciones de la célula. De esta
forma los genes, al expresarse, determinan el estado celular y modificando su
expresión, provocan cambios celulares. Estos cambios celulares pueden significar el
paso de la enfermedad a la salud o todo lo contrario y es por ello, que el estudio de
los genes y sus relaciones de expresión es vital para encontrar nuevos tratamientos
para las diferentes enfermedades con implicación génica.
En este proyecto analizamos los datos generados por la tecnología de microarray que
nos permite conocer el nivel de expresión de una gran cantidad de genes (150010000) bajo un gran número de circunstancias diferentes (100-1000).
Los genes cuyas expresiones mantienen una relación lineal dan lugar a un
determinado proceso biológico. Los genes cuyas sus expresiones no mantienen una
relación lineal, relacionan procesos diferentes. Todo esto podemos conocerlo
analizando los datos de microarray.
El objetivo del proyecto consiste entonces en:

Desarrollar una aplicación web para mostrar los genes que dan lugar a cada proceso
así como las relaciones entre los genes de diferentes procesos. Así, esta aplicación
web nos permitirá conocer las dependencias que tienen estos procesos diferentes y
los genes que las regulan.

Se dotará a la aplicación de las opciones que nos permitan:
o
Mostrar grafos completos de relaciones entre procesos con
relaciones entre procesos clasificadas por tipo.
las
o
Saber dado un gen en concreto a qué tipo de proceso pertenece, como
se comporta en este proceso, qué tipo de relación guarda con otros
procesos, etc.

Una generación de datos offline para cada microarray que permitirá realizar los
análisis online.

Estudiar los métodos que disponemos actualmente para obtener dicha generación de
estos datos offline.
2. Breve introducción al estado del arte del tema propuesto
La BioInformatica es la ciencia que estudia los fenómenos biológicos (en nuestro caso
de la biología molecular) desde un punto de vista computacional. La finalidad es poder
ofrecer métodos robustos para la comprensión, simulación y predicción de los
comportamientos observados en los seres vivos. Por consiguiente las principales
aplicaciones de la Bioinformatica consisten en la simulación, minería de datos (DM,
Página 2 de 5
Data Mining), análisis de la expresión génica, predicción de estructuras de proteínas,
estudio de las interacciones proteína – proteína , entre otros.
Como he comentado antes, la tecnología de microarrays permite obtener el nivel de
expresión de un gran número de genes bajo un gran número de circunstancias
diferentes. Existen múltiples aplicaciones web para su análisis, como GEO [1], BIOREL
[2], ArrayExpress [3], MicroGen [4] y GEPAS [5]. En el IBB se está desarrollando un
servidor para el análisis de microarrays que permite analizar los diferentes procesos
celulares en profundidad aprovechando la gran cantidad de información contenida en
las microarrays con un largo número de condiciones muestrales [8][9][10][11][12].
Y es que a través de los microarray podemos observar como los genes cuyas
expresiones mantienen una relación lineal dan lugar a un determinado proceso
biológico mientras que los genes cuyas expresiones no mantienen una relación lineal
nos relacionan procesos diferentes.
Este hecho nos facilitaría estudiar la transición entre procesos y para ellos
utilizaremos un modelo abstracto de datos: Los Grafos.
Un clique es un grafo tal que para cada par de nodos (genes) existe una arista que los
conecta. Se dice que un clique es maximal si este no está contenido dentro de ningún
otro clique [6].
Para encontrar estos cliques disponemos de la aplicación MACE (Maximal Clique
Enumerater) [7], además de otros múltiples módulos desarrollados en el IBB que nos
permiten tener los grafos clasificados según los tipos de relaciones existentes entre
los genes del clique.
A partir de los cliques entre genes se podrían agrupar aquellos cliques que
representen las relaciones entre los mismos procesos, de forma que se pudiese
mostrar todos los genes involucrados en llevar a cabo un mismo proceso así como
todos los genes involucrados en la transición/relación entre los procesos. La
construcción de estos diagramas de procesos es la meta a alcanzar por un gran
número de investigadores.
3. Estudio de viabilidad del proyecto
Para desarrollar la aplicación dispongo del servidor web del IBB [9] [10] [11] para el
análisis de microarrays. Este contiene los módulos que realizan la mayoría de análisis
que necesitaré para mi aplicación. Yo tendré que desarrollar nuevos módulos, reutilizar
los ya desarrollados y generar programas interfaz que preparen los datos de la manera
más adecuada para ser utilizados por la aplicación web.
La interfaz web se servirá de lenguajes como php i html.
Dado que la aplicación web se irá sirviendo de aplicaciones de las que se dispone, de
lenguajes de programación que me son conocidos y que con respecto a la viabilidad
técnica satisfago los requerimientos tanto a nivel hardware (ordenador, conexión a
Internet) como software (código fuente del preproceso) la viabilidad del proyecto está
asegurada.
Página 3 de 5
4. Planificación temporal del trabajo
Fase 1
Noviembre-Diciembre
Fase 2
Enero
Fase 3
Febrero-Marzo
Fase 4
Abril
Fase 5
Análisis de
Memorias/Directorios/Ficheros
Análisis del funcionamiento del preproceso
Desarrollo del preproceso
Diseño y desarrollo de la interfaz web
Búsqueda por gen
Optimización
Corrección de errores
Memoria
Mayo
5. Otros comentarios
Mi motivación personal en el proyecto se basa en adquirir conocimientos sobre la
BioInformática (ámbito de rabiosa actualidad y que lo será aun más en el futuro) a la
vez que enfrentarme a los problemas de una aplicación web interactiva con una gran
carga computacional (gran volumen de datos, distintos modelados de curva, etc...).
Por otro lado también me encuentro frente a la posibilidad de volver a trabajar con
distintos tipos de lenguaje como php,c++,html,entre otros, que aunque visto a lo
largo de la carrera creo que en el proyecto podre afianzar mis conocimientos.
Trabajar en un proyecto de Biotecnología me permitirá, quizás no tener la mejor
visión posible, pero si por lo menos una visión parcial de este campo relativamente
nuevo pero con alto impacto social.
6. Referencias
1. Barrett T, Suzek TO, Troup DB, Wilhite SE, Ngau WC, Ledoux P, Rudnev D,
Lash AE, Fujibuchi W, Edgar R: NCBI GEO: mining millions of expression
profiles – database and tools. Nucleic Acids Res 2005, 33:D562-566.
2. Antonov AV, Tetko IV, Mewes HW: A systematic approach to infer
biological relevance and biases of gene network structures. Nucleic
Acids Research 2006, 34(1):e6.
3. Parkinson H, Sarkans U, Shojatalab M, Abeygunawardena N, Contrino S,
Coulson R, Farne A, Lara GG, Holloway E, Kapushesky M, et al.:
ArrayExpress – a public repository for microarray gene expression
data at the EBI. Nucleic Acids Res 2005, 33:D553-555.
Página 4 de 5
de
4. Burgarella S, Cattaneo D, Pinciroli F, Masseroli M: MicroGen: a MIAME
compliant web system for microarray experiment information and
workflow management. BMC Bioinformatics 2005, 6(Suppl 4):S6.
5. Tarraga J, Medina I, Carbonell J, Huerta-Cepas J, Minguez P, Alloza E, AlShahrour F, Vegas-Azcarate S, Goetz S, Escobar P, et al.: GEPAS, a webbased tool for microarray data analysis and interpretation. Nucleic
Acids Res 2008 , 36:W308-314.
6. J.M. Basart, “Grafs: fonaments i algorismes.” Manuals de la UAB, 13.
Publicacions de la UAB, ISBN 84-490-1420-4, 1994.
7.
http://research.nii.ac.jp/~uno/code/mace.htm
8. Huerta M, Cedano J, Querol E. : Analysis of nonlinear relations between
expression profiles by the principal curves of oriented-points
approach. J Bioinform Comput Biol. 2008 Apr;6(2):367-86.
9. Cedano J, Huerta M, Querol E.:NCR-PCOPGene: An Exploratory Tool for
Analysis
of
Sample-Classes
Effect
on
Gene-Expression
Relationships.Adv Bioinformatics. 2008:789026. Epub 2008 Dec 10.
10. Huerta M., Cerdano J., Peña D., Rodriguez A. y Querol E: PCOPGene-Net:
Holistic Characterisation of cellular states from microarray data
based on continuous and non-continuous analysis of geneexpression relationships. BCM Bioinformatics, 2009.
11. Cedano J, Huerta M, Estrada I, Ballllosera F, Conchillo O, Delicado P, Querol
E.: A web server for automatic analysis and extraction of relevant
biological knowledge.Comput Biol Med. 2007 Nov;37(11):1672-5. Epub
2007 May 25.
12. Delicado, P. and Huerta, M.: Principal Curves of Oriented Points:
Theoretical and computational improvements.Computational Statistics
18, 293-315.(2003)
13. O'Madadhain J, Fisher D, Smyth P, White S, Boey YB: Analysis and
visualization of network data using JUNG. Journal of Statistical Software
2005, VV:1-35.
Página 5 de 5