Download ENGINYERIA INFORMÀTICA MEMORIA PREVIA DEL PROYECTO
Document related concepts
Transcript
ENGINYERIA INFORMÀTICA MEMORIA PREVIA DEL PROYECTO: 2658-1: BIOINFORMÁTICA: INTERFAZ WEB PARA MOSTRAR LAS RELACIONES DE EXPRESIÓN ENTRE GRUPOS DE GENES Firma del estudiante: Firma del director/a o director/es Nombre: Jose Luis Aylas Flores Nombre/s: Jordi Gonzalez Sabaté Mario Huerta Dpt: CVC Data: Data: Página 1 de 5 1. Objetivo del proyecto Los genes al expresarse sintetizan las diferentes proteínas y estas proteínas, una vez expresadas, son las que llevan a cabo las diferentes funciones de la célula. De esta forma los genes, al expresarse, determinan el estado celular y modificando su expresión, provocan cambios celulares. Estos cambios celulares pueden significar el paso de la enfermedad a la salud o todo lo contrario y es por ello, que el estudio de los genes y sus relaciones de expresión es vital para encontrar nuevos tratamientos para las diferentes enfermedades con implicación génica. En este proyecto analizamos los datos generados por la tecnología de microarray que nos permite conocer el nivel de expresión de una gran cantidad de genes (150010000) bajo un gran número de circunstancias diferentes (100-1000). Los genes cuyas expresiones mantienen una relación lineal dan lugar a un determinado proceso biológico. Los genes cuyas sus expresiones no mantienen una relación lineal, relacionan procesos diferentes. Todo esto podemos conocerlo analizando los datos de microarray. El objetivo del proyecto consiste entonces en: Desarrollar una aplicación web para mostrar los genes que dan lugar a cada proceso así como las relaciones entre los genes de diferentes procesos. Así, esta aplicación web nos permitirá conocer las dependencias que tienen estos procesos diferentes y los genes que las regulan. Se dotará a la aplicación de las opciones que nos permitan: o Mostrar grafos completos de relaciones entre procesos con relaciones entre procesos clasificadas por tipo. las o Saber dado un gen en concreto a qué tipo de proceso pertenece, como se comporta en este proceso, qué tipo de relación guarda con otros procesos, etc. Una generación de datos offline para cada microarray que permitirá realizar los análisis online. Estudiar los métodos que disponemos actualmente para obtener dicha generación de estos datos offline. 2. Breve introducción al estado del arte del tema propuesto La BioInformatica es la ciencia que estudia los fenómenos biológicos (en nuestro caso de la biología molecular) desde un punto de vista computacional. La finalidad es poder ofrecer métodos robustos para la comprensión, simulación y predicción de los comportamientos observados en los seres vivos. Por consiguiente las principales aplicaciones de la Bioinformatica consisten en la simulación, minería de datos (DM, Página 2 de 5 Data Mining), análisis de la expresión génica, predicción de estructuras de proteínas, estudio de las interacciones proteína – proteína , entre otros. Como he comentado antes, la tecnología de microarrays permite obtener el nivel de expresión de un gran número de genes bajo un gran número de circunstancias diferentes. Existen múltiples aplicaciones web para su análisis, como GEO [1], BIOREL [2], ArrayExpress [3], MicroGen [4] y GEPAS [5]. En el IBB se está desarrollando un servidor para el análisis de microarrays que permite analizar los diferentes procesos celulares en profundidad aprovechando la gran cantidad de información contenida en las microarrays con un largo número de condiciones muestrales [8][9][10][11][12]. Y es que a través de los microarray podemos observar como los genes cuyas expresiones mantienen una relación lineal dan lugar a un determinado proceso biológico mientras que los genes cuyas expresiones no mantienen una relación lineal nos relacionan procesos diferentes. Este hecho nos facilitaría estudiar la transición entre procesos y para ellos utilizaremos un modelo abstracto de datos: Los Grafos. Un clique es un grafo tal que para cada par de nodos (genes) existe una arista que los conecta. Se dice que un clique es maximal si este no está contenido dentro de ningún otro clique [6]. Para encontrar estos cliques disponemos de la aplicación MACE (Maximal Clique Enumerater) [7], además de otros múltiples módulos desarrollados en el IBB que nos permiten tener los grafos clasificados según los tipos de relaciones existentes entre los genes del clique. A partir de los cliques entre genes se podrían agrupar aquellos cliques que representen las relaciones entre los mismos procesos, de forma que se pudiese mostrar todos los genes involucrados en llevar a cabo un mismo proceso así como todos los genes involucrados en la transición/relación entre los procesos. La construcción de estos diagramas de procesos es la meta a alcanzar por un gran número de investigadores. 3. Estudio de viabilidad del proyecto Para desarrollar la aplicación dispongo del servidor web del IBB [9] [10] [11] para el análisis de microarrays. Este contiene los módulos que realizan la mayoría de análisis que necesitaré para mi aplicación. Yo tendré que desarrollar nuevos módulos, reutilizar los ya desarrollados y generar programas interfaz que preparen los datos de la manera más adecuada para ser utilizados por la aplicación web. La interfaz web se servirá de lenguajes como php i html. Dado que la aplicación web se irá sirviendo de aplicaciones de las que se dispone, de lenguajes de programación que me son conocidos y que con respecto a la viabilidad técnica satisfago los requerimientos tanto a nivel hardware (ordenador, conexión a Internet) como software (código fuente del preproceso) la viabilidad del proyecto está asegurada. Página 3 de 5 4. Planificación temporal del trabajo Fase 1 Noviembre-Diciembre Fase 2 Enero Fase 3 Febrero-Marzo Fase 4 Abril Fase 5 Análisis de Memorias/Directorios/Ficheros Análisis del funcionamiento del preproceso Desarrollo del preproceso Diseño y desarrollo de la interfaz web Búsqueda por gen Optimización Corrección de errores Memoria Mayo 5. Otros comentarios Mi motivación personal en el proyecto se basa en adquirir conocimientos sobre la BioInformática (ámbito de rabiosa actualidad y que lo será aun más en el futuro) a la vez que enfrentarme a los problemas de una aplicación web interactiva con una gran carga computacional (gran volumen de datos, distintos modelados de curva, etc...). Por otro lado también me encuentro frente a la posibilidad de volver a trabajar con distintos tipos de lenguaje como php,c++,html,entre otros, que aunque visto a lo largo de la carrera creo que en el proyecto podre afianzar mis conocimientos. Trabajar en un proyecto de Biotecnología me permitirá, quizás no tener la mejor visión posible, pero si por lo menos una visión parcial de este campo relativamente nuevo pero con alto impacto social. 6. Referencias 1. Barrett T, Suzek TO, Troup DB, Wilhite SE, Ngau WC, Ledoux P, Rudnev D, Lash AE, Fujibuchi W, Edgar R: NCBI GEO: mining millions of expression profiles – database and tools. Nucleic Acids Res 2005, 33:D562-566. 2. Antonov AV, Tetko IV, Mewes HW: A systematic approach to infer biological relevance and biases of gene network structures. Nucleic Acids Research 2006, 34(1):e6. 3. Parkinson H, Sarkans U, Shojatalab M, Abeygunawardena N, Contrino S, Coulson R, Farne A, Lara GG, Holloway E, Kapushesky M, et al.: ArrayExpress – a public repository for microarray gene expression data at the EBI. Nucleic Acids Res 2005, 33:D553-555. Página 4 de 5 de 4. Burgarella S, Cattaneo D, Pinciroli F, Masseroli M: MicroGen: a MIAME compliant web system for microarray experiment information and workflow management. BMC Bioinformatics 2005, 6(Suppl 4):S6. 5. Tarraga J, Medina I, Carbonell J, Huerta-Cepas J, Minguez P, Alloza E, AlShahrour F, Vegas-Azcarate S, Goetz S, Escobar P, et al.: GEPAS, a webbased tool for microarray data analysis and interpretation. Nucleic Acids Res 2008 , 36:W308-314. 6. J.M. Basart, “Grafs: fonaments i algorismes.” Manuals de la UAB, 13. Publicacions de la UAB, ISBN 84-490-1420-4, 1994. 7. http://research.nii.ac.jp/~uno/code/mace.htm 8. Huerta M, Cedano J, Querol E. : Analysis of nonlinear relations between expression profiles by the principal curves of oriented-points approach. J Bioinform Comput Biol. 2008 Apr;6(2):367-86. 9. Cedano J, Huerta M, Querol E.:NCR-PCOPGene: An Exploratory Tool for Analysis of Sample-Classes Effect on Gene-Expression Relationships.Adv Bioinformatics. 2008:789026. Epub 2008 Dec 10. 10. Huerta M., Cerdano J., Peña D., Rodriguez A. y Querol E: PCOPGene-Net: Holistic Characterisation of cellular states from microarray data based on continuous and non-continuous analysis of geneexpression relationships. BCM Bioinformatics, 2009. 11. Cedano J, Huerta M, Estrada I, Ballllosera F, Conchillo O, Delicado P, Querol E.: A web server for automatic analysis and extraction of relevant biological knowledge.Comput Biol Med. 2007 Nov;37(11):1672-5. Epub 2007 May 25. 12. Delicado, P. and Huerta, M.: Principal Curves of Oriented Points: Theoretical and computational improvements.Computational Statistics 18, 293-315.(2003) 13. O'Madadhain J, Fisher D, Smyth P, White S, Boey YB: Analysis and visualization of network data using JUNG. Journal of Statistical Software 2005, VV:1-35. Página 5 de 5