Download Proteins involved in epigenetic regulation
Document related concepts
Transcript
BASE DE DATOS PARA PROTEÍNAS QUE PARTICIPAN EN REGULACIÓN EPIGENÉTICA SUSANA MARTÍNEZ ARBAS MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III 2013-2014 LUXEMBOURG CENTRE OF SYSTEMS BIOLOGY REINHARD SCHNEIDER Y ANTONIO DEL SOL TUTOR: DAVID DE JUAN FECHA: ENERO DE 2015 ÍNDICE 1. Resumen ............................................................................................................................ 2 2. Abreviaturas ...................................................................................................................... 2 3. Introducción ...................................................................................................................... 3 a. Mecanismos de regulación epigenética ............................................................................ 4 b. Bases de datos con información epigenética .................................................................... 7 4. Objetivos ........................................................................................................................... 8 5. Construcción de la base de datos....................................................................................... 8 a. Elaboración de listas de genes que participan en regulación epigenética ....................... 9 b. Selección de la información de interés ........................................................................... 10 c. Diseño de la base de datos.............................................................................................. 13 6. Escenario de aplicación de la base de datos .................................................................... 16 7. Discusión y conclusiones ................................................................................................ 20 8. Bibliografía ..................................................................................................................... 22 ANEXO I ................................................................................................................................... 25 1 1. Resumen La interacción entre los mecanismos de regulación epigenética y de la transcripción desempeña un papel importante en procesos celulares tales como el desarrollo, la diferenciación y la reprogramación celulares. En los últimos años, se han producido rápidos avances en la comprensión de los mecanismos epigenéticos, que incluyen las modificaciones de las histonas, la metilación de ADN, la regulación por ARNs no codificantes y la remodelación de la cromatina. Sin embargo, un gran obstáculo para el estudio de estos mecanismos es que no se conocen todos los factores que intervienen en los mismos y, por tanto, la compresión de los mecanismos moleculares de la regulación epigenética es incompleta. Por ello, se ha construido una base de datos que contiene las proteínas que forman parte de los mecanismos de regulación mencionados, proporcionando una clasificación de las mismas según su función (writers, erasers, readers, factores remodeladores, factores de transcripción) e integrando información sobre las mismas, sobre sus interacciones y su expresión génica. 2. Abreviaturas NCBI National Center for Biotchnology Information 5mC 5-metilcitosina ADN Ácido desoxirribonucleico ARN Ácido ribonucleico ATP Adenosín trifosfato CR Cistrome Chromatin Regulator Cistrome DAnCER Disease Annotated Chromatin Resource EMBL-EBI European Bioinformatics Institute GO Gene ontology Histome The Histone Infobase PPI protein-protein interaction PTM Postranslational modifications STRING Search Tool for the Retrieval of Interacting Genes/Proteins 2 3. Introducción La epigenética se define como el estudio de los cambios en el material hereditario que afectan a la expresión genética y no son resultado de cambios en la secuencia del ADN, si no de la estructura de la cromatina. Dicha estructura se encuentra principalmente en dos estados: heterocromatina, que es transcripcionalmente inactiva por estar altamente condensada, y eucromatina, que es transcripcionalmente activa. La unidad básica de la cromatina es el nucleosoma, que es complejo nucleo-proteico octamérico, compuesta por pares de las histonas H2A, H2B, H3 y H4, envuelta por 147 pares de bases de ADN [1, 2]. La regulación del estado o conformación de la cromatina se lleva a cabo a través de los mecanismos de metilación de ADN, de remodelado de la cromatina por complejos proteicos remodeladores y de la modificación covalente de histonas. Estos mecanismos alteran las interacciones entre las histonas del octámero o entre nucleosomas cercanos, lo que determina cambios en la organización macromolecular de la cromatina, afectando a la accesibilidad de los promotores lo que permite una regulación de la expresión genética. Otras modificaciones químicas sirven como señales a otras proteínas específicas involucradas en la organización de la cromatina, la transcripción, el mantenimiento del genoma y la replicación[3]. Mientras que la secuencia de ADN es prácticamente la misma en todas las células del organismo, estas modificaciones en la estructura de la cromatina son dinámicas (figura 1), lo cual permite cambios en la expresión génica dependientes del contexto, es decir, de la línea celular, el tejido o momento del desarrollo [4, 5]. La coordinación de mecanismos genéticos y epigenéticos regula la unión de los factores de transcripción al ADN y, por tanto, la expresión génica. Por ejemplo, la metilación del ADN, conocida clásicamente por producir silenciamiento génico, impide la interacción directa de los factores de transcripción con el ADN, de forma que se necesitan proteínas adicionales que reconozcan dichas metilaciones a menudo relacionadas con remodeladores de cromatina y correpresores transcripcionales (figura 1)[5]. Así pues, la regulación epigenética de la expresión génica es el resultado de la presencia de una variedad de mecanismos interrelacionados, como son la metilación de ADN, la modificación covalente de histonas, el remodelado de la cromatina por procesos ATPdependiente o intercambio de variantes de histonas y la regulación por ARN no codificante[2, 6]. 3 Figura 1. La actividad coordinada de los mecanismos genéticos y epigenéticos de regulación génica afecta a la unión de los factores de transcripción al ADN. En la imagen de la izquierda se observa que el factor de transcripción se une directamente a una secuencia específica del ADN, activando la transcripción. En cambio, en la imagen de la derecha que, en presencia de metilaciones del ADN, un factor de transcripción puede unirse o no a la secuencia promotora, siendo el efecto de las metilaciones de silenciamiento (es lo que ocurre con mayor frecuencia) o activación de la transcripción del gen [5]. a. Mecanismos de regulación epigenética La metilación del ADN consiste en la adición de un grupo metilo en la posición 5 de citosinas localizadas en las llamadas islas CpG (regiones ricas en dinucleótidos CG), formando 5mC (5-metilcitosina) [7]. Dicha metilación se caracteriza por silenciar la transcripción génica. Puede inhibir directamente la interacción de la cromatina con elementos transcripcionales o reclutar proteínas que alteran la conformación de la cromatina (modificadores de histonas y complejos remodeladores) promoviendo la compactación de la misma, lo que refuerza la inhibición de la trancripción génica en los contextos de impronta genética o imprinting, presencia de elementos transponibles, y expresión génica tejido-específica [5, 8]. Los procesos de modificación covalente de histonas con clave en la regulación epigenética. Dichas proteínas tienen los extremos N-terminal expuestos en los nucleosomas pudiendo ser modificados químicamente (modificaciones postraduccionales, PTM), por ejemplo, mediante la metilación de argininas y lisinas. De esta manera puede cambiarse la carga de la cromatina y dirigir un cambio en su estado, más condensado o abierto, lo cual determina el acceso de proteínas reguladoras al DNA, entre ellas los factores de transcripción[2, 9]. 4 Hay dos mecanismos principales que afectan a las interacciones que se dan entre las histonas o entre los nucleosomas. El primero es la disrupción de contactos entre los nucleosomas para “desenmarañar” la cromatina y el reclutamiento de proteínas no histonas. El segundo, y mejor caracterizado hasta el momento, depende de las modificaciones presentes en las histonas, que atraen a proteínas que pueden cambiar la accesibilidad del ADN gracias a la actividad enzimática que acarrean, siendo necesarios distintos tipos de actividad enzimática según qué proceso se regule (transcripción, replicación o reparación del ADN) ya que se requieren distintos tipos de actividad remodeladora de la cromatina [5]. Las enzimas que catalizan las PTMs de las histonas han sido clasificadas en tres grupos principales: los writers que añaden la modificación, los readers que reconocen dicha modificación y los erasers que la eliminan (figura 2) [10, 11]. Dichas PTMs pueden ser metilaciones, acetilaciones y fosforilaciones, entre otras. Las PTMs mejor estudiadas son la acetilación y la fosforilación, mientras que el estudio la metilación es más complejo debido a la presencia de varios niveles de metilación[11]. Se conocen numerosas PTMs específicas que se encuentran mayoritariamente en regiones silenciadas o activadas, aunque lo que determina dicho estado es la combinación de las distintas PTMs (figura 3). Por ejemplo, la metilación H3K4me3 es activadora, y las H3K9me2/3 son represivas, pero en función de las proporciones presentes de cada una, el resultado será la activación o la represión génica (figura 3) [8, 12]. Figura 2. Esquema de la actividad de las enzimas modificadoras de histonas. Los writers añaden l PTM (izquierda), los erasers eliminan dichas modificaciones (parte central) y los readers interpretan estas modificaciones covalentes para mediar los procesos que ocurrirán tras su reconocimiento [11]. 5 Además de la regulación a través de modificaciones covalentes en las histonas, los factores remodeladores de cromatina ATP-dependientes también afectan a la estructura de la cromatina, afectando a la expresión génica. Estos factores suelen formar parte de complejos proteicos. Hay varias familias de complejos remodeladores de cromatina, un ejemplo clásico es de la superfamilia SWI/SNF, cuyos complejos utilizan la hidrólisis de ATP para cambiar los contactos proteína-DNA y ejercen un importante papel durante la diferenciación y reprogramación celular [3]. Figura 3. Distribución de las modificaciones de histonas en genes activos y silenciados. Las imágenes a y c son representaciones esquemáticas de los nucleosomas y las imágenes b y d indican la presencia y distribución de distintas PTMs presentes en un gen activo o en uno inactivo [12]. En consecuencia, la pérdida de función o funcionamiento defectuoso de cualquiera de los mecanismos descritos puede conducir al desarrollo de estados patológicos y enfermedades en el organismo, ya que la regulación de la estructura de la cromatina proporciona un medio de control de la expresión génica bajo diferentes condiciones fisiológicas [3, 9]. A pesar de su importancia, los mecanismos concretos de funcionamiento de la regulación epigenética no se conocen con detalle. En los últimos años, se han realizado numerosos estudios con el objetivo de dilucidar dichos mecanismos, siendo numerosos aquellos realizados en sistemas que contienen células pluripotentes, como la hematopoyesis y el desarrollo embrionario, así como en proceseos reprogramación celular [13-15]. 6 b. Bases de datos con información epigenética Se han generado una enorme cantidad de datos experimentales (por ejemplo mediante la tecnología del Chip-seq) que requieren de análisis computacionales integrativos de la información disponible y de análisis predictivos, con el objetivo de conocer mejor los mecanismos epigenéticos conocidos y enfocar el trabajo experimental futuro. Para procesar dicha cantidad de datos experimentales, en los últimos años se han construido numerosas bases de datos con información epigenética y/o herramientas de análisis (como Histome: The Histone Infobase [16] o CR Cistrome: Chromatin Regulator Cistrome [17]). Asimismo, debido a la importancia de la regulación epigenética en el desarrollo de ciertas patologías, como cáncer, se han elaborado bases de datos enfocadas a conocer las interacciones de todo tipo de moléculas (como Biograph[18]) o interacciones entre proteínas relacionadas con regulación epigenética y el desarrollo de enfermedades (como DAnCER: Disease Annotated Chromatin Resource [19]). Las bases de datos mencionadas son solamente una muestra de la variedad que hay disponible en la red. Cada una de ellas proporciona información específica aplicada al objetivo del estudio del investigador que la consulta, desde la localización genómica de genes para conocer su contexto en marcas de histonas o la presencia cercana de genes codificantes para proteínas modificadoras (CR Cistrome, Histome) hasta la elaboración de redes de interacciones encontradas para el gen de interés en el ámbito de enfermedades humanas (Biograph) o la relación con elementos epigenéticos con los que interacciona un gen dado, también en el ámbito de enfermedades (DAnCER). Estas bases de datos son muy completas para cumplir los objetivos que se proponen. Sin embargo, no están diseñadas para dilucidar los mecanismos moleculares de funcionamiento de los procesos epigenéticos que se dan durante procesos como, por ejemplo, la diferenciación celular, si no que se enfocan a profundizar en el conocimiento de dichos mecanismos en situaciones de desarrollo de enfermedades. Por ello, el presente trabajo se centra en la construcción de una base de datos que proporcione interacciones con proteínas implicadas en dichos mecanismos, independientemente de su implicación en enfermedades, proporcionando una clasificación de los modificadores en writers, erasers, readers y remodeladores, siendo así ésta más amplia que en las bases de datos mencionadas ya que la mayoría de 7 clasificaciones encontradas se basa solamente en writers y erasers. También estará centrada en proteínas humanas y en interacciones proteína-proteína (tabla 1). Tabla 1. Comparación de una muestra de bases de algunas características de dicha información. Tipo Base Biograph Chromatin información de Regulator datos Cistrome Organismos Humano Modelos Contexto Enfermedades Tejido, línea celular Interacciones Complejos proteicos Clasificación de modificadores Datos en entrada Pública Todo tipo Sí No No Sí Un gen/proteína Sí Chip-seq Sí datos que contienen información epigenética y Histome DAnCER NUEVA Humanos Localización genómica Modelos Enfermedades y modificación de cromatina PPI Sí No Humano Modificación de cromatina Uno/varios genes Parte Uno/varios genes - No Sí, incompleta Un gen/proteína Sí PPI Sí Sí 4. Objetivos Los principales objetivos de este trabajo son: - Proporcionar una clasificación de las enzimas modificadoras de histonas en writers, erasers y readers. - Integrar la información sobre dichas proteínas y sus interacciones que se encuentra dispersa en distintas bases de datos públicas. - Construcción de una base de datos relacional que almacene dicha información. 5. Construcción de la base de datos La base de datos, llamada eventualmente ProteInEpi: database for PROTEins INvolved in EPIgenetic regulation, ha seguido un proceso de desarrollo que abarca desde un estudio preliminar de la información que se podría extraer por minería de datos, hasta la integración de información contenida en distintas bases de datos públicas dispersas por la red, mediante su almacenamiento en una sencilla y única base de datos relacional. Así pues, primero se realizó un estudio preliminar para conocer, por un lado, si mediante búsquedas de textos relacionados con modificación de histonas y regulación epigenética, entre otros, se podría extraer listas de genes codificantes y no codificantes 8 lo suficientemente completas y, por otro lado, si existen bases de datos públicas que cumplan los mismos objetivos que la presente base de datos. Una vez realizado dicho estudio preliminar, se procedió a la elaboración de las listas de genes y proteínas que iban a ser almacenadas en la base de datos, el diseño de la nueva base de datos y la extracción de la información de interés, procedente de distintas fuentes, sobre los genes y las proteínas seleccionadas para su posterior almacenamiento en la nueva base de datos. a. Elaboración de listas de genes que participan en regulación epigenética En esta primera fase de búsqueda de genes relacionados con regulación epigenética, se realizó una búsqueda avanzada de literatura en la base de datos PubMed del National Center for Biotchnology Information (NCBI) combinando términos relacionados con regulación y epigenética. Una vez realizadas las búsquedas, se analizaron, mediante herramientas de text mining los resúmenes disponibles de los artículos científicos encontrados bajo dichos términos con el objetivo de extraer los nombres de genes y proteínas que aparecían en ellos, obteniéndose un total de 5582 genes a partir de 23794 resúmenes. Los términos utilizados en la búsqueda (tabla 2) resultaron ser muy generales en relación a los procesos epigenéticos y regulación debido a que búsquedas más específicas proporcionaban un número pequeño de artículos, entre 10 y 200 dependiendo de los términos. Así pues, una vez obtenida esta primera lista de genes se procedió a comprobar el tipo de genes que contenía y cómo de completa era en cuanto a la presencia de genes conocidos como participantes modificación de histonas, proceso fundamental en regulación epigenética. Para ello, se extrajo de la base de datos EMBL-EBI (The European Bioinformatics Institute) usando la aplicación de QuickGO (navegador rápido para términos de Gene Ontology y sus anotaciones) una lista de genes agrupados bajo el término histone modification de Gene Ontology (GO), ya que abarca procesos que ocurren durante la regulación epigenética, como la modificación de la estructura de la cromatina (figura 4). Se aplicó el filtro de taxonomía en la búsqueda de manera que solamente se mostraran genes de humanos y con evidencias experimentales sobre ellos. En este caso la lista de genes contenía 318. 9 A continuación, se compararon ambas listas de genes y se comprobó que la lista procedente de la búsqueda por text mining era muy incompleta en cuanto a la presencia de los genes proporcionados por GO. Por lo tanto, al no ser un trabajo sobre predicción de interacciones encontradas mediante text mining, se procedió a realizar una lista de genes relacionados con modificación de histonas y remodelado de la cromatina consultando fuentes curadas manualmente y literatura. Así pues, se realizó una lista de genes codificantes, por un lado, para proteínas modificadoras de histonas clasificadas como erasers, writers y readers procedente de la base de datos “HIstome: The Histone Infobase” [16] y de la revisión de Yun, M. et al. 2011 [20] y, por otro lado, para proteínas remodeladoras de cromatina procedentes de la revisión de Bao, Y et al. 2007 [21], sobre los complejos remodeladores de cromatina, y factores de transcripción relacionados con dicho remodelado procedentes de la base de datos AnimalTFDB [22]. Tabla 2. Diferentes queries utilizados en la búsqueda avanzada de abstracts en PubMed para la extracción de listas de genes mediante herramientas de text mining. Número de Queries utilizados en la búsqueda de literatura registros "(Gene Expression Regulation[MeSH Terms]) AND ("histone modification" OR 1188 "histone code" OR "histone marks" OR "epigenetic modifier") AND ("Humans"[MeSH Terms])" "("dna methylation" OR "chromatin remodeling" ) AND (Gene Expression 13850 Regulation[MeSH Terms]) AND ("Humans"[MeSH Terms])" "histone" AND ((Gene Expression Regulation[MeSH Terms]) AND 13534 ("Humans"[MeSH Terms]))" Otros Numero de abstracts no redundantes 23794 Número de genes extraídos de los abstracts 5582 Finalmente, se obtuvo una lista de genes, llamada modificadores, constituida por 417 genes, entre ellos enzimas modificadoras de histonas clasificadas en erasers, readers y writers, proteínas pertenecientes a complejos remodeladores y factores de transcripción. En esta lista, un mismo gen puede estar clasificado en varias categorías. Por ejemplo, el gen KAT2A que codifica para la proteína K(Lisina) Acetiltransferasa 2A, puede ejercer la función de writer (dominio N-acetiltransferasa) o de reader (bromodominio de la proteína) en función del contexto en el que se encuentre. b. Selección de la información de interés Una vez obtenida la lista de genes modificadores a partir de la cual se centra la búsqueda del resto de la información, se amplió la lista con los genes con los que interaccionan y se procedió a la selección de las bases de datos de las que se recopilaría 10 información sobre las proteínas, sus interacciones, la expresión génica y la pertenencia a complejos proteicos. Figura 4. Diagrama obtenido a través de Gene Ontology (http://www.ebi.ac.uk/QuickGo) que muestra los términos agrupados bajo el de “histone modification”. Se puede observar que el término “chromatin modification” es más específico que el de “histone modification”, por tanto, una lista de genes obtenida a partir de este último término abarcaría también los genes almacenados bajo el término de “chromatin modification”. Primero, se obtuvieron las interacciones contenidas en la base de datos de STRING (Search Tool for the Retrieval of Interacting Genes/Proteins [23]) que contiene interacciones proteína-proteína (PPI de sus siglas en inglés protein-protein interaction) tanto conocidas, como predichas. Entonces, se añadieron a la lista de genes para almacenar en la base de datos todos aquellos que interaccionan con los genes 11 modificadores, previamente convertidos los identificadores de proteínas en identificadores de genes mediante la herramienta de conversión online de BioMart (http://central.biomart.org/converter/#!/ID_converter/). Posteriormente, los genes de las proteínas que forman complejos proteicos conocidos en humanos también se incluyeron en dicha lista. Así, el número total de genes contenidos en la base de datos es de 4832 y el de proteínas es de 19129. Una vez elaborada la lista de proteínas que se almacenarían, se descargó de la base de datos UniProtKB (http://www.uniprot.org/) la información anotada sobre ellas en el formato de texto plano clásico de UniProt (http://web.expasy.org/docs/userman.html). La información tomada de UniProt fue la siguiente: - Número identificador de acceso de la proteína. En caso de haber más de uno, se anotaron tanto el principal, como los secundarios. - El nombre del gen y sus sinónimos si los hubiera. - Estatus de la proteína. Cuando el estatus es reviewed, la proteína ha sido anotada manualmente, habiendo sido extraída la información de literatura y analizada y evaluada computacionalmente. Cuando el estatus es unreviewed, la proteína ha sido analizada computacionalmente, pero está a la espera de ser anotada manualmente. - La fecha de la última actualización de la anotación de la proteína. - El organismo en el que se ha estudiado la proteína. En principio solamente se buscaron proteínas humanas. - La descripción de la proteína. - Los términos de GO para la proteína. Para la obtención de la información sobre las PPI, fue utilizada la última versión de STRING, v9.1. Las interacciones de las proteínas en humanos almacenadas en STRING se encuentran disponibles directamente en la sección de descargas, así pues, mediante la lista de interacciones obtenida en STRING se procedió a extraer, utilizando scripts de perl, solamente las de las proteínas de la lista que se almacenarían en la base de datos. En este caso, los identificadores de proteínas utilizados fueron los de Ensembl. Sin embargo, en los casos en los que un gen codifica para distintas isoformas proteicas, STRING solamente utiliza el identificador de la proteína codificada más larga o de la mejor conocida para el gen en cuestión, de forma que, aunque exista información detallada de distintas isoformas, en STRING sus interacciones quedan agrupadas bajo 12 un mismo identificador. En este caso, se extrajo la información relativa a la interacción, los dos elementos que interactúan, el tipo de interacción, la puntuación asociada según las evidencias experimentales o computacionales y la fuente de información de dicha interacción que puede ser también tomada, a su vez, de otras bases de datos, ya que STRING integra información sobre interacciones de las bases de datos IntAct y MINT[24], BioGrid[25], BIND[26], DIP[27], HPRD[28] y PID[29] como fuentes de datos experimentales y de Biocarta (http://www.biocarta.com/genes/index.asp), BioCyc[30], GO[31], KEGG[32] y Reactome[33] como fuentes de datos curados sobre interacciones en rutas metabólicas. Para conocer la información relativa a los complejos proteicos, principalmente componentes y función, se consultó la base de datos CORUM – the Comprehensive Resource of Mammalian protein complexes[34], que tiene disponible una lista curada manualmente de complejos proteicos en mamíferos, incluyendo humanos. En este caso, la información extraída contenía el nombre del complejo y sus componentes, el/los organismos donde se ha estudiado, el método de purificación y las referencias a la fuente de información de los datos experimentales, además de comentarios acerca de la función o enfermedades asociadas. Por último, con el objetivo de contextualizar a las proteínas, se incluyó información relativa a la expresión génica en distintos tejidos y líneas celulares, en contexto de no enfermedad, utilizando la información disponible en la base de datos THE HUMAN PROTEIN ATLAS [35]. Como en el caso de las interacciones de STRING, se descargó la información disponible sobre la expresión de todas las proteínas y, mediante scripts en perl se tomaron solamente los datos relativos a los genes de la lista que almacenaría la nueva base de datos. c. Diseño de la base de datos Para el desarrollo del software de almacenamiento en la base de datos se ha utilizado el lenguaje de programación perl, para la creación de las tablas se ha utilizado SQL y para la gestión de la base de datos se han utilizado PostgreSQL(v9.1.11) y la herramienta pgAdmin (v1.18.0). Son varios los niveles de información almacenados (tabla 3); nivel de identificadores, las conversiones entre los distintos identificadores de distintas bases de datos, ya que 13 cada una utiliza el que considera oportuno (HGNC, Ensembl, Uniprot, etc); nivel de genes, las anotaciones relativas a las proteínas que codifican, la expresión génica, etc. y el nivel de interacciones, que son entre proteínas y su pertenencia a complejos proteicos. Así pues, seleccionada la información que contendría la base de datos relacional se procedió al diseño de la misma, en el que las tablas se relacionan unas con otras a través de los identificadores de las proteínas y los genes. Contiene un total de 12 tablas (figura 5), de las cuales 5 de ellas contienen información relativa al nivel de identificadores (ensgene_list, ensprotein_id, hgnc_alias_is, acc_list, acc_uniprot_id), 4 de ellas contienen la información correspondiente al nivel de genes (modifiers, context, protein_info, gene_ontology) y las 3 últimas contienen las interacciones entre las proteínas y la información sobre los complejos proteicos (interactions, complexes_subunits, complexes). En cuanto al contenido final de la base de datos, se resume en la tabla 4. Tabla 3. Niveles de información almacenados en la base de datos y resumen de las fuentes utilizadas para la extracción de la información. Nivel Información Bases de datos Identificadores Conversión BioMart (http://central.biomart.org/converter/#!/ID_converter/) Modificadores y HIstome: The Histone Infobase[16] clasificación, factores de AnimalTFDB: Animal Transcription Factor Database[22] transcripción, otros. Literatura seleccionada[20] Anotaciones de Gene UniProt (www.uniprot.org) Genes Ontology Anotaciones de las UniProt (www.uniprot.org) proteínas Expresión génica THE HUMAN PROTEIN ATLAS[35] Interacciones proteínaSTRING v9.1[23] proteína Interacciones CORUM – the Comprehensive Resource of Mammalian Complejos proteicos protein complexes[34] La tabla muestra la información almacenada en la base de datos relativa los niveles de información génica y de interacciones. En la columna “Nivel” se indica el nivel de la información, en la columna “Información” se detalla el tipo de información o anotaciones almacenadas y en la comluma “Bases de datos” se muestran las fuentes de información utilizadas. 14 Figura 5. Organización de la información de la base de datos y relaciones entre las tablas. Las tablas Ensgene_list, Hgnc_alias_id, Ensprotein_id, Acc_uniprot_id y Acc_list almacenan los distintos identificadores usados por distintas bases de datos, tanto de los genes como de las proteínas. Las tablas Modifiers, Context, Protein_info y Gene_ontology contienen información relativa a los genes y las proteínas que codifican. Por último, las tablas Interactions, Complexes_subunits y Complexes almacenan información relativa a las interacciones entre las proteínas. Tabla 4. Contenido almacenado en la base de datos desarrollada. Se indica el número de registros de las interacciones almacenadas, los complejos proteicos y los genes clasificados como modificadores. Tipo de información Número de registros almacenados Genes codificantes de proteínas modificadoras 417 Readers 62 Writers 107 Erasers 52 Otros 196 Genes 4832 Interacciones 26829 Complejos proteicos 1356 Proteínas 19129 15 Finalmente, se destacan algunas características importantes de la base de datos construida: La información almacenada procede de fuentes públicas, de manera que se encuentra disponible en su totalidad en las bases de datos indicadas para cada tipo de información. Es una base de datos que integra información de distintas fuentes, para consultarla de manera informativa. Por otro lado, no tiene carácter predictivo de PPI o de modificadores y remodeladores de cromatina que aún tengan que ser validados. Las interacciones binarias que se muestran son aquellas en las que uno de los dos elementos que interaccionan es un modificador o un remodelador presente en la lista de genes almacenada. En el caso de que el gen que se consulta sea un modificador, se mostrarán todas sus interacciones (aquellas con un score mínimo de 0,8, ya sean conocidas o transferidas de otros organismos). Mientras que en caso de que el gen de la consulta sea un no modificador, al mostrarse solo interacciones con modificadores, puede no haber información relativa a interacciones, no porque no las tenga, sino porque no las tiene con las proteínas modificadoras almacenadas. 6. Escenario de aplicación de la base de datos Esta base de datos podría usarse con distintos objetivos, sin embargo, inicialmente se ha centrado en el siguiente escenario hipotético: dada una lista de genes, que pueden proceder de experimentos de expresión génica, se querría ver si la expresión de dichos genes coincide con la información que proporciona la base de datos. Así pues, dados los genes A, B y C que codifican proteínas diferentes, muestran patrones de expresión diferentes según las condiciones experimentales en las que se encuentran. En la condición 1, A y B tienen una alta expresión, mientras que C tiene baja expresión. En la condición 2 ocurre lo contrario, A y B tienen una baja expresión, mientras que C tiene alta expresión. Conociendo esta información, se podría consultar la nueva base de datos para conocer si estas proteínas son o interaccionan con proteínas modificadoras, además de si forman parte de algún complejo proteico. Una vez obtenida dicha información, el estudio podría pasar a la siguiente fase, que podría ser por ejemplo el modelado dinámico de una red de expresión génica conocida, añadiendo un nivel superior de información epigenética (figura 6). 16 Figura 6. Esquema de un escenario de aplicación hipotético de la base de datos. Primero, se parte de datos experimentales de expresión génica en distintas condiciones (cuadro superior). Segundo, se realizan las consultas pertinentes en la base de datos (parte inferior). Por último, se interpretan los resultados combinados y se procede a continuar con el estudio, como ejemplo se nombra el modelado dinámico. A continuación se muestran los resultados para la lista de genes EED, SUZ12, EZH2 y HIC1. En primer lugar se muestra si estos genes son enzimas modificadoras u otro tipo de proteína remodeladora, factores de transcripción u otros (tabla 5). En este caso, tres de los genes están involucrados en regulación epigenética, EED como enzima que reconoce modificaciones de histonas (reader), EZH2 como enzima que las añade (writer) y SUZ12 como un factor remodelaor, mientras que el cuarto gen (HIC1) es un factor de transcripción. Además, hay casos en los que no solo se conoce el tipo de modificador que es una enzima, si no que se conoce también en qué marcas ejerce su función (indicadas como PTMs en la tabla 5). Una vez obtenida esta información sobre los genes de entrada, se buscan sus interacciones con otras proteínas epigenéticas (tabla 6) y se comprueba si pertenecen a complejos proteicos (tabla 7). En estos genes, se observa que EED, EZH2 y SUZ12 tienen interacciones entre ellos, además de coincidir en los mismos complejos proteicos (tabla 7). En cambio, el factor de transcripción HIC1 no muestra interacciones con ellos, ni pertenece a ningún complejo proteico, aunque sí interacciona con proteínas epigeneticas (PHF19 y PHF1), una de las cuales, a su vez interacciona con EZH2 y SUZ12 (tabla 6). Por último, estos resultados se proporcionan de manera que es posible representarlos en redes utilizando, por ejemplo, el software de representación de redes Cytoscape. 17 Tabla 5. Clasificación de los genes de consulta. Se muestran los nombres de los genes usando la nomenclatura de HGNC y en identificador de Ensembl, el identificador de la proteína de Ensembl, su clasificación y las modificaciones postraduccionales (PTM). Gen de Id. gen Ensembl Id. proteína Ensembl Modificador/TF/Otros PTMs entrada EED ENSG00000074266 ENSP00000263360 reader H1K26 H3K27 EZH2 ENSG00000106462 ENSP00000320147 writer H3K27me1 H3K27me2 H3K27me3 H1K25me1 HIC1 ENSG00000177374 ENSP00000314080 TF (transcription factor) SUZ12 ENSG00000178691 ENSP00000316578 remodeler - Tabla 6. Interacciones entre las proteínas. Se muestra el nombre del gen de consulta y las interacciones de la proteína que codifica y con aquellas que tienen una puntuación (score) superior a 800, y la fuente de información de la interacción (columna fuente para interacciones en humano y columna transferida en interacciones que se han tomado por homología con otros organismos). Gen Interact_A Interact_B Tipo score Fuente Transferida EED EED ENSP00000263360 ENSP00000263360 ENSP00000262238 ENSP00000311677 binding binding 872 969 EED EED ENSP00000263360 ENSP00000263360 ENSP00000316578 ENSP00000320147 binding binding 999 999 EED EED EED ENSP00000263360 ENSP00000263360 ENSP00000263360 ENSP00000362592 ENSP00000369427 ENSP00000381331 binding binding binding 993 900 962 EED EED EED ENSP00000263360 ENSP00000263360 ENSP00000263360 ENSP00000381840 ENSP00000389381 ENSP00000404658 binding binding binding 984 846 997 EZH2 ENSP00000320147 ENSP00000212015 binding 924 EZH2 ENSP00000320147 ENSP00000263360 binding 999 EZH2 ENSP00000320147 ENSP00000316578 binding 999 grid kegg_pathways grid kegg_pathways dip grid dip EZH2 ENSP00000320147 ENSP00000244050 binding 846 grid EZH2 ENSP00000320147 ENSP00000262238 binding 951 EZH2 ENSP00000320147 ENSP00000302269 binding 987 EZH2 ENSP00000320147 ENSP00000306043 binding 846 grid kegg_pathways grid hprd kegg_pathways grid EZH2 ENSP00000320147 ENSP00000311677 binding 845 grid EZH2 ENSP00000320147 ENSP00000341280 binding 901 grid dip EZH2 ENSP00000320147 ENSP00000370936 binding EZH2 ENSP00000320147 ENSP00000381331 binding 984 EZH2 ENSP00000320147 ENSP00000381840 binding 961 EZH2 ENSP00000320147 ENSP00000391901 binding 977 EZH2 ENSP00000320147 ENSP00000404658 binding 984 845 kegg_pathways grid kegg_pathways grid dip grid kegg_pathways dip grid dip grid grid dip bind grid hprd grid grid bind pdb kegg_pathways mint dip bind bind grid reactome kegg_pathways mint intact grid bind pdb kegg_pathways mint dip grid bind pdb kegg_pathways mint dip grid mint intact dip kegg_pathways grid grid grid intact grid kegg_pathways grid 18 EZH2 ENSP00000320147 ENSP00000359321 binding 944 grid kegg_pathways EZH2 ENSP00000320147 ENSP00000362592 binding 984 grid EZH2 ENSP00000320147 ENSP00000362649 binding 937 grid EZH2 ENSP00000320147 ENSP00000369427 binding 917 HIC1 ENSP00000314080 ENSP00000363003 binding 924 HIC1 ENSP00000314080 ENSP00000391901 binding 924 SUZ12 ENSP00000316578 ENSP00000235090 binding 969 SUZ12 ENSP00000316578 ENSP00000263360 binding 999 SUZ12 ENSP00000316578 ENSP00000264010 binding 969 SUZ12 ENSP00000316578 ENSP00000320147 binding 999 grid kegg_pathways grid dip SUZ12 ENSP00000316578 ENSP00000341280 binding 901 grid dip SUZ12 ENSP00000316578 ENSP00000362592 binding 994 grid dip grid SUZ12 ENSP00000316578 ENSP00000369427 binding dip grid SUZ12 ENSP00000316578 ENSP00000381331 binding 962 dip grid SUZ12 ENSP00000316578 ENSP00000381840 binding 984 grid dip grid SUZ12 ENSP00000316578 ENSP00000391901 binding grid grid mint intact SUZ12 ENSP00000316578 ENSP00000404658 binding 986 845 993 grid kegg_pathways mint intact grid mint intact grid mint intact grid kegg_pathways grid kegg_pathways grid kegg_pathways grid dip grid kegg_pathways grid mint intact dip grid dip grid mint intact dip Las interacciones en morado indican las proteínas codificadas por los genes de la consulta, que en este caso interaccionan entre sí EED, EZH2 y SUZ12. Las interacciones coloreadas en verde indican que ENSP00000391901 interacciona con varias de las proteínas de la consulta inicial, siendo una proteína modificadora que interacciona con HIC1, con EZH2 y con SUZ12. Tabla 7. Complejos proteicos a los que pertenecen las proteínas. Gen de Id. proteína Ensembl Modificador/TF Complejo proteico entrada /Otros HIC1 ENSP00000314080 TF PHF19 ENSP00000363003 Remodelador PHF1 ENSP00000391901 remodelador SUZ12 ENSP00000316578 remodeler EED-EZH2 complex Polycomb repressive complex 2 (PRC2) EZH2 ENSP00000320147 writer Polycomb repressive complex 2 (PRC2) EED-EZH2 complex EED-EZH polycomb complex EED-EZH-YY1 polycomb complex Polycomb repressive complex 4 (PRC4) EED ENSG00000074266 reader Polycomb repressive complex 2 (PRC2) EED-EZH2 complex EED-EZH polycomb complex EED-EZH-YY1 polycomb complex Polycomb repressive complex 4 (PRC4) Se muestran los complejos proteicos a los que pertenecen las proteínas de la consulta inicial y de las proteínas modificadoras con las que interacciona HIC1. Los nombres escritos en azul son los que coinciden para EED, EZH2 y SUZ12. 19 7. Discusión y conclusiones La nueva base de datos desarrollada en este trabajo (ProteInEpi) presenta características combinadas, en cuanto a la información que proporciona y a los objetivos de su uso, de las bases de datos mencionadas anteriormente sobre información epigenética disponibles. BioGraph (http://www.biograph.be/) proporciona redes de interacciones con el objetivo de predecir o contrastar hipótesis sobre enfermedades asociadas al mal funcionamiento de los genes que componen dichas redes, que incluyen interacciones que pueden ser entre proteínas, DNA-proteínas, con compuestos químicos, etc. En cambio, en ProteInEpi, la información está restringida a interacciones PPI con proteínas, o entre proteínas, involucradas en regulación epigenética, concretamente en modificación de histonas y remodelación de la cromatina. Histome (http://www.actrec.gov.in/histome/) se centra, no solo en describir las enzimas modificadoras de histonas, sino también en la descripción de las propias histonas, centrando la información en humanos y con referencias a enfermedades asociadas. Pero la clasificación de las enzimas modificadoras es incompleta. Mientras que proporciona información curada manualmente de writers y de erasers, no lo hace de readers ni de factores remodeladores. Para la elaboración de ProteInEpi, ésta ha sido una de las fuentes de información, que se ha ampliado en cuanto a la clasificación de las enzimas. En el caso de CR Cistrome (http://cistrome.org/cr/index.php), ya se proporciona una clasificación completa (aunque escasa en cuanto lista completa de genes) y aporta una descripción de las enzimas modificadoras de cromatina y remodeladores de cromatina, además de datos de expresión génica, que permiten conocer el contexto genómico en cuanto presencia de genes “epigenéticos” vecinos a un gen de interés y su contextualización en cuanto a la expresión génica. Sin embargo, no proporciona las interacciones de estas proteínas, más que haciendo sencillas menciones en la descripción, mientras que en ProteInEpi se proporcionan dichos datos de manera que se puedan representar en una red. Por último, DAnCER (http://wodaklab.org/dancer/) proporciona información muy completa de proteínas involucradas en la regulación epigenética, tanto conocida como 20 predicha, en el contexto de enfermedades. Proporciona descripciones de las proteínas, sus interacciones, su pertenencia a complejos proteicos e información de proteínas homólogas en otros organismos. Sin embargo, aunque la información en cuanto a organismos es completa, hay que navegar en ella para centrarse en humanos. Tampoco proporciona clasificaciones de las proteínas modificadoras, ni permite la descarga de las interacciones para elaborar redes propias. En cambio, aunque ProteInEpi abarca un rango de información menor, ya que no predice interacciones o nuevos modificadores, se centra en interacciones de proteínas en humanos y permite el uso de los datos para realizar redes propias, además de proporcionar información sobre la clasificación de los modificadores. En resumen, ProteInEpi tiene como novedad el hecho de que proporciona una lista de enzimas modificadoras y remodeladores de cromatina clasificadas en writers, erasers y readers en humanos y se proporcionan sus interacciones de una forma restringida, permitiendo así añadir la información como niveles adicionales en redes de regulación génica de distintos procesos altamente regulados mediante mecanismos epigenéticos, como la diferenciación celular, el desarrollo del cerebro o la formación de la memoria. Por otro lado, con el objetivo de ampliar la información contenida en la base de datos, se podría añadir información sobre los llamados factores de transcripción pioneros y sobre las interacciones de los ARN largos no codificantes, ya que ambos participan en regulación epigenética. Los factores de transcripción pioneros son aquellos que tienen capacidad de unirse a sus dianas cuando se encuentran ocluidas en los nucleosomas o en ciertos estados de la cromatina compactada. La mayoría de los factores de transcripción requieren del reclutamiento y cooperatividad de proteínas de unión a los nucleosomas o a la cromatina para poder activarse la transcripción, mientras que los factores pioneros son independientes de dicha cooperatividad y preceden a otros factores de unión al ADN [36, 37]. Hasta el momento, hay validados y predichos factores pioneros de transcripción que tienen actividad en programación y reprogramación celular o en la progresión de cáncer [13, 36, 38]. En cuanto a los ARN largos no codificantes, se sabe que interaccionan con ADN, ARN, proteínas y/o combinaciones de los mismos, actuando como reguladores de la 21 organización de la cromatina y de procesos de transcripción y postranscripcionales[6]. Así pues, mediante el conocimiento de dichas interacciones se podría dilucidar el papel de la interacción entre los mecanismos de regulación epigenética explicados y el de los mecanismos de regulación mediante ARN no codificante. Por esta razón, recientemente se ha creado una base de datos llamada EpimiR [39], que contiene descripciones de los miARNs y sus interacciones con elementos de regulación epigenética. El objetivo de dicha base de datos es proporcionar otro nivel de información sobre regulación en el contexto de enfermedades humanas. Por último, en cuanto la información almacenada en la base de datos, ésta podría combinarse con la información de otras bases de datos públicas. Por ejemplo, en el caso de los complejos proteicos podría combinarse la información con una sección reciente de la base de datos de interacciones de IntAct, llamada Complex Portal [40], dedicada a los complejos proteicos, ya que proporciona información más actualizada que la base de datos utilizada (CORUM). Además, aunque en ProteInEpi se pretendía enfocar la información en humanos, la adición de información referente a otros organismos, como ratón, le daría un valor añadido con información sobre proteínas homólogas. 8. Bibliografía 1. 2. 3. 4. 5. 6. 7. 8. 9. Margueron R, Reinberg D: Chromatin structure and the inheritance of epigenetic information. Nature reviews Genetics 2010, 11(4):285-296. Zhang G, Pradhan S: Mammalian epigenetic mechanisms. IUBMB life 2014, 66(4):240-256. Roy DM, Walsh LA, Chan TA: Driver mutations of cancer epigenomes. Protein & cell 2014, 5(4):265-296. Ho L, Crabtree GR: Chromatin remodelling during development. Nature 2010, 463(7280):474-484. Rothbart SB, Strahl BD: Interpreting the language of histone and DNA modifications. Biochimica et biophysica acta 2014, 1839(8):627-643. Cao J: The functional role of long non-coding RNAs and epigenetics. Biological procedures online 2014, 16:11. Wu H, Wu X, Shen L, Zhang Y: Single-base resolution analysis of active DNA demethylation using methylase-assisted bisulfite sequencing. Nature biotechnology 2014, 32(12):1231-1240. Rose CM, van den Driesche S, Meehan RR, Drake AJ: Epigenetic reprogramming: preparing the epigenome for the next generation. Biochemical Society transactions 2013, 41(3):809-814. Arrowsmith CH, Bountra C, Fish PV, Lee K, Schapira M: Epigenetic protein families: a new frontier for drug discovery. Nature reviews Drug discovery 2012, 11(5):384-400. 22 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. Janzen WP, Wigle TJ, Jin J, Frye SV: Epigenetics: Tools and Technologies. Drug discovery today Technologies 2010, 7(1):e59-e65. Gardner KE, Allis CD, Strahl BD: Operating on chromatin, a colorful language where context matters. Journal of molecular biology 2011, 409(1):36-46. Barth TK, Imhof A: Fast signals and slow marks: the dynamics of histone modifications. Trends in biochemical sciences 2010, 35(11):618-626. Okita K, Yamanaka S: Intracellular signaling pathways regulating pluripotency of embryonic stem cells. Current stem cell research & therapy 2006, 1(1):103-111. Choukrallah MA, Matthias P: The Interplay between Chromatin and Transcription Factor Networks during B Cell Development: Who Pulls the Trigger First? Frontiers in immunology 2014, 5:156. Burns KH, Viveiros MM, Ren Y, Wang P, DeMayo FJ, Frail DE, Eppig JJ, Matzuk MM: Roles of NPM2 in chromatin and nucleolar organization in oocytes and embryos. Science (New York, NY) 2003, 300(5619):633-636. Khare SP, Habib F, Sharma R, Gadewal N, Gupta S, Galande S: HIstome--a relational knowledgebase of human histone proteins and histone modifying enzymes. Nucleic acids research 2012, 40(Database issue):D337-342. Wang Q, Huang J, Sun H, Liu J, Wang J, Wang Q, Qin Q, Mei S, Zhao C, Yang X et al: CR Cistrome: a ChIP-Seq database for chromatin regulators and histone modification linkages in human and mouse. Nucleic acids research 2014, 42(Database issue):D450-458. Liekens AM, De Knijf J, Daelemans W, Goethals B, De Rijk P, Del-Favero J: BioGraph: unsupervised biomedical knowledge discovery via automated hypothesis generation. Genome biology 2011, 12(6):R57. Turinsky AL, Turner B, Borja RC, Gleeson JA, Heath M, Pu S, Switzer T, Dong D, Gong Y, On T et al: DAnCER: disease-annotated chromatin epigenetics resource. Nucleic acids research 2011, 39(Database issue):D889-894. Yun M, Wu J, Workman JL, Li B: Readers of histone modifications. Cell research 2011, 21(4):564-578. Bao Y, Shen X: SnapShot: chromatin remodeling complexes. Cell 2007, 129(3):632. Zhang HM, Chen H, Liu W, Liu H, Gong J, Wang H, Guo AY: AnimalTFDB: a comprehensive animal transcription factor database. Nucleic acids research 2012, 40(Database issue):D144-149. Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin J, Minguez P, Bork P, von Mering C et al: STRING v9.1: protein-protein interaction networks, with increased coverage and integration. Nucleic acids research 2013, 41(Database issue):D808-815. Orchard S, Ammari M, Aranda B, Breuza L, Briganti L, Broackes-Carter F, Campbell NH, Chavali G, Chen C, del-Toro N et al: The MIntAct project-IntAct as a common curation platform for 11 molecular interaction databases. Nucleic acids research 2014, 42(Database issue):D358-363. Chatr-Aryamontri A, Breitkreutz BJ, Heinicke S, Boucher L, Winter A, Stark C, Nixon J, Ramage L, Kolas N, O'Donnell L et al: The BioGRID interaction database: 2013 update. Nucleic acids research 2013, 41(Database issue):D816823. Bader GD, Betel D, Hogue CW: BIND: the Biomolecular Interaction Network Database. Nucleic acids research 2003, 31(1):248-250. 23 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. Salwinski L, Miller CS, Smith AJ, Pettit FK, Bowie JU, Eisenberg D: The Database of Interacting Proteins: 2004 update. Nucleic acids research 2004, 32(Database issue):D449-451. Keshava Prasad TS, Goel R, Kandasamy K, Keerthikumar S, Kumar S, Mathivanan S, Telikicherla D, Raju R, Shafreen B, Venugopal A et al: Human Protein Reference Database—2009 update. Nucleic acids research 2009, 37(Database issue):D767-772. Schaefer CF, Anthony K, Krupa S, Buchoff J, Day M, Hannay T, Buetow KH: PID: the Pathway Interaction Database. Nucleic acids research 2009, 37(Database issue):D674-679. Walsh JR, Sen TZ, Dickerson JA: A computational platform to maintain and migrate manual functional annotations for BioCyc databases. BMC Systems Biology 2014, 8(1). Camon E, Magrane M, Barrell D, Lee V, Dimmer E, Maslen J, Binns D, Harte N, Lopez R, Apweiler R: The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology. Nucleic acids research 2004, 32(Database issue):D262-266. Kanehisa M: The KEGG database. Novartis Foundation symposium 2002, 247:91-101; discussion 101-103, 119-128, 244-152. Croft D, O’Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M, Garapati P, Gopinath G, Jassal B et al: Reactome: a database of reactions, pathways and biological processes. Nucleic acids research 2011, 39(Database issue):D691-697. Ruepp A, Waegele B, Lechner M, Brauner B, Dunger-Kaltenbach I, Fobo G, Frishman G, Montrone C, Mewes HW: CORUM: the comprehensive resource of mammalian protein complexes--2009. Nucleic acids research 2010, 38(Database issue):D497-501. Ponten F, Schwenk JM, Asplund A, Edqvist PH: The Human Protein Atlas as a proteomic resource for biomarker discovery. Journal of internal medicine 2011, 270(5):428-446. Iwafuchi-Doi M, Zaret KS: Pioneer transcription factors in cell reprogramming. Genes & development 2014, 28(24):2679-2692. Zaret KS, Carroll JS: Pioneer transcription factors: establishing competence for gene expression. Genes & development 2011, 25(21):2227-2241. Drouin J: Minireview: pioneer transcription factors in cell fate specification. Molecular endocrinology (Baltimore, Md) 2014, 28(7):989-998. Dai E, Yu X, Zhang Y, Meng F, Wang S, Liu X, Liu D, Wang J, Li X, Jiang W: EpimiR: a database of curated mutual regulation between miRNAs and epigenetic modifications. Database : the journal of biological databases and curation 2014, 2014:bau023. Meldal BH, Forner-Martinez O: The complex portal - an encyclopaedia of macromolecular complexes. 2014. 24 ANEXO I A continuación se resume el uso de los scripts utilizados para el parseo de la información y su inserción en las tablas de la base de datos. Las tablas se encuentran en el fichero tablas.sql. Hay un total de 12 tablas. La primera tabla (ensgene_list) almacena la lista de genes con identificador de Ensembl. Los genes se insertan desde un fichero que los contiene mediante el script insert_gene_list.pl. La segunda tabla (context) almacena los datos de la expresión génica. Del fichero descargado de THE HUMAN PROTEIN ATLAS que contiene la expresión de proteínas humanas, se filtraron los datos para almacenar solamente la expresión de los genes de la lista almacenada, con el script llamado cont_filt.pl. A continuación, con el script insert_context.pl se insertaron los datos en la tabla. La tercera tabla (ensprotein_id) almacena la conversión de los identificadores de Ensembl para los genes y las proteínas. Una vez mapeados los genes en la herramiento online de BioMart, se procesó el fichero para eliminar errores o redundancias y se insertó la información en la tabla mediante el script insert_ensprotein_id.pl. La cuarta tabla (interactions) contiene la información relativa a las interacciones. Del fichero descargado de STRING, que contenía todas las interacciones en proteínas humanas, se filtraron aquellas en las que participaban genes de la lista (con extrac_int_from_STRING.pl), generándose un fichero del que se toma la información para introducirla en la base de datos (con insert_interactions.pl). La quinta tabla (modifiers) almacena la clasificación de los modificadores a partir de un fichero creado manualmente, se procesa el fichero y se insertan los datos con el script insert_modifiers.pl. La sexta tabla (hgnc_alias_id) contiene la conversión del nombre del gen y sus sinónimos a identificador de Ensembl. En este caso, la información se parseó directamente del fichero de uniprot que contenía la información de todas las proteínas descargadas y se introdujo en la base de datos, mediante insert_hgnc_id.pl. Las séptima (acc_list) y octava(acc_uniprot_id) tablas son las que corresponden a la conversión de los números de acceso de uniprot al identificador del gen en la nomenclatura de Ensembl. Se tomaron los datos directamente del parseo de uniprot usando el script insert_into_acc_tables.pl. 25 En la tabla acc_list se introdujeron todos los accesion number de cada proteína y en la tabla acc_uniprot_id se introdujeron los accession number para las proteínas que contenían varios, siendo uno de ellos el principal y los demás asociados a la misma proteína. Las novena (protein_info) y décima (gene_ontology) tablas contienen información sobre la descripción de la proteína, organismo al que pertenece, estado, última actualización y los términos de gene ontology asociados. Se parseó el fichero de uniprot y se insertó al información directamente en las tablas, usando el script insert_protein_go.pl. Las dos últimas tablas, complexes y complexes_subunits contienen todos los complejos registrados en humanos que contiene la base de datos CORUM. La primera tabla contiene la información básica de cada complejo (nombre, función, subunidades que lo componen, método de purificación) y la segunda contiene una lista de todas las subunidades de todos los complejos, indicando a qué complejo pertenecen. Los datos se procesaron y almacenaron usando el script insert_context.pl. Finalmente, el archivo retrieve.txt contiene una muestra de queries utilizadas en porstgreSQL para la recuperación de datos de la base de datos. 26