Download Proteins involved in epigenetic regulation

Document related concepts
Transcript
BASE DE DATOS PARA PROTEÍNAS QUE
PARTICIPAN EN REGULACIÓN EPIGENÉTICA
SUSANA MARTÍNEZ ARBAS
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2013-2014
LUXEMBOURG CENTRE OF SYSTEMS BIOLOGY
REINHARD SCHNEIDER Y ANTONIO DEL SOL
TUTOR: DAVID DE JUAN
FECHA: ENERO DE 2015
ÍNDICE
1.
Resumen ............................................................................................................................ 2
2.
Abreviaturas ...................................................................................................................... 2
3.
Introducción ...................................................................................................................... 3
a.
Mecanismos de regulación epigenética ............................................................................ 4
b.
Bases de datos con información epigenética .................................................................... 7
4.
Objetivos ........................................................................................................................... 8
5.
Construcción de la base de datos....................................................................................... 8
a.
Elaboración de listas de genes que participan en regulación epigenética ....................... 9
b.
Selección de la información de interés ........................................................................... 10
c.
Diseño de la base de datos.............................................................................................. 13
6.
Escenario de aplicación de la base de datos .................................................................... 16
7.
Discusión y conclusiones ................................................................................................ 20
8.
Bibliografía ..................................................................................................................... 22
ANEXO I ................................................................................................................................... 25
1
1. Resumen
La interacción entre los mecanismos de regulación epigenética y de la transcripción
desempeña un papel importante en procesos celulares tales como el desarrollo, la
diferenciación y la reprogramación celulares. En los últimos años, se han producido
rápidos avances en la comprensión de los mecanismos epigenéticos, que incluyen las
modificaciones de las histonas, la metilación de ADN, la regulación por ARNs no
codificantes y la remodelación de la cromatina. Sin embargo, un gran obstáculo para el
estudio de estos mecanismos es que no se conocen todos los factores que intervienen en
los mismos y, por tanto, la compresión de los mecanismos moleculares de la regulación
epigenética es incompleta. Por ello, se ha construido una base de datos que contiene las
proteínas que forman parte de los mecanismos de regulación mencionados,
proporcionando una clasificación de las mismas según su función (writers, erasers,
readers, factores remodeladores, factores de transcripción) e integrando información
sobre las mismas, sobre sus interacciones y su expresión génica.
2. Abreviaturas
NCBI
National Center for Biotchnology Information
5mC
5-metilcitosina
ADN
Ácido desoxirribonucleico
ARN
Ácido ribonucleico
ATP
Adenosín trifosfato
CR Cistrome
Chromatin Regulator Cistrome
DAnCER
Disease Annotated Chromatin Resource
EMBL-EBI
European Bioinformatics Institute
GO
Gene ontology
Histome
The Histone Infobase
PPI
protein-protein interaction
PTM
Postranslational modifications
STRING
Search Tool for the Retrieval of Interacting Genes/Proteins
2
3. Introducción
La epigenética se define como el estudio de los cambios en el material hereditario que
afectan a la expresión genética y no son resultado de cambios en la secuencia del ADN,
si no de la estructura de la cromatina. Dicha estructura se encuentra principalmente en
dos estados: heterocromatina, que es transcripcionalmente inactiva por estar altamente
condensada, y eucromatina, que es transcripcionalmente activa. La unidad básica de la
cromatina es el nucleosoma, que es complejo nucleo-proteico octamérico, compuesta
por pares de las histonas H2A, H2B, H3 y H4, envuelta por 147 pares de bases de ADN
[1, 2]. La regulación del estado o conformación de la cromatina se lleva a cabo a través
de los mecanismos de metilación de ADN, de remodelado de la cromatina por
complejos proteicos remodeladores y de la modificación covalente de histonas. Estos
mecanismos alteran las interacciones entre las histonas del octámero o entre
nucleosomas cercanos, lo que determina cambios en la organización macromolecular de
la cromatina, afectando a la accesibilidad de los promotores lo que permite una
regulación de la expresión genética. Otras modificaciones químicas sirven como señales
a otras proteínas específicas involucradas en la organización de la cromatina, la
transcripción, el mantenimiento del genoma y la replicación[3].
Mientras que la secuencia de ADN es prácticamente la misma en todas las células del
organismo, estas modificaciones en la estructura de la cromatina son dinámicas (figura
1), lo cual permite cambios en la expresión génica dependientes del contexto, es decir,
de la línea celular, el tejido o momento del desarrollo [4, 5]. La coordinación de
mecanismos genéticos y epigenéticos regula la unión de los factores de transcripción al
ADN y, por tanto, la expresión génica. Por ejemplo, la metilación del ADN, conocida
clásicamente por producir silenciamiento génico, impide la interacción directa de los
factores de transcripción con el ADN, de forma que se necesitan proteínas adicionales
que reconozcan dichas metilaciones a menudo relacionadas con remodeladores de
cromatina y correpresores transcripcionales (figura 1)[5].
Así pues, la regulación epigenética de la expresión génica es el resultado de la presencia
de una variedad de mecanismos interrelacionados, como son la metilación de ADN, la
modificación covalente de histonas, el remodelado de la cromatina por procesos ATPdependiente o intercambio de variantes de histonas y la regulación por ARN no
codificante[2, 6].
3
Figura 1. La actividad coordinada de los mecanismos genéticos y epigenéticos de regulación génica
afecta a la unión de los factores de transcripción al ADN. En la imagen de la izquierda se observa que
el factor de transcripción se une directamente a una secuencia específica del ADN, activando la
transcripción. En cambio, en la imagen de la derecha que, en presencia de metilaciones del ADN, un
factor de transcripción puede unirse o no a la secuencia promotora, siendo el efecto de las
metilaciones de silenciamiento (es lo que ocurre con mayor frecuencia) o activación de la transcripción
del gen [5].
a. Mecanismos de regulación epigenética
La metilación del ADN consiste en la adición de un grupo metilo en la posición 5 de
citosinas localizadas en las llamadas islas CpG (regiones ricas en dinucleótidos CG),
formando 5mC (5-metilcitosina) [7]. Dicha metilación se caracteriza por silenciar la
transcripción génica. Puede inhibir directamente la interacción de la cromatina con
elementos transcripcionales o reclutar proteínas que alteran la conformación de la
cromatina (modificadores de histonas y complejos remodeladores) promoviendo la
compactación de la misma, lo que refuerza la inhibición de la trancripción génica en los
contextos de impronta genética o imprinting, presencia de elementos transponibles, y
expresión génica tejido-específica [5, 8].
Los procesos de modificación covalente de histonas con clave en la regulación
epigenética. Dichas proteínas tienen los extremos N-terminal expuestos en los
nucleosomas
pudiendo
ser
modificados
químicamente
(modificaciones
postraduccionales, PTM), por ejemplo, mediante la metilación de argininas y lisinas. De
esta manera puede cambiarse la carga de la cromatina y dirigir un cambio en su estado,
más condensado o abierto, lo cual determina el acceso de proteínas reguladoras al DNA,
entre ellas los factores de transcripción[2, 9].
4
Hay dos mecanismos principales que afectan a las interacciones que se dan entre las
histonas o entre los nucleosomas. El primero es la disrupción de contactos entre los
nucleosomas para “desenmarañar” la cromatina y el reclutamiento de proteínas no
histonas. El segundo, y mejor caracterizado hasta el momento, depende de las
modificaciones presentes en las histonas, que atraen a proteínas que pueden cambiar la
accesibilidad del ADN gracias a la actividad enzimática que acarrean, siendo necesarios
distintos tipos de actividad enzimática según qué proceso se regule (transcripción,
replicación o reparación del ADN) ya que se requieren distintos tipos de actividad
remodeladora de la cromatina [5].
Las enzimas que catalizan las PTMs de las histonas han sido clasificadas en tres grupos
principales: los writers que añaden la modificación, los readers que reconocen dicha
modificación y los erasers que la eliminan (figura 2) [10, 11]. Dichas PTMs pueden ser
metilaciones, acetilaciones y fosforilaciones, entre otras. Las PTMs mejor estudiadas
son la acetilación y la fosforilación, mientras que el estudio la metilación es más
complejo debido a la presencia de varios niveles de metilación[11]. Se conocen
numerosas PTMs específicas que se encuentran mayoritariamente en regiones
silenciadas o activadas, aunque lo que determina dicho estado es la combinación de las
distintas PTMs (figura 3). Por ejemplo, la metilación H3K4me3 es activadora, y las
H3K9me2/3 son represivas, pero en función de las proporciones presentes de cada una,
el resultado será la activación o la represión génica (figura 3) [8, 12].
Figura 2. Esquema de la actividad de las enzimas modificadoras de histonas. Los writers añaden l PTM
(izquierda), los erasers eliminan dichas modificaciones (parte central) y los readers interpretan estas
modificaciones covalentes para mediar los procesos que ocurrirán tras su reconocimiento [11].
5
Además de la regulación a través de modificaciones covalentes en las histonas, los
factores remodeladores de cromatina ATP-dependientes también afectan a la estructura
de la cromatina, afectando a la expresión génica. Estos factores suelen formar parte de
complejos proteicos. Hay varias familias de complejos remodeladores de cromatina, un
ejemplo clásico es de la superfamilia SWI/SNF, cuyos complejos utilizan la hidrólisis
de ATP para cambiar los contactos proteína-DNA y ejercen un importante papel durante
la diferenciación y reprogramación celular [3].
Figura 3. Distribución de las modificaciones de histonas en genes activos y silenciados. Las imágenes a
y c son representaciones esquemáticas de los nucleosomas y las imágenes b y d indican la presencia y
distribución de distintas PTMs presentes en un gen activo o en uno inactivo [12].
En consecuencia, la pérdida de función o funcionamiento defectuoso de cualquiera de
los mecanismos descritos puede conducir al desarrollo de estados patológicos y
enfermedades en el organismo, ya que la regulación de la estructura de la cromatina
proporciona un medio de control de la expresión génica bajo diferentes condiciones
fisiológicas [3, 9].
A pesar de su importancia, los mecanismos concretos de funcionamiento de la
regulación epigenética no se conocen con detalle. En los últimos años, se han realizado
numerosos estudios con el objetivo de dilucidar dichos mecanismos, siendo numerosos
aquellos realizados en sistemas que contienen células pluripotentes, como la
hematopoyesis y el desarrollo embrionario, así como en proceseos reprogramación
celular [13-15].
6
b. Bases de datos con información epigenética
Se han generado una enorme cantidad de datos experimentales (por ejemplo mediante la
tecnología del Chip-seq) que requieren de análisis computacionales integrativos de la
información disponible y de análisis predictivos, con el objetivo de conocer mejor los
mecanismos epigenéticos conocidos y enfocar el trabajo experimental futuro. Para
procesar dicha cantidad de datos experimentales, en los últimos años se han construido
numerosas bases de datos con información epigenética y/o herramientas de análisis
(como Histome: The Histone Infobase [16] o CR Cistrome: Chromatin Regulator
Cistrome [17]). Asimismo, debido a la importancia de la regulación epigenética en el
desarrollo de ciertas patologías, como cáncer, se han elaborado bases de datos enfocadas
a conocer las interacciones de todo tipo de moléculas (como Biograph[18]) o
interacciones entre proteínas relacionadas con regulación epigenética y el desarrollo de
enfermedades (como DAnCER: Disease Annotated Chromatin Resource [19]).
Las bases de datos mencionadas son solamente una muestra de la variedad que hay
disponible en la red. Cada una de ellas proporciona información específica aplicada al
objetivo del estudio del investigador que la consulta, desde la localización genómica de
genes para conocer su contexto en marcas de histonas o la presencia cercana de genes
codificantes para proteínas modificadoras (CR Cistrome, Histome) hasta la elaboración
de redes de interacciones encontradas para el gen de interés en el ámbito de
enfermedades humanas (Biograph) o la relación con elementos epigenéticos con los que
interacciona un gen dado, también en el ámbito de enfermedades (DAnCER).
Estas bases de datos son muy completas para cumplir los objetivos que se proponen. Sin
embargo, no están diseñadas para dilucidar los mecanismos moleculares de
funcionamiento de los procesos epigenéticos que se dan durante procesos como, por
ejemplo, la diferenciación celular, si no que se enfocan a profundizar en el
conocimiento de dichos mecanismos en situaciones de desarrollo de enfermedades. Por
ello, el presente trabajo se centra en la construcción de una base de datos que
proporcione
interacciones
con
proteínas
implicadas
en
dichos
mecanismos,
independientemente de su implicación en enfermedades, proporcionando una
clasificación de los modificadores en writers, erasers, readers y remodeladores, siendo
así ésta más amplia que en las bases de datos mencionadas ya que la mayoría de
7
clasificaciones encontradas se basa solamente en writers y erasers. También estará
centrada en proteínas humanas y en interacciones proteína-proteína (tabla 1).
Tabla 1. Comparación de una muestra de bases de
algunas características de dicha información.
Tipo
Base
Biograph
Chromatin
información de
Regulator
datos
Cistrome
Organismos
Humano
Modelos
Contexto
Enfermedades Tejido, línea
celular
Interacciones
Complejos proteicos
Clasificación
de
modificadores
Datos en entrada
Pública
Todo tipo
Sí
No
No
Sí
Un
gen/proteína
Sí
Chip-seq
Sí
datos que contienen información epigenética y
Histome
DAnCER
NUEVA
Humanos
Localización
genómica
Modelos
Enfermedades
y modificación
de cromatina
PPI
Sí
No
Humano
Modificación
de cromatina
Uno/varios
genes
Parte
Uno/varios
genes
-
No
Sí,
incompleta
Un
gen/proteína
Sí
PPI
Sí
Sí
4. Objetivos
Los principales objetivos de este trabajo son:
-
Proporcionar una clasificación de las enzimas modificadoras de histonas en
writers, erasers y readers.
-
Integrar la información sobre dichas proteínas y sus interacciones que se encuentra
dispersa en distintas bases de datos públicas.
-
Construcción de una base de datos relacional que almacene dicha información.
5. Construcción de la base de datos
La base de datos, llamada eventualmente ProteInEpi: database for PROTEins INvolved
in EPIgenetic regulation, ha seguido un proceso de desarrollo que abarca desde un
estudio preliminar de la información que se podría extraer por minería de datos, hasta la
integración de información contenida en distintas bases de datos públicas dispersas por
la red, mediante su almacenamiento en una sencilla y única base de datos relacional.
Así pues, primero se realizó un estudio preliminar para conocer, por un lado, si
mediante búsquedas de textos relacionados con modificación de histonas y regulación
epigenética, entre otros, se podría extraer listas de genes codificantes y no codificantes
8
lo suficientemente completas y, por otro lado, si existen bases de datos públicas que
cumplan los mismos objetivos que la presente base de datos.
Una vez realizado dicho estudio preliminar, se procedió a la elaboración de las listas de
genes y proteínas que iban a ser almacenadas en la base de datos, el diseño de la nueva
base de datos y la extracción de la información de interés, procedente de distintas
fuentes, sobre los genes y las proteínas seleccionadas para su posterior almacenamiento
en la nueva base de datos.
a. Elaboración de listas de genes que participan en
regulación epigenética
En esta primera fase de búsqueda de genes relacionados con regulación epigenética, se
realizó una búsqueda avanzada de literatura en la base de datos PubMed del National
Center for Biotchnology Information (NCBI) combinando términos relacionados con
regulación y epigenética. Una vez realizadas las búsquedas, se analizaron, mediante
herramientas de text mining los resúmenes disponibles de los artículos científicos
encontrados bajo dichos términos con el objetivo de extraer los nombres de genes y
proteínas que aparecían en ellos, obteniéndose un total de 5582 genes a partir de 23794
resúmenes. Los términos utilizados en la búsqueda (tabla 2) resultaron ser muy
generales en relación a los procesos epigenéticos y regulación debido a que búsquedas
más específicas proporcionaban un número pequeño de artículos, entre 10 y 200
dependiendo de los términos.
Así pues, una vez obtenida esta primera lista de genes se procedió a comprobar el tipo
de genes que contenía y cómo de completa era en cuanto a la presencia de genes
conocidos como participantes modificación de histonas, proceso fundamental en
regulación epigenética. Para ello, se extrajo de la base de datos EMBL-EBI (The
European Bioinformatics Institute) usando la aplicación de QuickGO (navegador rápido
para términos de Gene Ontology y sus anotaciones) una lista de genes agrupados bajo el
término histone modification de Gene Ontology (GO), ya que abarca procesos que
ocurren durante la regulación epigenética, como la modificación de la estructura de la
cromatina (figura 4). Se aplicó el filtro de taxonomía en la búsqueda de manera que
solamente se mostraran genes de humanos y con evidencias experimentales sobre ellos.
En este caso la lista de genes contenía 318.
9
A continuación, se compararon ambas listas de genes y se comprobó que la lista
procedente de la búsqueda por text mining era muy incompleta en cuanto a la presencia
de los genes proporcionados por GO. Por lo tanto, al no ser un trabajo sobre predicción
de interacciones encontradas mediante text mining, se procedió a realizar una lista de
genes relacionados con modificación de histonas y remodelado de la cromatina
consultando fuentes curadas manualmente y literatura. Así pues, se realizó una lista de
genes codificantes, por un lado, para proteínas modificadoras de histonas clasificadas
como erasers, writers y readers procedente de la base de datos “HIstome: The Histone
Infobase” [16] y de la revisión de Yun, M. et al. 2011 [20] y, por otro lado, para
proteínas remodeladoras de cromatina procedentes de la revisión de Bao, Y et al. 2007
[21], sobre los complejos remodeladores de cromatina, y factores de transcripción
relacionados con dicho remodelado procedentes de la base de datos AnimalTFDB [22].
Tabla 2. Diferentes queries utilizados en la búsqueda avanzada de abstracts en PubMed para la
extracción de listas de genes mediante herramientas de text mining.
Número de
Queries utilizados en la búsqueda de literatura
registros
"(Gene Expression Regulation[MeSH Terms]) AND ("histone modification" OR
1188
"histone code" OR "histone marks" OR "epigenetic modifier") AND
("Humans"[MeSH Terms])"
"("dna methylation" OR "chromatin remodeling" ) AND (Gene Expression
13850
Regulation[MeSH Terms]) AND ("Humans"[MeSH Terms])"
"histone" AND ((Gene Expression Regulation[MeSH Terms]) AND
13534
("Humans"[MeSH Terms]))"
Otros
Numero de abstracts no redundantes
23794
Número de genes extraídos de los abstracts
5582
Finalmente, se obtuvo una lista de genes, llamada modificadores, constituida por 417
genes, entre ellos enzimas modificadoras de histonas clasificadas en erasers, readers y
writers, proteínas pertenecientes a complejos remodeladores y factores de transcripción.
En esta lista, un mismo gen puede estar clasificado en varias categorías. Por ejemplo, el
gen KAT2A que codifica para la proteína K(Lisina) Acetiltransferasa 2A, puede ejercer
la función de writer (dominio N-acetiltransferasa) o de reader (bromodominio de la
proteína) en función del contexto en el que se encuentre.
b. Selección de la información de interés
Una vez obtenida la lista de genes modificadores a partir de la cual se centra la
búsqueda del resto de la información, se amplió la lista con los genes con los que
interaccionan y se procedió a la selección de las bases de datos de las que se recopilaría
10
información sobre las proteínas, sus interacciones, la expresión génica y la pertenencia a
complejos proteicos.
Figura 4. Diagrama obtenido a través de Gene Ontology (http://www.ebi.ac.uk/QuickGo) que muestra
los términos agrupados bajo el de “histone modification”. Se puede observar que el término
“chromatin modification” es más específico que el de “histone modification”, por tanto, una lista de
genes obtenida a partir de este último término abarcaría también los genes almacenados bajo el
término de “chromatin modification”.
Primero, se obtuvieron las interacciones contenidas en la base de datos de STRING
(Search Tool for the Retrieval of Interacting Genes/Proteins [23]) que contiene
interacciones proteína-proteína (PPI de sus siglas en inglés protein-protein interaction)
tanto conocidas, como predichas. Entonces, se añadieron a la lista de genes para
almacenar en la base de datos todos aquellos que interaccionan con los genes
11
modificadores,
previamente
convertidos
los
identificadores
de
proteínas
en
identificadores de genes mediante la herramienta de conversión online de BioMart
(http://central.biomart.org/converter/#!/ID_converter/). Posteriormente, los genes de las
proteínas que forman complejos proteicos conocidos en humanos también se incluyeron
en dicha lista. Así, el número total de genes contenidos en la base de datos es de 4832 y
el de proteínas es de 19129.
Una vez elaborada la lista de proteínas que se almacenarían, se descargó de la base de
datos UniProtKB (http://www.uniprot.org/) la información anotada sobre ellas en el
formato de texto plano clásico de UniProt (http://web.expasy.org/docs/userman.html).
La información tomada de UniProt fue la siguiente:
-
Número identificador de acceso de la proteína. En caso de haber más de uno, se
anotaron tanto el principal, como los secundarios.
-
El nombre del gen y sus sinónimos si los hubiera.
-
Estatus de la proteína. Cuando el estatus es reviewed, la proteína ha sido anotada
manualmente, habiendo sido extraída la información de literatura y analizada y
evaluada computacionalmente. Cuando el estatus es unreviewed, la proteína ha
sido analizada computacionalmente, pero está a la espera de ser anotada
manualmente.
-
La fecha de la última actualización de la anotación de la proteína.
-
El organismo en el que se ha estudiado la proteína. En principio solamente se
buscaron proteínas humanas.
-
La descripción de la proteína.
-
Los términos de GO para la proteína.
Para la obtención de la información sobre las PPI, fue utilizada la última versión de
STRING, v9.1. Las interacciones de las proteínas en humanos almacenadas en STRING
se encuentran disponibles directamente en la sección de descargas, así pues, mediante la
lista de interacciones obtenida en STRING se procedió a extraer, utilizando scripts de
perl, solamente las de las proteínas de la lista que se almacenarían en la base de datos.
En este caso, los identificadores de proteínas utilizados fueron los de Ensembl. Sin
embargo, en los casos en los que un gen codifica para distintas isoformas proteicas,
STRING solamente utiliza el identificador de la proteína codificada más larga o de la
mejor conocida para el gen en cuestión, de forma que, aunque exista información
detallada de distintas isoformas, en STRING sus interacciones quedan agrupadas bajo
12
un mismo identificador. En este caso, se extrajo la información relativa a la interacción,
los dos elementos que interactúan, el tipo de interacción, la puntuación asociada según
las evidencias experimentales o computacionales y la fuente de información de dicha
interacción que puede ser también tomada, a su vez, de otras bases de datos, ya que
STRING integra información sobre interacciones de las bases de datos IntAct y
MINT[24], BioGrid[25], BIND[26], DIP[27], HPRD[28] y PID[29] como fuentes de
datos experimentales y de Biocarta (http://www.biocarta.com/genes/index.asp),
BioCyc[30], GO[31], KEGG[32] y Reactome[33] como fuentes de datos curados sobre
interacciones en rutas metabólicas.
Para conocer la información relativa a los complejos proteicos, principalmente
componentes y función, se consultó la base de datos CORUM – the Comprehensive
Resource of Mammalian protein complexes[34], que tiene disponible una lista curada
manualmente de complejos proteicos en mamíferos, incluyendo humanos. En este caso,
la información extraída contenía el nombre del complejo y sus componentes, el/los
organismos donde se ha estudiado, el método de purificación y las referencias a la
fuente de información de los datos experimentales, además de comentarios acerca de la
función o enfermedades asociadas.
Por último, con el objetivo de contextualizar a las proteínas, se incluyó información
relativa a la expresión génica en distintos tejidos y líneas celulares, en contexto de no
enfermedad, utilizando la información disponible en la base de datos THE HUMAN
PROTEIN ATLAS [35]. Como en el caso de las interacciones de STRING, se descargó
la información disponible sobre la expresión de todas las proteínas y, mediante scripts
en perl se tomaron solamente los datos relativos a los genes de la lista que almacenaría
la nueva base de datos.
c. Diseño de la base de datos
Para el desarrollo del software de almacenamiento en la base de datos se ha utilizado el
lenguaje de programación perl, para la creación de las tablas se ha utilizado SQL y para
la gestión de la base de datos se han utilizado PostgreSQL(v9.1.11) y la herramienta
pgAdmin (v1.18.0).
Son varios los niveles de información almacenados (tabla 3); nivel de identificadores,
las conversiones entre los distintos identificadores de distintas bases de datos, ya que
13
cada una utiliza el que considera oportuno (HGNC, Ensembl, Uniprot, etc); nivel de
genes, las anotaciones relativas a las proteínas que codifican, la expresión génica, etc. y
el nivel de interacciones, que son entre proteínas y su pertenencia a complejos proteicos.
Así pues, seleccionada la información que contendría la base de datos relacional se
procedió al diseño de la misma, en el que las tablas se relacionan unas con otras a través
de los identificadores de las proteínas y los genes. Contiene un total de 12 tablas (figura
5), de las cuales 5 de ellas contienen información relativa al nivel de identificadores
(ensgene_list, ensprotein_id, hgnc_alias_is, acc_list, acc_uniprot_id), 4 de ellas
contienen la información correspondiente al nivel de genes (modifiers, context,
protein_info, gene_ontology) y las 3 últimas contienen las interacciones entre las
proteínas
y
la
información
sobre
los
complejos
proteicos
(interactions,
complexes_subunits, complexes). En cuanto al contenido final de la base de datos, se
resume en la tabla 4.
Tabla 3. Niveles de información almacenados en la base de datos y resumen de las fuentes utilizadas
para la extracción de la información.
Nivel
Información
Bases de datos
Identificadores Conversión
BioMart
(http://central.biomart.org/converter/#!/ID_converter/)
Modificadores y
HIstome: The Histone Infobase[16]
clasificación, factores de AnimalTFDB: Animal Transcription Factor Database[22]
transcripción, otros.
Literatura seleccionada[20]
Anotaciones de Gene
UniProt (www.uniprot.org)
Genes
Ontology
Anotaciones de las
UniProt (www.uniprot.org)
proteínas
Expresión génica
THE HUMAN PROTEIN ATLAS[35]
Interacciones proteínaSTRING v9.1[23]
proteína
Interacciones
CORUM – the Comprehensive Resource of Mammalian
Complejos proteicos
protein complexes[34]
La tabla muestra la información almacenada en la base de datos relativa los niveles de información
génica y de interacciones. En la columna “Nivel” se indica el nivel de la información, en la columna
“Información” se detalla el tipo de información o anotaciones almacenadas y en la comluma “Bases de
datos” se muestran las fuentes de información utilizadas.
14
Figura 5. Organización de la información de la base de datos y relaciones entre las tablas. Las tablas
Ensgene_list, Hgnc_alias_id, Ensprotein_id, Acc_uniprot_id y Acc_list almacenan los distintos
identificadores usados por distintas bases de datos, tanto de los genes como de las proteínas. Las tablas
Modifiers, Context, Protein_info y Gene_ontology contienen información relativa a los genes y las
proteínas que codifican. Por último, las tablas Interactions, Complexes_subunits y Complexes almacenan
información relativa a las interacciones entre las proteínas.
Tabla 4. Contenido almacenado en la base de datos desarrollada. Se indica el número de registros de
las interacciones almacenadas, los complejos proteicos y los genes clasificados como modificadores.
Tipo de información
Número de registros almacenados
Genes codificantes de proteínas modificadoras
417
Readers
62
Writers
107
Erasers
52
Otros
196
Genes
4832
Interacciones
26829
Complejos proteicos
1356
Proteínas
19129
15
Finalmente, se destacan algunas características importantes de la base de datos
construida:

La información almacenada procede de fuentes públicas, de manera que se
encuentra disponible en su totalidad en las bases de datos indicadas para cada tipo
de información.

Es una base de datos que integra información de distintas fuentes, para consultarla
de manera informativa. Por otro lado, no tiene carácter predictivo de PPI o de
modificadores y remodeladores de cromatina que aún tengan que ser validados.

Las interacciones binarias que se muestran son aquellas en las que uno de los dos
elementos que interaccionan es un modificador o un remodelador presente en la lista
de genes almacenada. En el caso de que el gen que se consulta sea un modificador,
se mostrarán todas sus interacciones (aquellas con un score mínimo de 0,8, ya sean
conocidas o transferidas de otros organismos). Mientras que en caso de que el gen
de la consulta sea un no modificador, al mostrarse solo interacciones con
modificadores, puede no haber información relativa a interacciones, no porque no
las tenga, sino porque no las tiene con las proteínas modificadoras almacenadas.
6. Escenario de aplicación de la base de datos
Esta base de datos podría usarse con distintos objetivos, sin embargo, inicialmente se ha
centrado en el siguiente escenario hipotético: dada una lista de genes, que pueden
proceder de experimentos de expresión génica, se querría ver si la expresión de dichos
genes coincide con la información que proporciona la base de datos. Así pues, dados los
genes A, B y C que codifican proteínas diferentes, muestran patrones de expresión
diferentes según las condiciones experimentales en las que se encuentran. En la
condición 1, A y B tienen una alta expresión, mientras que C tiene baja expresión. En la
condición 2 ocurre lo contrario, A y B tienen una baja expresión, mientras que C tiene
alta expresión. Conociendo esta información, se podría consultar la nueva base de datos
para conocer si estas proteínas son o interaccionan con proteínas modificadoras, además
de si forman parte de algún complejo proteico. Una vez obtenida dicha información, el
estudio podría pasar a la siguiente fase, que podría ser por ejemplo el modelado
dinámico de una red de expresión génica conocida, añadiendo un nivel superior de
información epigenética (figura 6).
16
Figura 6. Esquema de un escenario de aplicación hipotético de la base de datos. Primero, se parte de
datos experimentales de expresión génica en distintas condiciones (cuadro superior). Segundo, se
realizan las consultas pertinentes en la base de datos (parte inferior). Por último, se interpretan los
resultados combinados y se procede a continuar con el estudio, como ejemplo se nombra el modelado
dinámico.
A continuación se muestran los resultados para la lista de genes EED, SUZ12, EZH2 y
HIC1. En primer lugar se muestra si estos genes son enzimas modificadoras u otro tipo
de proteína remodeladora, factores de transcripción u otros (tabla 5). En este caso, tres
de los genes están involucrados en regulación epigenética, EED como enzima que
reconoce modificaciones de histonas (reader), EZH2 como enzima que las añade
(writer) y SUZ12 como un factor remodelaor, mientras que el cuarto gen (HIC1) es un
factor de transcripción. Además, hay casos en los que no solo se conoce el tipo de
modificador que es una enzima, si no que se conoce también en qué marcas ejerce su
función (indicadas como PTMs en la tabla 5). Una vez obtenida esta información sobre
los genes de entrada, se buscan sus interacciones con otras proteínas epigenéticas (tabla
6) y se comprueba si pertenecen a complejos proteicos (tabla 7). En estos genes, se
observa que EED, EZH2 y SUZ12 tienen interacciones entre ellos, además de coincidir
en los mismos complejos proteicos (tabla 7). En cambio, el factor de transcripción HIC1
no muestra interacciones con ellos, ni pertenece a ningún complejo proteico, aunque sí
interacciona con proteínas epigeneticas (PHF19 y PHF1), una de las cuales, a su vez
interacciona con EZH2 y SUZ12 (tabla 6). Por último, estos resultados se proporcionan
de manera que es posible representarlos en redes utilizando, por ejemplo, el software de
representación de redes Cytoscape.
17
Tabla 5. Clasificación de los genes de consulta. Se muestran los nombres de los genes usando la
nomenclatura de HGNC y en identificador de Ensembl, el identificador de la proteína de Ensembl, su
clasificación y las modificaciones postraduccionales (PTM).
Gen de Id. gen Ensembl
Id. proteína Ensembl
Modificador/TF/Otros
PTMs
entrada
EED
ENSG00000074266
ENSP00000263360
reader
H1K26
H3K27
EZH2
ENSG00000106462
ENSP00000320147
writer
H3K27me1
H3K27me2
H3K27me3
H1K25me1
HIC1
ENSG00000177374
ENSP00000314080
TF (transcription factor)
SUZ12
ENSG00000178691
ENSP00000316578
remodeler
-
Tabla 6. Interacciones entre las proteínas. Se muestra el nombre del gen de consulta y las interacciones
de la proteína que codifica y con aquellas que tienen una puntuación (score) superior a 800, y la fuente
de información de la interacción (columna fuente para interacciones en humano y columna transferida
en interacciones que se han tomado por homología con otros organismos).
Gen
Interact_A
Interact_B
Tipo
score Fuente
Transferida
EED
EED
ENSP00000263360
ENSP00000263360
ENSP00000262238
ENSP00000311677
binding
binding
872
969
EED
EED
ENSP00000263360
ENSP00000263360
ENSP00000316578
ENSP00000320147
binding
binding
999
999
EED
EED
EED
ENSP00000263360
ENSP00000263360
ENSP00000263360
ENSP00000362592
ENSP00000369427
ENSP00000381331
binding
binding
binding
993
900
962
EED
EED
EED
ENSP00000263360
ENSP00000263360
ENSP00000263360
ENSP00000381840
ENSP00000389381
ENSP00000404658
binding
binding
binding
984
846
997
EZH2
ENSP00000320147
ENSP00000212015
binding
924
EZH2
ENSP00000320147
ENSP00000263360
binding
999
EZH2
ENSP00000320147
ENSP00000316578
binding
999
grid
kegg_pathways
grid
kegg_pathways
dip
grid dip
EZH2
ENSP00000320147
ENSP00000244050
binding
846
grid
EZH2
ENSP00000320147
ENSP00000262238
binding
951
EZH2
ENSP00000320147
ENSP00000302269
binding
987
EZH2
ENSP00000320147
ENSP00000306043
binding
846
grid
kegg_pathways
grid hprd
kegg_pathways
grid
EZH2
ENSP00000320147
ENSP00000311677
binding
845
grid
EZH2
ENSP00000320147
ENSP00000341280
binding
901
grid dip
EZH2
ENSP00000320147
ENSP00000370936
binding
EZH2
ENSP00000320147
ENSP00000381331
binding
984
EZH2
ENSP00000320147
ENSP00000381840
binding
961
EZH2
ENSP00000320147
ENSP00000391901
binding
977
EZH2
ENSP00000320147
ENSP00000404658
binding
984
845
kegg_pathways
grid
kegg_pathways
grid dip
grid
kegg_pathways
dip
grid dip
grid
grid dip
bind
grid hprd
grid
grid bind pdb
kegg_pathways
mint dip
bind
bind
grid
reactome
kegg_pathways
mint intact
grid bind pdb
kegg_pathways
mint dip
grid bind pdb
kegg_pathways
mint dip
grid mint intact
dip
kegg_pathways
grid
grid
grid intact
grid
kegg_pathways
grid
18
EZH2
ENSP00000320147
ENSP00000359321
binding
944
grid
kegg_pathways
EZH2
ENSP00000320147
ENSP00000362592
binding
984
grid
EZH2
ENSP00000320147
ENSP00000362649
binding
937
grid
EZH2
ENSP00000320147
ENSP00000369427
binding
917
HIC1
ENSP00000314080
ENSP00000363003
binding
924
HIC1
ENSP00000314080
ENSP00000391901
binding
924
SUZ12
ENSP00000316578
ENSP00000235090
binding
969
SUZ12
ENSP00000316578
ENSP00000263360
binding
999
SUZ12
ENSP00000316578
ENSP00000264010
binding
969
SUZ12
ENSP00000316578
ENSP00000320147
binding
999
grid
kegg_pathways
grid dip
SUZ12
ENSP00000316578
ENSP00000341280
binding
901
grid dip
SUZ12
ENSP00000316578
ENSP00000362592
binding
994
grid dip
grid
SUZ12
ENSP00000316578
ENSP00000369427
binding
dip
grid
SUZ12
ENSP00000316578
ENSP00000381331
binding
962
dip
grid
SUZ12
ENSP00000316578
ENSP00000381840
binding
984
grid dip
grid
SUZ12
ENSP00000316578
ENSP00000391901
binding
grid
grid mint intact
SUZ12
ENSP00000316578
ENSP00000404658
binding
986
845
993
grid
kegg_pathways
mint intact
grid mint intact
grid mint intact
grid
kegg_pathways
grid
kegg_pathways
grid
kegg_pathways
grid dip
grid
kegg_pathways
grid mint intact
dip
grid dip
grid mint intact
dip
Las interacciones en morado indican las proteínas codificadas por los genes de la consulta, que en este caso
interaccionan entre sí EED, EZH2 y SUZ12. Las interacciones coloreadas en verde indican que ENSP00000391901
interacciona con varias de las proteínas de la consulta inicial, siendo una proteína modificadora que interacciona
con HIC1, con EZH2 y con SUZ12.
Tabla 7. Complejos proteicos a los que pertenecen las proteínas.
Gen
de Id. proteína Ensembl
Modificador/TF Complejo proteico
entrada
/Otros
HIC1
ENSP00000314080
TF
PHF19
ENSP00000363003
Remodelador
PHF1
ENSP00000391901
remodelador
SUZ12
ENSP00000316578
remodeler
EED-EZH2 complex
Polycomb repressive complex 2 (PRC2)
EZH2
ENSP00000320147
writer
Polycomb repressive complex 2 (PRC2)
EED-EZH2 complex
EED-EZH polycomb complex
EED-EZH-YY1 polycomb complex
Polycomb repressive complex 4 (PRC4)
EED
ENSG00000074266
reader
Polycomb repressive complex 2 (PRC2)
EED-EZH2 complex
EED-EZH polycomb complex
EED-EZH-YY1 polycomb complex
Polycomb repressive complex 4 (PRC4)
Se muestran los complejos proteicos a los que pertenecen las proteínas de la consulta inicial y de las
proteínas modificadoras con las que interacciona HIC1. Los nombres escritos en azul son los que
coinciden para EED, EZH2 y SUZ12.
19
7. Discusión y conclusiones
La nueva base de datos desarrollada en este trabajo (ProteInEpi) presenta características
combinadas, en cuanto a la información que proporciona y a los objetivos de su uso, de
las bases de datos mencionadas anteriormente sobre información epigenética
disponibles.
BioGraph (http://www.biograph.be/) proporciona redes de interacciones con el objetivo
de predecir o contrastar hipótesis sobre enfermedades asociadas al mal funcionamiento
de los genes que componen dichas redes, que incluyen interacciones que pueden ser
entre proteínas, DNA-proteínas, con compuestos químicos, etc. En cambio, en
ProteInEpi, la información está restringida a interacciones PPI con proteínas, o entre
proteínas, involucradas en regulación epigenética, concretamente en modificación de
histonas y remodelación de la cromatina.
Histome (http://www.actrec.gov.in/histome/) se centra, no solo en describir las enzimas
modificadoras de histonas, sino también en la descripción de las propias histonas,
centrando la información en humanos y con referencias a enfermedades asociadas. Pero
la clasificación de las enzimas modificadoras es incompleta. Mientras que proporciona
información curada manualmente de writers y de erasers, no lo hace de readers ni de
factores remodeladores. Para la elaboración de ProteInEpi, ésta ha sido una de las
fuentes de información, que se ha ampliado en cuanto a la clasificación de las enzimas.
En el caso de CR Cistrome (http://cistrome.org/cr/index.php), ya se proporciona una
clasificación completa (aunque escasa en cuanto lista completa de genes) y aporta una
descripción de las enzimas modificadoras de cromatina y remodeladores de cromatina,
además de datos de expresión génica, que permiten conocer el contexto genómico en
cuanto presencia de genes “epigenéticos” vecinos a un gen de interés y su
contextualización en cuanto a la expresión génica. Sin embargo, no proporciona las
interacciones de estas proteínas, más que haciendo sencillas menciones en la
descripción, mientras que en ProteInEpi se proporcionan dichos datos de manera que se
puedan representar en una red.
Por último, DAnCER (http://wodaklab.org/dancer/) proporciona información muy
completa de proteínas involucradas en la regulación epigenética, tanto conocida como
20
predicha, en el contexto de enfermedades. Proporciona descripciones de las proteínas,
sus interacciones, su pertenencia a complejos proteicos e información de proteínas
homólogas en otros organismos. Sin embargo, aunque la información en cuanto a
organismos es completa, hay que navegar en ella para centrarse en humanos. Tampoco
proporciona clasificaciones de las proteínas modificadoras, ni permite la descarga de las
interacciones para elaborar redes propias. En cambio, aunque ProteInEpi abarca un
rango de información menor, ya que no predice interacciones o nuevos modificadores,
se centra en interacciones de proteínas en humanos y permite el uso de los datos para
realizar redes propias, además de proporcionar información sobre la clasificación de los
modificadores.
En resumen, ProteInEpi tiene como novedad el hecho de que proporciona una lista de
enzimas modificadoras y remodeladores de cromatina clasificadas en writers, erasers y
readers en humanos y se proporcionan sus interacciones de una forma restringida,
permitiendo así añadir la información como niveles adicionales en redes de regulación
génica de distintos procesos altamente regulados mediante mecanismos epigenéticos,
como la diferenciación celular, el desarrollo del cerebro o la formación de la memoria.
Por otro lado, con el objetivo de ampliar la información contenida en la base de datos,
se podría añadir información sobre los llamados factores de transcripción pioneros y
sobre las interacciones de los ARN largos no codificantes, ya que ambos participan en
regulación epigenética.
Los factores de transcripción pioneros son aquellos que tienen capacidad de unirse a sus
dianas cuando se encuentran ocluidas en los nucleosomas o en ciertos estados de la
cromatina compactada. La mayoría de los factores de transcripción requieren del
reclutamiento y cooperatividad de proteínas de unión a los nucleosomas o a la
cromatina para poder activarse la transcripción, mientras que los factores pioneros son
independientes de dicha cooperatividad y preceden a otros factores de unión al ADN
[36, 37].
Hasta el momento, hay validados y predichos factores pioneros de
transcripción que tienen actividad en programación y reprogramación celular o en la
progresión de cáncer [13, 36, 38].
En cuanto a los ARN largos no codificantes, se sabe que interaccionan con ADN, ARN,
proteínas y/o combinaciones de los mismos, actuando como reguladores de la
21
organización de la cromatina y de procesos de transcripción y postranscripcionales[6].
Así pues, mediante el conocimiento de dichas interacciones se podría dilucidar el papel
de la interacción entre los mecanismos de regulación epigenética explicados y el de los
mecanismos de regulación mediante ARN no codificante. Por esta razón, recientemente
se ha creado una base de datos llamada EpimiR [39], que contiene descripciones de los
miARNs y sus interacciones con elementos de regulación epigenética. El objetivo de
dicha base de datos es proporcionar otro nivel de información sobre regulación en el
contexto de enfermedades humanas.
Por último, en cuanto la información almacenada en la base de datos, ésta podría
combinarse con la información de otras bases de datos públicas. Por ejemplo, en el caso
de los complejos proteicos podría combinarse la información con una sección reciente
de la base de datos de interacciones de IntAct, llamada Complex Portal [40], dedicada a
los complejos proteicos, ya que proporciona información más actualizada que la base de
datos utilizada (CORUM). Además, aunque en ProteInEpi se pretendía enfocar la
información en humanos, la adición de información referente a otros organismos, como
ratón, le daría un valor añadido con información sobre proteínas homólogas.
8. Bibliografía
1.
2.
3.
4.
5.
6.
7.
8.
9.
Margueron R, Reinberg D: Chromatin structure and the inheritance of
epigenetic information. Nature reviews Genetics 2010, 11(4):285-296.
Zhang G, Pradhan S: Mammalian epigenetic mechanisms. IUBMB life 2014,
66(4):240-256.
Roy DM, Walsh LA, Chan TA: Driver mutations of cancer epigenomes.
Protein & cell 2014, 5(4):265-296.
Ho L, Crabtree GR: Chromatin remodelling during development. Nature
2010, 463(7280):474-484.
Rothbart SB, Strahl BD: Interpreting the language of histone and DNA
modifications. Biochimica et biophysica acta 2014, 1839(8):627-643.
Cao J: The functional role of long non-coding RNAs and epigenetics.
Biological procedures online 2014, 16:11.
Wu H, Wu X, Shen L, Zhang Y: Single-base resolution analysis of active
DNA demethylation using methylase-assisted bisulfite sequencing. Nature
biotechnology 2014, 32(12):1231-1240.
Rose CM, van den Driesche S, Meehan RR, Drake AJ: Epigenetic
reprogramming: preparing the epigenome for the next generation.
Biochemical Society transactions 2013, 41(3):809-814.
Arrowsmith CH, Bountra C, Fish PV, Lee K, Schapira M: Epigenetic protein
families: a new frontier for drug discovery. Nature reviews Drug discovery
2012, 11(5):384-400.
22
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
Janzen WP, Wigle TJ, Jin J, Frye SV: Epigenetics: Tools and Technologies.
Drug discovery today Technologies 2010, 7(1):e59-e65.
Gardner KE, Allis CD, Strahl BD: Operating on chromatin, a colorful
language where context matters. Journal of molecular biology 2011,
409(1):36-46.
Barth TK, Imhof A: Fast signals and slow marks: the dynamics of histone
modifications. Trends in biochemical sciences 2010, 35(11):618-626.
Okita K, Yamanaka S: Intracellular signaling pathways regulating
pluripotency of embryonic stem cells. Current stem cell research & therapy
2006, 1(1):103-111.
Choukrallah MA, Matthias P: The Interplay between Chromatin and
Transcription Factor Networks during B Cell Development: Who Pulls the
Trigger First? Frontiers in immunology 2014, 5:156.
Burns KH, Viveiros MM, Ren Y, Wang P, DeMayo FJ, Frail DE, Eppig JJ,
Matzuk MM: Roles of NPM2 in chromatin and nucleolar organization in
oocytes and embryos. Science (New York, NY) 2003, 300(5619):633-636.
Khare SP, Habib F, Sharma R, Gadewal N, Gupta S, Galande S: HIstome--a
relational knowledgebase of human histone proteins and histone modifying
enzymes. Nucleic acids research 2012, 40(Database issue):D337-342.
Wang Q, Huang J, Sun H, Liu J, Wang J, Wang Q, Qin Q, Mei S, Zhao C, Yang
X et al: CR Cistrome: a ChIP-Seq database for chromatin regulators and
histone modification linkages in human and mouse. Nucleic acids research
2014, 42(Database issue):D450-458.
Liekens AM, De Knijf J, Daelemans W, Goethals B, De Rijk P, Del-Favero J:
BioGraph: unsupervised biomedical knowledge discovery via automated
hypothesis generation. Genome biology 2011, 12(6):R57.
Turinsky AL, Turner B, Borja RC, Gleeson JA, Heath M, Pu S, Switzer T, Dong
D, Gong Y, On T et al: DAnCER: disease-annotated chromatin epigenetics
resource. Nucleic acids research 2011, 39(Database issue):D889-894.
Yun M, Wu J, Workman JL, Li B: Readers of histone modifications. Cell
research 2011, 21(4):564-578.
Bao Y, Shen X: SnapShot: chromatin remodeling complexes. Cell 2007,
129(3):632.
Zhang HM, Chen H, Liu W, Liu H, Gong J, Wang H, Guo AY: AnimalTFDB:
a comprehensive animal transcription factor database. Nucleic acids
research 2012, 40(Database issue):D144-149.
Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin
J, Minguez P, Bork P, von Mering C et al: STRING v9.1: protein-protein
interaction networks, with increased coverage and integration. Nucleic acids
research 2013, 41(Database issue):D808-815.
Orchard S, Ammari M, Aranda B, Breuza L, Briganti L, Broackes-Carter F,
Campbell NH, Chavali G, Chen C, del-Toro N et al: The MIntAct project-IntAct as a common curation platform for 11 molecular interaction
databases. Nucleic acids research 2014, 42(Database issue):D358-363.
Chatr-Aryamontri A, Breitkreutz BJ, Heinicke S, Boucher L, Winter A, Stark C,
Nixon J, Ramage L, Kolas N, O'Donnell L et al: The BioGRID interaction
database: 2013 update. Nucleic acids research 2013, 41(Database issue):D816823.
Bader GD, Betel D, Hogue CW: BIND: the Biomolecular Interaction
Network Database. Nucleic acids research 2003, 31(1):248-250.
23
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
Salwinski L, Miller CS, Smith AJ, Pettit FK, Bowie JU, Eisenberg D: The
Database of Interacting Proteins: 2004 update. Nucleic acids research 2004,
32(Database issue):D449-451.
Keshava Prasad TS, Goel R, Kandasamy K, Keerthikumar S, Kumar S,
Mathivanan S, Telikicherla D, Raju R, Shafreen B, Venugopal A et al: Human
Protein Reference Database—2009 update. Nucleic acids research 2009,
37(Database issue):D767-772.
Schaefer CF, Anthony K, Krupa S, Buchoff J, Day M, Hannay T, Buetow KH:
PID: the Pathway Interaction Database. Nucleic acids research 2009,
37(Database issue):D674-679.
Walsh JR, Sen TZ, Dickerson JA: A computational platform to maintain and
migrate manual functional annotations for BioCyc databases. BMC Systems
Biology 2014, 8(1).
Camon E, Magrane M, Barrell D, Lee V, Dimmer E, Maslen J, Binns D, Harte
N, Lopez R, Apweiler R: The Gene Ontology Annotation (GOA) Database:
sharing knowledge in Uniprot with Gene Ontology. Nucleic acids research
2004, 32(Database issue):D262-266.
Kanehisa M: The KEGG database. Novartis Foundation symposium 2002,
247:91-101; discussion 101-103, 119-128, 244-152.
Croft D, O’Kelly G, Wu G, Haw R, Gillespie M, Matthews L, Caudy M,
Garapati P, Gopinath G, Jassal B et al: Reactome: a database of reactions,
pathways and biological processes. Nucleic acids research 2011, 39(Database
issue):D691-697.
Ruepp A, Waegele B, Lechner M, Brauner B, Dunger-Kaltenbach I, Fobo G,
Frishman G, Montrone C, Mewes HW: CORUM: the comprehensive resource
of mammalian protein complexes--2009. Nucleic acids research 2010,
38(Database issue):D497-501.
Ponten F, Schwenk JM, Asplund A, Edqvist PH: The Human Protein Atlas as
a proteomic resource for biomarker discovery. Journal of internal medicine
2011, 270(5):428-446.
Iwafuchi-Doi M, Zaret KS: Pioneer transcription factors in cell
reprogramming. Genes & development 2014, 28(24):2679-2692.
Zaret KS, Carroll JS: Pioneer transcription factors: establishing competence
for gene expression. Genes & development 2011, 25(21):2227-2241.
Drouin J: Minireview: pioneer transcription factors in cell fate specification.
Molecular endocrinology (Baltimore, Md) 2014, 28(7):989-998.
Dai E, Yu X, Zhang Y, Meng F, Wang S, Liu X, Liu D, Wang J, Li X, Jiang W:
EpimiR: a database of curated mutual regulation between miRNAs and
epigenetic modifications. Database : the journal of biological databases and
curation 2014, 2014:bau023.
Meldal BH, Forner-Martinez O: The complex portal - an encyclopaedia of
macromolecular complexes. 2014.
24
ANEXO I
A continuación se resume el uso de los scripts utilizados para el parseo de la información y su
inserción en las tablas de la base de datos.
Las tablas se encuentran en el fichero tablas.sql. Hay un total de 12 tablas.
La primera tabla (ensgene_list) almacena la lista de genes con identificador de Ensembl. Los
genes se insertan desde un fichero que los contiene mediante el script insert_gene_list.pl.
La segunda tabla (context) almacena los datos de la expresión génica. Del fichero descargado de
THE HUMAN PROTEIN ATLAS que contiene la expresión de proteínas humanas, se filtraron
los datos para almacenar solamente la expresión de los genes de la lista almacenada, con el
script llamado cont_filt.pl. A continuación, con el script insert_context.pl se insertaron los datos
en la tabla.
La tercera tabla (ensprotein_id) almacena la conversión de los identificadores de Ensembl para
los genes y las proteínas. Una vez mapeados los genes en la herramiento online de BioMart, se
procesó el fichero para eliminar errores o redundancias y se insertó la información en la tabla
mediante el script insert_ensprotein_id.pl.
La cuarta tabla (interactions) contiene la información relativa a las interacciones. Del fichero
descargado de STRING, que contenía todas las interacciones en proteínas humanas, se filtraron
aquellas en las que participaban genes de la lista (con extrac_int_from_STRING.pl),
generándose un fichero del que se toma la información para introducirla en la base de datos (con
insert_interactions.pl).
La quinta tabla (modifiers) almacena la clasificación de los modificadores a partir de un fichero
creado manualmente, se procesa el fichero y se insertan los datos con el script
insert_modifiers.pl.
La sexta tabla (hgnc_alias_id) contiene la conversión del nombre del gen y sus sinónimos a
identificador de Ensembl. En este caso, la información se parseó directamente del fichero de
uniprot que contenía la información de todas las proteínas descargadas y se introdujo en la base
de datos, mediante insert_hgnc_id.pl.
Las séptima (acc_list) y octava(acc_uniprot_id) tablas son las que corresponden a la conversión
de los números de acceso de uniprot al identificador del gen en la nomenclatura de Ensembl. Se
tomaron los datos directamente del parseo de uniprot usando el script insert_into_acc_tables.pl.
25
En la tabla acc_list se introdujeron todos los accesion number de cada proteína y en la tabla
acc_uniprot_id se introdujeron los accession number para las proteínas que contenían varios,
siendo uno de ellos el principal y los demás asociados a la misma proteína.
Las novena (protein_info) y décima (gene_ontology) tablas contienen información sobre la
descripción de la proteína, organismo al que pertenece, estado, última actualización y los
términos de gene ontology asociados. Se parseó el fichero de uniprot y se insertó al información
directamente en las tablas, usando el script insert_protein_go.pl.
Las dos últimas tablas, complexes y complexes_subunits contienen todos los complejos
registrados en humanos que contiene la base de datos CORUM. La primera tabla contiene la
información básica de cada complejo (nombre, función, subunidades que lo componen, método
de purificación) y la segunda contiene una lista de todas las subunidades de todos los complejos,
indicando a qué complejo pertenecen. Los datos se procesaron y almacenaron usando el script
insert_context.pl.
Finalmente, el archivo retrieve.txt contiene una muestra de queries utilizadas en porstgreSQL
para la recuperación de datos de la base de datos.
26