Download Especial: Bases de datos con integración de fenotipo

Document related concepts

COSMIC (base de datos) wikipedia , lookup

Genotipo wikipedia , lookup

Genómica funcional wikipedia , lookup

Diagnóstico Molecular wikipedia , lookup

Genética inversa wikipedia , lookup

Transcript
Especial: Bases de datos con integración de fenotipo-genotipo
Bases de datos con integración de
fenotipo-genotipo
Autores:
Julio Bonis Sanz, Ferrán Sanz
Grup de Recerca en Informàtica Biomèdica (GRIB),
Institut Municipal d’Investigació Mèdica, Universitat Pompeu Fabra, Barcelona.
1. INTRODUCCIÓN
28
Uno de los puntos clave en la sinergia entre los campos
clásicos de la bioinformática y la informática médica es la
generación de bases de datos que integren información
genotípica y fenotípica.
El desarrollo de estas bases de datos no es un asunto
baladí, pues de ello depende en gran medida que las promesas de la revolución genómica tengan impacto en la
salud humana. Pese a que en un principio pudiera parecer
sencillo, son numerosas las dificultades a superar cuando se
trata de combinar datos de naturaleza tan heterogénea.
Comparando la información genotípica con la fenotípica,
la impresión general es que la primera está muy bien
estructurada en un marco concreto, mientras que la segunda se presta a mayor ambigüedad e inexactitud.
Así, la secuencia concreta de un gen, o la descripción
de los alelos presentes en un individuo para un determinado polimorfismo de un nucleótido son datos que a priori se prestan a un tratamiento informático más inmediato
en tanto a que se trata de información bien estructurada
y concreta. sin embargo, la descripción clínica de una auscultación en un paciente que sufre de bronquitis crónica es
un fragmento de información de naturaleza más difusa,
de tal modo que la forma de tratarlo informáticamente se
presenta menos evidente.
Conforme nuestro conocimiento sobre el funcionamiento de la maquinaria genómica y proteómica avanza, la
naturaleza de los datos tratados por parte de la bioinformática gana en complejidad y por tanto en ambigüedad.
Así mismo, el avance en las técnicas diagnósticas y la tendencia creciente en el campo de la clínica a la protocolización sistemática hacen que las descripciones clínicas
sean cada vez más estructuradas.
En este marco es donde se están desarrollando las nuevas bases de datos que contienen tanto datos genotípicos
como fenotípicos. En este artículo revisamos algunas de las
disponibles actualmente.
En un primer grupo podría englobarse aquellas bases de
datos más generales que no se limitan a una enfermedad
o gen concreto. En el caso de las enfermedades que por
su escasa prevalencia se han denominado “enfermedades
raras” estas bases de datos son muy útiles pues permiten
la obtención de datos sobre casos clínicos a escala mundial, facilitando la compresión de las bases moleculares de
estas enfermedades. Existen varias iniciativas en el campo
de las enfermedades metabólicas raras.
También existen bases de datos centradas en los aspectos farmacogenómicos, o en aquellas en las que se observa un patrón de herencia mendeliano.
RAMEDIS (http://www-bm.ipk-gatersleben.de/stable/php/ramedis/).
Es una base de datos de enfermedades metabólicas raras.
La idea es recoger la información de investigadores distribuidos mundialmente para combinar los datos fenotípicos
y genotípicos y obtener tamaños suficientes. Por el
momento se han recogido 87 enfermedades metabólicas
raras, y se dispone de información sobre 665 pacientes.
Se puede buscar por síntoma, por valores de laboratorio,
por terapia administrada, por tipo de dieta, por tipo de
mutación genética o por diagnóstico. Es de especial interés la codificación de los síntomas y otras mediciones clínicas, como el peso y la talla, en una línea temporal.
METAGENE (http://www.metagene.de/) Metagene es un
repositorio de datos sobre enfermedades metabólicas. La
base de datos ofrece acceso a información detallada
sobre 373 enfermedades metabólicas, incluyendo información sobre el genotipo causante, datos clínicos y de
laboratorio y enlaces a publicaciones recientes. Incluye
enlaces dinámicos a OMIM y Expasy.
Online Mendelian Inheritance in Man (OMIM).
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM) Se trata de
un catálogo de genes humanos y enfermedades genéticas con enlaces a referencias bibliográficas, secuencias,
mapas genéticos y bases de datos relacionadas. Es mantenido de manera manual.
PharmGKB (http://pharmgkb.org/) Es una herramienta desarrollada por la universidad de Stanford. Su objetivo es ayudar a los investigadores a comprender como las variaciones genéticas pueden contribuir a distintas respuestas a
fármacos.
Especial: Bases de datos con integración de fenotipo-genotipo
La base de datos es un repositorio con información clínica y genética sobre pacientes que han participado en
estudios de investigación en diversas clínicas pertenecientes a la “NIH Pharmacogenetics Research Network”.
Incluye datos genómicos así como datos fenotípicos a
nivel celular. Además integra información sobre vías metabólicas a través de la Gen Ontology. Permite búsquedas
por enfermedad, por gen, por fármaco y mucho más.
Human Genome Variation Database (http://hgvbase.cgb.
ki.se/) Aunque aún no incluye información fenotípica al día
de hoy, es de destacar que esta gran base de datos ha
decidido orientarse hacia la integración fenotipo/genotipo, y en la actualidad se encuentra en un periodo de rediseño en este sentido.
Otras bases de datos se centran en un gen o locus determinado. Suelen tratarse de genes cuya disfunción produce
la aparición de enfermedades denominadas monogénicas o bien genes que han mostrado tener un papel fundamental en la regulación de procesos celulares críticos
(como el p53).
PAHDB (http://www.pahdb.mcgill.ca/). Una de las bases de
datos centradas en un locus determinado. En este caso en
el locus de la enzima fenilalanina hidroxilasa (PAH). La
base de datos es alimentada de manera manual. Las
mutaciones en alguno de los 13 exones de la PAH producen generalmente hiperfelinalaninemia, en algunos casos
con fenilcetonuria. Los datos son recogidos por una red de
82 investigadores distribuidos en más de 30 países.
Permite búsquedas por nombre de mutación, población, localización geográfica, región del gen, número de
codón, tipo de mutación, tipo de sustitución, fenotipo y
muchas más.
FBN1(http://www.umd.necker.fr/Site%20Marfan/01AHOME%20PAGE
.html). En un esfuerzo para estandarizar la información relativa a las mutaciones en el gen FBN1, un grupo de investigadores genero una base de datos en formato de tabla
simple con información sobre las mutaciones en el gen de
la fibrilina, tanto publicadas en la literatura como en congresos y comunicaciones. Incluye información a nivel del
gen, como el exon y el codón, la variante salvaje y mutante, el tipo de mutación. A nivel de la proteína incluye información sobre el cambio de aminoácido y el dominio afectado y a nivel clínico incluye información sobre la ausencia o presencia de diversas alteraciones esqueléticas, oculares, cardiovasculares o neurológicas.
Base de datos sobre p53 (http://p53.curie.fr/). Incluye más
de 15000 registros sobre variantes del p53, con información tanto genética como clínica y anatomopatológica.
Hipercolesterolemia familiar congénita. (http://www.
umd.necker.fr/LDLR/research.html).
Esta base de datos, en forma de tabla, incluye información
sobre polimorfismos (cebadores, métodos de obtención, localización, frecuencias en poblaciones) y mutaciones (incluyendo tanto fenotipos como los niveles de colesterol total, población e información de la mutación a nivel genético)
Deficiencias en tetrahidrobiopterina (http://www.bh4.org/).
Esta base de datos incluye información sobre el gen, la
región, el polimorfismo y las características clínicas asociadas.
PAX6 (http://pax6.hgu.mrc.ac.uk/).La “PAX6 Allelic Variant
Database” incluye información sobre genotipos y fenotipos
relacionados con este gen.
Receptor androgénico (http://srs.ebi.ac.uk/srs5bin/cgi-bin/
wgetz?-page+LibInfo+-id+4Flds1F1PA4+-lib+ANDROGENR). La base
de datos sobre mutaciones en el receptor androgénico
incluye información tanto de la mutación a nivel molecular como de la enfermedad producida, los antecedentes
familiares e incluso datos farmacodinámicos.
Otra de las posibles aproximaciones es centrar el diseño
de la base de datos en torno a una enfermedad compleja, de herencia poligénica, como el cáncer o la esquizofrenia.
Cáncer de Mama (http://condor.bcm.tmc.edu/ermb/bcgd/). La
“Breast Cancer Gene Database” incluye información enlazada sobre distintos genes y las características clínicas y
anatomopatológicas de casos de cancer de mama. Se
basa en datos publicados en la literatura científica y su
mantenimiento es manual.
SNP500Cancer (http://snp500cancer.nci.nih.gov/home.cfm). El
proyecto SNP500Cancer resecuenció 102 muestras de
referencia procedentes de 4 grupos étnicos a partir del
Coriell Biorepository (Camdem, NJ). El objetivo es la validadción de los SNPs y otras variantes genéticas y su impacto en la epidemiología del cancer.
DSV Database for Schizophrenia candidate genes
focusing on Variations (http://bioinfo.tsinghua.edu.cn:8080/
vsd/index.php). Esta base de datos contiene 23648 variantes
en un total de 186 genes, de los cuales 45 han sido relacionados con diversos aspectos clínicos y farmacogenómicos de la esquizofrenia, y el resto (141) pertenecen a
rutas metabólicas potencialmente relacionadas.
El presente artículo ha tratado de revisar algunas de las
bases de datos disponibles actualmente que integran tanto
información genotípica como fenotípica en humanos. El
diseño conceptual de estas bases de datos, bien sean centradas en un gen específico, en una patología específica o
mediante un abordaje más generalista, tiene un impacto
importante en la viabilidad de las mismas, por la complejidad de su mantenimiento y actualización constante.
Es necesario el desarrollo de marcos de diseño que permitan la integración de datos moleculares y clínicos, por
ejemplo mediante el uso de ontologías comunes o el
mapeado de ontologías ya disponibles en los distintos
dominios. También será fundamental trabajar en el desarrollo de métodos de alimentación automática de datos,
bien a través de la colaboración de grupos de investigación dispersos geográficamente a través de interfaces y
modelos de datos unificados, o a través de técnicas de
minería de textos que permita extraer la información disponible en la literatura científica.
29