Download apuntes sobre tema del genoma humano

Document related concepts

Proyecto del genoma wikipedia , lookup

Proyecto Genoma Humano wikipedia , lookup

Genoma humano wikipedia , lookup

Montaje de secuencias wikipedia , lookup

Secuenciación del genoma wikipedia , lookup

Transcript
EL PROYECTO GENOMA HUMANO
ANTONIO JOSÉ CARUZ ARCOS
ÍNDICE
PÁGINA
INTRODUCCIÓN
2
ESTRATEGIAS DE SECUENCIACIÓN
5
CONSORCIO PÚBLICO
5
CELERA
9
ANÁLISIS DE LA INFORMACIÓN CONTENIDA EN EL GENOMA HUMANO 10
CONTENIDO EN SECUENCIAS REPETIDAS
10
CONTENIDO EN GENES
19
VARIABILIDAD DEL GENOMA
PERSPECTIVAS
29
31
GENOMA HUMANO Y BIOLOGÍA
32
GENOMA HUMANO Y MEDICINA
34
Proyecto genoma humano
INTRODUCCIÓN
El resdescubrimiento de las leyes de Mendel a principios del siglo XX constituyó una
1
revolución en Biología que creó los cimientos para el desarrollo posterior de la Genética . El
progreso científico en este campo podría dividirse en cuatro fases que se corresponden
aproximadamente con los cuatro cuartos del siglo XX. En la primera se establecieron las bases
celulares de la herencia, los cromosomas, la segunda permitió definir la base molecular de la
herencia: los ácidos nucleicos. En la tercera se descubrió la base de la expresión de la
información genética, con el descubrimiento de los mecanismos biológicos por los cuales las
células decodifican la información contenida en los genes y con la invención de las tecnologías
del ADN recombinante de clonación y secuenciación; la Genética se dotó de unas herramientas
poderosísimas para el estudio de la estructura y función del material hereditario. El último
cuarto de siglo ha estado marcado por el esfuerzo mantenido por descifrar la información de
genomas completos y comprender su estructura, función y evolución. El fruto de este trabajo
incluye actualmente la secuencia completa de los genomas de 570 virus, 16 arqueobacterias,
136 bacterias y 22 eucariotas entre los cuales destacan por su importancia como modelos en
Genética Saccharomyces cerevisiae, Drosophila melanogaster, Caehnorabditis elegans, Mus
musculus y Arabidopsis thaliana.
El proyecto de secuenciación del genoma humano (PGH) fue planteado a principios de
la década de los 80 por el consejo nacional de investigación de Estados Unidos (US National
Research Council) que consideraba que adquirir una visión global de la estructura del genoma,
podría acelerar enormemente la investigación sobre la Biología humana y comprender:
1. La evolución de la humanidad
2. El origen de muchas enfermedades
3. La interrelación entre el ambiente y la herencia en la expresión fenotípica de la
condición humana
La generación de esta visión global requería un esfuerzo común en infraestructura,
financiación y coordinación entre diferentes laboratorios como nunca hasta entonces había sido
planteado en la investigación biológica. El PGH estaba sustentado en una base tecnológica
previa que permitieron cristalizar el proyecto:
• En 1977 Sanger describió una nueva metodología para determinar el orden de
2
nucleótidos de ADN utilizando dideoxinucleótidos . Ese mismo año el primer gen
humano fue aislado y secuenciado. Entre 1977 y 1982 se secuenciaron los virus
3
bacterianos φX174
1
4
5
y lambda , el virus animal SV40
y el ADN mitocondrial
De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).
Tschermak, E. . Über Künstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900).
Correns, C. G. Mendels Regel Über das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen
Gesellschaft,18: 158-168. (1900)
2
Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463-
7.(1977).
3
Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).
2
Antonio José Caruz Arcos
6
humano . Estos proyectos confirmaron que el ensamblaje de pequeños fragmentos
de secuencia hasta completar pequeños genomas completos era factible, y mostró
el valor de contar con un catálogo completo de los genes y secuencias reguladoras
para comprender el binomio estructura-función, que caracteriza la expresión
genética de los genomas estudiados.
7
• En 1986 Hood describió una mejora en el sistema radiactivo de secuenciación
de Sanger que hacía uso de fluorocromos unidos a los dideoxinucleótidos lo
que permitía la lectura secuencial por un ordenador acoplado a un laser. El
primer secuenciador automático fue desarrollado por Applied Biosystems en
1987, demostrando su capacidad cuando dos nuevos genes fueron
identificados
utilizando
esta
8
tecnología .
Los
primeros
intentos
de
secuenciación de fragmentos cromosómicos humanos revelaron que contar
con secuencias de ADNc procedentes de la retrotranscripción de ARNm sería
esencial para anotar y validar las predicciones de genes en las secuencias
9
humanas . Estos estudios fueron en parte la base para el desarrollo del método
de identificación génica denominado Expressed Sequence Tags (EST). La
información suministrada por los EST permitió un rápido descubrimiento y
10
mapeo de muchos genes humanos . La cantidad creciente de datos generado
por la secuenciación de bancos de ADNc hizo imprescindible el desarrollo de
nuevos algoritmos informáticos para analizar la información y en 1993 The
Institute for Genomics Research (TIGR) puso a punto un programa que
11
permitía el ensamblaje y análisis de cientos de miles de ESTs .
• Los programas para crear un mapa físico de clones que cubrieran los genomas
12
de la levadura
13
y nematodo , para permitir el aislamiento de genes y regiones
completas basándose sólo en su posición cromosómica.
• El programa para crear un mapa genético humano que hiciera posible la
localización de genes de enfermedades de función desconocida, basándose
14
solamente en los patrones de ligamiento a genes de posición conocida .
4
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.
162, 729-773 (1982).
5
. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978).
6
Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981).
7
Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986).
8
J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA
sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) .
9
McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al.
Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992).
10
Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of
2,375 human brain genes. Nature. 357(6377):367-8.(1992).
11
Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.
Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature.
377(6547 Suppl):3-174.(1995).
12
Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986).
13
Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.
Natl Acad. Sci. USA 83, 7821-7825 (1986).
3
Proyecto genoma humano
• Desarrollo de poderosas herramientas bioinformáticas que permiten el
ensamblaje de secuencias solapantes de grandes fragmentos de información
genética, así como la optimización de algoritmos para la identificación de genes
y secuencias reguladoras.
• Desarrollo de nuevos equipos de manipulación masiva de muestras (robots) así
como de sistemas de secuenciación a gran escala (ABI 3700).
En 1985, el Consejo Nacional de Investigación de Estados Unidos, recomendó un
programa muy amplio en el que se desarrolla en paralelo la secuenciación de organismos
15
modelo como bacterias, levadura, mosca y nematodo . A priori, el programa debía centrarse
en las zonas de ADN más interesantes, así como en las regiones génicas codificadoras,
dejando para una etapa posterior el análisis del enorme contenido de ADN repetitivo de
distintas clases que existe en el genoma. Simultáneamente había que ir desarrollando toda una
infraestructura de técnicas instrumentales y de análisis de la información generada (programas
informáticos potentes para gestionar las secuencias y extraer sentido biológico de ellas, nuevos
algoritmos, redes de ordenadores interconectados, bases de datos entrelazados, etc.). El
proyecto contó con una asignación inicial sólo en Estados Unidos de unos 3000 millones de
dólares para un periodo de 15 años. Otros países también fueron incluidos en el proyecto
inicial, Gran Bretaña fue financiada por el Consejo de Investigación Médica (MRC) y la
fundación privada Wellcome Trust, en Francia por el Centre d´Etude du Polymorphisme Humain
y la asociación francesa contra la distrofia muscular y Japón por el Ministerio de Educación y
Ciencia. Posteriormente otros países se incorporaron al proyecto como China y Alemania.
Pero el proyecto público ha tenido un competidor muy serio en la empresa privada
Celera, que en 1999 inició un programa de secuenciación del genoma humano independiente
motivado por intereses comerciales. Ello supuso una auténtica revolución en el consorcio
público que degeneró en una frenética carrera para alcanzar la meta antes que el competidor.
Aunque Celera estuviese fundamentalmente motivada por intereses económicos (patentes de
genes, identificación de genes asociados a enfermedades, etc.) su contribución ha sido enorme
en estrategia, desarrollo tecnológico y sobre todo porque ha acelerado de tal forma el trabajo
del consorcio público que el borrador del genoma ha sido publicado unos cuatro años antes de
lo programado inicialmente.
España, como es habitual, quedó al margen del mismo, tan sólo un grupo de la
Universidad Pompeu Fabra liderado por Roderic Guigó, participó en el desafío privado liderado
por Celera, contribuyendo con aplicaciones bioinformáticas para el ensamblaje de las
secuencias. Actualmente el Ministerio de Ciencia y Tecnología de España ha creado una
16
fundación llamada Genoma-España
que financia proyectos de investigación en genómica.
También existe un programa específico de financiación a través de los fondos generales del
Ministerio, pero considero que llega muy tarde y que las cuantías de los proyectos financiados
14
Berry, R. et al. Gene-based sequence-tagged-sites (STSs) as the basis for a human gene map. Nature Genet. 10, 415-423 (1995).
15
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
16
www.gen-es.org
4
Antonio José Caruz Arcos
no alcanzan el mínimo necesario para que nuestro país ocupe el puesto en el campo de la
nueva Biología que le corresponde por su capacidad económica y por el sustrato de
investigadores en la materia que tiene. La base tecnológica genómica está constituyendo ya
una nueva revolución biológica con aplicaciones en la industria farmacéutica, medicina,
agricultura y ganadería, sectores esenciales para el desarrollo económico del país.
A continuación pasaremos a revisar las dos estrategias de secuenciación que han
seguido tanto el consorcio público como Celera. En el siguiente apartado veremos la
información obtenida del análisis de la secuencia, fundamentalmente el contenido de
elementos repetidos (transposones, repeticiones simples y duplicaciones) así como el
contenido en genes del genoma. Luego se analizará la información suministrada por la
genómica comparativa y las perspectivas que ha abierto el PGH en la investigación biomédica
que va a condicionar el desarrollo de la Genética durante el próximo siglo.
ESTRATEGIAS DE SECUENCIACIÓN DEL GENOMA HUMANO
Consorcio público (Secuenciación mediante shotgun jerárquico )
Es una estrategia basada en el ordenamiento de los clones de varias genotecas
humanas y su asignación precisa a una localización cromosómica concreta antes de abordar la
17
secuenciación. Tras las propuestas iniciales , que partieron del ministerio de energía de los
EEUU (DOE), al que enseguida siguieron los Institutos Nacionales de la Salud (NIH), quedó
claro que este magno proyecto no podía consistir en la secuenciación exclusivamente, sino que
habría de constar de varias etapas encadenadas, comenzando por la elaboración de mapas
genéticos y físicos de resolución cada vez mayor.
El soporte que se ha utilizado para clonar los distintos fragmentos del genoma son
unos plásmidos denominados BAC
18
(Cromosomas Artificiales de Bacterias) y PAC
(Cromosomas Artificiales de P1), que tienen unas características especiales que los hacen
imprescindibles para el PGH. Los plásmidos BAC derivan del célebre plásmido F de E. coli y
presenta una característica muy importante: tiene un sistema genético que controla el número
de copias por bacteria, limitándolo a una sola. Esta propiedad es fundamental para la
estabilidad de insertos grandes derivados de secuencias genómicas ricas en elementos
repetidos que pueden sufrir procesos de recombinación y por tanto de pérdida, inversión o
translocación de fragmentos. Los plásmidos PAC incluyen un sistema regulador del número de
copias similar en estructura a los BACs pero derivados del bacteriófago P1 de E. coli. Entre las
virtudes de estos vectores podríamos destacar las siguientes:
•
Los insertos pueden ser enormes entre 50 y300 Kpb, con un tamaño medio de 150 Kpb
•
Más estables que los cromosomas artificiales de levadura (YACs)
17
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
18
Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).
Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128
(2000).
5
Proyecto genoma humano
•
Crecen más deprisa que los YACs
•
Más fácil purificación del ADN a partir de cultivos bacterianos
•
Permite un eficaz escrutinio mediante hibridación o PCR.
•
Posibilidad de selección por color de clones recombinantes
•
Sitio de clonación múltiple muy completo
Las genotecas genómicas fueron construidas a partir de muestras de ADN aisladas de sangre
y semen de 8 hombres anónimos procedentes de diferentes orígenes geográficos, para tener
19
una representación de la variabilidad genética humana . El ADN original fue digerido con
varias enzimas de restricción que producían cortes solapados en un mismo trozo de
cromosoma, consiguiéndose una redundancia de 65 veces. Una vez generada la genoteca, el
PGH hizo uso de dos tipos de cartografía para caracterizarlas, aunque en última instancia los
mapas generados por los distintos métodos fueron correlacionados e integrados: cartografía
genética de ligamiento y cartografía física.
Cartografía genética de ligamiento.
La cartografía genética se basa en el cálculo de la frecuencia con la que se coheredan
formas alternativas (alelos) de dos loci genéticos que están ligados formando parte de un
mismo cromosoma. Hasta la aparición de las técnicas moleculares, los mapas genéticos de
ligamiento en humanos eran bastante rudimentarios, ya que en su elaboración no se pueden
hacer cruces dirigidos (por obvios motivos éticos) y porque los datos habían de basarse casi
exclusivamente en la comparación de fenotipos normales y los mutantes correspondientes a
determinadas enfermedades genéticas, y en el recurso a análisis de familias, a ser posible con
registros de varias generaciones y con gran número de individuos.
La revolución de la cartografía genética de ligamiento sobrevino cuando en los años 80
se recurre al análisis molecular de zonas de ADN no codificadoras y que son muy polimórficas:
existen varios tipos de secuencias (algunas de ellas de naturaleza repetitiva, como los VNTR,
los microsatélites, etc.), dispersos por el genoma, cada uno de ellos con varios alelos en el
20
ámbito poblacional . Entre las ventajas de los microsatélites se cuentan: contenido informativo
muy alto, con lo que los análisis estadísticos mejoran en fiabilidad; distribución abundante y
relativamente uniforme por todo el genoma; y que se pueden identificar fácilmente mediante
PCR. Además, estos loci genéticos sirven en genética clínica como marcadores útiles para
localizar genes relacionados con enfermedades. Los polimorfismos moleculares han permitido
que en la actualidad el PGH haya generado detallados mapas genéticos del genoma humano a
un nivel de resolución en torno a 1 centimorgan (cM) o incluso menos. Esto ya se logró en
21
1994, un año antes de lo previsto, y en buena parte con resoluciones mejores (0.7 cM) .
19
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
20
Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995).
21
Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon
human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science
270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996).
Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).
6
Antonio José Caruz Arcos
La cartografía física, tiene como objetivo especificar distancias físicas en pares de
bases (pb) o alguno de sus múltiplos. Obviamente, el mapa físico de mayor detalle es la propia
secuencia del genoma. Pero antes de llegar a obtenerla, hay que elaborar mapas físicos
partiendo de resoluciones bajas y avanzando hacia las resoluciones cada vez mayores. En
cierta manera, los mapas físicos de menor resolución son los propios cariotipos: la
visualización microscópica de la dotación cromosómica haploide humana teñida con colorante
de Giemsa nos muestra un patrón alternante de bandas claras y oscuras, en el que cada banda
tiene una media de unos 7 millones de pares de bases. Si bien los métodos citogenéticos
tienen sus limitaciones, no hay que olvidar que actualmente existen novedosas herramientas
de citogenética molecular (como las sondas fluorescentes in situ o FISH, la "pintura de
cromosomas", etc.)
22
que permiten un mayor detalle y que, unidas a otras técnicas aumentan el
arsenal de enfoques para el estudio de los genomas, de su dinámica y de sus alteraciones.
Los mapas físicos de mayor resolución se elaboran a partir de la genotecas en BAC,
utilizando dos estrategias, en cierto modo similar a la de ensamblar un rompecabezas: consiste
en ordenar los fragmentos del genoma a base de buscar grupos de fragmentos que tienen
alguna zona en común, es decir, ir hallando conjuntos de pares de fragmentos parcialmente
solapados. Ello conduce al concepto de contig: “un conjunto de fragmentos de un genoma que
se han clonado por separado, pero que son contiguos y que están parcialmente solapados”.
Los actuales mapas físicos han de recurrir pues al ensamblaje de esos fragmentos dentro de
un contig, y ulteriormente, los distintos contigs correspondientes al mismo grupo de ligamiento
han de ser ensamblados entre sí: el objetivo final (ideal) sería obtener un gran contig por cada
cromosoma, que describiera detalladamente la posición y distancia física (en bases) entre
distintos marcadores (representados, por ejemplo , por dianas para enzimas de restricción).
La metodología de los mapas físicos ha sido el desarrollo de una especie de
"marcadores físicos universales", fácilmente generables, que permiten que los datos obtenidos
en un laboratorio sean rápidamente compartidos y asumidos por toda la comunidad
investigadora: se trata de los llamados "lugares etiquetados por su secuencia" (Sequence
23
Tagged Site) . Consisten en trechos cortos de ADN de unas 300-500 pb de media, cuya
secuencia exacta se conoce y se sabe que es única en todo el genoma. Su facilidad de uso y
su aceptación como "lenguaje común" estriba en que una vez que un investigador descubre
una STS, cualquier otro puede obtenerla por sí mismo (ni siquiera hace falta el envío físico de
muestras), simplemente fabricando in vitro los cebadores correspondientes a sus extremos y
amplificando la STS por reacción en cadena de la polimerasa (PCR). Los STS definen puntos
concretos únicos del mapa físico, y constituyen magníficos "hitos" o balizas fácilmente
detectables.
Uno de los objetivos iniciales del PGH era la obtención de mapas físicos con unas
30.000 balizas repartidas de modo más o menos uniforme, de modo que cada dos marcadores
consecutivos estén separados una media de 100 kb. Este objetivo se acaba de cumplir, en
22
Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003).
23
Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).
7
Proyecto genoma humano
buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs según el
contenido de STS de los clones solapados. Estos mapas de STS permiten la integración de los
mapas genéticos y físicos, hacen accesible la fase de secuenciación y facilitan la clonación de
23
genes implicados en enfermedades mediante la llamada estrategia de clonación posicional .
Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles
errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad
híbridos o quimeras producidas por artefactos durante el proceso de elaboración de la
genoteca, y por lo tanto su mapa no refleja el orden genómico auténtico; y por otro lado, los
programas de ensamblado de los mapas no son fiables al 100%. De ahí la importancia de
confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores.
Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en
secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se
expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que
muestran el patrón de expresión diferencial según su localización histológica.
La etapa siguiente en la cartografía de cada clon BAC o PAC consiste en una versión
modificada de la técnica FISH denominada Fiber FISH, que permite hibridar el contenido de
cada clon con el genoma, determinando su posición exacta dentro de cada cromosoma así
24
como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas están mapeadas
y está identificada la posición cromosómica de cada clon, se procede a la secuenciación de
25
cada uno de ellos mediante un sistema de shotgun clásico . El cual presenta unas indudables
ventajas con respecto al sistema de paseo cromosómico que requiere la síntesis de nuevos
oligonucleótidos después de la secuenciación de los extremos para determinar la secuencia
interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del
mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media
26
de los insertos shotgun así como los sistemas de secuenciación (cadena simple o doble) . La
automatización también ha sido variable entre los laboratorios y a lo largo del tiempo, con
secuenciadores basados en tecnología de electroforesis de acrilamida o capilar. En 1999, la
mayoría se automatizaron hasta alcanzar proporciones casi industriales (7 millones de
muestras procesadas cada mes, 1000 nucleótidos secuenciados por segundo, 24 horas al día,
26
7 días a la semana) .
La secuencia completa de cada clon BAC es solapada con la de otros clones que
mapean en la misma región dando lugar a una cadena continua que contiene la información de
varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias
de mayor tamaño denominadas Scaffolds
24
que representan fragmentos de varias Mb de
Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on
yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995).
25
Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,
R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic
Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis.
Anal. Biochem. 129, 216-223 (1983).
26
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
8
Antonio José Caruz Arcos
secuencia. Toda esta fase de ensamblaje es dependiente de la bioinformática, la cual ha sido
uno de los objetivos esenciales del PGH, debido a la gigantesca cantidad de datos que hay que
recoger, analizar, comparar, interpretar y distribuir.
El ensamblaje completo del genoma humano ha dado una estima aproximada de 3200
Gb de secuencia no redundante, lo que concuerda con datos previos sobre el contenido de
26
ADN del genoma. La talla de la porción eucromática del genoma se calcula en torno a 2,9 Gb .
Celera (Secuenciación mediante shotgun genómico completo)
En 1999, Celera una empresa privada liderada por C. Venter, el antiguo director del
TIGR (The Institut for Genomic Research) emprendió la extraordinaria tarea de secuenciar por
su cuenta el genoma humano, entrando en competencia directa con el consorcio público. El
sistema utilizado por Celera para la secuenciación del genoma difiere del público en que
prescinde completamente de las etapas iniciales de localización de los clones genómicos sobre
los cromosomas. Está basada en la secuenciación directa y posterior ensamblaje de trozos
pequeños de información genética aisladas y secuenciadas independientemente y que sólo
27
posteriormente son ensambladas en contigs continuos .
La genoteca de Celera es completamente diferente a la del proyecto público, se partió
de ADN de 5 individuos de diferentes orígenes étnicos (2 hombres y 3 mujeres) y se hicieron 3
genotecas diferentes, una en plásmidos de alto número de copias (tipo pUC-18) y con insertos
de 2 Kb de media. Las otras dos genotecas de 10 Kb y 50 Kb de talla media, fueron clonadas
en el clásico vector pBR322 de bajo número de copias. Posteriormente se observaron
fenómenos de inestabilidad de la genoteca de 50 Kb y fue necesario subclonar los insertos
como fragmentos de menor talla. La estrategia de Celera incluyó el uso de la más modernas
técnicas de manipulación de muestras mediante sistemas robotizados con rastreo de origen
que permiten trabajar a un ritmo absolutamente fabuloso: 65 técnicos de laboratorio, 150
secuenciadores automáticos que generan unas 175.000 reacciones de secuenciación diarias
(650 pb de media), durante 24 horas al día y 7 días a la semana (50 millones de reacciones
aproximadamente), permitieron que en sólo 9 meses tuviesen secuenciado casi el genoma
28
completo con una redundancia de 5,11 veces por cada segmento .
El ensamblaje de esta enorme cantidad de información se llevó a cabo utilizando unas
herramientas informáticas especialmente diseñadas para el proyecto, tanto de hardware como
de software. Incluían dos estrategias generales:
•
The Overlapper, tiene su origen en la secuenciación del genoma de Drosophila y su
fundamento es la comparación de la información de cada reacción de secuenciación
con todas las demás, búsqueda de homologías con menos del 6% de heterogeneidad
en fragmentos de al menos 40 pb.
•
Comparación de los fragmentos ensamblados con la información disponible de los
clones BAC hechas públicas en la red por el consorcio internacional.
27
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
9
Proyecto genoma humano
Este sistema puede parecer algo falso ya que el gran problema de la integración de
grandes fragmentos de información generada por el software de Celera tiene un sistema de
verificación y control independiente que son los clones BAC de acceso público. Sin embargo, la
secuenciación posterior del genoma del ratón
28
usando sólo el sistema de whole genome
shotgun sin necesidad de recurrir a la información de mapeo, valida a posteriori esta radical
metodología.
Sin embargo, la información suministrada por Celera está empobrecida de elementos
repetidos, fracción muy importante del genoma completo, ya que un mismo transposón puede
tener miles de copias dispersas por todo el genoma con un grado de homología altísimo (casi
el 100%) lo que implica que si la secuenciación no incluye las secuencias flanqueantes es
28
virtualmente imposible asignarle una posición concreta en el laberinto genómico .
ANÁLISIS DE LA INFORMACIÓN CONTENIDA EN EL GENOMA HUMANO
En esta sección estudiaremos las características biológicas a gran escala que presenta
el genoma humano, así como el contenido de secuencias repetidas y de genes.
Contenido en secuencias repetidas
Una de las observaciones iniciales de la Genética Molecular fue que el tamaño de los
genomas no está correlacionado con la complejidad del organismo al que pertenece (paradoja
del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de
29
Saccharomyces cerevisiae, pero 200 veces más pequeño que el del protozoo Amoeba dubia .
Este misterio fue resuelto cuando se demostró que los genomas pueden contener una enorme
cantidad de ADN altamente repetido que supera con creces el ADN implicado en la producción
de proteínas. En el genoma humano sólo el 5% son genes de los cuales tan sólo un 1%
aproximadamente son exones que se traducen a proteínas. Por el contrario, las secuencias
repetidas constituyen como mínimo el 50% del total. En general este tipo de secuencia puede
ser clasificada en 3 grupos:
1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo
pseudogenes)
2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una,
dos, tres o más bases (satélites, minisatélites y microsatélites)
3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido
copiados desde una región a otra diferente
Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los
investigadores, sin embargo actualmente están consideradas como una de las más potentes
28
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
29
Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA
content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low
C. Nature Rev. Genet. 1, 145-149 (2000).
10
Antonio José Caruz Arcos
fuerzas que determinan la evolución de los genomas, siendo utilizadas además como
herramientas en Genética médica y forense. También han despertado el interés de los
farmacólogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes
parálogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas
duplicaciones están asociadas con enfermedades genéticas producidas por fenómenos de
microdeleción generados por recombinación desigual entre ellos.
A continuación profundizaremos en el análisis de cada uno de estos tipos de elementos
repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en
estudios sobre la evolución humana y sus implicaciones médicas.
Repeticiones derivadas de transposones
La mayoría de las repeticiones presentes en el genoma humano, derivan de la
actividad de los transposones, aproximadamente un 45% de nuestro genoma pertenece a esta
clase de secuencia. En general los tipos de transposones pueden clasificar de la siguiente
30
forma :
Mecanismo replicativo
Autónomos
Dependientes
Con intermediario de ARN
Retroposones (LINES)
Retroposones (SINES)
Retrotransposones (LTR)
Sin intermediario de ARN
31
Los LINES
Transposones de ADN
(Long Interspersed Elements) tienen un tamaño medio de 6 Kb, tienen un
promotor interno para la ARN polimerasa II y codifican para dos proteínas. Una vez traducido el
ARNm se une a las propias proteínas producidas y se transloca al núcleo, donde una actividad
endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el
ADN monocatenario generado por el corte como cebador para la síntesis del ADNc. Muchas
veces la retrotranscriptasa no alcanza el extremo 5´del ARNm generando elementos truncados
no funcionales. De hecho la mayoría de estos elementos tienen una talla media de 900 pb
(LINE 1). El sitio de inserción presenta una duplicación de 7 a 20 pb. La actividad enzimática de
estos elementos es la responsable de la mayoría de la actividad retrotranscriptasa del genoma
humano y pueden actuar en trans sobre ARN que presenten cierta homología de secuencia en
su extremo 3´terminal como son los elementos SINE. En el genoma humano existen 3 familias
31
de LINES y sólo una de ellas continua en activo (LINE 1) .
31
Los elementos SINES
(Short Interspersed Elements), son pequeños tienen una talla
media de 100-400 pb, no codifican para proteínas y contienen un promotor interno de la ARN
polimerasa III. Utilizan en trans la maquinaria de los LINE por homología con el extremo 3´ de
los mismos. La mayoría de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)
30
31
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
11
Proyecto genoma humano
aunque la más prolífica y aún activa en nuestro genoma, denominada Alu, procede de un ARN
pequeño no codificante que está implicado en el transporte de proteínas (7SL).
Los retrotransposones
30
están flanqueados por dos repeticiones largas terminales
(LTR) que contienen todas las señales en cis de inicio de la transcripción. Contienen dos genes
principales gag y pol, que codifican para varias proteínas independientes: proteasa,
retrotranscriptasa, ARNasa-H e integrasa. Los retrovirus derivan de estos elementos por la
incorporación de un gen extra denominado env (envuelta) que les permite realizar una
transposición cruzada entre dos genomas. Los datos avalan la hipótesis de que los genes env
32
de retrovirus proceden de receptores de superficie de virus como Baculovirus o Herpesvirus .
El sistema de replicación incluye también un intermediario de ARN pero las
características de la retrotranscripción son completamente diferentes a los LINES, utilizando
como cebador para la síntesis del ADNc un ARNt específico. Los retrotransposones de
mamíferos pertenecen a 3 clases generales (I, II y III) cada uno de ellos con muchas familias.
En el genoma humano casi el 85% de las secuencias derivadas de retrotransposones constan
sólo de LTRs aisladas o elementos truncados no funcionales.
Los transposones de ADN
33
son muy similares a los bacterianos, con repeticiones
terminales invertidas y con una movilidad dependiente de un sistema de corte y pegado que
puede ser replicativo o conservativo. El genoma humano contiene unas 7 clases generales que
se dividen en varias familias según su grado de parentesco filogenético. Los transposones de
ADN presentan una vida funcional relativamente corta en un genoma, ya que a diferencia de
los elementos LINE en los que hay una preferencia en cis para la inserción (sólo se transponen
los funcionales), la transposasa codificada por estos elementos es producida en el citoplasma
pero ejerce su actividad en el núcleo donde no puede distinguir entre las formas activas o
inactivas de los elementos. Por ello cuando el número de copias no funcionales se incrementa
en el genoma, la transposición comienza a ser cada vez menos eficaz y el elemento sufre una
muerte funcional. Para sobrevivir en el tiempo, necesitan colonizar nuevos genomas mediante
34
transferencia horizontal y existen numerosas pruebas que indican que así ocurre .
El censo de transposones en el genoma humano ha revelado unas cifras
extraordinariamente altas (ver tabla 1):
32
•
SINES: 13%
•
LINES: 20%
•
LTR: 8%
•
Transposones de ADN: 3%
Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses.
Genome Res. 2000 10(9):1307-18.
33
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
34
Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-
586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155,
273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between
Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within
the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).
12
Antonio José Caruz Arcos
Tabla 1: Número de copias y fracción del genoma para cada clase de transposón35
Tipo de transposón
SINEs
Alu
MIR
MIR3
LINEs
LINE1
LINE2
LINE3
LTR
ERV-I
ERV(K)-II
ERV-L
MaLR
Elementos de ADN
MER1-Charlie
Zaphod
MER2-Tigger
Tc2
Mariner
Similar a PiggyBac
Otros
No clasificados
Copias
(x1000)
1,558
1,090
393
75
868
516
315
37
443
112
8
83
240
294
182
13
57
4
14
2
22
3
Total de
bases en el
genoma
359.6
290.1
60.1
9.3
558.8
462.1
88.2
8.4
227.0
79.2
8.5
39.5
99.8
77.6
38.1
4.3
28.0
0.9
2.6
0.5
3.2
3.8
% del
genoma
13.14
10.60
2.20
0.34
20.42
16.89
3.22
0.31
8.29
2.89
0.31
1.44
3.65
2.84
1.39
0.16
1.02
0.03
0.10
0.02
0.12
0.14
Nº de familias
(subfamilias)
3
1 (20)
1 (1)
1 (1)
3
1 (55)
1 (2)
1 (2)
4
72 (132)
10 (20)
21 (42)
1 (31)
7
25 (50)
4 (10)
12 (28)
1 (5)
4 (5)
10 (20)
7 (7)
3 (4)
Los transposones han constituido una poderosa fuerza en la configuración actual de
nuestro genoma, la actividad de los transposones ha dado lugar a varios fenómenos
36
importantes que podríamos resumir de la siguiente manera :
•
Producción de pseudogenes funcionales
•
Producción de nuevos genes
•
Generación de nuevos patrones de expresión génica
•
Agentes del caos cromosómico
Los
pseudogenes funcionales pueden aparecer por inserción de un ADNc
retrotranscrito en
una posición cercana a un promotor, cambiando el patrón original de
expresión de dicho gen (tabla 2). También nuevos patrones de expresión génica pueden
aparecer por la inserción de un elemento completo o un fragmento del mismo en las
proximidades una región codificante, generando nuevas secuencias reguladoras en cis como
promotores completos, potenciadores y silenciadores de la transcripción, sitios de splicing. Este
fenómeno ha sido observado fundamentalmente con LTR aisladas procedentes de
retrotransposones defectivos (tabla 3).
Nuevos genes tambien han aparecido por fusión accidental de secuencias procedentes
de transposones con genes humanos como una familia de unos 11 factores de transcripción
(Zn finger) híbridos o han sido probablemente tomados directamente de transposones por
ejemplo:
35
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
36
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999).
13
Proyecto genoma humano
•
Recombinasas RAG1 y RAG2
•
Proteína principal centromérica (CENPB)
•
Telomerasa
•
Transposasa de expresión cerebral
Tabla 2: Genes funcionales con origen en la actividad de transposones37
Retrogen, expresión,
cromosoma
Gen original, expresión
cromosoma
CARACTERÍSTICAS
Intrones
Poli-A
Repeticiones
directas
Fosfoglicerato kinasa
testicular;
Chr 9
Pgk-1; constitutiva; chr X
No
+
+
Piruvato
deshidrogenasa
(Pdha2); testículo; chr
12
Pdha1; constitutiva; chr
X
No
+
+
Calmodulin; tejido
epitelial; chr 10
CaMIII; ubícua; chr 2
No
Glutamato deshid.
(GLUD2);
retina, testículo,
cerebro; X
GLUD1; ubícua; chr 10
No
+
+
Factor splicing
pancreas, bazo,
próstata; chr 11
PR264/SC35; timo, bazo,
riñón, pulmón; chr 17
No
+
+
CDY, chr 15
CDYL; ubícuo chr 13
No
+
REFERENCIA
38
39
40
41
42
43
Los transposones no sólo han influido a nivel molecular como acabamos de ver, sino
que se han postulado como responsables en parte de procesos de cambio en la estructura de
cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen
de algunos fenómenos de especiación. Este papel de inducción de la inestabilidad
cromosómica ha sido estudiado en Drosophila melanogaster
44
y Zea mais
45
entre otros
organismos.
37
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999).
38
Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol.
(1988)
39
Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339–
1344. Biochim. Biophys. Acta 1131, 83–90. (1992).
40
41
Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 1507–1515. (1993).
Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues
encoded by an X-linked intronless gene. J. Biol. Chem. 269, 16971–16976. (1993).
42
Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 4924–4934.
(1988).
43
Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome.
Nat. Genet. 21, 429–433. (1999).
44
Cáceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999).
45
Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).
14
Antonio José Caruz Arcos
Tabla 3: Elementos de control de la expresión génica derivados de transposones46
Origen
Elemento
Gen influido
Sirve como
Referencia
ERV9
LTR
ZNF80 zinc finger
Promotor
47
HERV-E
LTR
Amilasa salival
Promotor
48
LINE
Promotor
apolipoproteina
Enhancer
49
LINE-2
ALF
anexina VI, interleucina-4,
proteína quinasa C-b
Silenciador específico
de tejido
THE-1
Gen específico
Cadena pesada de las
inmunoglobulinas
Secuencia codificante
HERV-K
LTR
leptin receptor (OBRa)
Splicing
alternativo
HERV-H
LTR
HHLA2
Señal de
poliadenilación
50
51
52
53
Si comparamos el porcentaje del genoma humano ocupado por elementos
transponibles y lo comparamos con la secuencia genómica de otros eucariotas superiores
54
como Drosophila , Caenorhabditis
55
56
o Arabidopsis , podemos observar algunas diferencias
significativas. El genoma humano es mucho más rico en transposones que especies inferiores
en la escala evolutiva, si consideramos el contenido total tendríamos la siguiente imagen:
•
Drosophila: 3,1%
•
Caenorhabditis: 6,5%
•
Arabidopsis: 10,5%
•
Homo: 45%
57
Si lo comparamos con el ratón , el número en esta especie es ligeramente inferior al
del hombre (35%), pero existen dudas sobre ello, debido a que el sistema de whole genome
shotgun empleado para la secuenciación del ratón subestima el número real de elementos
46
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999).
47
Di Christofano, A., Strazzullo, M., Longo, L., La Mantia, G. Characterization and genomic mapping of the ZN80 locus: expression. A
comprehensive endogenous retroviral family. Nucleic Acids Res. 23, 2823–2830. (1985).
48
Samuelson, L.C., Wiebauer, K., Snow, C.M., Meisler, M.H. Retroviral and pseudogene insertion sites reveal the lineage of human
salivary and pancreatic amylase genes from a single during primate evolution. Mol. Cell. Biol. 10, 2513–2520. (1990).
49
Yang, Z., Boffelli, D., Boonmark, N., Schwartz, K., Lawn, R. Apolipoprotein(a) gene enhancer resides within a LINE element.
J. Biol. Chem. 273, 891–897. (1998).
50
Morgan, R.O., Fernandez, M.P. TA BC200-derived element and Z-DNA as structural markers in annexin I genes: Relevance to Alu
evolution and annexin tetrad formation. J. Mol. Evol. 41, 973–985. (1995).
51
Hakim, I., Amariglio, N., Grossman, Z., Simoni-Brok, F., Ohno, S., Rechavi, G. The genome of the THE I human transposable
repetitive elements is composed of a basic motif homologous to an ancestral immunoglobulin gene sequence. Proc. Natl. Acad. Sci.
USA 91, 7967–7969. (1994).
52
Kapitonov, V.V., Jurka, J. The Long Terminal Repeat of an endogenous retrovirus induces alternative splicing and encodes an
additional carboxy-terminal sequence in the human leptin receptor. J. Mol. Evol. 48, 248–251. (1999).
53
Mager D.L. (Polyadenylation function and sequence variability of the long terminal repeats of the human endogenous retrovirus-
like family RTLV-H. Virology 173, 591–599. 1989).
54
Myers, E. W. et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204 (2000).
55
The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: A platform for investigating biology. Science
282, 2012-2018 (1998).
56
57
Paterson, A. H. et al. Comparative genomics of plant chromosomes. Plant Cell 12, 1523-1540 (2000).
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
15
Proyecto genoma humano
transponibles, tal como ocurre cuando se comparan los resultados del consorcio público con
los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC).
El genoma humano aparece lleno de fósiles de transposones mientras que los otros genomas
tienen tendencia a tener elementos más recientes, la explicación puede estar en que en el
genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al
genoma de mamíferos, siendo el tiempo de vida media en el genoma de los elementos no
funcionales de 12 millones de años en Drosophila y en torno a 800 millones de años en los
58
mamíferos .
En el genoma humano existen dos familias predominantes relacionadas entre si los
LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos,
mientras que en los otros organismos estudiados son los transposones de ADN los que
predominan, constituyendo:
•
Drosophila: 25%
•
Arabidopsis: 49%
•
Caenorhabditis: 85%
Esta frecuencia es compartida con el genoma del ratón y sugiere que los eventos de
transmisión horizontal a la línea germinal de transposones de ADN es más difícil, debido
probablemente a limitaciones impuestas por la anatomía y el sistema inmunitario.
El análisis de los sitios de inserción de los transposones ha revelado algunos datos
importantes que se aplican en la investigación de la evolución y diversificación de la
humanidad, los elementos LINE 1 están aún activos y su transposición puede medirse incluso
en cultivos celulares. Las poblaciones humanas no son homogéneas en cuanto a la distribución
de algunos elementos LINE, ya que la inserción en ciertos puntos del genoma se produjo
59
posteriormente a la separación de dos poblaciones que tenían un origen ancestral . Por ello
han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES
presentan una serie de ventajas con respecto a otros sistemas de análisis filogenético:
•
Diagnóstico simple por PCR
•
Polimorfismos estables
•
Su presencia indica identidad de antepasados (probababilidad casi cero de
identidad de inserción)
•
La ausencia de su inserción sería incicativo del origen del árbol filogenético
•
Pueden ser incluso específicos de una sola familia
El conocimiento del genoma completo va a dotar de una herramienta potente para
estudiar en profundidad los procesos de migración y selección que han caracterizado nuestra
historia durante los últimos miles de años.
Otra aplicación potencial del análisis de los sitios de inserción de los elementos
transponibles son la identificación de zonas reguladoras a gran escala del genoma. Por
58
Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996).
59
Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,
1496-1508. (2000).
16
Antonio José Caruz Arcos
ejemplo cuando se analizó la zona del cromosoma 2 que contiene algunos genes homeóticos,
se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a
60
otros fragmentos situados en el mismo cromosoma, otros ejemplos son :
•
8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripción
•
1p36: 5% en 100 Kb, sin genes identificables
•
18q22: 4% en 100 Kb, tres genes de función desconocida
La presencia de exones codificantes para proteínas o promotores podría limitar
seriamente la inserción, pero la paradoja está en que la mayor parte de la secuencia libre de
transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora
conocida. Es altamente probable que esta observación nos esté indicando la presencia de algo
nuevo, de función desconocida pero absolutamente esencial para la supervivencia del
organismo.
Repeticiones simples repetidas en tandem
62
Constituyen el 3% del genoma humano y pueden ser divididos en tres tipos :
1. Satélites: tienen una unidad repetida de <5 hasta > 200 pb, su tamaño es muy grande e
incluye varias Mb y forman los centrómeros, aunque pueden también aparecer
dispersos por otras localizaciones genómicas
2. Minisatélites: unidad repetida de 14 a 500 pb, su tamaño hasta 20 Kb, están
relacionados con la función telomérica
3. Microsatélites: unidad repetida: 1-13pb, tamaño < 150pb, son de función variada, unos
incluyen exones, UTRs, o tiene función desconocida. Son extraordinariamente
polimórficos e inestables (se acortan o alargan a través de las generaciones).
Los satélites y minisatélites están poco representados en la secuencia final del genoma
humano, probablemente porque son inestables incluso en los plásmidos BAC. Los
microsatélites por el contrario han recibido mucha atención por parte de los investigadores
biomédicos. Constituyen la herramienta principal para realizar clonación posicional, que evalúa
la frecuencia con la que se cohereda una enfermedad o carácter fenotípico con alguno de los
microsatélites descritos (análisis de ligamiento). Este sistema está tan perfeccionado que
algunas empresas como Applied Biosystems o Beckman han optimizado un sistema que
permite genotipar el tamaño de 1200 microsatélites dispuestos a lo largo del genoma en tan
sólo 20 reacciones de PCR múltiple. En unos pocos días, contando con un conjunto lo
suficientemente amplio de familias se puede identificar la zona portadora del gen de interés con
una distancia de 10 centimorgans. El uso de otros marcadores polimórficos de la zona
candidata permite luego ir acotando la región hasta encontrar un ligamiento absoluto. El
proyecto genoma ha permitido aumentar el catálogo de microsatélites disponibles para este
tipo de aplicaciones.
60
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
17
Proyecto genoma humano
Los microsatélites también están asociados con enfermedades ya que si la
inestabilidad en el número de repeticiones incluye regiones codificantes o reguladoras puede
afectar a la expresión o función del gen afectado, por ejemplo el Síndrome del X frágil o el
Corea de Huntington tienen este origen. Se han descrito algunas enfermedades cuya base
molecular está en la inestabilidad de microsatélites formados por trinucleótidos. El
descubrimiento de la base molecular de enfermedades genéticas de origen desconocido,
podría verse potenciado mediante la búsqueda de genes que contienen microsatélites y que
61
serían susceptibles de sufrir procesos de expansión .
Duplicación de segmentos
Un 5% del genoma humano está duplicado en varias localizaciones cromosómicas
independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias
62
localizaciones cromosómicas . Probablemente son muy recientes ya que el grado de
homología es muy alto y no aparecen en especies relacionadas filogenéticamente. Las
duplicaciones pueden ser incluso específicas de una población revelando un grado más en la
variabilidad genética humana. Las duplicaciones pueden dividirse en dos tipos:
1. Intercromosómicas: Segmentos duplicados entre cromosomas no homólogos, por
ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece
63
duplicado en zonas próximas a los centrómeros de los cromosomas 2, 10, 16 y 22 .
2. Intracromosómicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo
en el cromosoma 17 aparecen duplicados en tándem 3 fragmentos de 200 Kb
64
separados por 5 Mb con un 99% de homología .
El análisis de la distribución de duplicaciones ha revelado que las regiones
pericentroméricas están constituidas fundamentalmente por duplicaciones intercromosómicas
con poca secuencia única. Tambien las regiones situadas en los telómeros tienen este origen.
En algunos casos como el cromosoma 22, una región pericentromérica de 1,5 Mb (5% de la
secuencia total del cromosoma) contiene el 52% del total de duplicaciones intercromosómicas.
Las regiones pericentroméricas son muy complejas (figura 1), parecen haber sido
bombardeadas con sucesivas inserciones. El grado de homología con la secuencia original
paráloga es muy alto (96-100%) lo que sugiere que tienen un origen muy reciente en términos
evolutivos. Las diferentes inserciones aparecen situadas entre minisatélites ricos en A+T o
C+G. A veces un solo fragmento ha sido duplicado en regiones pericentroméricas de varios
61
Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-
specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic
landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001).
62
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
63
Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.
Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA:
a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).
18
Antonio José Caruz Arcos
cromosomas, por ejemplo la región que contiene el locus ADL del cromosoma X aparece
duplicada en otros 5 cromosomas.
Figura 1: Patrón de duplicaciones del cromosoma 22, las intercromosómicas están
representadas en rojo y las intracromosómicas en azul
Varios estudios han demostrado que las poblaciones humanas son polimórficas para
otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones
sugieren que el análisis de las duplicaciones polimórficas pueden ser aplicadas como marcador
64
de dispersión de poblaciones humanas .
Contenido en genes
La definición de gen ha experimentado una evolución a lo largo de la historia de la
genética, desde los factores indivisibles mendelianos hasta un gen-una proteína pasando por
un gen-una enzima. Sin embargo la definición actual de gen es más amplia: fragmento de ADN
que contiene información funcional para la síntesis de una molécula de ARN o proteína (¡la
mayoría de los textos se olvidan de los miles de virus con genoma de ARN!). Sin embargo esta
definición oficial también podría cambiar en el futuro. Li y Graur
65
proponen que un gen es una
secuencia de ADN o ARN que es esencial para una función específica, bien sea en el
desarrollo o en el mantenimiento de la función fisiológica normal. Esta definición implica que un
gen esencial podría no necesitar ni siquiera traducirse o transcribirse a ARN.Esta definición de
gen incluiría:
1. Los genes que codifican para proteínas.
64
Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near
the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications
encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998).
65
Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).
19
Proyecto genoma humano
2. ARNs específicos que solo se transcriben.
3. Los genes reguladores sin transcriptos, tales como los orígenes de replicación (que
especifican el sitio de iniciación y terminación de la replicación del ADN).
4. Genes de recombinación (que proveen los sitios de engarce para las enzimas de
recombinación).
5. Genes de segregación (los sitios específicos para que las fibras del huso durante la
meiosis se adhieran a los cromosomas durante la segregación en mitosis y
meiosis).
A pesar de lo anterior en esta sección consideraré sólo los genes que se transcriben y
codifican para proteínas o ARN no codificantes
66
de acuerdo con el concepto mas extendido de
gen.
Genes para ARN no codificante
Existen varios tipos de ARN no codificante:
1. ARN de transferencia
2. ARN ribosómico
3. ARN pequeños nucleolares (implicados en la modificación de las bases del
ARNt y ARNr)
4. ARN pequeños nucleares (implicados en el splicing de los intrones)
5. ARN telomérico (componente de la telomerasa)
6. ARN no codificante variado, a veces con función conocida como el ARN 7SL
implicado en el transporte de vesículas o el ARN Xist asociado a la inactivación
del cromosoma X. Pueden contiener intrones y colas de adenina aunque otros
carecen de ellos.
68
La tabla 3 representa los ARN no codificantes estudiados en el genoma humano .
Se han hallado menos ARNt de los esperados, probablemente debido a que su número estaba
sobrevalorado por la presencia de pseudogenes derivados de ellos. El catálogo incluye un
ARNt específico para la selenocisteína, que incorpora este aminoácido en el codón UGA en
ciertos ARNm que incorporan una secuencia en cis específica en su extremo 3´ no traducido
(elemento SECIS). Existen miles de pseudogenes derivados de la retrotranscripción de ARN no
codificantes, especialmente U6, hY y 7SL. Este último es el origen de los elementos Alu
pertenecientes a los SINES que constituyen el 13% de la secuencia total del genoma.
El 98% del total de transcritos del genoma humano son ARN no codificantes, los ARNr
y ARTt constituyen la mayoría, sin embargo recientemente estamos asistiendo a un cambio
67
importante en la visión que tenemos de la transcripción del genoma. Según John Mattick , el
dogma central de la biología molecular está incompleto y los ARNnc constituyen una escala
más en la expresión génica de los eucariotas que permite la integración/interrelación entre
complejos patrones de actividad génica. En eucariotas superiores existen numerosos
66
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
67
Mattick J.S. Non-conding RNAs: the architects of eukaryotic complexity. EMBO reports 21, 986-991. (2001).
20
Antonio José Caruz Arcos
fenómenos genéticos poco comprendidos que incluyen ARN de interferencia, co-supresión,
silenciamiento de transgenes, impronta, metilación del ADN y compensación de dosis del
cromosoma X, todos los cuales comparten algo en común: interacciones entre ADN-ARN o
69
ARN-ARN, así como remodelación de la cromatina .
Tabla 4: Genes de ARN no codificante identificados en el genoma humano
Genes
ARNt
Número
esperado
1310
Número
encontrado
497
Genes
relacionados
324
Síntesis protéica
ARNr 18 S
150±200
0
40
Síntesis protéica
ARNr 5,8 S
150±200
1
11
Síntesis protéica
ARNr 28S
150±200
0
181
Síntesis protéica
ARNr 5 S
200±300
4
520
Síntesis protéica
U1
30
16
134
Splicing intrones
U2
10±20
6
94
Splicing intrones
U4
??
4
87
Splicing intrones
U4atac
??
1
20
Splicing intrones
U5
??
1
31
Splicing intrones
U6
??
44
1,135
Splicing intrones
U6atac
??
4
32
Splicing intrones
U7
1
1
3
Splicing intrones
U11
1
0
6
Splicing intrones
U12
1
1
0
Splicing intrones
7SL
4
3
773
Secreción proteínas
ARNasa P
1
1
2
Procesado ARNt
ARNasa MRP
1
1
6
Procesado ARNr
ARN telomérico
1
1
4
Replicación telómeros
hY1
1
1
353
Desconocida
hY3
1
25
414
Desconocida
hY4
3
3
115
Desconocida
hY5
1
1
9
Desconocida
3
1
Desconocida
Vault
Función
7SK
1
1
330
Desconocida
H19
1
1
2
Desconocida
Xist
1
1
0
ARNsno c/d
811
69
558
Inactivación
cromosoma X
Procesado ARNr
ARNsno h/aca
16
15
87
Procesado ARNr
Aunque aún no se ha realizado un catálogo completo de los ARNnc del genoma
humano, un equipo internacional denominado Phantom
68
ha aislado unos 60.000 ARN
expresados en el ratón. Una de las conclusiones más impactantes es que 15.815 de ellos son
ARNnc potencialmente funcionales. El 71% de ellos no contienen intrones (frente al 18% de los
codificantes para proteínas), pero están poliadenilados y por ello son probablemente producto
de la ARN polimerasa II. Muchos de ellos presentan ortólogos en el genoma humano. Es
interesante constatar que 2.431 de estos ARNnc forman parejas sentido/antisentido de al
menos 20 bases con exones de otros ARNm previamente descritos, lo que sugiere que podrían
68
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome
based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).
21
Proyecto genoma humano
funcionar como ARN antisentido reguladores. Existen ya suficientes ejemplos de la importancia
de los ARNnc en diferentes etapas de la regulación de la expresión génica (Tabla 5). Hay
muchos más ARNnc de lo que suponíamos, uno de los desafíos de la Genética para los
próximos años será completar el catálogo y elucidar su función. La genómica comparativa con
otros genomas emparentados al humano como el de ratón, constituirá una herramienta
poderosa para determinar las regiones del genoma en las que ha existido una gran presión
selectiva en contra de la fijación de mutaciones y que no cuentan con exones implicados en la
69
síntesis de proteínas. Por ejemplo Dubchak , utilizando un novedoso algoritmo bioinformático
han encontrado zonas no codificantes altísimamente conservadas comparado un fragmento
cromosómico concreto de ratón, perro y humano (Figura 2). Estas regiones podrían ser zonas
reguladoras en cis como potenciadores de la transcripción, pero si se comprueba
experimentalmente que se transcriben, podrían constituir candidatos de ARNnc funcionales.
Tabla 5: Procesos afectados por ARNnc70
Proceso
Ejemplo
Función
Transcripción
SRA humano
Coactivador receptor esteroides
7SK humano
Inhibidor de factor de elongación P-TEFb
Silenciamiento génico Xist humano
Inactivación cromosoma X
Air humano
Impronta gen IgfII
Replicación ADN
ARN telomerasa
Replicación de los telómeros
Estabilidad ARNm
ARNmi eucariota
Etiqueta ARNm específicos para degradación
Traducción
Lin-4 C.elegans
Reprime la traducción
Estabilidad proteínas
ARNtm de E. coli
Degradación proteínas mal plegadas
Translocación
ARN 7SL humano
Transporte proteínas a través de membranas
proteínas
Los genes codificantes para proteínas
La identificación de este tipo de genes es una de las aplicaciones más importantes de
los datos de secuenciación, pero constituye también uno de los mayores retos ya que la
cantidad de secuencia codificante es muy baja (1-1,5%), los exones pueden ser muy pequeños
y las regiones conservadas de promotores o maduración del ARN pueden no ser evidentes.
Antes de comentar los resultados sobre la identificación de genes de novo a partir de la
secuencia en bruto, analizaremos los datos obtenidos sobre genes previamente conocidos
71
cuya secuencia se encuentra depositada en los bancos de datos (Embl, NCBI, etc.) .
69
Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10,
1304-1306. (2000).
70
71
Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999).
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
22
Antonio José Caruz Arcos
hombre/perro
hombre/ratón
ratón/perro
hombre/perro
hombre/ratón
ratón/perro
hombre/perro
hombre/ratón
ratón/perro
Figura 2: Comparación de un fragmento cromosómico de ratón, perro y humano.
Azul: Exones, Rojo: No codificante.
La estructura de los genes humanos es muy variable tanto en el tamaño de los genes
como en el de los intrones. Muchos genes tienen más de 100 Kb, siendo el mayor la distrofina
que ocupa 2,4 Mb. La variación en el tamaño de la zona codificante no es tan extrema, pero se
observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254
exones y el exón más largo (17.106 pb). La tabla 6 resume las características generales de los
genes humanos. Cuando los comparamos con
otros
organismos
como
Drosophila
o
Caenorhabditis se observa que el tamaño
medio de la secuencia codificante es similar:
1311 en nematodo, 1497 en mosca y 1340 en
humano. Por el contrario el tamaño de los
intrones es mayor en humanos (3.300 pb frente
a 267 en nematodo y 487 de mosca) (Figura
3).
Figura 3:Tamaño de los intrones en humanos, mosca y
nematodo73
Estudios previos habían sugerido que existe una segmentación del genoma en compartimentos
con una diferente proporción de G+C (isócoras) y que el contenido en genes está relacionado
con una mayor concentración de G+C. Los datos del genoma humano, revelan las zonas ricas
en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).
23
Proyecto genoma humano
Figura 4: Relación entre la densidad relativa de
genes y el contenido de G+C73
Especialmente significativo es el
hecho de que los extremos 5´ proximales
de los genes (promotores y 5´UTRs)
suelen estar constituidos por G+C en un
80% de los casos. La asociación entre
islas CG y los genes es estadísticamente
significativa, con una puntuación de 0,89 para las regiones intergénicas, 1,2 para intrones, 5,86
para exones y 13,2 para el primer exón.
Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el
dinucleótido GT en el extremo 5´ y AG en el 3´. Otro 0,76% utiliza la pareja GC-AG y sólo un
0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo
está muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una
mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por
72
cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis .
La búsqueda de nuevos genes es un problema complicado de resolver, y el número de
genes potenciales depende de los programas bioinformáticos utilizados, llegando a variar hasta
un 30% dependiendo del algoritmo. Existen varios problemas importantes:
•
Los exones constituyen sólo el 5% de la secuencia ocupada por el gen.
•
Pueden existir exones muy pequeños y crípticos (incluso de sólo 3 pb) que
enmascaren una pauta abierta de lectura.
•
Splicing alternativo en un 70% de los genes.
•
En algunos casos la edición del ARNm puede introducir cambios en la pauta abierta de
lectura teórica encontrada en el ADN.
La búsqueda automatizada de genes utiliza las secuencias consenso de los promotores
(islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, señal
de poliadenilación y sobre todo homología de las secuencias con bancos de ADNc tanto de
humanos (localización de genes nuevos pertenecientes a familias génicas conocidas) o de
otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio público y la empresa
Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para
proteínas, sin embargo una comparación directa entre los dos catálogos de genes reveló que
no cuadraban entre sí, existiendo grandes diferencias en identidades y propiedades de los
nuevos genes identificados. El consorcio público en su primer índice de proteínas codificadas
por el genoma humano estima su número en unas 31.778, siendo 14.882 de genes conocidos y
16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 3572
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
24
Antonio José Caruz Arcos
40.000 genes debido a que el método bioinformático empleado fue más potente, con un gran
énfasis en la comparación genómica interespecífica. El conocimiento del número definitivo de
genes humanos deberá esperar la finalización de varios proyectos en curso para determinar el
contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga
sólo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos
producen más isoformas por splicing alternativo, pudiendo codificar quizás unas 5 veces más
proteínas que estos otros animales.
Funciones de los genes codificantes para proteínas
Para la clasificación funcional de los genes codificantes para proteínas, se ha tratado
73
de responder a tres preguntas :
1. ¿Cuáles son las funciones moleculares más probables de las proteínas hipotéticas y
cómo pueden ser incorporadas a la clasificación actual?
2. ¿Cuáles son las funciones comunes que aparecen en genomas de otros animales?
3. ¿Cuáles son las proteínas que difieren con respecto a otros eucariotas secuenciados?
Para abordar la primera pregunta se han utilizado dos estrategias, la primera consiste en el
análisis de similitud con familias proteicas conocidas y la segunda la identificación de dominios
funcionales cortos (por ejemplo, homeodominio, dominio de inmunoglobulinas, etc.). La figura 5
representa una visión global de las funciones moleculares predichas en el catálogo de genes
de Celera (26.383 genes) que incluían al menos dos de estos criterios estrictos:
•
Proteína caracterizada previamente
•
EST identificada en bancos de ADNc humanos
•
EST identificada en bancos de ADNc de ratón
•
Homología entre el genoma humano y el de ratón
El resultado más interesante es que aproximadamente el 41% de las proteínas son de
función desconocida.
La
familia
más
transcripción/traducción
representada
(ADN/ARN
se
corresponde
metiltransferasas,
con
polimerasas,
la
maquinaria
helicasas,
de
ligasas,
nucleasas, factores de transcripción y proteínas ribosomales). Otros tipos proteicos muy
comunes
son
enzimas
implicadas
en
el
metabolismo
intermedio
(transferasas,
oxidorreductasas, ligasas, liasas e isomerasas), proteínas con funciones reguladoras como
(GTPasas pequeñas tipo Ras/Rho, ciclinas y proteínas quinasas). Por último otras familias muy
representadas son las proteínas transportadoras y las chaperonas.
La función específica que tiene más genes proporcionalmente es la de los receptores olfativos
que comprende unos 1000 genes y pseudogenes. Aproximadamente el 80% de ellos están
situados en unos 12 clusters y comprenden el 1% del genoma (30 Mb). Curiosamente en los
receptores de clase II, el 60% de ellos tienen mutaciones que alteran la pauta abierta de
lectura, lo que sugiere que no ha existido una fuerte presión selectiva para su mantenimiento.
73
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
25
Proyecto genoma humano
En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido
tener más importancia adaptativa.
Figura 5: Distribución de funciones moleculares de 26.383 genes identificados por celera
Un descubrimiento que ha suscitado una encendida discusión en el ambiente
académico ha sido la caracterización de 223 proteínas humanas que tienen una gran
homología con proteínas bacterianas pero que no aparecen en levadura, mosca, nematodo o
74
Arabidopsis (ver tabla 6) . Estas secuencias podrían representar contaminaciones de los
plásmidos de clonación con ADN bacteriano. Para comprobar su presencia real el consorcio
público verificó una fracción de ellos mediante amplificación por PCR de varios ADN genómicos
humanos, demostrando que efectivamente no son contaminaciones accidentales durante los
procesos de fabricación de la genoteca genómica. La mitad de estos genes (113) aparecen
ampliamente difundidos entre especies bacterianas sin relación directa filogenética, pero en los
eucariotas sólo aparecen en vertebrados. Se han propuesto dos hipótesis para explicar el
origen de estos genes:
1. Los genes estaban presentes en los eucariotas originales pero se perdieron en alguno
de los linajes.
74
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants.
Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends
Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol.
52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001).
Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR.
Phylogenetic analyses do not support horizontal gene transfers from
bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our
genome?. Science. 292(5523):1848-1850. (2001).
26
Antonio José Caruz Arcos
2. Los genes bacterianos entraron en el genoma de un antecesor de los vertebrados
mediante transferencia horizontal a partir de bacterias.
Existen pruebas de transferencia horizontal entre bacterias y el genoma de Caenorhabditis,
lo que sugiere que la segunda hipótesis sería la más plausible, aunque la discusión sigue
abierta.
Tabla 6: Genes humanos con homología en bacterias pero no en eucariotas invertebrados
Función
potencial
Ortólogos en
vertebrados
Ciclodeaminasa
Cerdo, ratón,
pollo
Ungulados,
roedores
Roedores,
peces
Vaca
Roedores,
peces
No
No
No
No
No
Cotransportador Na/glucosa
Hidrolasa epoxidos
Oxidorreductasa metionina
Monoamino oxidasa
ADP-ribosil glicohidrolasa
Timidina fosforilasa
Metal binding-protein
Hidrolasa α/β
Histona M-2cA fosfatasa
Rango de
especies
bacterianas
Generalizado
Genero con
máxima
homología
Termotoga
Confirmado
por PCR
Generalizado
Vibrio
Si
Generalizado
Pseudomonas
Si
Generalizado Synechocystis
Generalizado Mycobacterium
Si
Si
Streptomyces
Generalizado
Generalizado
Rickettsia
Thermotoga
Si
Si
Si
Si
Si
S. coelicolor
H. influenzae
Borrelia
R. prowazekii
T. marítima
Virus de ARN
Si
Genes compartidos con Mus, Drosophila, Caenorhabditis y Saccharomyces.
75
El catálogo de genes humanos contiene ortólogos en el 99% del proteoma de Mus ,
76
61% de Drosophila, 43% de Caenorhabditis y 46% de Saccharomyces . Fueron identificados
1.308 grupos de proteínas cada un de los cuales tenía al menos un ortólogo en cada especie y
podía contener además varios genes parálogos. Este grupo estaba constituido por 3.129
proteínas humanas, 1.445 de Drosophila, 1.503 de Caenorhabditis y 1.441 de Saccharomyces.
Dentro de este grupo conservado están incluidos los genes responsables mayoritarios de las
funciones básicas domésticas celulares como el metabolismo, replicación/reparación del ADN y
transcripción/traducción.
Los genes específicos de vertebrados representan sólo el 7% del total, con 70 familias
y 24 dominios funcionales no compartidos con invertebrados. Cuando comparamos las
posiciones de los genes ortólogos Homo-Mus se observa que ocupan posiciones sinténicas en
77
el 96% de los casos . Sólo el 1% de los genes de Mus no tenían ortólogo en Homo,
probablemente por deleción en los antecesores de la línea humana o por que estos genes
representan nuevas adquisiciones en la línea evolutiva de los roedores, otras posibles
explicaciones podrían ser que los genes ortólogos humanos han sufrido un proceso acelerado
75
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
76
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
27
Proyecto genoma humano
de cambio determinado por presiones selectivas que han hecho difícil la identificación de un
77
grado significativo de homología de secuencia .
El grado de conservación en la estructura de los genes entre Homo y Mus es muy
elevado y permite identificar las regiones bajo selección negativa para la incorporación de
mutaciones. En la Figura 6 se muestra el grado de homología entre 3.165 genes humanos y de
77
ratón .
Una representación más en detalle de los inicios de transcripción y de las secuencias
donadoras y aceptoras de splicing, revela que el grado de conservación alcanza casi el 100%,
siendo muy significativo que las terceras posiciones de los codones codificantes no están
sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo
de la tercera posición del ARNt en la variabilidad del uso de codones (Figura 7).
% identidad de secuencia
Figura 6: Variación en la conservación de secuencia a lo largo de gene humanos y de ratón77
Primer exón
Promotor UTR 5´
Exón interno
Intrón
Último exón
Intrón
UTR 3´
Posición en el genoma
La identificación de los genes específicos de vertebrados se ha realizado comparando
todos los genes identificados con los genomas de Drosophila y Caenorhabditis, los resultados
muestran que algunas familias han experimentado un cambio importante en el número de
78
miembros o bien han aparecido familias completamente nuevas . Las funciones específicas de
vertebrados pueden ser clasificadas en 5 grupos:
1. Sistema inmunitario: La inmunidad adquirida es una función poco representada en
invertebrados, el genoma humano y de ratón tienen genes del complejo mayor de
histocompatibilidad (44), inmunoglobulinas (114), receptores específicos (59). Otras
proteínas específicas de vertebrados son las citoquinas, quimiocinas y componentes
asociados con la transducción de señales mediada por receptores de membrana.
77
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
78
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
28
Antonio José Caruz Arcos
% de identidad de secuencia
Inicio de la traducción
Posición relativa con respecto al sitio de inicio de la traducción
Figura 7: Conservación en el sitio de inicio de la traducción79
2. Desarrollo, estructura y función neuronal: Marcado incremento en proteínas implicadas
en el desarrollo y función neuronal como factores de crecimiento nervioso, canales
iónicos, mielina y proteínas de comunicación neuronal (sinaptotagmina).
3. Rutas de señalización intracelular implicadas en homeostasis y desarrollo: Hormonas,
factores de crecimiento, receptores, factores de transcripción y moléculas de
señalización intracelular como TGF-β, FGF, NGF, PDGF y efrinas. También se observa
una expansión en el número de genes dedicados a la síntesis de moléculas de
adhesión extracelular como proteínas de la matriz (proteoglicanos) que juegan un papel
importante en procesos de defensa, morfogénesis y reparación de tejidos. Proteínas
del citoesqueleto como actina y miosina, así como otras implicadas en la señalización
intracelular (superfamilia Ras), factores de transcripción (por ejemplo proteínas con el
dominio Zn-finger C2H2 aparece en 564 proteínas humanas frente a 234 de
Drosophila).
4. Hemostasis: Expansión de genes implicados en la interacción entre células
hematopoyéticas y la matriz vascular, así como metaloproteasas.
5. Apoptosis: Expansión de genes implicados en las rutas de señalización que median la
muerte celular programada como caspasas, Bcl2, etc.
Variabilidad del genoma humano
El catálogo de la base molecular de la variabilidad humana es más amplio del esperado
a priori, podemos clasificar el origen de la variabilidad en varias categorías:
1. Inserción diferencial de elementos transponibles (fundamentalmente LINES L1 y SINES
tipo Alu).
29
Proyecto genoma humano
2. Duplicaciones polimórficas (por ejemplo un cluster que contiene genes de receptores
olfativos está duplicado en algunas poblaciones)
3. Polimorfismos de número de copias de microsatélites, minisatélites y satélites. Siendo
más conocidos los primeros.
4. Polimorfismos debidos a pequeñas deleciones, inserciones o mutaciones puntuales. De
los que los cambios de un solo nucleótido constituyen por si mismos la mayor parte de
la variabilidad humana.
Los tres primeros han sido analizados en secciones precedentes, ahora pasaremos a describir
los resultados sobre la variación debida a pequeños cambios de nucleótidos a lo largo del
genoma. Contamos con datos de variabilidad de un total de 13 individuos de diferentes
orígenes étnicos, el consorcio público ha secuenciado 8 y la empresa Celera 5. Es importante
destacar que no contamos con la información completa de un solo genoma humano por
separado, sino que los datos suministrados están mezclados y representan la secuencia media
del genoma. El análisis de la variabilidad ha permitido identificar unos 2 millones de cambios
puntuales denominados SNP (Single Nucleotide Polymorphism) con una frecuencia de
79
aproximadamente un cambio cada 1000 pb . Una conclusión trascendental desde el punto de
vista social y político es que los seres humanos comparten entre sí más del 99,99% de la
información genética. La base molecular de las diferencias fenotípicas entre poblaciones de
orígenes geográficos distintos están fundamentadas en pocos genes que controlan la
expresión de ciertos caracteres fácilmente distinguibles a simple vista.
La distribución de SNPs a lo largo del genoma no es homogénea sino que existen
zonas calientes que presentan mayor variabilidad, así como se observa una tendencia a
acumular SNPs en regiones de poca importancia funcional (ver tabla 7).
Tabla 7: Distribución de los SNPs en función de la clase funcional del genoma
Clase de región genómica
Intergénica
Intrones
Primer intrón
Exón
Primer exón
Talla de
(Mb)
2185
615
164
31
10
la
región Densidad (SNP/Mb)
707
921
808
529
592
La tabla 6 revela un hecho interesante desde el punto de vista funcional. En concreto
en el primer intrón existe una menor frecuencia de SNPs comparado con otros intrones del
mismo gen, ello es debido a que en algunos casos el primer intrón puede contener secuencias
reguladoras en cis de la transcripción así como en muchos genes existen dos promotores
alternativos, estando el segundo de ello situado dentro del primer intrón. Con respecto a las
secuencias intergénicas se observa que el 75% de los SNPs se localizan dentro de estas
regiones, pero la densidad de SNPs es menor que en los intrones. Esto podría explicarse por
79
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
30
Antonio José Caruz Arcos
un fenómeno de incremento de la mutagénesis debida a los fenómenos de transcripción
génica.
Con respecto a los exones, destacar que el primer exón puede acumular mayor
variabilidad genética, debido a que suele contener regiones no traducidas importantes para la
unión del ribosoma durante las etapas preliminares de la traducción, por ello está menos
limitado que el resto de exones a la hora de acumular cambios. Con respecto a los exones
codificantes, los SNPs son muy raros (0,17% del total), siendo la mayoría cambios
conservativos por tambaleo de la tercera base del codón o cambios por un aminoácido muy
similar funcionalmente al original. Cambios no conservativos constituyen sólo el 0,07% del total
descrito. Sin embargo pueden tener un papel importante en explicar las diferencias fenotípicas
entre los seres humanos. Por ejemplo multitud de SNPs en los genes de los citocromos P450
están asociados a una mayor frecuencia de desarrollo de cáncer o enfermedades
cardiovasculares, otros SNPs en genes implicados en la respuesta inmunitaria están asociados
a enfermedades autoinmunes como la psoriasis o la enfermedad de Crohn. El catálogo
completo de SNPs del genoma humano y su asociación con diferentes enfermedades es una
tarea importante para el futuro. También van a representar un papel determinante como
marcadores evolutivos que permiten trazar el origen y dispersión de las poblaciones humanas.
PERSPECTIVAS
La publicación del borrador del genoma humano constituyó un hito en la historia de la
ciencia y va a cambiar profundamente la Biología y la Medicina del futuro. En esta sección
describiré las tendencias que se vislumbran y que condicionarán el trabajo de los futuros
biólogos que estamos formando. Tres paradigmas han aparecido estos años, el primero está
relacionado con la escala casi industrial de recursos económicos y materiales necesarios para
llevar a cabo la investigación. El segundo es la incorporación de empresas privadas en la
investigación biológica, que aportan una perspectiva práctica y comercial. El último es la
necesidad de formar nuevos biólogos capaces de entender varias disciplinas y que trabajen
cómodamente en un entorno de bases de datos, bioinformática y modelos matemáticos.
No hay que olvidar que lo que entendemos por Proyecto Genoma consiste en principio
en la obtención de información estructural desnuda, pero lo realmente importante empieza
ahora: dar sentido biológico, funcional y evolutivo a la información, extrayendo el auténtico
conocimiento. El banquete de datos que se nos viene encima habrá de ser metabolizado
adecuadamente, impulsando nuevos avances a base de sugerir nuevos enfoques, nuevos
experimentos, renovadas hipótesis de trabajo, todo ello retroalimentándose en un "círculo
virtuoso" que abrirá las puertas de una nueva era en las Ciencias Biológicas. Se habla por ello
de una "Era Postgenómica", en la que se irán integrando los conocimientos acumulados en
diversos "Atlas" del ser humano y de otros seres vivos, en los que se podrán interrelacionar de
modo funcionalmente significativo diversos niveles de comprensión de la materia viva: génico,
31
Proyecto genoma humano
genómico, regulación, biología celular, fisiología, evolución, etc. El impacto real de todo ello no
se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto
cualitativo y cuantitativo en nuestra visión del mundo vivo. A continuación repasaré las
perspectivas que se abren tanto para la Biología humana como para la Medicina.
80
Genoma humano y Biología
1. Identificar los componentes estructurales y funcionales codificados por el genoma
humano. El uso de la genómica comparativa permitirá identificar regiones reguladoras en cis
esenciales para el control de la expresión génica, replicación del ADN y recombinación.
Especialmente interesante es el campo de los ARN no codificantes ya que representan una
nueva escala en la expresión génica y en su regulación. Poco se conoce de los mecanismos
moleculares por los que algunos de estos ARN regulan procesos como la metilación del ADN,
impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulación de
la expresión génica puedan ser descubiertos, especialmente la regulación mediada por ARN de
interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente
codificados por el genoma humano no tengan una función conocida, ni puedan clasificarse
dentro de ninguna de las familias proteicas descritas es un auténtico desafío para los
81
investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la búsqueda de
la función será el campo de trabajo que ocupe a mayor número de biólogos en los próximos
años. Encontrar la función de un gen es una tarea ardua que implica un enfoque multidisciplinar
que podría ser resumido en el refrán de dime con quién vas y te diré quién eres, que se
fundamenta en el argumento de que dos proteínas van juntas si participan en un proceso
común, o dos ARNm se expresan conjuntamente porque están relacionados funcionalmente.
Técnicamente estamos hablando de proteómica (doble híbrido,
inmunoprecipitación,
MALDITOF) o de estrategias de medida de la expresión génica con microarrays
(transcriptoma). Este enfoque debe ser complementado con la información suministrada por el
bloqueo de la función del gen y el análisis del fenotipo resultante en animales modelo como
ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8
podría resumir esta estrategia experimental.
2. La organización de las redes de información genética y establecer como contribuyen
al fenotipo celular y orgánico. Los genes y sus productos no funcionan independientemente,
sino que participan en complejas rutas interconectadas y redes de comunicación que permiten
el mantenimiento celular, la organización de tejidos, órganos y el desarrollo ontogenético.
Definir estos sistemas así como determinar sus propiedades e interrelaciones es crucial para
entender como funcionan los sistemas biológicos. Desde el punto de vista práctico es una
información imprescindible para manipularlos y predecir su comportamiento. En cierto sentido
los investigadores tratarán de describir los programas o algoritmos genéticos desencadenados
durante el desarrollo o en respuesta a diferentes estímulos como productos tóxicos, hormonas,
80
Collins F S. et al. A vision for the future of genomics research
81
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).
32
Antonio José Caruz Arcos
etc. Modelizarlos computacionalmente y predecir el comportamiento de los mismos en nuevas
situaciones.
Catalogar toda la variabilidad genética de la humanidad: en cuatro niveles, inserción de
transposones, microsatélites, duplicaciones y SNPs. Esta información es esencial para
entender la historia de la humanidad, su origen y dispersión. También, la comprensión de la
interrelación entre genotipo y fenotipo es un problema serio, a veces un polimorfismo genético
está asociado con un fenotipo específico, por ejemplo, susceptibilidad a enfermedades
autoinmunes, cáncer o resistencia a enfermedades infecciosas, sin embargo, en muchos casos
no ha sido posible establecer el motivo. Los polimorfismos pueden ser por ellos mismos el
agente causal del fenotipo o bien tan sólo un marcador de proximidad porque se cohereda
como un haplotipo único con el auténtico polimorfismo funcional. Desentrañar la base
molecular por la cual los polimorfismos afectan al fenotipo, ocupará también a muchos
laboratorios de investigación en los próximos años.
Figura 8: La búsqueda de la función
GENÓ
M
COMP ICA
ARA T
IVA
ARNi
TRAN
DO BL
HÍBR E
IDO
FUNC
SC R I
PTOM
A
MAL
IÓN
DITO
F
RATO
N
KNOC ES
K-OU
T
MOTIV
O
SEC U E S D E
NCIA
EXP
RE
TISU SIÓN
LAR
N
ENF ORMAL
/
ERM
EDA
DES
4. Comprender los mecanismos evolutivos: El genoma es una entidad dinámica,
continuamente sometida a cambios por las fuerzas de la evolución. El conocimiento de las
diferencias de secuencia entre diferentes especies permitirá comprender cómo se han formado
en su configuración actual los genomas y cuales han sido las presiones selectivas que han
condicionado su estructura. En este apartado, el desafío total está en localizar los genes o
secuencias reguladoras que nos hacen humanos (lenguaje, pensamiento abstracto, etc.). La
secuenciación del genoma del chimpancé podría arrojar luz sobre cuales son los genes que
podrían estar detrás de las diferencias morfológicas y psicológicas entre las dos especies.
Filosóficamente resulta interesante plantear la hipótesis que la esencia del ser humano pudiera
residir en la expresión diferencial, con respecto al chimpancé, de una pequeña batería de
genes.
33
Proyecto genoma humano
82
Genoma humano y Medicina
1. Desarrollar nuevas estrategias para la identificación de los componentes genéticos
que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicación más
importante de la secuencia del genoma humano es la identificación de genes de función
completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad
hereditaria. Este sistema se denomina clonación posicional y era muy potente pero tedioso e
incluía etapas de paseo cromosómico sobre grandes distancias genéticas antes de encontrar
un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma
humano permite una identificación rápida in silico de los genes candidatos, seguido de
búsqueda de mutaciones y ayudado por los programas de predicción de estructura génica.
Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la
información suministrada sólo durante el año antes de la publicación de la secuencia del
genoma, en los próximos años asistiremos a la correlación de genes específicos con
enfermedades hereditarias mendelianas, enfermedades de origen poligénicos o susceptibilidad
a desarrollar cáncer, arteriosclerosis, hipertensión, etc.
La actividad enzimática responsable de la metabolización de muchos fármacos es
variable entre diferentes pacientes y afecta a la respuesta terapéutica de muchos tratamientos.
La identificación de polimorfismos genéticos asociados a esa respuesta (farmacogenética)
mejorará la práctica clínica y permitirá al médico la adopción de un sistema personalizado de
tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta
diferencial al tratamiento farmacológico (especialmente de la familia del citocromo P450), pero
el número real de genes asociados a respuesta diferencial a fármacos sólo ha empezado a ser
atisbado.
2. Desarrollo de nuevos fármacos contra dianas moleculares identificadas por su patrón de
expresión génica. La industria farmacéutica depende de un número muy limitado de dianas
moleculares de acción farmacológica, una revisión reciente cita que sólo 483 proteínas son las
dianas de prácticamente todos los fármacos que hay en el mercado. El listado completo de
genes humanos expandirá enormemente el número de dianas potenciales de drogas. Algunos
autores predicen que varios miles de genes podrían ser candidatos para la acción
farmacológica. Ello ha llevado a la creación de poderosos departamentos de investigación
genética en todas las grandes compañías farmacéuticas.
Como hemos expuesto, las perspectivas son apasionantes para la investigación
biomédica basada en la extracción de la información contenida en el genoma y el análisis de su
expresión. Sin embargo muchas cuestiones pueden suscitar una gran polémica social por las
implicaciones éticas que tienen, entre ellas destacaría el determinismo y reduccionismo
genético. En algunos casos parece demostrada una relación entre polimorfismos genéticos y
82
Collins F S. et al. A vision for the future of genomics research
34
Antonio José Caruz Arcos
83
tipos de personalidad (receptores de la dopamina
84
con personalidad agresiva o serotonina
con tendencias depresivas). Si en el futuro, la investigación lograse demostrar que nuestro
comportamiento y aptitudes están fundamentadas en los genes, ¿dónde quedaría nuestra
libertad? ¿Dónde el bien o el mal tal como lo entendemos ahora?
Quisiera concluir esta revisión general sobre el proyecto genoma humano con las
palabras de Craig Venter, exdirector científico de Celera, y que resume las implicaciones no
sólo científicas sino también filosóficas que tiene la actual investigación genómica:
The real challenge of human biology, beyond the task of finding out how genes
orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will
lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well
to investigate our own existence.
83
Se puede consultar una revisión en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696
84
Revisión en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138
35