Download 1TM GENOMA estruct 00

Document related concepts

Gen wikipedia , lookup

Ácido ribonucleico wikipedia , lookup

Genoma humano wikipedia , lookup

ARN mensajero wikipedia , lookup

Historia de la biología del ARN wikipedia , lookup

Transcript
TEMA MONOGRÁFICO
GENÉTICA BÁSICA (I)
Genoma humano y estructura básica de los genes
J. Oriolaa y R. Olivab
a
Servicio de Hormonología. Centro de Diagnóstico Biomédico. Hospital Clínic. Barcelona. bServicio de Genética.
Centro de Diagnóstico Biomédico. Hospital Clínic. Institut d’Investigacions Biomèdiques August Pi i Sunyer (IDIBAPS). Barcelona.
EL GENOMA HUMANO
CONTENIDO DE INFORMACIÓN Y NÚMERO
DE GENES DEL GENOMA HUMANO
El genoma humano es el material genético característico de la especie humana (fig. 1)1. Básicamente, el 99,9% de este material puede
hallarse representado en el ADN (ácido desoxirribonucleico) contenido en una sola célula humana. Así, el genoma está constituido por
23 pares de moléculas de ADN. Cada molécula de ADN tiene una
longitud que oscila entre 50 y 250 millones de bases, y la suma de todos ellos es de 6.000 millones de bases en estado diploide o de 3.000
millones en estado haploide (fig. 1). También la información genética que presentan las mitocondrias forma parte del genoma humano.
El ADN mitocondrial humano consta de un solo filamento circular
constituido por 16.569 pares de bases (pb). En general, en cada célula hay varios cientos de mitocondrias, por lo que hay varios cientos
de copias de ADN mitocondrial en cada célula.
Para poder valorar lo que la cifra de 3 × 109 pb supone, es útil
establecer comparaciones. Si tuviésemos que escribir esta secuencia, llenaríamos 200 guías de teléfono de Barcelona (1.000 páginas
cada tomo). En cuanto a sus dimensiones lineales, si estirásemos
todos los cromosomas de una sola célula y los dispusiésemos uno a
continuación del otro, la longitud sería de 2 m (el cromosoma más
pequeño, el 21, mediría 3 cm, y el más grande, el 1, mediría 16 cm).
Pero el material genético característico de la especie humana no es
sólo este ADN presente en una sola célula, sino que hay que considerar, además, la variación génica presente en los distintos individuos. Aproximadamente una de cada 270 bases varía entre cada 2
personas, por lo que para conocer la verdadera magnitud del genoma humano, a los 3.000 millones de bases hay que sumarle toda la
variación génica presente en la especie humana (fig. 1).
Humanidad
•Personas: 5 x 109
•El genoma difiere
en una de cada
270 bases
entre cada
2 personas
Individuo
•Células: 1013
•El genoma es
casi idéntico
entre las células
de un individuo
Célula
•Cromosomas: 23 pares
•Pares de bases: 6 x 109
(en estado diploide)
+ genoma mitocondrial
(16.569 pb)
•50.000-100.000 genes
La información genética de la especie humana viene determinada
por la secuencia de las cuatro bases (adenina [A] guanina [G], citosina [C], y timina [T]) (fig. 1). La secuencia de estas bases de cada
uno de nosotros (el genotipo) es lo que determina junto con el ambiente (dieta, exposición física, aspectos sociales, etc.) lo que somos
(el fenotipo). La molécula de ADN está formada por dos hebras
que se aparean perfectamente entre sí gracias a que las bases son
complementarias dos a dos (la A con la T, y la G con la C) (fig. 1).
Cada vez que una célula humana se divide (proceso denominado
mitosis), debe copiar toda esta información y a continuación repartirla, en partes iguales, a cada célula hija. Este gigantesco trabajo se
puede incluso realizar en 1-2 h y no deben generarse errores de
copia. De esta forma, se transmite exactamente la misma información genética a cada una de las células hijas.
Pero la información contenida en el genoma humano no se distribuye de forma uniforme a lo largo de la secuencia, sino que se
concentra sobre todo en determinadas secuencias denominadas
genes (fig. 2). Los genes representan las unidades funcionales del
genoma y normalmente la información contenida en ellos sirve para dar lugar a proteínas (figs. 2 y 3).
Se supone que existen alrededor de 30.000-50.000 genes repartidos
entre todos los cromosomas. Muchos de ellos ya son conocidos en detalle, así como sus posiciones en el genoma, mientras que del resto se
dispone de representaciones en las bases de datos. El primer cromosoma humano en secuenciarse fue el cromosoma 22 y en él se hallaron 545 genes y 134 seudogenes2. Estos últimos son genes que contie-
Cromosoma
•Moléculas de
ADN: 2
•Tamaño:
entre 5 x 107 pb
y 2,5 x 108 pb
Gen
•Unidad hereditaria
y funcional (con
excepciones)
•Tamaño: entre 400
y 2 x 106 pb
ADN
•Ácido desoxirribonucleico
•Compuesto por 4 tipos
de bases distintas: adenina (A),
guanina (G), citosina (C) y
timina (T). que se aparean
entre sí (A:T y G:C)
•En la secuencia de las bases
se halla la información
genética
Figura 1 Composición del genoma humano. El genoma humano es el material genético característico de la especie humana. Suele quedar representado como la secuencia de las bases del ADN de los 22 cromosomas autosómicos más los cromosomas sexuales X e Y presentes en una sola célula (centro de la imagen). A su nivel más elemental el genoma está compuesto por 4 bases distintas (A, G, C y T; derecha). A su nivel superior el genoma
debe considerarse como la secuencia prototipo presente en una célula más la variación existente entre todos los individuos presentes en la humanidad (izquierda)1.
TEMA MONOGRÁFICO
GENÉTICA BÁSICA (I)
Genoma humano y estructura básica de los genes
J. Oriola y R. Oliva
dos obtenidos con la secuenciación del genoma humano, se conoce hoy la existencia de
ADN genómico
multitud de seudogenes (por cada 4-5 genes
Exón
1
Intrón
1
Exón
2
Intrón
2
Exón
3
Región promotora
funcionales habría uno no funcional).
5’
3’
No obstante, a medida que avanza el conocimiento
sobre este ADN que separa a
Transcripción
los genes, se van descubriendo posibles
ARN tránscrito
5’
3’
funciones. Por ejemplo, la secuencia del exprimario
tremo 5’ de los genes (la secuencia anterior
Intrones
al inicio de la transcripción) contiene inforAUG
UGA
mación para la unión de factores de transProcesamiento
cripción específicos de cada gen. De hecho,
ARN mensajero
Poly-A
del ARN (
5’ UTR
estas regiones llamadas “promotoras” pue3’
UTR
y poliadenilación)
Región
codificante
den considerarse también como parte de
los genes y pueden estar formadas por más
Traducción
de 3.000 pb. Dentro de cada gen, hay seCOOH
NH2
Proteína
cuencias no codificantes (intrones), que forman alrededor del 80-90% del gen (fig. 2).
Figura 2 Estructura de un gen eucariota y principales procesos de expresión génica. Se representa
Adicionalmente, este ADN que separa a
un gen con 3 exones y 2 intrones. Su transcripción da lugar al ARN tránscrito primario que
es procesado para preparar su extremo 3’ y eliminar los intrones (splicing). Finalmente, los
los genes, o el ADN presente en los introARN mensajeros son traducidos por el ribosoma para dar lugar a la proteÍna correspondiennes, podría tener la función de incrementar
te (véase la fig. 3 para el detalle molecular de la clave de la traducción proteica a través del
la frecuencia de recombinación meiótica
código genético). La regulación de estos procesos de expresión génica se trata en el segundo
aumentando la generación de combinaciocapítulo de este monográfico.
nes alélicas en la especie humana.
Otro tipo de secuencias no codificantes son
las repetitivas. Estas secuencias se pueden dividir entre las repetidas en
5’
3’
tándem y las secuencias dispersas1. Las secuencias repetidas en tánADN
dem son características de la región central de los cromosomas (centró3’
5’
meros) y garantizan la correcta distribución de los cromosomas en las
células hijas durante la división celular. En estas regiones hay muy poARNm
5’
3’
cos genes. También hay repeticiones en tándem en las regiones finales
de cada cromosoma (telómeros), los cuales ayudan a mantener la estabilidad y la individualidad de cada cromosoma durante la replicación.
3’
5’
ARNm
Cada telómero está formado por 250-1.500 secuencias TTAGGG repetidas3. No todos los tipos celulares presentan el mismo número de
repeticiones, póngase como ejemplo a los cromosomas de los espermaARNE
tozoides que son los que poseen los telómeros más largos. Esta secuenArginina
a
n
Alani
cia telomérica la poseen todos los vertebrados estudiados hasta ahora.
Tirosina
Ribosoma
nina
o
i
Otras regiones repetidas en tándem corresponden a genes implicados
t
Me
Síntesis de proteína
en la fabricación de los ribosomas. Éstos se hallan repetidos cientos de
veces en los brazos cortos de los cromosomas 13, 14, 15, 21 y 22.
Figura 3 Transmisión de la información del ADN al ARNmensajero (ARNm)
Entre las secuencias dispersas más abundantes se hallan las sey su decodificación a través del código genético. La transcripcuencias Alu I (regiones que contienen la secuencia AGCT que es
ción de la cadena antisentido del ADN da lugar a un ARNm (con
reconocida por la enzima de restricción Alu I). Estas secuencias
sentido). La transmisión de la información del ADN al ARN se
aparecen repetidas cerca de un millón de veces en el genoma, con
produce por complementariedad de las bases correspondientes
una longitud cada una de 300-500 pb. Por sí solas, estas regiones re(T-A, A-U, C-G, G-C). La clave del código genético consiste en que
presentan alrededor del 6-8% del genoma humano1. Hay teorías
a cada aminoácido le corresponde uno o varios triplete de bases
que intentan explicar la presencia de estas regiones Alu I, pero nincaracterísticos (véase tabla I). La síntesis proteica tiene lugar
en el ribosoma en donde se van incorporando los distintos
guna de ellas ha sido hasta ahora aceptada de forma general. Otro
“ARNt-aminoácido” apareándose perfectamente al siguiente tritipo de secuencias dispersas son las denominadas microsatélites.
plete libre en el ARNm. En el ribosoma tiene lugar el enlace coEstas secuencias se hallan más o menos distribuidas uniformemenvalente (enlace peptídico) entre los distintos aminoácidos para
te dentro del genoma y son hipervariables o polimórficas. En estos
dar lugar a la proteína correspondiente.
momentos no se les conoce función alguna, aunque sí son de gran
ayuda en diagnóstico e investigación (p. ej., estudios de ligamiento,
nen aberraciones en su secuencia y que, por ello, no son expresados
paternidades, pérdida de heterozigosidad, etc. (véase capítulos
por la maquinaria celular. Si partimos de que hay unos 40.000 genes
“Herramientas básicas de análisis genético” de este monográfico).
funcionales en total y que la mayoría de genes tienen una longitud entre 3.000 y 10.000 pb, haciendo un simple cálculo obtendremos que
entre todos los genes se necesitan entre 120 y 400 millones de pb. Si
ESTRUCTURA BÁSICA DE LOS GENES.
sabemos que el genoma humano tiene alrededor de 3.000 millones, el
INTRONES Y EXONES
resultado es que hay mucho ADN (alrededor del 87%) entre gen y
gen que, aparentemente, no contiene información. Entre este ADN
La unidad básica de información genética es el gen (fig. 2). Un gen
que aparentemente no contiene información, y a la luz de los resultase puede definir como una región (física) del ADN cuya secuencia
TEMA MONOGRÁFICO
GENÉTICA BÁSICA (I)
Genoma humano y estructura básica de los genes
J. Oriola y R. Oliva
TABLA I Código genético
UUU
UUC
UUA
UUG
CUU
CUC
CUA
CUG
AUU
AUC
AUA
AUG
GUU
GUC
GUA
GUG
Fenilalanina (Phe, F)
“
Leucina (Leu, L)
“
Leucina (Leu, L)
“
“
“
Isoleucina (Ile, I)
“
“
Metionina (Met, M)
Valina (Val, V)
“
“
“
UCU
UCC
UCA
UCG
CCU
CCC
CCA
CCG
ACU
ACC
ACA
ACG
GCU
GCC
GCA
GCG
Serina (Ser, S)
“
“
“
Prolina (Pro, P)
“
“
“
Treonina (Thr, T)
“
“
“
Alanina (Ala, A)
“
“
“
UAU
UAC
UAA
UAG
CAU
CAC
CAA
CAG
AAU
AAC
AAA
AAG
GAU
GAC
GAA
GAG
Tirosina (Tyr, Y)
“
Stop
Stop
Histidina (His, H)
“
Glutamina (Gln, Q)
“
Asparagina (Asn, N)
“
Lisina (Lys, K)
“
Aspártico (Asp, D)
“
Glutámico (Glu, E)
“
UGU
UGC
UGA
UGG
CGU
CGC
CGA
CGG
AGU
AGC
AGA
AGG
GGU
GGC
GGA
GGG
Cisteína (Cys, C)
“
Stop
Triptófano (Trp, W)
Arginina (Arg, R)
“
“
“
Serina (Ser, S)
“
Arginina (Arg, R)
“
Glicina (Gly, G)
“
“
“
Se indica el aminoácido codificado por cada triplete. Entre paréntesis se indican también las dos posibles abreviaciones empleadas para cada aminoácido. El código genético presentado corresponde al del genoma nuclear. El código genético para el genoma mitocondrial, para bacterias y para algunos organismos inferiores difiere en determinados codones
respecto al código presentado aquí.
de bases contiene información para dar lugar a una unidad transcripcional con sus diversas secuencias reguladoras asociadas. El tamaño de los genes oscila entre los 500 pb del gen de la protamina4
(uno de los más pequeños) y los 3 millones de pb del gen de la distrofina5 (uno de los más grandes), aunque por término medio poseen alrededor de 3.000-10.000 pb6,7. Otras características importantes de los genes es que poseen polaridad 5’-3’, esto es, el gen se
lee en sentido 5’-3’ y no al revés (figs. 2 y 3). También cabe señalar
que en la región anterior al inicio del primer exón existe la región
promotora (fig. 2). A esta región del ADN se unen factores de
transcripción, ya sean específicos o generales (véase capítulo 2 de
este monográfico, específico para los aspectos de regulación de la
expresión génica).
Los primeros genes que se estudiaron fueron los bacterianos.
En ellos, cuando se sintetiza el ARN mensajero (ARNm) se observa el mismo orden de nucleótidos que posee el ADN, teniendo en
cuenta que en el ARN la timina (T) es sustituida por el uracilo (U)
(fig. 3). Cuando se empezaron a estudiar los genes en eucariotas,
se consideró que tendrían estructuras parecidas. Pronto se comprobó que no era así. Los genes que se hallan en organismos eucariotas poseen intrones (fig. 2). Los intrones son los segmentos de
ADN que no están presentes en el ARNm y, por tanto, no se traducen en aminoácidos. Los intrones constituyen el 85-95% de la
secuencia nucleotídica de un gen, es decir, sólo una pequeña parte
de la secuencia de un gen pasa a ARNm. En la mayoría de casos,
se desconoce la función de los intrones. Tan sólo sus extremos (alrededor de 4 o 5 pb) participan de una forma muy importante en
la maduración del ARNm. En algunos genes, no obstante, se han
hallado regiones reguladoras que se hallan dentro de los intrones.
Como casos puntuales que ayudan a entender la gran diversidad
estructural de los genes, cabe mencionar al gen que codifica para
la enzima 21-hidroxilasa (CYP21), y al gen de la tenascina-XB, ambos superpuestos en sus extremos 3´ terminales6. Uno se transcribe
de “izquierda a derecha” y el otro de “derecha a izquierda”. Otro
ejemplo curioso es el caso del gen NF-1, el cual posee 3 genes pequeños en su zona intrónica.
TRANSMISIÓN DE LA INFORMACIÓN GENÉTICA
DEL ADN A LAS PROTEÍNAS
El primer paso en la transmisión de la información genética presente en el ADN a las proteínas es la copia de esta información a
una molécula intermediaria denominada ARNm (figs. 2 y 3)8. La
información contenida en la secuencia de bases del ADN se transmite fielmente al ARNm gracias al apareamiento de las bases del
ADN con las bases de ARN (la T se aparea con la A del ARN, la A
se aparea con el uracilo [U] del ARN, la G se aparea con la C, y la
C se aparea con la G) (fig. 3). La síntesis del ARNm corre a cargo
de la ARN polimerasa, utilizando como molde la secuencia de bases presente en el ADN (figs. 2 y 3). Al ARN recién sintetizado se
le denomina tránscrito primario (fig. 2). Este tránscrito primario
experimenta un proceso de maduración consistente en la eliminación de los intrones y el procesado del extremo 3’ (fig. 2) dando lugar al ARNm maduro8.
La información genética presente en el ARNm se transmite a
las proteínas gracias a la existencia de un proceso de traducción de
la información (fig. 3). El código de traducción de esta información se denomina código genético, y esencialmente consiste en
que a cada 3 bases concretas de la secuencia del ARN mensajero
le corresponde un aminoácido (tabla I). Las proteínas se inician
siempre con el aminoácido metionina codificado por el triplete
AUG (tabla I y fig. 3). La síntesis proteica corre a cargo del ribosoma (fig. 3). Las moléculas clave en la traducción de la información
genética son los ARN de transferencia, ya que poseen la propiedad
de aparearse específicamente a los distintos tripletes existentes en
el ARN. Antes de que se produzca esta unión, cada ARN de transferencia se ha acoplado al aminoácido correspondiente al triplete
(fig. 3). La síntesis proteica consiste precisamente en la unión covalente entre los distintos aminoácidos que se van apareando al
ARNm (fig. 3). La síntesis proteica termina siempre que el ribosoma se encuentra con uno de los codones de terminación (TGA,
TAG, TAA; tabla I). Así pues, la información genética presente en
el ADN se transmite, a través del ARNm, a las proteínas en forma
de la secuencia de aminoácidos. Las proteínas, a su vez, desempeñarán la mayoría de las funciones celulares (figs. 2 y 3). Bibliografía
1. Oliva R. Genoma humano. Barcelona: Masson S.A., 1996.
2. Dunham I, Shimizu N, Roe BA, Chissoe S, Hunt AR, Collins JE et al. The
DNA sequence of human chromosome 22. Nature 1999; 402: 489-495.
3. Moyzis RK, Buckingham JM, Scott Cram L, Dani M, Deaver LL, Jones MD et
al. Highly conserved repetitive DNA sequence (TTAGGG)n, present at telomeres of human chromosomes. Proc Natl Acad Sci USA 1988; 85: 6622-6626.
4. Oliva R, Dixon GH. Vertebrate protamine genes and the histone to protamine
replacement reaction. Prog Nucl Acids Res Mol Biol 1991; 40: 25-94.
5. Tennyson CN, Klamut HS, Worton RG. The human dystrophin gene requires
16 hours to be transcribed and is cotranscriptionally spliced. Nat Genet 1995; 9:
184-190.
6. Oriola J. Diagnóstico molecular de los déficit de 21-hidroxilasa y su correlación
con el fenotipo. Endocrinología 46: 168-172.
7. Vidal-Taboada JM, Sanz S, Egeo A, Scartezzini P, Oliva R. Identification and
characterization of a new gene from human chromosome 21 between markers
D21S343 and D21S268 encoding a leucine rich protein. Biochem and Biophys
Res Comm 1998; 250: 547-554.
8. Watson JD, Hopkins NH, Roberts JW, Steitz JA, Weiner AM. Molecular biology of the gene. Menlo Park: Benjamin/Cummings, 1987.