Download 13 Genomas y Genómica

Document related concepts

Proyecto del genoma wikipedia, lookup

Genómica wikipedia, lookup

Genómica comparativa wikipedia, lookup

Genómica funcional wikipedia, lookup

Genoma humano wikipedia, lookup

Transcript
13 Genomas y Genómica
Preguntas clave
- ¿Cómo se elaboran los mapas de las secuencias de genomas?
- ¿Cómo se descifra la información de los genomas?
- ¿Qué puede revelar la genómica comparativa sobre la estructura y evolución del
genoma?
- ¿Cómo afecta al análisis genético el que se pueda disponer de la secuencia genómica?
Esquema
13.1 La revolución genómica
13.2 Creando el mapa de la secuencia de un genoma
13.3 Bioinformática: dando significado a la secuencia genómica
13.4 La estructura del genoma humano
13.5 Genómica comparativa
13.6 Genómica funcional y genética inversa
En 1997, un grupo de investigación de la Universidad de Munich encabezado por
Svante Päävo publicó la secuenciación de una región de 379 pb de DNA mitocondrial
obtenida del fémur del fósil original de Neandertal descubierto en 1856 (Figura 13-1).
La obtención de esta secuencia fue un logro técnico asombroso. Las moléculas de DNA
se rompen y acumulan modificaciones químicas con el paso del tiempo, por lo que sólo
una serie de secuencias muy cortas pudieron ser descifradas y yuxtapuestas. La cantidad
de DNA mitocondrial presente en la muestra era muy pequeña y la cantidad de DNA
nuclear era despreciable. Además, los científicos tuvieron que tener mucho cuidado para
asegurarse que la secuencia que obtuvieron no era una contaminación de la de humanos
modernos o de alguna otra fuente. Más apasionante aún fue el hecho de que la secuencia
del fragmento de DNA mitocondrial indicó que los Neandertales se extinguieron sin
contribuir al DNA mitocondrial de los humanos modernos.
Menos de 10 años después, el grupo de Päävo, ahora en el Instituto Max Planck de
Antropología Evolutiva en Leipzig, anunció que habían obtenido más de 1 millón de
pares de bases de la secuencia de DNA nuclear de un espécimen de Neandertal.
(pág. 453)
(pág. 454)
Además, pretendían obtener secuencias genómicas completas, no sólo de nuestro primo
recientemente extinguido, sino también de diez Neandertales individuales.
Estos avances en la genética del Neandertal ilustran los tremendos avances en la
tecnología y las ambiciones de la genómica: el estudio de los genomas en su totalidad.
Lo que empezó como un goteo es ahora un torrente de datos. En 1995 se secuenció el
primer genoma de un organismo vivo de vida libre: el genoma de 1.8 Mb (1.8
megabases) de la bacteria Hemophilus influenzae. En 1996 vino el genoma de 12 Mb de
Saccharomyces cerevisiae; en 1998 el genoma de 100 Mb de C. elegans; en el 2000, el
genoma de 180 Mb de Drosophila melanogaster; en el 2001, el primer borrador de las
3000 Mb del genoma humano; y en el 2005, el primer borrador de nuestro pariente
viviente más cercano: el chimpancé. Estas especies son sólo una pequeña muestra;
ahora tenemos las secuencias de más de 300 genomas bacterianos, 50 genomas de
hongos, muchas plantas (Arabidopsis y el arroz, por ejemplo) y un listado de mamíferos
que crece rápidamente (la rata, el perro, la zarigüeya) y otros animales.
La genómica ha revolucionado los métodos de análisis genético y ha abierto grandes
líneas de investigación que eran inconcebibles pocos años atrás. La mayoría de los
análisis genéticos que se han considerado hasta aquí emplean una aproximación directa
para analizar los procesos genéticos y biológicos. Es decir, el análisis empieza primero
buscando sistemáticamente mutantes que afectan algún fenotipo observable, y la
caracterización de estos mutantes eventualmente conducen hasta el gen y la función del
DNA, el RNA y las secuencias proteicas. Por el contrario, el hecho de tener la secuencia
de DNA completa del genoma de un organismo permite a los genetistas trabajar en
ambas direcciones: directa, del fenotipo al gen, e inversa, del gen al fenotipo. Sin
excepción, las secuencias genómicas revelan muchos genes que no se detectaron
mediante análisis mutacionales clásicos. Mediante la genética inversa, los genetistas
pueden ahora estudiar sistemáticamente las funciones de estos genes que no habían sido
identificados previamente. Además, la falta de estudios genéticos clásicos previos ha
dejado de ser un impedimento en la investigación genética de los organismos. Las
fronteras del análisis experimental están creciendo mucho más allá de los límites del
modesto número de organismos modelo que han sido explorados ampliamente.
Los análisis de genomas completos permean ahora en todos los rincones de la
investigación biológica. En genética humana, la genómica está proporcionando nuevas
formas de localizar genes que contribuyen a muchas de las enfermedades genéticas
determinadas por combinaciones complejas de factores genéticos. En los sistemas
modelo, el disponer de las secuencias genómicas de especies ampliamente estudiadas y
sus parientes ha acelerado enormemente la identificación de genes, el análisis de la
función de genes y la caracterización de elementos no codificadores en el genoma. Las
nuevas tecnologías para el análisis global en un genoma del papel fisiológico de todos
los productos génicos está conduciendo al desarrollo de un nuevo campo: la biología de
sistemas. Desde una perspectiva evolutiva, la genómica proporciona una visión
detallada de cómo los genomas han divergido y se han adaptado a lo largo del tiempo
geológico. En la investigación ecológica, los biólogos están desarrollando nuevos
métodos para estudiar la distribución de los organismos a partir de la detección de la
presencia y la concentración de distintos genomas en muestras tomadas de la naturaleza.
Y en la medicina humana ya se vislumbra el día en el que la secuencia genómica de una
persona formará parte rutinaria de su historial médico.
La secuencia de DNA del genoma es el punto de partida para un nuevo conjunto de
análisis enfocados a entender la estructura, función y evolución del genoma y de sus
componentes. En este capítulo nos centraremos en tres aspectos dominantes de los
análisis genómicos:
- la Bioinformática, que analiza el contenido informativo de genomas completos. Esta
información incluye los números y tipos de genes y de productos génicos, así como los
sitios de unión al DNA y al RNA que permiten a los productos funcionales ser
producidos en el tiempo y lugar precisos.
(pág. 454)
(pág. 455)
- la Genómica comparativa, que estudia los genomas tanto de especies estrechamente
relacionadas como de especies lejanas para adquirir nuevo conocimiento sobre la
evolución, y se utilizan las secuencias conservadas como guía para el análisis de la
función génica.
- la Genómica funcional, que usa una variedad cada vez mayor de métodos, incluyendo
la genética inversa, para la comprensión de las funciones génicas y la definición de
redes de genes y proteínas que interactúan en procesos biológicos.
13.1 La revolución genómica
Después del desarrollo de la tecnología del DNA recombinante en la década de los 70,
los laboratorios de investigación solían clonar y secuenciar un único gen, y sólo después
de que se hubiera encontrado algo interesante sobre el gen mediante un análisis
mutacional clásico. Los pasos que se requerían para ir desde la obtención de un mapa
genético clásico de un locus hasta el aislamiento del DNA que codifica el gen (clonar) y
determinar su secuencia, eran con frecuencia numerosos y largos. En la década de los
80, algunos científicos se dieron cuenta de que un equipo grande de investigadores
podría, haciendo un esfuerzo coordinado, clonar y secuenciar el genoma entero de un
organismo determinado. Tales proyectos genoma permitirían que tanto los clones como
la secuencia fueran recursos disponibles públicamente. Un atractivo de este recurso es
que cuando los investigadores se interesan en un gen de una especie cuyo genoma ha
sido secuenciado, sólo necesitan encontrar dónde está localizado el gen en el mapa del
genoma para aproximarse a su secuencia y potencialmente a su función. De este modo,
un gen podría ser caracterizado mucho más rápido que clonándolo y secuenciándolo
desde cero, un proyecto que podría tardar varios años en completarse. Esta
aproximación más rápida es ahora una realidad para todos los organismos modelo. De
forma similar, en genética humana, la secuencia genómica puede ayudar a identificar
genes causantes de enfermedad.
Desde una perspectiva más amplia, los proyectos genoma tienen el atractivo de arrojar
luz sobre los principios de construcción de los genomas. Obtener una secuencia
genómica es como haber desenterrado una antigua tablilla en un lenguaje no descifrable.
El genoma humano, por ejemplo, está compuesto de 24 cadenas de pares de bases,
representando a los cromosomas X e Y y los 22 autosomas. En total, el genoma humano
contiene 3 mil millones de pares de bases de DNA. Aunque nos podamos convencer a
nosotros mismos de que entendemos un determinado gen de interés, el mayor reto de la
genómica hoy en día es el alfabetismo genómico: ¿cómo leemos este gran almacén de
información codificada en la secuencia de los genomas?
Las técnicas básicas necesarias para secuenciar genomas enteros estaban ya disponibles
en la década de los 80, incluyendo los plásmidos bacterianos y los cromosomas de
bacteriófagos (usados como vehículos para clonar DNA), la reacción en cadena de la
polimerasa (PCR, del inglés “polymerase chain reaction”) para amplificar genes y
máquinas de secuenciación de DNA. Pero la escala necesaria para secuenciar genomas
complejos estaba, desde la perspectiva de un proyecto de ingeniería, muy lejos de la
capacidad de la comunidad científica del momento. La genómica de finales de los 80 y
los 90 evolucionó a partir de los grandes centros de investigación que podían integrar
estas tecnologías elementales en una línea de producción a nivel industrial. Estos
centros desarrollaron la robótica y la automatización para llevar a cabo los varios miles
de pasos de clonación y millones de reacciones de secuenciación necesarios para
ensamblar la secuencia de un organismo complejo. Con estos centros a punto, los años
de finales de los 90 y a partir de 2000 han sido la época de oro de la secuenciación de
genomas. La velocidad de secuenciación de genomas está en continua aceleración.
Nuevas tecnologías que combinan microfluidos y fibra óptica pueden obtener más de 25
millones de bases de secuencia en un día de trabajo con un solo aparato.
La genómica, con la ayuda de una tecnología de la información creciendo de modo
explosivo, ha impulsado nuevas formas de experimentación en los investigadores, así
como el análisis computacional del genoma en su conjunto, en lugar de analizar un gen
cada vez. También ha demostrado el valor de reunir conjuntos de datos a gran escala
con anterioridad a su uso, por su gran potencial para atacar problemas científicos
específicos. La genómica también ha
(pág. 455)
(pág. 456)
cambiado la sociología de la investigación biológica, demostrando el valor de la
colaboración en grandes redes científicas como un complemento de los pequeños
laboratorios científicos independientes (que todavía florecen). Estos efectos
incrementarán conforme aumente la información, la tecnología y la comprensión de la
genética. En la última sección de este capítulo exploraremos algunas maneras en las que
la genómica impulsa la investigación básica y aplicada en la genética actual. En los
capítulos siguientes veremos cómo la genómica está catalizando avances en el
conocimiento de las dinámicas de la mutación, la recombinación y la evolución.
Mensaje: Caracterizar genomas enteros es importante para una comprensión
fundamental de los principios que operan en los organismos vivos y para el
descubrimiento de nuevos genes, como los que están implicados en enfermedades
genéticas humanas.
13.2 Elaboración del mapa de la secuencia de un genoma
Cuando se encuentra un nuevo territorio, una de las primeras actividades es elaborar un
mapa. Esta práctica es cierta para exploradores, geógrafos, oceanógrafos y astrónomos,
y es igualmente cierta para genetistas. Los genetistas usan muchos tipos de mapas para
explorar el terreno de un genoma. Algunos ejemplos son los mapas de ligamiento
basados en los patrones de herencia de los alelos de los genes, y mapas citogenéticos
basados en la localización de las características visibles en el microscopio, como puntos
de rotura de reordenaciones.
El mapa de mayor resolución es la secuencia completa de DNA del genoma; es decir, la
secuencia completa de nucleótidos A, T, C y G de cada doble hélice en el genoma.
Puesto que hacer un mapa de la secuencia completa del genoma es una empresa de gran
envergadura, de un tipo no visto antes en biología, deben usarse nuevas estrategias
basadas en la automatización.
Conversión de lecturas de secuencias en mapas de secuencia
Probablemente habrá visto un juego de magia en el que el mago corta una página de un
periódico a pedazos, los mezcla en su sombrero, dice unas palabras mágicas y voilà! una
página intacta del periódico reaparece. Básicamente, así es como se producen los mapas
de secuencia genómicos. La aproximación es la siguiente: (1) romper un genoma en
miles o millones de segmentos más o menos al azar, (2) leer la secuencia de cada
pequeño segmento, (3) computacionalmente buscar el solapamiento entre los pequeños
segmentos donde sus secuencias son idénticas y (4) continuar solapando en piezas aún
mayores hasta que todos los segmentos pequeños se hayan unido (Figura 13-2). En este
punto, se ha ensamblado un mapa de la secuencia de un genoma.
¿Por qué este proceso debe ser automatizado? Para entenderlo, consideremos el genoma
humano, que contiene aproximadamente 3 x 109 pb de DNA, ó 3 mil millones de pares
de bases (3 giga-pares de bases = 3 Gpb). Supongamos que podemos purificar el DNA
intacto de cada uno de los 24 cromosomas humanos (el X, el Y y los 22 autosomas),
poner separadamente cada una de estas muestras de DNA en una máquina de
secuenciación y leer sus secuencias directamente desde un telómero al otro. Crear un
mapa de la secuencia completa sería tan fácil como leer un libro de 24 capítulos, aunque
un libro muy, muy largo con 3 mil millones de caracteres (aproximadamente el tamaño
de 3000 novelas). Desafortunadamente, tal máquina de secuenciación no existe. Por el
contrario, la secuenciación automática basada en fluorescencia del tipo que se discutió
en el Capítulo 20 es ahora la tecnología más moderna de secuenciación de DNA.
Reacciones de secuenciación individuales (llamadas lecturas de secuenciación)
proporcionan generalmente cadenas de letras de aproximadamente 600 bases de largo.
Estas longitudes son minúsculas comparadas con el DNA de un solo cromosoma
(aproximadamente 3 x 108 pb de DNA) y sólo aproximadamente el 0.00002% del
genoma humano entero. Por lo tanto, un reto principal al que se enfrenta un proyecto
genoma es el ensamblado de secuencias, es decir, la construcción,
(pág. 456)
(pág. 457)
a partir de las lecturas individuales, de una secuencia consenso, una secuencia por la
cual hay consenso (o concordancia) y que es la auténtica representación de la secuencia
por cada una de las moléculas de DNA en este genoma.
Veamos ahora estos números de otro modo para entender la magnitud del problema.
Como sucede con cualquier observación experimental, las máquinas de secuenciación
automática no siempre dan lecturas de secuencias perfectamente correctas. Además, la
tasa de error no es constante; depende de factores tales como los colorantes que se unen
a las moléculas secuenciadas, la pureza y la homogeneidad de la muestra inicial de
DNA y la secuencia específica de pares de bases en la muestra de DNA. Por lo tanto,
para asegurar la exactitud, los proyectos genoma obtienen típicamente múltiples (hasta
10) lecturas de secuencia independientes para cada par de bases en el genoma. Una
cobertura de diez veces (indicada como 10) asegura que los errores al azar en las
lecturas no causan una reconstrucción falsa de la secuencia consenso. Dada una longitud
promedio de lectura de secuencia de unas 600 bases de DNA y un genoma humano de 3
mil millones de pares de bases, una cobertura promedio de 10 veces por cada par de
bases requiere 50 millones de lecturas exitosas independientes. No obstante, no todas
las lecturas son exitosas y por lo tanto el número de lecturas que deben intentarse es aún
mayor. Así, la
(pág. 457)
(pág. 458)
cantidad de información y material a ser rastreados es enorme. Para intentar minimizar
tanto el error humano como la necesidad de personal que lleve a cabo tareas muy
repetitivas, los laboratorios de los proyectos genoma han implementado la
automatización, el seguimiento informático mediante el uso de códigos de barras y
sistemas de análisis informático siempre que sea práctico.
Por estas razones, la preparación de clones, el aislamiento del DNA, la electroforesis y
los protocolos de secuenciación se han adaptado a la automatización. Por ejemplo, uno
de los adelantos recientes ha sido el desarrollo de máquinas de secuenciación en cadena
que trabajan las veinticuatro horas del día sin ningún tipo de intervención humana. Los
grandes genomas de mamíferos han sido secuenciados en centros genómicos que tienen
muchas máquinas de secuenciación trabajando en paralelo y que son capaces de
producir hasta 150 000 lecturas en un solo día. Un solo centro de secuenciación tiene la
capacidad de ensamblar la secuencia de un genoma de mamífero de 3-Gpb en 1 ó 2
años. La Figura 13-3 muestra una cadena de montaje de secuenciación. Nuevos
desarrollos están acelerando aún más la velocidad de secuenciación, a la vez que
disminuyendo los costes.
¿Cuáles son los objetivos de secuenciar un genoma? En primer lugar, elaborar una
secuencia consenso que sea una representación verdadera y fiel del genoma a partir de
un organismo individual o de líneas estándares a partir de las cuales se ha obtenido el
DNA. Esta secuencia servirá luego de secuencia de referencia para esta especie. Ahora
se sabe que hay muchas diferencias en la secuencia del DNA entre distintos individuos
dentro de una misma especie e incluso dentro de un único individuo diploide. Por eso,
ninguna secuencia genómica representa verdaderamente el genoma de toda la especie.
Sin embargo, la secuencia del genoma sirve como estándar o referencia con la que
comparar otras secuencias y se puede analizar para determinar la información
codificada en el DNA, incluyendo el inventario de los RNAs y polipéptidos codificados.
Como en los manuscritos escritos, las secuencias genómicas pueden variar desde la
calidad de borrador (el esbozo general está ahí, pero hay errores tipográficos, errores
gramaticales,
(pág. 458)
(pág. 459)
huecos, secciones que necesitan ser reordenadas, etc.), a calidad finalizada (una tasa
muy baja de errores tipográficos, faltan algunas secciones pero se ha hecho todo lo que
es actualmente posible para rellenar estas secciones), a verdaderamente completa (no
hay errores tipográficos, cada par de bases es absolutamente correcto de telómero a
telómero). En las siguientes secciones se considerarán los métodos generales para
elaborar ensamblajes borrador y finalizados de secuencias genómicas, así como algunas
de las características de los genomas que desafían a los proyectos de secuenciación de
genomas.
Establecimiento de una genoteca de clones
Hay dos estrategias generales para ensamblar la secuencia de un genoma. Una se llama
secuenciación aleatoria de genomas completos (WGS, del inglés “whole-genome
shotgun”) y la otra se llama secuenciación de clones ordenados. Ambas estrategias se
basan en la determinación de la secuencia de muchos segmentos de DNA genómico que
se han generado rompiendo los largos cromosomas de DNA en muchos segmentos
cortos. Cada aproximación empieza con la elaboración de genotecas (o bibliotecas
genómicas), que son colecciones de estos segmentos cortos de DNA que representan a
todo el genoma. Los segmentos cortos de DNA de una de estas genotecas se insertan en
uno de varios tipos de cromosomas accesorios (elementos no esenciales como los
plásmidos, los virus bacterianos modificados o los cromosomas artificiales) y se
propagan en microbios, normalmente bacterias o levadura. Estos cromosomas
accesorios que llevan insertos de DNA se llaman vectores.
Para generar una genoteca primero se debe trocear el DNA genómico purificado usando
enzimas de restricción que cortan el DNA en secuencias específicas. Algunas enzimas
cortan el DNA en muchos sitios, mientras que otras lo cortan en pocos sitios; así se
puede controlar si el DNA se corta, en promedio, en trozos más o menos largos. Los
fragmentos resultantes contienen en ambos extremos fragmentos cortos de DNA de
cadena sencilla. Estos fragmentos se unen luego al DNA del cromosoma accesorio, que
también se habrá cortado con una enzima de restricción y que tiene extremos que son
complementarios a los de los fragmentos genómicos. Para que todo el genoma esté
representado, se deben generar miles o millones de tales moléculas recombinantes a
partir de múltiples copias del DNA genómico con cortes únicos al azar.
Después se propaga el conjunto de moléculas de DNA recombinante resultante,
típicamente mediante su introducción en células bacterianas, de forma que cada célula
contiene una molécula recombinante. Luego cada molécula recombinante se replica
dentro del ciclo normal de crecimiento y división de su hospedador, y como resultado se
producen muchas copias idénticas del fragmento insertado para su uso en el análisis del
fragmento de la secuencia de DNA. Debido a que cada molécula recombinante se
amplifica a partir de una célula individual, cada célula es un clon distinto. (Podrá
encontrar más detalles sobre la clonación del DNA en el Capítulo 20).
La mayoría de las estrategias de secuenciación de genomas están basadas en clones.
Con el uso de los clones de una genoteca se puede obtener la secuencia del DNA
genómico que se ha insertado junto al DNA del vector. Esta información se usa luego
de distintas formas para ensamblar la secuencia genómica, dependiendo de si se aplica
una secuenciación aleatoria o una aproximación ordenada.
Secuenciación de un genoma simple usando la aproximación de la secuenciación
aleatoria de genomas completos
La lógica detrás de la secuenciación aleatoria de genomas completos es la siguiente:
primero secuenciar, luego cartografiar. En primer lugar, se obtienen las lecturas de
secuencias a partir de clones seleccionados al azar de una genoteca que no contiene
información sobre la localización de estos clones en el genoma. Esta genoteca se llama
genoteca genómica. Luego, estas lecturas de secuencia se ensamblan en una secuencia
consenso que cubre todo el genoma mediante la unión de secuencias homólogas
compartidas por lecturas de clones que se solapan.
El DNA bacteriano es esencialmente DNA de copia única, sin secuencias repetidas.
Así, cualquier lectura de secuencia de DNA de un genoma bacteriano viene de un único
lugar en este genoma. Además, un genoma bacteriano típico es de sólo unos
(pág. 459)
(pág. 460)
pocos pares de megabases de DNA en tamaño. Gracias a estas propiedades, la
secuenciación aleatoria de genomas completos se puede aplicar fácilmente a los
genomas bacterianos.
¿Cómo se obtienen las secuencias? La reacción de secuenciación empieza a partir de un
cebador de secuencia conocida. Debido a que la secuencia del inserto clonado no se
conoce (y de hecho es la finalidad del experimento), los cebadores se diseñan a partir de
la secuencia de DNA del vector adyacente y se usan para guiar la reacción de
secuenciación del fragmento insertado. Por lo tanto, estos cebadores permiten
secuenciar cortas regiones a uno o a ambos extremos de las inserciones genómicas
(Figura 13-4). Después de la secuenciación, el resultado es una gran colección de
secuencias cortas al azar, algunas de ellas solapadas. Las secuencias de las lecturas que
se solapan son ensambladas en unidades llamadas contigs (secuencias que son contiguas
o que se tocan), de modo que cada contig cubre una región larga del genoma bacteriano.
Con el uso de la aproximación de la secuenciación aleatoria del genoma completo, en
julio de 2006 se habían secuenciado completamente 320 especies bacterianas y varios
centenares de proyectos de secuenciación de otras bacterias estaban en curso.
Uso de la aproximación de la secuenciación aleatoria de genomas completos para
crear una secuencia borrador de un genoma complejo
Una gran dificultad en el ensamblaje de una secuencia consenso de un genoma
eucariótico es la existencia de numerosas clases de secuencias repetidas, algunas
organizadas en tándem y otras dispersas. ¿Por qué son un problema para la
secuenciación genómica? En pocas palabras, porque una lectura de la secuencia de
DNA repetitivo encaja en muchos lugares del borrador del genoma. No es infrecuente
que la secuencia repetitiva en tándem sea en total más larga que la longitud máxima de
una lectura de secuencia, de modo que no hay forma de llenar el hueco entre las
secuencias únicas adyacentes. Los elementos repetitivos dispersos pueden causar
alineamientos erróneos y la asignación errónea de lecturas a diferentes cromosomas o a
diferentes partes del mismo cromosoma.
Mensaje: el paisaje de los cromosomas eucarióticos incluye una variedad de segmentos
de DNA repetitivos. Estos segmentos son difíciles de alinear a partir de las lecturas de
secuencias.
La secuenciación aleatoria de genomas completos es particularmente conveniente para
elaborar secuencias de calidad borrador de genomas complejos que contienen muchas
secuencias repetitivas. Por ejemplo, consideremos el genoma de la mosca de la fruta D.
melanogaster, que fue inicialmente secuenciado usando este método. El proyecto
empezó con la secuenciación de genotecas de clones genómicos de distintos tamaños (2
kb, 10 kb ó 150 kb). Las lecturas de secuencias se obtuvieron a partir de ambos
extremos de los insertos de los clones genómicos, y estas se alinearon mediante una
lógica idéntica a la usada para la secuenciación aleatoria de genomas completos de
procariotas. Según esta lógica se identificaron los solapamientos de secuencias
homólogas y se ordenaron los clones, elaborando contigs: secuencias consenso para
estos fragmentos de copia única del genoma. Aún así, a diferencia de la situación en
bacterias donde sólo hay DNA de copia única, los contigs avanzaban hasta encontrarse
con un segmento de DNA repetitivo que impidió su ensamblaje preciso en un genoma
completo. Estos contigs tenían un tamaño promedio de aproximadamente 150 kb, y el
reto fue conseguir colocar los miles de estos contigs en su correcto orden y orientación.
La solución a este problema fue utilizar los pares de lecturas de la secuencia de los
extremos opuestos de los insertos genómicos del mismo clon: estas lecturas se llaman
lecturas de extremos emparejados. La idea era encontrar lecturas de extremos
emparejados que abarcaran los
(pág. 460)
(pág. 461)
huecos entre dos contigs (Figure 13-5). En otras palabras, si un extremo de un inserto
era parte de un contig y el otro extremo era parte del segundo contig, luego este inserto
debía abarcar el hueco entre los dos contigs, y los dos contigs debían estar
necesariamente uno junto al otro. De hecho, ya que el tamaño de cada clon era conocido
(es decir, venía de una genoteca que contenía insertos genómicos de tamaño uniforme,
ya fuere librerías de 2 kb, de 100 kb ó de 150 kb), la distancia entre las lecturas de los
extremos era conocida. Además, el alineamiento de las secuencias de dos contigs
usando lecturas de extremos emparejados automáticamente determina la orientación
relativa de los dos contigs. De este modo se pudieron unir los contigs de copia única,
aunque con huecos en donde los elementos repetitivos residían. Estas colecciones de
contigs unidos que contienen huecos se llaman andamios (a veces también referidos
como supercontigs). Debido a que la mayoría de las repeticiones en Drosophila son
largas (3-8 kb) y ampliamente espaciadas (una repetición cada aproximadamente 150
kb), esta técnica fue extremadamente efectiva para elaborar una secuencia borrador
correctamente ensamblada del DNA de copia única. La Figura 13-6 muestra un resumen
de la lógica de esta aproximación.
Uso de la aproximación de clones ordenados para secuenciar un genoma complejo
La lógica de la secuenciación de clones ordenados es opuesta a la de la aproximación de
la secuenciación aleatoria de genomas completos: primero cartografiar, luego
secuenciar. Los insertos individuales clonados de una genoteca se exploran para buscar
similitudes en, por ejemplo, los sitios de reconocimiento de enzimas de restricción,
indicando que dos insertos se solapan para formar un contig de clones (Figura 13-7). El
solapamiento nos indica que estos insertos son contiguos en el genoma. Este
procedimiento resulta en un conjunto de clones ordenados y orientados que
conjuntamente abarcan todo el genoma. Tal conjunto de clones ordenados y orientados
que cubren el genoma completo se llama el mapa físico del genoma. Aquí, la palabra
“físico” se utiliza en el sentido de que el mapa está compuesto de objetos reales
(segmentos de DNA) que se pueden aislar y estudiar en un tubo de ensayo.
En las primeras fases de un proyecto genoma, son numerosos los contigs de clones que
son segmentos separados del genoma, pero a medida que se van caracterizando más
clones, estos permiten el solapamiento de dos contigs de clones previamente separados
y
(pág. 461)
(pág. 462)
su unión permite la fusión de los dos contigs de clones en un sólo contig más largo. Este
proceso de fusión de contigs continúa hasta que finalmente el número de contigs de
clones es igual al número de cromosomas. En este punto, si cada contig de clones se
extiende hasta los telómeros de su cromosoma, se dice que se ha completado el mapa
físico.
Mensaje: La cartografía física se desarrolla mediante el ensamblaje de clones en grupos
que se solapan, llamados contigs de clones. A medida que se acumulan más datos, los
contigs de clones acaban abarcando la longitud de los cromosomas enteros.
Después de que se ha obtenido el mapa físico, el siguiente paso es la elección, de entre
todos los clones usados para elaborar el mapa, de un conjunto de clones que se solapan
mínimamente y que conjuntamente cubren todo el genoma (Figura 13-8). Luego estos
clones se secuencian completamente, tratando cada clon genómico como un proyecto de
secuenciación de un mini-genoma en el que múltiples lecturas de secuencia para el clon
se juntan usando la lógica de la aproximación de la secuenciación aleatoria de genomas
completos. Finalmente, las secuencias de los clones se ensamblan en una secuencia
consenso global del genoma según el orden conocido de estos clones en el mapa físico.
Esta capacidad de contar con el mapa físico para ordenar y orientar las secuencias de los
clones es una enorme ventaja de la aproximación de clones ordenados. Una segunda
ventaja muy importante es la posibilidad de incluir ciertos elementos repetitivos, ya que
su localización dentro del clon es precisa, siendo ésta una ventaja capital para la
creación de la secuencia consenso clon a clon.
Los vectores que pueden llevar largos insertos son los más útiles, porque el genoma se
romperá en menos piezas y habrá menos clones de los que seguir la pista. Sin embargo,
aún usando vectores que lleven largos insertos, crear un mapa físico es una tarea
abrumadora. Incluso los supuestos genomas pequeños contienen grandes cantidades de
DNA. Considere, por ejemplo, el genoma de 100-Mpb del diminuto nematodo
Caenorhabditis elegans. Dos vectores usados comúnmente para transportar clones son
los cósmidos (híbridos del DNA del fago  y del DNA de plásmido bacteriano en forma
circular) y los vectores BAC derivados del plásmido F bacteriano. Debido a que un
inserto promedio de un cósmido es de aproximadamente 40 kb, por lo menos 2500
cósmidos serían necesarios para cubrir este genoma, y muchos más para estar seguros
de que todos los segmentos del genoma estarán representados. Una librería de BACs
para C. elegans con un tamaño promedio de los insertos de 200 kb simplificaría la tarea
cinco veces.
Mensaje: Las dos aproximaciones básicas de secuenciación de genomas son la
secuenciación aleatoria de genomas completos y la secuenciación de clones ordenados a
partir de mapas físicos.
Rellenado de huecos en la secuencia
Tanto en la secuenciación aleatoria de genomas completos como en la secuenciación de
clones ordenados, generalmente quedan algunos huecos. Algunos huecos esporádicos
aparecen siempre que por azar una región del genoma no se encuentra en la genoteca
genómica, por ejemplo porque algunos fragmentos de DNA no se replican bien en
algunos vectores de clonación. En estos casos se deben usar técnicas especiales para
rellenar estos huecos en los ensamblajes de secuencias. Si los huecos son cortos, los
fragmentos faltantes se pueden generar usando las secuencias conocidas
(pág. 462)
(pág. 463)
de los extremos de los ensamblajes como cebadores para amplificar y analizar la
secuencia genómica de en medio. Si los huecos son más largos, se puede intentar clonar
estas secuencias en un hospedador distinto, como por ejemplo la levadura. Si la
clonación en un hospedador distinto fracasa, entonces los huecos en la secuencia
permanecerán.
El hecho de decidir secuenciar un genoma según los estándares de la secuencia
“borrador” o “finalizada” es una cuestión de análisis coste-beneficio. Mientras que
elaborar un borrador es relativamente fácil, resulta muy difícil elaborar una secuencia
finalizada usando los métodos actuales.
13.3 La bioinformática: significado a partir de la secuencia genómica
La secuencia genómica es un código sumamente cifrado que contiene la información
para construir y mantener un organismo funcional. El estudio del contenido informativo
de los genomas recibe el nombre de bioinformática. Estamos lejos de poder leer esta
información de principio a fin en la forma en la que leeríamos un libro. Aunque
sabemos qué tripletes codifican los aminoácidos en los segmentos que codifican
proteínas, la mayor parte de la información contenida en un genoma no se puede
descifrar con una mera inspección.
La naturaleza del contenido informativo del DNA
El DNA contiene información, ¿pero en qué forma está codificada?
Convencionalmente, la información se considera como la suma de todos los productos
génicos, tanto proteínas como RNAs. Sin embargo, el contenido informativo del
genoma es más complejo que esto. El
(pág. 463)
(pág. 464)
genoma también contiene sitios de unión para distintas proteínas y RNAs. Muchas
proteínas se unen a sitios localizados en el propio DNA, mientras que otras proteínas y
RNAs se unen a sitios localizados en el mRNA (Figura 13-9). La secuencia y las
posiciones relativas de dichos sitios permiten a los genes ser transcritos, procesados y
traducidos correctamente, en el momento y en el tejido adecuado. Por ejemplo, los sitios
de unión a proteínas reguladoras determinan cuándo, dónde y en qué cantidad se
expresará un gen. A nivel de RNA en los eucariotas, las localizaciones de los sitios de
unión para los RNAs y las proteínas del espliceosoma determinarán los sitios de corte y
empalme 5’ y 3’ por donde se eliminarán los intrones. Tanto si un sitio de unión actúa
como tal en el DNA como si lo hace en el RNA, el sitio tiene que estar codificado en el
DNA. Por lo tanto, la información en el genoma puede ser considerada como la suma de
todas las secuencias que codifican las proteínas y los RNAs, más los sitios de unión que
determinan el tiempo y el espacio de sus acciones. El principal objetivo después del
ensamblado de un genoma borrador y mientras éste se continúa mejorando, es la
identificación de todos los elementos funcionales del genoma. Este proceso recibe el
nombre de anotación.
Deducción de los genes que codifican proteínas a partir de la secuencia genómica
Debido a que las proteínas que están presentes en una célula en gran medida determinan
su morfología y sus propiedades fisiológicas, uno de los principales objetivos del
análisis genómico y de la anotación es intentar hacer un inventario de todos los
polipéptidos que están codificados en el genoma de un organismo. Este inventario
recibe el nombre de proteoma del organismo, y puede ser considerado como un “listado
de las partes” de la célula. Para determinar este listado de polipéptidos, la secuencia de
cada mRNA codificado en el genoma debe ser deducida. Debido al corte y empalme de
los intrones, esta tarea supone un desafío en el caso de los eucariotas multicelulares,
donde los intrones son la norma. En humanos, por ejemplo, un gen promedio tiene
aproximadamente 10 exones. Además, varios genes codifican exones alternativos; es
decir, algunos exones son incluidos en algunas versiones de un mRNA procesado pero
no son incluidos en otras (véase el Capítulo 8). Los mRNAs que son procesados
alternativamente pueden codificar polipéptidos que compartan la mayoría, pero no toda
la secuencia aminoacídica. Aunque hay un gran número de genes y mRNAs
completamente secuenciados, todavía no se puede identificar con mucha exactitud los
sitios de corte y empalme 5’ y 3’ a partir únicamente de la secuencia de DNA. Por eso,
no podemos estar seguros de qué secuencias corresponden a los intrones. La predicción
de los exones que son usados alternativamente es aún más propensa a error. Por estas
razones, la deducción del listado completo de polipéptidos en los eucariotas superiores
es aún un gran reto. A continuación se detallan algunas aproximaciones.
Detección de ORFs La principal aproximación para elaborar un listado de polipéptidos
es usar el análisis computacional de la secuencia genómica para predecir secuencias de
mRNAs y polipéptidos, lo que representa una parte importante de la bioinformática. La
aproximación básica es buscar secuencias que tengan las características de los genes.
Estas secuencias tendrían el tamaño de los genes
(pág. 464)
(pág. 465)
y estarían compuestas de codones con sentido después de que los posibles intrones
fueran eliminados. Las secuencias correspondientes a los extremos 5’ y 3’ estarían
presentes, como por ejemplo los codones de inicio y final de la traducción. Las
secuencias que tienen estas características típicas de los genes se llaman marcos
abiertos de lectura (ORFs, del inglés “open reading frames”). Para encontrar ORFs
candidatos, el ordenador rastrea la secuencia de las dos cadenas del DNA para cada
posible marco de lectura. Como hay tres marcos de lectura por cada cadena, en total hay
seis marcos de lectura posibles.
Evidencia directa a partir de secuencias de cDNA Otra forma de identificar ORFs y
exones es a través del análisis de la expresión del mRNA. Este análisis se lleva a cabo
mediante la creación de librerías de moléculas de DNA que son complementarias a las
secuencias del mRNA, llamadas cDNA. Las secuencias de DNA complementarias son
extremadamente valiosas en dos aspectos. En primer lugar, son la evidencia directa de
que un determinado segmento del genoma se expresa y puede, por lo tanto, codificar un
gen. En segundo lugar, debido a que el cDNA es complementario al mRNA maduro, los
intrones del transcrito primario han sido ya eliminados, lo que facilita enormemente la
identificación de los exones y los intrones del gen (Figura 13-10). El alineamiento de
cDNAs con sus secuencias genómicas correspondientes claramente delinea los exones,
y por lo tanto los intrones se revelan como las regiones que caen en medio de los
exones. En el cDNA, el ORF debería ser continuo desde el codón de inicio hasta el
codón de fin de la traducción. Por lo tanto, las secuencias de cDNA pueden ayudar
enormemente a identificar el marco de lectura correcto, incluyendo los codones de
inicio y fin de la traducción. La evidencia de cDNAs completos se usa como prueba de
oro de que uno ha identificado la secuencia de una unidad de transcripción, incluyendo
sus exones y su localización en el genoma.
Además de las secuencias de cDNA completas, hay grandes conjuntos de datos de
cDNAs en los que sólo los extremos 5’ ó 3’ ó ambos han sido secuenciados. Estas
lecturas cortas de secuencias de cDNAs reciben el nombre de etiquetas de secuencia
expresada (ESTs, del inglés “expressed sequence tags”). Las etiquetas de secuencia
expresada se pueden alinear con el DNA genómico y así determinar los extremos 5’ y 3’
de los transcritos o, en otras palabras, determinar los límites del transcrito, tal i como se
muestra en la Figura 13-10.
Predicciones de los sitios de unión Como ya se discutió anteriormente, un gen
consiste de un segmento de DNA que codifica un transcrito, así como de señales
reguladoras que determinan cuándo, dónde y cuánto se produce un transcrito. A su vez,
este transcrito tiene las señales necesarias para determinar su corte y empalme en el
mRNA y la traducción de este
(pág. 465)
(pág. 466)
mRNA a un polipéptido (Figura 13-11). Actualmente hay programas de ordenador
“buscadores de genes” estadísticos, que buscan dentro del DNA genómico las
secuencias predichas de los varios sitios de unión a promotores, sitios de inicio de la
transcripción, sitios 5’ y 3’ de corte y empalme, y codones de inicio de la traducción.
Estas predicciones están basadas en motivos consenso para secuencias conocidas de este
tipo, pero no son ni mucho menos perfectas.
Uso de la similitud de polipéptidos y DNA Debido a que los organismos tienen
ancestros comunes, también tienen muchos genes con secuencias similares en común.
Por lo tanto, un gen tendrá seguramente parientes entre los genes aislados y
secuenciados de otros organismos, especialmente en los más cercanos. Así, los genes
candidatos predichos por las técnicas anteriores pueden a menudo ser verificados
mediante su comparación con todas las otras secuencias génicas que se han encontrado
hasta entonces. Una secuencia candidata es enviada como una “secuencia problema” a
las bases de datos públicas que contienen las secuencias para todos los genes conocidos.
Este procedimiento recibe el nombre de búsqueda por BLAST (BLAST significa
herramienta básica de búsqueda de alineamientos locales, del inglés “Basic Local
Alignment Search Tool”). La secuencia puede enviarse como secuencia nucleotídica
(una búsqueda BLASTn) o como una secuencia traducida a aminoácidos (BLASTp). El
ordenador explora la base de datos y retorna un listado de “aciertos”, completos o
parciales, empezando con las mejores coincidencias. Si la secuencia candidata se parece
mucho a la de un gen previamente identificado en otro organismo, esta semejanza es
una clara evidencia de que el gen candidato es un gen real. Incluso las coincidencias
menos cercanas son útiles. Por ejemplo, una identidad de aminoácidos de sólo el 35%,
pero en posiciones idénticas, es un claro indicador de que dos proteínas tienen una
estructura tridimensional común.
(pág. 466)
(pág. 467)
Las búsquedas por BLAST son útiles en muchos otros aspectos, aunque el objetivo es
siempre descubrir algo más sobre alguna secuencia de interés identificada.
Predicciones basadas en el sesgo en el uso de codones Recuerde del Capítulo 9 que el
código de tripletes es degenerado para los aminoácidos; es decir, la mayoría de los
aminoácidos están codificados por dos o más codones (véase Figura 9-6). Los múltiples
codones para un único aminoácido se llaman codones sinónimos. En una especie dada,
no todos los codones sinónimos para un aminoácido son usados con la misma
frecuencia, sino que ciertos codones están presentes mucho más a menudo en los
mRNAs (y por lo tanto en el DNA que los codifica). Por ejemplo, en D. melanogaster,
de los dos codones para la cisteína, el UGC es usado un 73% de las veces, mientras que
el UGU es usado sólo el 27%. Este uso sirve de diagnóstico en Drosophila porque en
otros organismos este “sesgo en el uso de codones” es algo distinto. Se cree que el sesgo
en el uso de los codones es debido a la abundancia relativa de los tRNAs
complementarios a los distintos codones de una especie dada. Si el sesgo en el uso de
codones de un ORF predicho coincide con el patrón conocido del sesgo en el uso de
codones de la especie, luego esta coincidencia respalda la evidencia de que el ORF
propuesto es genuino.
Reuniendo todas la piezas La Figura 13-12 ilustra un resumen de cómo se combinan
las diferentes fuentes de información para crear la mejor predicción de mRNAs y genes.
Estos distintos tipos de evidencia son complementarios y pueden
(pág. 467)
(pág. 468)
reforzarse entre sí. Por ejemplo, la estructura de un gen puede ser inferida a partir de la
evidencia de similitud proteica dentro de una región del DNA genómico limitada por
ESTs 5’ y 3’. Pero incluso se pueden hacer predicciones útiles sin ninguna secuencia de
cDNA o evidencia de similitudes proteicas: un programa de predicción de sitios de
unión puede proponer un ORF hipotético, y un sesgo en el uso de codones apropiado
estaría apoyando la evidencia.
Mensaje: Las predicciones de estructuras de mRNAs y polipéptidos a partir de la
secuencia del DNA genómico dependen de la integración de la información procedente
de la secuencia de cDNAs, predicciones de sitios de unión, similitudes de polipéptidos y
el sesgo en el uso de los codones.
Consideremos la nueva comprensión que se ha obtenido de un primer análisis de las
estructuras genómicas en su conjunto y del listado global de algunas especies cuyos
genomas ya han sido secuenciados. Empezaremos con nosotros mismos. ¿Qué podemos
aprender mirando al genoma humano en sí mismo? Posteriormente, veremos qué
podemos aprender comparando nuestro genoma con el de otros organismos.
13.4 La estructura del Genoma Humano
Para hacer una descripción de la estructura global del genoma humano, primero
debemos enfrentarnos con su estructura repetitiva. Una fracción considerable del
genoma humano, aproximadamente el 45%, es repetitiva. La mayor parte de este DNA
repetitivo está compuesto por copias de elementos transponibles. De hecho, incluso
dentro del DNA de copia única restante, una fracción contiene secuencias que sugieren
que podrían descender de elementos transponibles antiguos que son ahora inmóviles y
que han acumulado mutaciones al azar, causando que su secuencia diverja de los
elementos transponibles ancestrales. Por lo tanto, la mayor parte del genoma humano
parece estar compuesto por “autoestopistas” genéticos.
Sólo una pequeña parte del genoma humano codifica polipéptidos; es decir, algo menos
del 3% de éste codifica los exones de los mRNAs. Los exones son típicamente
pequeños (aproximadamente 150 bases), mientras que los intrones son largos, muchos
extendiéndose más de 1000 bases y algunos incluso más de 100 000 bases. Los
transcritos están compuestos de 10 exones en promedio, aunque muchos tienen
substancialmente más. Finalmente, los intrones pueden ser eliminados del mismo gen en
distintos lugares. Esta variación en la localización de los sitios de corte y empalme
genera una diversidad añadida considerable en el mRNA y la secuencia de polipéptidos.
Considerando los datos de cDNAs y ESTs actuales, el 60% de los genes que codifican
proteínas en humanos tienen probablemente dos o más variantes de corte y empalme. En
promedio, hay aproximadamente tres variantes de corte y empalme por gen. Por lo
tanto, el número de proteínas distintas codificadas por el genoma humano es
aproximadamente tres veces mayor al número de genes reconocidos.
El número de genes en el genoma humano no ha sido fácil de estimar. En el borrador
inicial del genoma humano, había unos 30 000 a 40 000 genes identificados que
codificaban proteínas. Sin embargo, la compleja arquitectura de estos genes y del
genoma puede hacer difícil su anotación. Algunas secuencias anotadas como genes
pueden de hecho ser exones de genes más largos. Además, hay más de 19 000
pseudogenes, que son ORFs o ORFs parciales que pueden parecer genes a primera vista
pero que no son funcionales o bien están inactivos por como se originaron o debido a
mutaciones. Los supuestos pseudogenes procesados son secuencias de DNA que han
sido retrotranscritas a partir del RNA e insertadas al azar en el genoma. El noventa%
aproximadamente de los pseudogenes humanos es de este tipo. Alrededor de 900
pseudogenes parecen ser genes convencionales que han adquirido una o más mutaciones
durante el curso de la evolución que interrumpen el ORF. A medida que las dificultades
en la anotación se han ido superando, el número estimado de genes en el genoma
humano ha ido cayendo de forma continua. La cifra actual, a fecha de junio del 2006, es
de unos 22 000 genes, y la cifra final podría ser cercana a los 19 000 genes funcionales.
Un modo en el que la anotación del genoma humano ha progresado es mediante la
finalización de las secuencias de cada cromosoma, uno a uno. Estas
(pág. 468)
(pág. 469)
secuencias se convierten luego en el terreno dónde se van a cazar genes candidatos. La
Figura 13-13 muestra un ejemplo de predicciones de genes en un cromosoma del
genoma humano. Tales predicciones están siendo continuamente revisadas a medida
que están disponibles nuevos datos y nuevos programas computacionales. El estado
actual de las predicciones se puede ver en muchos sitios Web, notablemente en los
bancos de datos públicos de los Estados Unidos y de Europa (véase el Apéndice B).
Estas predicciones son actualmente las mejores inferencias de genes que codifican las
proteínas presentes en la especie secuenciada y, como tales, son trabajos en curso.
Las proteínas se pueden agrupar en familias de proteínas relacionadas, similares en
estructura y función, basándose en la similitud de la secuencia de los aminoácidos. Para
una familia proteica que se conoce en muchos organismos, el número de proteínas en la
familia es generalmente superior en los humanos que en los invertebrados cuyos
genomas han sido secuenciados. Las proteínas están compuestas de dominios modulares
que se combinan y ajustan para llevar a cabo varias funciones. Muchos de estos
dominios están asociados con funciones biológicas específicas. El número de dominios
modulares por proteína también parece ser superior en los humanos que en los
organismos invertebrados.
A medida que se dispone de información más refinada del genoma humano, se pueden
averiguar nuevas características. Un ejemplo reciente es el mapa de la secuencia
finalizada de uno de los cromosomas humanos mejor estudiado: el cromosoma 7.
Inicialmente, este cromosoma fue estudiado intensamente porque contiene el gen que al
mutar causa la fibrosis quística. El gen de la fibrosis quística fue identificado al
comienzo del Proyecto Genoma Humano mediante el solapamiento del mapa de
ligamiento con los mapas físico y de secuencia, tal y como se describió en el Capítulo 4.
El cromosoma 7 humano se ha continuado estudiando en detalle, y actualmente hay
alrededor de 800 clones del mapa físico cartografiados en este cromosoma.
Un posible uso de los clones del mapa físico es la localización de puntos de rotura de
reordenaciones asociadas con enfermedades humanas. Las reordenaciones
cromosómicas son un tipo de mutaciones que resultan de la rotura de un cromosoma en
un punto, el punto de rotura de la reordenación, y su reunión con otro sitio roto de forma
similar en el mismo cromosoma o en otro. Estas roturas causan mutaciones cuando un
gen reside en el punto de rotura. Con el uso de clones físicos, se han podido localizar
aproximadamente 1600 puntos de rotura de reordenaciones asociadas con enfermedades
humanas en el
(pág. 469)
(pág. 470)
cromosoma 7, lo que ha permitido elaborar un mapa citogenético de alta densidad
(Figura 13-14). De estos puntos de rotura, 440 han sido secuenciados, lo que ha
permitido la asociación de fenotipos mutantes a genes que están en la secuencia del
DNA.
13.5 Genómica comparativa
Uno de las formas más poderosas de avanzar en el análisis de nuestro o de cualquier
otro genoma es mediante la comparación de la estructura y de la secuencia genómica
entre especies relacionadas. Debido a que la selección natural generalmente elimina las
mutaciones que disminuyen la eficacia biológica, los genes y otras secuencias de DNA
funcionales están conservados durante largos períodos de la evolución. Un trozo de
secuencia de DNA que es común entre especies divergentes seguramente lleva a cabo
una función necesaria, y estos trozos comunes se pueden usar para guiar estudios cuyo
objetivo es descubrir estas funciones. Además, los genes que ya han identificados en
una especie modelo son más fácilmente identificables, a partir de su secuencia y
localización en el genoma, en otras especies relacionadas.
Además de la identificación de regiones conservadas, la genómica comparativa tiene
el potencial de revelar como divergen las especies. Las especies evolucionan y sus
rasgos característicos cambian
(pág. 470)
(pág. 471)
a través de cambios en la secuencia del DNA. La comparación de los genomas de las
especies puede desvelar sucesos únicos en linajes particulares que han podido contribuir
a las diferencias en la fisiología, el comportamiento o la anatomía. A continuación
estudiaremos unos cuantos ejemplos de como la genómica comparativa revela qué es
similar y qué es diferente entre las especies.
Sobre ratones y humanos
La secuencia del genoma del ratón ha sido particularmente informativa para comprender
el genoma humano, debido al antiguo papel del ratón como especie modelo en genética,
el amplio conocimiento en genética clásica y la relación evolutiva del ratón con los
humanos. Los linajes del ratón y el humano divergieron hace aproximadamente 75
millones de años, tiempo suficiente para que las mutaciones hayan hecho diferir sus
genomas, en promedio, alrededor de uno de cada dos nucleótidos. De este modo, las
secuencias comunes a los genomas del ratón y el humano es probable que indiquen
funciones comunes.
El primer paso en la comparación de genomas es la identificación de los genes más
estrechamente relacionados, llamados homólogos. Es importante distinguir aquí dos
clases de genes homólogos. Algunos homólogos son el mismo locus genético heredado
de un antecesor común; nos referimos a estos genes como ortólogos. Sin embargo,
muchos genes pertenecen a familias que se han expandido (o contraído) en número a lo
largo de la evolución. Los genes que están relacionados por sucesos de duplicación
génica en el genoma reciben el nombre de parálogos. En las comparaciones genómicas,
no siempre es posible identificar las relaciones entre los parálogos en familias génicas.
Los homólogos se identifican porque tienen secuencias de DNA similares. El análisis
del genoma del ratón indica que contiene un número de genes que codifican proteínas
que es similar al del genoma humano. Una inspección más detallada de los genes del
ratón revela que al menos un 99% de todos los genes del ratón tienen algún homólogo
en el genoma humano, y que al menos un 99% de todos los genes humanos tienen algún
homólogo en el genoma del ratón. Así, los tipos de proteínas codificadas en cada
genoma son los mismos. Además, alrededor del 80% de todos los genes del ratón y
humanos se pueden identificar claramente como ortólogos.
Las similitudes entre los genomas se extienden mucho más allá del inventario de genes
que codifican proteínas y llegan hasta la organización genómica. Más del 90% de los
genomas del ratón y humano pueden ser divididos en regiones correspondientes de
sintenia conservada, donde el orden de los genes dentro de bloques de tamaño variable
es el mismo que su orden en el ancestro común más reciente de las dos especies. Esta
sintenia es muy útil cuando se relacionan los mapas de dos genomas. Por ejemplo, el
cromosoma 17 humano es ortólogo a un único cromosoma del ratón (el cromosoma 11).
Aunque ha habido muchas reordenaciones intracromosómicas en el cromosoma
humano, hay 23 segmentos de secuencias colineares de más de 100 kb de tamaño
(Figura 13-15).
(pág. 471)
(pág. 472)
Hay algunas diferencias detectables entre los inventarios de genes de ratón y humano.
El ratón posee más copias de genes involucrados en inmunidad, olfacción y
reproducción. El mayor número de estas clases de genes puede sugerir que los sistemas
fisiológicos han estado evolucionando en el linaje de los roedores. Esto sin duda tiene
sentido si se tiene en cuenta el estilo de vida de las especies. Los ratones dependen
mucho de su sentido del olfato, y se encuentran con constelaciones muy diferentes de
patógenos respecto a las que se encuentran los humanos (o nuestros ancestros
antropoides). Además, nuestras fisiologías reproductivas son muy diferentes. Aún así,
estas diferencias en el contenido génico son relativamente modestas a la luz de las
enormes diferencias en la anatomía y el comportamiento. La similitud general en los
genomas del ratón y el humano se corresponde con el cuadro que emerge del examen
del juego de herramientas genético que controla el desarrollo en diferentes taxones
(véase el Capítulo 12). Estas grandes diferencias pueden evolucionar de los genomas
que contienen conjuntos de genes similares.
Mensaje: Los genomas de mamíferos, incluyendo los de los humanos, contienen
conjuntos similares de genes.
Se ilustra el mismo mensaje cuando se compara nuestro genoma con el de nuestro
pariente vivo más cercano: el chimpancé.
Genómica comparativa de chimpancés y humanos
Los chimpancés y los humanos tuvieron el último ancestro común hace
aproximadamente 6 millones de años. Desde entonces, se han acumulado diferencias
genéticas mediante mutaciones que han ocurrido en cada linaje. La secuenciación de
genomas ha revelado que hay alrededor de 35 millones de diferencias de un único
nucleótido entre los chimpancés y los humanos, correspondiendo a un grado de
divergencia de aproximadamente 1.06%. Además, aproximadamente 5 millones de
inserciones o deleciones, desde sólo un único nucleótido hasta más de 15 kb,
contribuyen a un total de aproximadamente 90 Mb de secuencia de DNA divergente
(alrededor de un 3% del total del genoma). La mayoría de estas inserciones o deleciones
están fuera de las regiones codificadoras.
En conjunto, las proteínas codificadas por los genomas humano y del chimpancé son
extremadamente parecidas. El 29% de todas las proteínas ortólogas son idénticas en
secuencia, y la mayoría de las que difieren lo hacen en sólo dos cambios aminoacídicos
aproximadamente. Sin embargo, hay algunas diferencias detectables entre los
chimpancés y los humanos en el conjunto de genes funcionales. Alrededor de 80 genes
que eran funcionales en su ancestro común ya no son funcionales en los humanos,
dando como resultado su deleción o la acumulación de mutaciones. Algunos de estos
cambios podrían contribuir a diferencias fisiológicas.
Además de cambios en genes particulares, las duplicaciones de segmentos
cromosómicos en un único linaje han contribuido a la divergencia de los genomas. Más
de 170 genes en el genoma humano y más de 90 genes en el genoma del chimpancé
están presentes en largos segmentos duplicados. Estas duplicaciones son responsables
de una cantidad aún mayor de divergencia genómica total que todas las mutaciones de
un único nucleótido sumadas. Sin embargo, no está todavía claro que estas
duplicaciones contribuyan a diferencias fenotípicas mayores.
¿Qué hacen los genetistas hoy en día?
Elementos no codificadores conservados y ultraconservados
La discusión hasta el momento se ha centrado exclusivamente en las regiones del
genoma que codifican proteínas. Este énfasis es debido más a la facilidad de análisis
que a la importancia biológica. Debido a la simplicidad y universalidad del código
genético, la detección de ORFs y exones es mucho más fácil que la detección de
secuencias funcionales no codificadoras. Como se ha dicho previamente, sólo alrededor
del 3% del genoma humano codifica exones de mRNAs, y menos de la mitad de estas
secuencias exónicas, aproximadamente el 1 o el 2% del DNA genómico total, codifica
secuencias proteicas. Así, más del 98% de nuestro genoma no codifica proteínas.
¿Cómo podemos identificar otras partes funcionales del genoma?
(pág. 472)
(pág. 473)
A parte de las regiones promotoras de los genes, que contienen algunos motivos de
secuencia típicos (véase el Capítulo 11), es difícil asignar función a la mayoría de las
secuencias no codificadoras. Sin embargo, una forma de localizar elementos no
codificadores potencialmente funcionales es buscar secuencias conservadas, que no han
cambiado demasiado a lo largo de millones de años de evolución. Las comparaciones de
los genomas del ratón y el humano revelan que aproximadamente el 5% de toda la
secuencia está conservada, correspondiendo alrededor de un tercio de esta cantidad a
secuencias que codifican proteínas y los restantes dos tercios a secuencias que no
codifican proteínas. Así, la proporción del genoma que dirige cómo se regulan los genes
podría ser mayor que la que codifica proteínas.
La genómica comparativa puede facilitar la identificación de elementos funcionales no
codificadores. Por ejemplo, uno puede buscar secuencias de tamaño modesto
ultraconservadas entre unas cuantas especies, o bien secuencias más largas pero no tan
conservadas entre un número de especies mayor. Las comparaciones del genoma
humano, de la rata y del ratón han dado lugar a la identificación de los supuestos
elementos ultraconservados, que son secuencias que están perfectamente conservadas
entre las tres especies. Las búsquedas en estos genomas han arrojado más de 5000
secuencias de más de 100 pb y 481 secuencias de más de 200 pb que están
absolutamente conservadas.
La extensión de este análisis para incluir el genoma del perro ha dado lugar a más de
140 000 elementos muy conservados de 50 ó más pb de longitud fuera de las secuencias
que codifican proteínas. Aunque el 50% de estos elementos están en regiones pobres en
genes, están sobrerepresentadas cerca de genes reguladores que son importantes para el
desarrollo. La mayoría de estos elementos no codificadores ultraconservados podrían
estar en gran parte involucrados en regular la expresión del juego de herramientas
genético que se requiere para el desarrollo de los mamíferos y otros vertebrados.
¿Cómo podemos verificar que los elementos conservados juegan un papel en la
regulación de los genes? Estos elementos podrían ser estudiados de la misma manera
que los elementos reguladores de la transcripción que actúan en cis, examinados en los
capítulos anteriores, mediante el uso de genes informadores. El investigador pone
regiones reguladoras candidatas adyacentes a un promotor y a un gen informador, e
introduce el gen informador en una especie hospedadora. La Figura 13-16 muestra uno
de estos ejemplos. Un elemento que está ultraconservado entre los mamíferos, la gallina
y una especie de rana está a 488 kb del extremo 3’ del gen ISL1 humano, el cual
codifica una proteína necesaria para la diferenciación de las neuronas motoras. Este
elemento se colocó aguas arriba de un promotor y del gen informador β-galactosidasa
(lacZ), y el constructo se inyectó en el pronúcleo de oocitos de ratón fecundados. El gen
informador se expresó a lo largo de la cuerda espinal y en la cabeza, como se esperaría
de la localización de las futuras neuronas motoras (Figura 13-16). Más significativo
aún, el patrón de expresión se corresponde parcialmente al patrón de expresión del gen
ISL1 típico del ratón (presumiblemente otros elementos no codificadores controlan otras
características de la expresión de ISL1). Muchos miles de elementos reguladores no
codificadores de humanos podrían ser identificados teniendo en cuenta la conservación
de la secuencia y de su actividad en ensayos de genes informadores.
Las comparaciones de los proteomas del ratón, los humanos y los chimpancés, así como
la identificación y análisis de sus elementos no codificadores comunes, subrayan la
naturaleza conservadora de la evolución genómica. Sin embargo, la genómica
comparativa también ha desvelado algunas diferencias dramáticas en el contenido
genómico, con enormes implicaciones para la medicina humana. A continuación
estudiaremos uno de estos ejemplos.
Genómica comparativa de E. coli no patogénica y patogénica
Escherichia coli es generalmente un simbionte benigno que se encuentra en nuestras
bocas y tractos intestinales en grandes cantidades. Debido a su papel central en la
investigación genética, fue uno de los primeros genomas bacterianos en ser
secuenciado. El genoma de E. coli es de aproximadamente 4.6 Mb de tamaño y contiene
4405 genes. Sin embargo, el hecho de llamarlo “el genoma de E. coli” no es nada
acertado. El primer genoma en ser secuenciado provenía
(pág. 473)
(pág. 474)
de la cepa común de E. coli del laboratorio K-12. Pero existen muchas otras cepas de E.
coli, incluyendo varias de importancia para la salud humana.
En el 1982, hubo un brote en varios estados de los EEUU de una enfermedad humana
relacionada con el consumo de carne picada de ternera poco cocida. La cepa de E. coli
O157:H7 fue identificada culpable, y desde entonces se ha asociado con algunos brotes
de infección a gran escala. De hecho, hay unos 75 000 casos estimados cada año en los
Estados Unidos. Aunque la mayoría de la gente se recupera de la infección, una fracción
desarrolla el síndrome hemolítico urémico, una enfermedad de los riñones
potencialmente mortal.
Para entender las bases genéticas de la patogenicidad, se secuenció el genoma de una
cepa O157:H7 de E. coli. Las cepas O157 y K-12 tienen un contenido común de 3574
genes que codifican proteínas, y la identidad nucleotídica media entre genes ortólogos
es del 98.4%, comparable a la de los ortólogos entre humanos y chimpancés.
Aproximadamente el 25% de los ortólogos de E. coli codifican proteínas idénticas, un
valor similar al 29% que hay entre los ortólogos de humanos y chimpancés.
A pesar de las similitudes en muchas proteínas, los genomas y proteomas difieren
enormemente en contenido. El genoma de la E. coli O157 codifica 5416 genes, mientras
que el genoma de la E. coli K-12 codifica 4405 genes. El genoma de la E. coli O157
contiene 1387 genes que no se encuentran en el genoma de la K-12, y 528 genes que
están en el genoma de la K-12 no están en el genoma de la O157. La comparación de
los mapas genómicos revela que el contenido común de las dos cepas está
entremezclado junto a islas de genes específicos la K-12 o de O157 (Figura 13-17).
Entre los 1387 genes específicos de E. coli O157 hay muchos genes candidatos que
codifican factores de virulencia, incluyendo toxinas, proteínas de invasión celular,
proteínas de adhesión
(pág. 474)
(pág. 475)
y sistemas de secreción, así como posibles genes metabólicos que podrían ser necesarios
para el transporte de nutrientes, la resistencia a los antibióticos y otras actividades que
podrían conferir la posibilidad de sobrevivir en distintos hospedadores. La mayoría de
estos genes no se conocían antes de la secuenciación y no se conocerían todavía hoy si
los investigadores se hubieran basado sólo en la E. coli K-12 como guía para todas las
E. coli.
El nivel sorprendente de diversidad entre dos miembros de la misma especie muestra
cuán dinámica puede ser la evolución del genoma. Se cree que la mayoría de genes
nuevos en las cepas de E. coli se introdujeron por transferencia horizontal desde
genomas de virus y de otras bacterias. Las diferencias también podrían haber
evolucionado a partir de deleciones de genes. Otras especies patogénicas de E. coli y de
otras bacterias muestran también una tendencia a acumular muchas diferencias en el
contenido génico, al compararlas con sus primos no patogénicos. La identificación de
genes que podrían contribuir directamente a la patogenicidad abre nuevas puertas a la
prevención y al tratamiento de la enfermedad.
13.6 Genómica funcional y genética inversa
Durante las últimas décadas, los genetistas han estado estudiando la expresión y las
interacciones de productos génicos. Sin embargo, estos estudios eran a pequeña escala,
considerando sólo un gen o unos pocos genes a la vez. Con la aparición de la genómica,
tenemos la oportunidad de expandir estos estudios a un nivel global, usando
aproximaciones de genomas completos para estudiar la mayoría o todos los productos
génicos sistemática y simultáneamente. Esta aproximación global al estudio de la
función, la expresión y la interacción de productos génicos recibe el nombre de
genómica funcional.
Oma, dulce oma
Además del genoma, hay otros conjuntos de datos globales de interés. Siguiendo el
ejemplo del término genoma, en el que “gen” más “oma” se convierte en un término
para “todos los genes”, los investigadores genómicos han acuñado varios términos para
describir otros conjuntos de datos globales en los que están trabajando. Esta lista de
-omas deseados incluye:
El transcriptoma. La secuencia y patrones de expresión de todos los transcritos
(dónde, cuándo, cuánto).
El proteoma. La secuencia y patrones de expresión de todas las proteínas
(dónde, cuándo, cuánto).
El interactoma. El conjunto completo de interacciones físicas entre proteínas y
segmentos de DNA, entre proteínas y segmentos de RNA, y entre proteínas.
No consideraremos todos estos –omas en esta sección, sino que nos centraremos en
algunas de las técnicas globales que se están empezando a explotar para obtener estos
conjuntos de datos.
Uso de microarrays de DNA para estudiar el transcriptoma Suponga que queremos
responder a la pregunta: ¿qué genes están activos en una célula particular bajo ciertas
condiciones? Estas condiciones pueden ser una o más etapas en el desarrollo, o pueden
ser la presencia o ausencia de un patógeno o de una hormona. Los genes activos se
transcriben a RNA, por lo que el conjunto de transcritos de RNA presentes en una
célula puede decirnos qué genes están activos. Aquí es donde se manifiesta la gran
potencia de la nueva tecnología de los chips de DNA, usada para analizar los transcritos
de RNA.
Los chips de DNA son muestras de DNA dispuestas como una serie de gotas
microscópicas unidas a un “chip” de vidrio del tamaño de un cubreobjetos de
microscopio. Un chip puede contener gotas de segmentos de DNA correspondientes a
todos los genes del genoma. El conjunto de DNAs así expuesto recibe el nombre de
microarray. El chip de DNA es expuesto a una muestra de RNA marcado
(pág. 475)
(pág. 476)
(llamado sonda) tomado de una célula; cada transcrito de RNA se unirá (hibridará) con
su secuencia de DNA complementaria. Las gotas que han sido unidas en el chip indican
qué genes se están transcribiendo activamente en una condición dada. Los chips de
DNA han revolucionado la genética permitiendo el análisis de los transcritos de RNA
para todos los genes simultáneamente en un solo experimento. Veamos como funciona
este proceso en más detalle.
A continuación de indica un protocolo para hacer chips de DNA. Máquinas robotizadas
con múltiples inyectores parecidas a plumillas estilográficas en miniatura descargan
gotitas microscópicas de solución de DNA en posiciones específicas (direcciones) del
chip. Se seca el DNA y se trata de forma que quede unido al vidrio, pudiéndose aplicar
miles de muestras sobre un chip. En una primera aproximación, la colección de DNAs
consiste en todos los cDNAs conocidos del genoma. Otro tipo de colección contiene
oligonucleótidos sintéticos cortos que representan la mayoría o todos los genes del
genoma. Estas colecciones se exponen a una sonda, por ejemplo una que consiste en el
conjunto total de moléculas de RNA extraídas de un tipo celular particular en una etapa
específica del desarrollo. Se unen unos marcadores fluorescentes a la sonda, y la unión
de las moléculas de la sonda a las gotas de DNA homólogo en el chip de vidrio se
monitoriza automáticamente con el uso de un microscopio iluminado por rayos láser. La
Figura 13-18 muestra unos resultados típicos. De este modo se pueden analizar los
genes que están activos en cualquier etapa del desarrollo o bajo unas determinadas
condiciones. La Figura 13-19 muestra un ejemplo de un perfil de expresión de un gen
del desarrollo generado por el análisis este tipo de chip.
Sabiendo qué genes están activos o inactivos en una etapa dada, en un tipo celular
particular, o en varias condiciones ambientales, se pueden identificar los conjuntos de
genes que podrían responder a inputs de regulación similares. Además, los perfiles de
expresión génica pueden dibujar un cuadro de las diferencias entre las células normales
y las enfermas. Mediante la identificación de genes cuya expresión se ha alterado por
mutaciones, en las células cancerosas o por un patógeno, los investigadores podrían ser
capaces de concebir nuevas estrategias terapéuticas.
Uso de la prueba del doble híbrido para estudiar el interactoma Una de las
actividades más importantes de las proteínas es su interacción con otras proteínas.
Debido al elevado
(pág. 476)
(pág. 477)
número de proteínas que hay en cualquier célula, los biólogos han buscado formas de
estudiar sistemáticamente todas las interacciones de proteínas individuales de una
célula. Una de las formas más comunes de estudio del interactoma usa un sistema de
ingeniería en células de levadura llamado prueba del doble híbrido, que detecta
interacciones físicas entre dos proteínas. La base de la prueba es el activador
transcripcional codificado por el gen GAL4 de la levadura (véase el Capítulo 11).
Recuerde que esta proteína tiene dos dominios: (1) un dominio de unión al DNA que se
une al sitio de inicio de la transcripción y (2) un dominio de activación que activará la
transcripción, pero que no puede por si mismo unirse al DNA. Así, los dos dominios
tienen que estar muy próximos para que ocurra la activación transcripcional. En el
sistema del doble híbrido, el gen del activador transcripcional Gal4 se separa entre dos
plásmidos, de modo que un plásmido contiene la parte que codifica el dominio de unión
al DNA y el otro plásmido contiene la parte que codifica el dominio de activación. En
un plásmido, el gen de una proteína estudiada es empalmado al dominio de unión al
DNA, y esta proteína fusionada actúa como “cebo”. En el otro plásmido, un gen para
otra proteína estudiada es empalmada al dominio de activación y la proteína fusionada
resultante se dice que es la “diana” (Figura 13-20). Los dos plásmidos híbridos se
introducen entonces en la misma célula de levadura, quizás uniendo células haploides
que contienen los plásmidos cebo y diana. El último paso es esperar que se produzca la
activación de la transcripción por un constructo con un gen informador regulado por
Gal4, que sería la prueba de que cebo y diana se han unido. El sistema del doble híbrido
puede automatizarse para permitir la búsqueda de interacciones proteicas en todo el
proteoma.
(pág. 477)
(pág. 478)
Estudio del interactoma utilizando el ensayo de inmunoprecipitación de la
cromatina (ChIP, del inglés chromatin immunoprecipitation assay)
La especificidad de secuencia en la unión de las proteínas al DNA es crítica para la
correcta expresión de los genes. Por ejemplo, las proteínas reguladoras se unen a los
promotores y activan o reprimen la transcripción tanto en las bacterias como en los
eucariotas (véase los Capítulos 10, 11 y 12). En el caso de los eucariotas, los
cromosomas están organizados en la cromatina, cuya unidad fundamental, el
nucleosoma, contiene DNA enrollado alrededor de las histonas. La modificación
postraduccional de las histonas a menudo dicta qué proteínas se unen y dónde (véase el
Capítulo 11). La importancia de las interacciones proteína-DNA ha llevado al desarrollo
de varias tecnologías que facilitan el aislamiento de regiones específicas de la cromatina
de modo que el DNA y sus proteínas asociadas pueden ser analizados conjuntamente. El
método más usado es la ChIP (siglas de inmunoprecipitación de la cromatina, del
inglés chromating immunoprecipitation), cuyas aplicaciones se describen a continuación
(Figura 13-21).
Supongamos que ha aislado un gen de levadura y sospecha que codifica una proteína
que se une al DNA cuando la levadura se ha cultivado a temperatura elevada. Quiere
saber si esta proteína se une al DNA y, en caso afirmativo, a qué secuencia de la
levadura. Una forma de abordar esta cuestión es primero tratar las células de la levadura
que han sido cultivadas a altas temperaturas con una sustancia química que hace que las
proteínas y el DNA se unan entre sí (interconexión). De este modo, las proteínas que
estén unidas al DNA durante el aislamiento de la cromatina permanecerán unidas a lo
largo de los tratamientos sucesivos. El siguiente paso es romper la cromatina en trozos
pequeños. Para separar el fragmento que contiene el complejo proteína/DNA del resto,
aísla un anticuerpo que reaccione específicamente con la proteína codificada. Añada el
anticuerpo a la mezcla de modo que forme un inmunoprecipitado que pueda ser
purificado. Entonces, proteína y DNA pueden ser analizados separadamente después de
que la interconexión sea revertida. El DNA unido por la proteína puede ser amplificado
en muchas copias, clonándolo en una bacteria o amplificándolo por PCR, como
preparación para la secuenciación del DNA (véase el Capítulo 20).
(pág. 478)
(pág. 479)
Como se vio en el Capítulo 11, las proteínas reguladoras a menudo activan la
transcripción de muchos genes simultáneamente cuando se unen a varias regiones
promotoras. Se ha ideado una variación del método ChIP, llamada ChIP-chip, para
identificar múltiples sitios de unión en un genoma secuenciado. Las proteínas que se
unen a muchas regiones genómicas son inmunoprecipitadas como se describió arriba, y
después de que la interconexión sea revertida, los fragmentos de DNA son marcados y
usados para sondear chips de microarrays que contienen, en este caso, la secuencia
genómica entera de la levadura.
El procedimiento ChIP-chip también se ha usado para descifrar el código de las histonas
en algunos organismos. Por ejemplo, se han aislado anticuerpos que reconocen histonas
con modificaciones postraduccionales específicas, como por ejemplo la metilación de
un residuo de lisina particular (véase el Capítulo 11). El uso de este anticuerpo con
ChIP-chip debería identificar secuencias de DNA en el genoma que están asociadas con
histonas y que tienen esta modificación.
La genómica y las otras áreas “ómicas” han engendrado una nueva disciplina llamada
biología de sistemas. Mientras que la aproximación de la genética ha sido
tradicionalmente reduccionista, diseccionando un organismo con mutaciones para ver
cuáles son sus partes, la biología de sistemas intenta agrupar las partes para entender el
conjunto como un sistema. Un sistema biológico engloba redes de regulación génica,
cascadas de transducción de señales, comunicación célula-célula y varias formas de
interacciones, no sólo entre moléculas “genéticas” sino con todas las otras moléculas de
la célula y del ambiente.
La genética inversa
Los tipos de datos obtenidos de los experimentos de microarrays y de los rastreos de
interacciones proteicas son indicativos de las interacciones dentro del genoma y el
proteoma, pero no nos permiten sacar ninguna conclusión convincente acerca de las
funciones de los genes y de las interacciones in vivo. Por ejemplo, el hallazgo de que la
expresión de ciertos genes se pierde en algunos cánceres no es prueba de causa y efecto.
Es necesario alterar específicamente la función del gen y entender los fenotipos en las
condiciones naturales. Empezando por las secuencias génicas disponibles, los
investigadores pueden ahora usar una variedad de métodos para alterar la función de un
gen específico. Estos métodos reciben el nombre de genética inversa. El análisis por
genética inversa empieza con una molécula conocida: una secuencia de DNA, un
mRNA o una proteína, y trata de alterar esta molécula para valorar el papel del producto
génico normal en la biología del organismo.
Hay varias aproximaciones a la genética inversa. Una aproximación es introducir
mutaciones al azar en el genoma pero luego dirigirse hacia el gen de interés mediante la
identificación molecular de mutaciones en el gen. Una segunda aproximación es
conducir una mutagénesis dirigida que produzca mutaciones directamente en el gen de
interés. Una tercera aproximación es crear fenocopias (con efectos comparables a los
fenotipos mutantes), mediante el tratamiento con agentes que interfieren con el mRNA
o con la actividad del producto proteico final.
Cada aproximación tiene sus ventajas. La mutagénesis al azar es la más fácil de llevar a
cabo, pero requiere tiempo y esfuerzo para examinar cuidadosamente todas las
mutaciones hasta encontrar la pequeña proporción de ellas que incluye el gen de interés.
La mutagénesis dirigida también requiere mucho esfuerzo, pero una vez se ha obtenido
la mutación dirigida, su caracterización es más sencilla. La creación de fenocopias
puede ser muy eficiente, pero existen límites respecto a los tipos de fenocopias que
pueden ser copiados. Consideraremos ejemplos de cada una de estas aproximaciones.
Genética inversa mediante mutagénesis al azar La mutagénesis al azar de la genética
inversa emplea los mismos tipos de mutágenos generales que se usan en la genética
directa: agentes químicos, radiación o elementos genéticos transponibles (véase la
página 211). Sin embargo, en lugar de rastrear el genoma a gran escala para buscar
mutaciones que ejerzan un efecto fenotípico particular, la genética inversa se centra en
el gen en cuestión y puede ser llevada a cabo en una de dos formas generales.
La primera aproximación es centrarse en la localización del gen en el mapa. Sólo las
mutaciones que caigan en la región del genoma donde está localizado el gen son
retenidas para
(pág. 479)
(pág. 480)
un análisis molecular más detallado. Por lo tanto, en esta aproximación las mutaciones
recuperadas deben ser cartografiadas. Una forma sencilla es cruzar un nuevo mutante
con un mutante que contenga una deleción conocida o una mutación en el gen de
interés. Simbólicamente, el emparejamiento es mutante nuevo/mutante conocido. Sólo
los emparejamientos que den lugar a progenie con el fenotipo mutante (mostrando falta
de complementación) se guardan para el estudio.
En otra aproximación, se identifica el gen de interés en el genoma mutagenizado y se
verifica la presencia de mutaciones. Por ejemplo, si un mutágeno causa pequeñas
deleciones, después de la amplificación por PCR se pueden comparar los genes de los
genomas parental y mutagenizado y buscar un genoma mutagenizado en el que el gen
de interés esté reducido en tamaño. También existen técnicas para el reconocimiento de
sustituciones de un único par de bases. De este modo, un conjunto de genomas que
contienen mutaciones al azar puede ser rastreado de forma efectiva para identificar la
pequeña fracción de las mutaciones que son de interés para el investigador.
Genética inversa mediante mutagénesis dirigida Durante la mayor parte del siglo
veinte, los investigadores contemplaron la posibilidad de dirigir mutaciones hacia un
gen específico como el “Santo Grial” inalcanzable de la genética. Sin embargo, ahora
existen muchas técnicas para hacerlo. Después de que un gen ha sido inactivado en un
individuo, los genetistas pueden evaluar el fenotipo resultante para buscar claves sobre
la función del gen. En general, las herramientas para hacer mutaciones génicas dirigidas
se basan en técnicas genéticas desarrolladas para los organismos modelo. Así, aunque se
puede alterar de forma eficiente y directa los genes de la levadura, de la mosca o del
ratón, tal alteración no es posible en muchas especies que no son especies modelo.
La mutagénesis específica de gen a menudo requiere el reemplazamiento de una copia
residente de tipo salvaje de un gen entero por una versión mutada de este mismo gen. El
gen mutado se inserta en el cromosoma por un mecanismo que se parece a la
recombinación homóloga, reemplazando la secuencia normal por la mutada (Figura 1322). Esta aproximación puede usarse para el noqueado dirigido de genes, en el que un
alelo nulo sustituye la copia de tipo salvaje. Algunas técnicas son tan eficientes que, en
E. coli, por ejemplo, hay esfuerzos en marcha para sistemáticamente mutar cada gen del
genoma K-12 para determinar su función biológica.
Mensaje: La mutagénesis dirigida es la forma más precisa de obtener mutaciones en un
gen específico y ahora puede practicarse en una variedad de sistemas modelo
incluyendo ratones y moscas.
(pág. 480)
(pág. 481)
Genética inversa mediante fenocopiado La ventaja de inactivar un gen en sí mismo
es que las mutaciones se transmitirán de una generación a la siguiente, y por lo tanto,
una vez que se obtiene siempre habrá disponible una línea de mutantes para su estudio
posterior. Sin embargo, estas manipulaciones sólo pueden llevarse a cabo en los
organismos bien desarrollados como modelos moleculares. Por el contrario, el
fenocopiado puede aplicarse a un número mucho mayor de organismos, con
independencia de lo desarrollada que esté la tecnología genética para la especie en
cuestión. Las dos secciones siguientes describen dos técnicas de fenocopiado.
Interferencia de RNA Un hallazgo apasionante de los últimos 10 años ha sido el
descubrimiento de un mecanismo muy extendido cuya función natural parece ser
proteger a la célula del DNA foráneo. Este mecanismo recibe el nombre de
interferencia de RNA (RNAi), descrito en la página 314. Los investigadores han
aprovechado este mecanismo celular para diseñar un método potente para inactivar
genes específicos. La inactivación se lleva a cabo como sigue. Se elabora un RNA de
doble cadena con secuencia homóloga a parte del gen estudiado y se introduce en la
célula (Figura 13-23). Luego, el complejo de silenciamiento inducido por RNA, o RISC
(del inglés RNA-induced silencing complex), degrada cualquier mRNA natural que sea
complementario al RNA de doble cadena. El resultado final es una reducción
considerable de los niveles de mRNA, que dura horas o días, anulando de este modo la
expresión del gen. La técnica se ha aplicado con éxito en muchos sistemas modelo,
incluyendo C. elegans, Drosophila, el pez zebra y varias especies de plantas.
Para aplicar las técnicas de fenocopiado a organismos que no son modelo, los genes
diana pueden ser identificados mediante genómica comparativa. Entonces, las
secuencias de RNAi son producidas para dirigir la inhibición de genes diana
específicos. Esta técnica se ha aplicado ya al mosquito que transmite la malaria
(Anopheles gambiae). Usando estas técnicas, los científicos pueden entender mejor los
mecanismos biológicos subyacentes a los efectos médicos o económicos de esta
especie. Por ejemplo, los genes que controlan el complejo ciclo vital del parásito de la
malaria, que ocurre parcialmente dentro de un mosquito hospedador y parcialmente
dentro del cuerpo humano, pueden ser comprendidos mejor, revelando nuevas formas
de controlar la enfermedad infecciosa más común del mundo.
Genética química Otra etapa en el proceso de transferencia de información que puede
usarse como objetivo para el fenocopiado es la misma proteína. Se ha desarrollado una
técnica a escala genómica para tal propósito, llamada genética química. Esta técnica,
ampliamente usada en la industria farmacéutica, se basa en reducir la actividad del
producto proteico de un gen diana a través de la unión de una pequeña molécula
inhibidora (Figura 13-24). Con el uso de la robótica se pueden analizar bibliotecas de
miles de pequeñas moléculas sintéticas relacionadas y probar su habilidad de unirse
fuertemente a una proteína específica, inhibiendo así su actividad in vitro. Entonces, una
molécula prometedora se puede introducir en las células y probar su habilidad de alterar
la función. Si un compuesto inhibe la actividad proteica suficientemente, entonces una
célula o un organismo podrían ser tratados con este compuesto químico para conseguir
una fenocopia del fenotipo mutante para el gen diana.
A pesar de su nombre, la genética química no es una técnica genética, porque no
implica a la herencia. Por el contrario, es una extensión sistemática del uso antiguo de
fármacos inhibitorios (una forma de fenocopiar) para inactivar una proteína en un
proceso bioquímico específico en la célula. El problema con la mayoría de fármacos
inhibitorios es que no son 100 por cien específicos a una única proteína, y por lo tanto,
(pág. 481)
(pág. 482)
inadvertidamente inhiben a menudo proteínas y múltiples procesos bioquímicos de un
organismo, causando ambigüedades que hacen difícil la interpretación de los resultados.
Mediante el uso de bibliotecas químicas y de pruebas robóticas para especificidad, la
genómica química mantiene la promesa de desarrollar compuestos con mucha más
especificidad, eficacia y seguridad que los métodos tradicionales de rastreo de fármacos.
Mensaje: El RNAi y la genómica química proporcionan métodos para interferir
experimentalmente la función de un gen específico sin cambiar su secuencia de DNA
(generalmente denominado fenocopiado).
Genómica funcional con organismos no modelo La mayor parte de nuestra
consideración acerca del análisis minucioso de las mutaciones y el fenocopiado se ha
centrado en organismos modelo para la genética. Uno de los siguientes desafíos es
aplicar estos sistemas más abiertamente, incluyendo las especies que tienen efectos
negativos sobre la sociedad humana, como los parásitos, los transmisores de
enfermedades o las pestes agrícolas. Las técnicas genéticas clásicas no están todavía a
punto para ser aplicadas en la mayoría de estas especies, pero las funciones de genes
específicos pueden ser estudiadas por transgénesis o fenocopiado.
La Figura 13-25 muestra una primera aproximación (la inserción de transgenes). El
ejemplo trata de escarabajos, muchos de los cuales causan plagas agrícolas. En este
caso, los transgenes fueron insertados al azar en el genoma del escarabajo. Los
escarabajos transgénicos se pueden obtener usando una metodología similar a la que se
usa para producir Drosophila transgénicas (véase el Capítulo 20). Sin embargo, es
necesario algún método para identificar las transgénesis exitosas. Así, la técnica
requiere el uso de un gen informador que se pueda expresar en un destinatario de tipo
salvaje. La proteína fluorescente verde (GFP, del inglés green fluorescent protein), que
fue originalmente aislada de una medusa, es un marcador útil para esta aplicación.
Como en Drosophila, los transgenes son insertados como partes de los transposones, y
un plásmido ayudante que codifica una transposasa facilita la inserción del transposón
que lleva el transgén. La Figura 13-25 muestra el uso de los transgenes GFP conducidos
por un elemento intensificador que dirige la expresión en el ojo del insecto. Este método
se ha usado eficazmente para crear transgenes que expresan GFP en la especie del
mosquito que transmite la fiebre amarilla y la fiebre dengue (Aedes aegypti), el
escarabajo de la harina (Tribolium castaneum) y la polilla del gusano de la seda
(Bombyx mori) (Figura 13-26).
(pág. 482)
(pág. 483)
Resumen
El análisis genómico usa las aproximaciones del análisis genético y las aplica a la
colección de conjuntos de datos globales para cumplir con objetivos tales como la
cartografía y secuenciación de genomas enteros y la caracterización de todos los
transcritos y proteínas. Las técnicas genómicas requieren el procesado rápido de grandes
conjuntos de material experimental, y por lo tanto son completamente dependientes de
la automatización extensiva.
El principal problema en la compilación de la secuencia precisa de un genoma es
relacionar lecturas cortas de secuencia entre ellas según la identidad de secuencia para
elaborar una secuencia consenso de un genoma completo. Esto se puede llevar a cabo
muy fácilmente en los genomas bacterianos o de las arqueobacterias, mediante el
alineamiento de secuencias de diferentes lecturas de secuencia que se solapan para
finalmente compilar el genoma entero, porque en estos organismos hay muy pocos o
ningún segmento de DNA que esté presente en más de una copia. Sin embargo, los
genomas complejos están repletos de secuencias repetitivas que interfieren con la
producción de contigs de secuencia exacta. El problema se resuelve ya sea por
secuenciación aleatoria de genomas completos con el uso de lecturas de extremos
emparejados, o por secuenciación de clones ordenados, que trata los elementos
repetitivos dispersos como únicos en el contexto de un clon. A diferencia de la
secuenciación WGS, la secuenciación clon a clon requiere la elaboración de un mapa
físico de la distribución de los clones ordenados y orientados.
La elaboración del mapa de la secuencia genómica proporciona el texto bruto y
encriptado del genoma. El objetivo de la bioinformática es la interpretación de esta
información encriptada. Para el análisis de los productos génicos, se usan técnicas
computacionales para la identificación de marcos abiertos de lectura y de RNAs no
codificadores, y luego para la integración de estos resultados con evidencias
experimentales disponibles de estructuras de transcritos (secuencias de cDNA),
similitudes de proteínas y el conocimiento de motivos de secuencia característicos.
Uno de los métodos más potentes para avanzar en el análisis y la anotación de los
genomas es la comparación de los genomas de especies relacionadas. La conservación
de secuencias entre especies es una guía fiable para identificar secuencias funcionales
en los organismos complejos de muchos animales y plantas. La genómica comparativa
puede también desvelar cómo han cambiado los genomas durante el curso de la
evolución y cómo estos cambios podrían relacionarse con diferencias en la fisiología, la
anatomía o el comportamiento entre las especies. En la genómica bacteriana,
comparaciones entre cepas patogénicas y no patogénicas han desvelado muchas
diferencias en el contenido génico que podrían contribuir a la patogenicidad.
La genómica funcional trata de entender el funcionamiento del genoma como un
sistema entero. Dos elementos clave son el transcriptoma, el conjunto de todos los
transcritos producidos, y el interactoma, el conjunto de productos génicos y otras
moléculas en interacción que conjuntamente permiten la producción y el
funcionamiento de la célula. La función de genes individuales y productos génicos para
los que no hay disponibles mutaciones clásicas pueden ser estudiados mediante la
genética inversa, por mutación dirigida o fenocopiado.
Términos clave
andamio (p. 461)
anotación (p. 464)
bioinformática (p. 463)
biología de sistemas (p. 479)
ChIP (ensayo de inmunoprecipitación de la cromatina) (p. 478)
contig de clones (p. 461)
contig de secuencias (p. 460)
ensamblado de secuencias (p. 456)
etiquetas de secuencia expresada (EST) (p. 465)
genética inversa (p. 479)
genética química (p. 481)
genómica (p. 454)
genómica comparativa (p. 470)
genómica funcional (p. 475)
genoteca genómica (p. 459)
homólogo (p. 471)
interferencia de RNA (RNAi) (p. 481)
lectura de extremos emparejados (p. 461)
mapa físico (p. 461)
marco abierto de lectura (ORF) (p. 465)
microarray (p. 475)
ortólogo (p. 471)
parálogo (p. 471)
proteoma (p. 464)
proyecto genoma (p. 455)
prueba del doble híbrido (p. 477)
pseudogén (p. 468)
pseudogén procesado (p. 468)
secuencia consenso (p. 457)
sintenia (p. 471)
supercontig (p. 461)
vector (p. 459)
Problemas resueltos
Problema resuelto 1. Quiere estudiar el desarrollo del sistema olfativo (recepción de
olores) en el ratón. Sabe que las células que perciben olores químicos específicos
(odorantes) están localizados en el revestimiento de las fosas nasales del ratón. Describa
algunas aproximaciones para usar la genética inversa con el objetivo de estudiar la
olfacción.
(pág. 483)
(pág. 484)
SOLUCIÓN
Pueden idearse muchas aproximaciones. En la genética inversa, querría identificar genes
candidatos que se expresen en el revestimiento de las fosas nasales. Dadas las técnicas
de la genómica funcional, esta identificación se podría llevar a cabo mediante la
purificación del RNA aislado de las células de las fosas nasales y el uso de este RNA
como sonda para los chips de DNA que contengan las secuencias correspondientes a
todos los mRNAs conocidos del ratón. Por ejemplo, podría escoger para examinar en
primer lugar los mRNAs que se expresan exclusivamente en el revestimiento de las
fosas nasales y no en otras partes del ratón, como candidatos importantes para funciones
específicas en la olfacción. (Muchas de las moléculas importantes podrían también tener
otras funciones en otras partes del cuerpo, pero debe empezar por algún sitio.)
Alternativamente, podría escoger para empezar los genes cuyos productos proteicos son
proteínas candidatas para la unión con los odorantes. Sin reparar en su elección, el
siguiente paso sería diseñar un noqueado dirigido del gen que codifica cada mRNA o
proteína de interés o usar una inyección de RNA antisentido o RNA de doble cadena
para intentar fenocopiar el fenotipo de pérdida de función de cada uno de los genes
candidatos.
Problemas
PROBLEMAS BÁSICOS
1. El término contig deriva de la palabra contiguo. Explique la derivación.
2. Explique la aproximación que aplicaría para secuenciar el genoma de una especie
bacteriana recientemente descubierta.
3. Las lecturas de secuenciación de los extremos de los insertos de clones son una parte
rutinaria de la secuenciación genómica. Pero, ¿cómo se obtiene la parte central del
inserto del clon?
4. ¿Cuál es la diferencia entre contig y andamio?
5. Se sospecha que dos clones son adyacentes, posiblemente separados por DNA
repetitivo. En un intento de vincularlos, las secuencias de los extremos son usadas
como cebadores para intentar llenar el hueco. ¿Es razonable esta aproximación? ¿En
qué situación no funcionará?
6. Un segmento de DNA clonado que contiene un gen que codifica una proteína se
marca radiactivamente y se usa en una hibridación in situ. La radioactividad fue
observada en cinco regiones de distintos cromosomas. ¿Cómo podríamos explicar
este resultado?
7. En un experimento de hibridación in situ, un determinado clon se pudo relacionar
únicamente con el cromosoma X en un niño sin síntomas de enfermedad. Sin
embargo, en un niño con distrofia muscular de Duchenne (enfermedad recesiva
ligada al cromosoma X), el clon fue relacionado con el cromosoma X y con un
autosoma. Explique. ¿Podría ser este clon útil para aislar el gen de la distrofia
muscular de Duchenne?
8. En un análisis genómico en el que se pretende buscar un determinado gen, se
encuentra un gen candidato que tiene una sustitución de un solo par de bases que
resulta en un cambio aminoacídico no sinónimo. ¿Qué debería comprobar antes de
descorchar el cava?
9. ¿Es un operador bacteriano un sitio de unión?
10. Un determinado cDNA de 2 kb de tamaño hibridó con ocho fragmentos genómicos
que sumaban un tamaño total de 30 kb e incluyó dos ESTs cortos. Los ESTs
también se encontraron en dos de los fragmentos genómicos, cada uno de 2 kb de
tamaño. Sugiera una posible explicación para estos resultados.
11. Un fragmento de DNA secuenciado en Drosophila fue usado en una búsqueda por
BLAST. El mejor emparejamiento (el más cercano) fue con el gen de una quinasa
de Neurospora. ¿Significa este emparejamiento que la secuencia de Drosophila
contiene el gen de una quinasa?
12. En una prueba del doble híbrido, un determinado gen A dio resultados positivos con
dos clones: M y N. Cuando M fue usado, este dio positivos con tres clones: A, S i Q.
El clon N dio sólo un positivo (con A). Desarrolle una posible interpretación para
estos resultados.
13. Tiene las siguientes lecturas de secuencia de un clon genómico del genoma de
Drosophila melanogaster:
Lectura 1: TGGCCGTGATGGGCAGTTCCGGTG
Lectura 2: TTCCGGTGCCGGAAAGA
Lectura 3: CTATCCGGGCGAACTTTTGGCCG
Lectura 4: CGTGATGGGCAGTTCCGGTG
Lectura 5: TTGGCCGTGATGGGCAGTT
Lectura 6: CGAACTTTTGGCCGTGATGGGCAGTTCC
Use estas seis lecturas de secuencias para crear un contig de la secuencia de esta
parte del genoma de D. melanogaster.
14. A veces, los cDNAs se convierten en “monstruos”; es decir, fusiones de copias de
DNA de dos mRNAs distintos se insertan accidentalmente adyacentes el uno al otro
en el mismo clon. Sospecha que un clon de cDNA del nematodo Caenorhabditis
elegans es un monstruo de éstos porque la secuencia del inserto de cDNA predice
una proteína con dos dominios estructurales que normalmente no se observan juntos
en la misma proteína. ¿Cómo usaría la disponibilidad de la secuencia genómica
entera para determinar si este clon de cDNA es un monstruo o no?
15. Ha secuenciado el genoma de la bacteria Salmonella typhimurium, y está haciendo
un análisis por BLAST para identificar similitudes dentro del genoma de S.
typhimurium con proteínas conocidas. Encuentra una proteína que es 100 por cien
idéntica en la bacteria Escherichia coli. Cuando compara las secuencias
nucleotídicas de los genes de S. typhimurium y E. coli, encuentra que las secuencias
nucleotídicas son sólo un 87% idénticas.
a. Explique esta observación.
(pág. 484)
(pág. 485)
b. ¿Qué le dicen estas observaciones acerca de las ventajas de las búsquedas por
similitud de nucleótidos versus proteínas para la identificación de genes
relacionados?
16. Para inactivar un gen por RNAi, ¿qué información necesita? ¿Necesita la posición
en el mapa del gen diana?
17. Describa dos métodos distintos usados para generar fenocopias. ¿Cuál es el
propósito de generar una fenocopia?
18. ¿Cuál es la diferencia entre la genética directa y la inversa?
PROBLEMAS PARA PENSAR
19. Tiene las siguientes lecturas de secuencia de un clon genómico del genoma de
Homo sapiens:
Lectura 1: ATGCGATCTGTGAGCCGAGTCTTTA
Lectura 2: AACAAAAATGTTGTTATTTTTATTTCAGATG
Lectura 3: TTCAGATGCGATCTGTGAGCCGAG
Lectura 4: TGTCTGCCATTCTTAAAAACAAAAATGT
Lectura 5: TGTTATTTTTATTTCAGATGCGA
Lectura 6: AACAAAAATGTTGTTATT
a. Use estas seis lecturas de secuencias para crear un contig de la secuencia de esta
parte del genoma de H. sapiens.
b. Traduzca el contig de secuencia en todos los marcos de lectura posibles.
c. Vaya a la página del BLAST del Centro Nacional de Información
Biotecnológica, o NCBI (del inglés National Center for Biotechnology
Information) (http://www.ncbi.nlm.nih.gov/BLAST/, y vea el Apéndice B), e
intente identificar el gen al que pertenece esta secuencia, usando cada uno de los
marcos de lectura como secuencia problema para una comparación proteínaproteína (BLASTp).
20. Algunas regiones bastante grandes de los distintos cromosomas del genoma humano
son más del 99% idénticas entre ellas. Estas regiones no fueron consideradas para la
elaboración de la secuencia borrador del genoma humano debido a su elevado nivel
de similitud. De entre las técnicas discutidas en este capítulo, ¿cuál permitiría a los
investigadores genómicos identificar la existencia de estas regiones duplicadas?
21. Algunos exones del genoma humano son bastante pequeños (menos de 75 pb). La
identificación de estos “microexones” es difícil, ya que estas distancias son
demasiado cortas para usar con fiabilidad la identificación de ORFs o el sesgo en el
uso de codones para determinar si estas secuencias genómicas tan pequeñas son
realmente parte de un mRNA y de un polipéptido. ¿Qué técnicas de “búsqueda de
genes” podrían usarse para intentar descubrir si una región dada de 75 pb constituye
un exón?
22. Está estudiando proteínas involucradas en la traducción en el ratón. Mediante un
análisis por BLAST de las proteínas predichas en el genoma del ratón, identifica un
conjunto de genes en el ratón que codifican proteínas con secuencias similares a los
factores de inicio de la traducción conocidos en los eucariotas. Está interesado en
determinar los fenotipos asociados con mutaciones de pérdida de función en estos
genes.
a. ¿Usaría aproximaciones de genética directa o inversa para identificar estas
mutaciones?
b. Explique a grandes rasgos dos aproximaciones distintas que podría usar para
buscar fenotipos de pérdida de función en uno de estos genes.
23. El genoma entero de la levadura Saccharomyces cerevisiae ha sido secuenciado.
Esta secuenciación ha llevado a la identificación de todos los marcos abiertos de
lectura (ORFs, secuencias generalizadas con señales adecuadas de inicio y fin de la
traducción) en el genoma. Algunos de estos ORFs son genes ya conocidos con
funciones establecidas; sin embargo, el resto son marcos de lectura no asignados
(URFs, del inglés unassigned reading frames). Con el objetivo de deducir las
posibles funciones de los URFs, estos están siendo sistemáticamente, uno a uno,
convertidos en alelos nulos mediante técnicas de noqueado in vitro. Los resultados
son los siguientes:
El 15% son letales cuando son noqueados.
El 25% muestran algún fenotipo mutante (morfología alterada, alimentación
alterada, etcétera).
El 60% no muestra ningún fenotipo mutante detectable, pareciéndose al tipo salvaje.
Explique las posibles bases genético-moleculares de estas tres categorías mutantes,
inventando ejemplos cuando sea posible.
24. Diferentes cepas de E. coli son responsables de infecciones enterohemorrágicas y
del tracto urinario. Considerando las diferencias entre la cepa benigna K-12 y la
cepa enterohemorrágica O157:H7, ¿predeciría que hay diferencias genómicas
obvias:
a. Entre la cepa K-12 y la uropatogénica?
b. Entre la cepa O157:H7 y la uropatogénica?
c. ¿Qué podría explicar las diferencias a pares en el contenido genómico?
d. ¿Cómo se podría probar la función de los genes específicos de cepa?
(pág. 485)
(pág. 486)
EXPLORACIÓN DE LOS GENOMAS Una tutoría en Web sobre bioinformática
Introducción a las bases de datos genómicas
¿Dónde acude un investigador para encontrar información sobre un gen? Las bases de
datos genéticas integradas están mantenidas por varias organizaciones privadas y
gubernamentales. En la primera tutoría de Genómica en el sitio Web
www.whfreeman.com/iga9e, se le introducirá a los recursos disponibles a través del
Centro Nacional de Información Biotecnológica (NCBI, del inglés National Center for
Biotechnology Information) en Washington, D.C.
Aprenda a usar ENTREZ
El programa ENTREZ del NCBI es una herramienta de búsqueda integrada que enlaza
varias bases de datos que tienen distintos tipos de contenidos. En la tutoría de Genómica
en el sitio Web www.whfreeman.com/iga9e, podrá usar ENTREZ para buscar el gen de
la distrofina asociado con la distrofia muscular y encontrar referencias de la literatura
científica, la secuencia del gen y sus dominios conservados, el gen equivalente en varios
organismos a parte del humano, y su localización en el mapa cromosómico.
Aprenda a usar BLAST
Para comparar una secuencia proteica con otra, a menudo usamos un programa de
ordenador llamado BLAST. Este programa nos permite usar una secuencia proteica para
buscar y encontrar secuencias de otros organismos que se le asemejan. En la tutoría de
Genómica en el sitio Web www.whfreeman.com/iga9e, podrá lanzar un BLAST sobre
una proteína pequeña y simple, la insulina (véase el Capítulo 11), y sobre una de larga y
compleja, la distrofina.
El uso del BLAST parar comparar secuencias de ácidos nucleicos
El algoritmo BLAST también es capaz de buscar secuencias de ácidos nucleicos y
compararlas. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e,
verá que la comparación de secuencias de RNA de transferencia entre especies es una
buena manera de explorar esta utilidad.
Aprenda a usar PubMed
PubMed proporciona una base de datos consultable de la literatura científica del mundo.
En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, aprenderá a
hacer búsquedas de literatura para encontrar el primer anuncio de una secuencia génica
y artículos sucesivos que demuestran la función del gen.
Clusters de grupos ortólogos
A medida que las bases de datos crecen, encontramos más genes similares en diferentes
especies. Estos ortólogos pueden ser analizados para investigar su grado de
conservación y su distribución en el árbol filogenético. En la tutoría de Genómica en el
sitio Web www.whfreeman.com/iga9e, aprenderá cómo llevar a cabo estas
investigaciones usando la base de datos de COGs (del inglés Clusters of Orthologous
Groups), que contiene información sobre la conservación y distribución de ortólogos
inferidos a partir de genomas completamente secuenciados.
Análisis de todo el genoma
Ahora tenemos muchos genomas completamente secuenciados con los que jugar. Su
disponibilidad permite el análisis computacional como el que vimos para analizar la
base de datos de COGs. También nos permite diseñar experimentos para probar qué
genes actúan en qué procesos y cómo los varios productos génicos interaccionan entre
ellos. En la tutoría de Genómica en el sitio Web www.whfreeman.com/iga9e, verá como
investigar estas cuestiones en el nivel de todo el genoma, usando técnicas como la
deleción de genes para examinar los fenotipos de pérdida de función o los métodos para
investigar interacciones proteína-proteína a gran escala.
PIES DE FIGURAS
Figura inicial
El genoma nuclear humano contemplado como un conjunto de DNA marcado. El DNA
de cada cromosoma se ha marcado con un colorante que emite fluorescencia para una
determinada longitud de onda, produciendo un color específico. [Evelin Schrock y
Thomas Ried.]
Figura 13-1 Muestra de hueso de neandertal para la secuenciación del DNA
Una muestra (abajo) fue sacada del fémur izquierdo (arriba) del espécimen original de
neandertal para su uso en la secuenciación del DNA. [De M. Krings et al., “Neanderthal
DNA Sequences and the Origin of Modern Humans”, Cell 90, 1997, 19-30, Fig. 1.]
Figura 13-2 Lógica de la elaboración de un mapa de la secuencia del genoma
Para elaborar un mapa de la secuencia del genoma, se cortan en piezas pequeñas
múltiples copias del genoma, que luego serán clonadas y secuenciadas. Las lecturas de
secuencia resultantes se solapan emparejando las secuencias idénticas en distintos
clones hasta que se ha producido una secuencia consenso de cada doble hélice del DNA
del genoma.
Figura 13-3 La secuenciación de genomas se realiza actualmente de forma
automatizada
Parte de la cadena de producción automatizada de un gran centro de secuenciación del
genoma humano. Todo este equipamiento es usado para el rápido procesado de enormes
cantidades de clones para la secuenciación del DNA. [Copyright Bethany Versoy; todos
los derechos reservados.]
Figura 13-4 Las lecturas de los extremos de múltiples insertos pueden solaparse
para producir un contig
Las lecturas de secuencia se efectúan sólo de los extremos de los insertos clonados. (a)
El uso de dos sitios cebadores distintos, uno en cada extremo del vector, permite la
secuenciación de hasta 600 pares de bases a cada extremo del inserto genómico. Si se
secuencian los dos extremos del mismo clon, las dos lecturas de secuencia resultantes
reciben el nombre de lecturas de extremos emparejados.
Figura 13-5 Las lecturas de extremos emparejados pueden usarse para unir dos
contigs de secuencia
Las lecturas de extremos emparejados pueden usarse para unir dos contigs de secuencia
en un solo andamio ordenado y orientado.
Figura 13-6 Estrategia usada para el ensamblaje de la secuenciación aleatoria de
genomas completos
En el uso de la aproximación de la secuenciación aleatoria de genomas completos,
primero los solapamientos de secuencia únicos entre lecturas de secuencias son usados
para formar los contigs. Luego se usan las lecturas de extremos emparejados para cubrir
los huecos y para ordenar y orientar los contigs en unidades más largas, llamadas
andamios.
Figura 13-7 Un mapa físico pone los clones en orden
Elaboración de un mapa físico mediante cartografía de huellas digitales de clones. (a) Se
digieren cuatro clones con múltiples enzimas de restricción, y la mezcla de fragmentos
de restricción resultante se separa por tamaño mediante electroforesis en gel. Las bandas
que contienen los fragmentos se tiñen para mostrar su localización y se determina el
número de bandas de tamaño idéntico para cada par de digestiones. Las digestiones A y
B comparten más del 50% de las bandas, igual como las digestiones B y C, indicando
que vienen de regiones que se solapan en el genoma. Varias bandas están presentes en
A, B y C, lo que sugiere que alguna parte de los tres clones se solapa. (b) Mapa físico
derivado de los datos de la parte (a). El clon D es de algún otro sitio del genoma, porque
no se solapa con ninguno de los otros tres clones.
Figura 13-8 Estrategia usada para la secuenciación de clones ordenados
La cartografía física identifica una serie de clones que se solapan mínimamente. Los
clones se dividen en subclones, los cuales son secuenciados y reensamblados.
Figura 13-9 El contenido informativo del genoma incluye los sitios de unión
Un gen dentro del DNA puede verse como una serie de sitios de unión para proteínas y
RNAs.
Figura 13-10 Los cDNA y los ESTs revelan exones o los extremos de los genes en
los rastreos genómicos
Alineamiento de DNAs complementarios completamente secuenciados (cDNAs) y
etiquetas de secuencia expresada (ESTs) con el DNA genómico. Las líneas discontinuas
indican regiones de alineamiento; en el caso del cDNA, estas regiones se corresponden
con los exones del gen. Los puntos entre segmentos del cDNA o de los ESTs indican
regiones en el DNA genómico que no se alinean con el cDNA o las secuencias de ESTs;
estas regiones se corresponden con los intrones. Los números encima de la línea del
cDNA indican las coordenadas de las bases de la secuencia del cDNA, donde la base 1
es la base situada más cerca a la región 5’ y la base 816 es la base situada más cerca a la
región 3’ del cDNA. En el caso de los ESTs, sólo se obtiene una pequeña lectura de
secuencia de cada extremo (5’ y 3’) del cDNA correspondiente. Estas lecturas de
secuencia limitan los bordes de la unidad de transcripción, pero no son informativas
respecto a la estructura interna del transcrito a menos que las secuencias de ESTs
atraviesen un intrón (como ocurre con el EST situado en la región 3’ de la figura).
Figura 13-11 Los rastreos genómicos buscan varios sitios de unión
La información en los eucariotas se transfiere del gen a la cadena polipeptídica. Nótese
que a los “sitios de unión” del DNA y del RNA se unen complejos proteicos con el fin
de iniciar los eventos de la transcripción, el proceso de corte y empalme y la traducción.
Figura 13-12 Se integran muchos tipos de evidencia para hacer predicciones de
genes
Los distintos tipos de evidencia de productos génicos (los cDNAs, los ESTs, los aciertos
por similitud del BLAST, el sesgo en el uso de codones y los aciertos en la búsqueda de
motivos) se integran para hacer predicciones de genes. Cuando múltiples clases de
evidencia se encuentran asociadas a una secuencia de DNA genómico particular, es más
probable que la predicción del gen sea acertada.
Figura 13-13 Mapa de la secuencia del cromosoma 20 humano
Se han identificado muchos genes en el cromosoma 20 humano. Las coordenadas de los
mapas de recombinación y citogenético se muestran en las líneas superiores de la figura.
En las secciones intermedias varios gráficos representan la densidad génica y diferentes
propiedades del DNA. Los identificadores de los genes predichos se muestran en la
parte inferior del panel. [Cortesía de Jim Kent, Ewan Birney, Darryl Leja y Francis
Collins. Según el Consorcio Internacional de Secuenciación del Genoma Humano,
“Inicial Sequencing and Analysis of the Human Genome”, Nature 409, 2001, 860-921.]
Figura 13-14 Mapa citogenético del cromosoma 7 humano
En el cromosoma 7 se han cartografiado los puntos de rotura de reordenaciones de
pacientes con trastornos genéticos, creando un mapa citogenético. [Según W. S. Scherer
et al., “Human Chromosome 7: DNA Sequence and Biology”, Science 300, 2003, 769 y
771, Figs. 2 y 5.]
Figura 13-15 Los genomas del ratón y el humano tienen largos bloques sinténicos
de genes en común
Sintenia entre el cromosoma 17 humano y el cromosoma 11 del ratón. Se muestran
largos bloques sinténicos conservados de 100 o más kb de tamaño en el cromosoma 17
humano, el cromosoma 11 del ratón y el cromosoma inferido de su último ancestro
común (reconstruido a partir del análisis de otros genomas de mamíferos). Los bloques
directos de sintenia se muestran en azul claro y los bloques invertidos en verde. Los
tamaños de los cromosomas se indican en megabases (Mb). [Según M. C. Zody et al.,
“DNA Sequence of Human Chromosome 17 and Analysis of Rearrangement in the
Human Lineage”, Nature 440, 2006, 1045-1049, Fig. 2.]
Figura 13-16 Prueba del papel de un elemento conservado en la regulación génica
Se ha identificado un elemento regulador de la transcripción que actúa en cis en un
elemento ultraconservado del genoma humano. El elemento ultraconservado, que está
cerca del gen ISL1 humano, fue unido a un gen informador e inyectado en oocitos
fecundados de ratón. Las regiones en las que se expresa el gen aparecen manchadas en
azul o negro. (a) El gen informador se expresa en la cabeza y médula espinal de un ratón
transgénico, mostrándose aquí el día 11.5 de la gestación. Este patrón de expresión se
corresponde con el (b) del patrón de expresión natural del gen ISL1 de ratón en el día
11.5 de la gestación. Este experimento demuestra cómo los elementos no codificadores
funcionales pueden ser identificados mediante genómica comparativa y probados en un
organismo modelo. [De G. Bejerono et al., “A Distal Enhancer and an Ultraconserved
Exon Are Derived from a Novel Retroposon”, Nature 441, 2006, 87-90, Fig. 3.]
Figura 13-17 Dos cepas de E. coli contienen islas de genes específicos de cada cepa
Los mapas genómicos circulares de las cepas de E. coli K-12 y O157:H7. El círculo
representa la distribución de secuencias específicas de cada cepa. El esqueleto colineal
común a las dos cepas se muestra en azul. Las posiciones de las secuencias específicas
de la cepa O157:H7 se muestran en rojo, mientras que las específicas de la cepa K-12 se
muestran en verde. Las posiciones de las secuencias específicas de O157:H7 y K-12 que
coinciden en la misma posición se muestran en marrón claro. Las secuencias
hipervariables se muestran en morado. [Según N. T. Perna et al., “Genome Sequence of
Enterohaemorrhagic Escherichia coli O157:H7”, Nature 409, 2001, 7529-7533.
Cortesía de Guy Plunkett III and Frederick Blattner.]
Figura 13-18 El transcriptoma se estudia utilizando microarrays de DNA
Detección por fluorescencia de uniones a microarrays de DNA. Las sondas son cDNAs
obtenidos de la retrotranscripción de mRNAs. (a) Matriz de 1046 cDNAs hibridados
con cDNAs marcados fluorescentemente obtenidos de mRNA de médula ósea. La señal
del nivel de hibridación sigue los colores del espectro, con el rojo indicando más
hibridación y azul menos hibridación. (b) GeneChip de Affymetrix, una matriz de 65
000 oligonucleótidos que representan 1641 genes hibridados con cDNAs específicos de
tejido. [(a) Cortesía de Mark Scheria, Universidad de Stanford. La imagen apareció en
Nature Genetics el 16 de junio de 1997, p. 127, Fig. 1a. (b) Cortesía de Affymetrix Inc.,
Santa Clara, California. La imagen fue tomada por David Lockhart. Affymetrix y
GeneChip son marcas comerciales registradas en los Estados Unidos usadas por
Affymetrix. La imagen apareció en Nature Genetics el 16 de junio de 1997, p. 127, Fig.
1b.]
Figura 13-19 Los microarrays de DNA revelan perfiles de expresión génica
Muestra de los patrones de expresión detectados por microarrays de DNA. Cada fila es
un gen distinto, y cada columna es un punto en la línea del tiempo. El rojo indica que
los niveles de transcrito para el gen son superiores que en el momento inicial, mientras
que el verde indica que los niveles de transcrito son inferiores. Las cuatro columnas
marcadas como +cyc son de células cultivadas en ciclohexamida, lo que indica que no
tuvo lugar síntesis proteica en estas células. [Mike Eisen y Vishy Iyer, Universidad de
Stanford. La imagen apareció en Nature Genetics el 18 de marzo de 1998, p. 196, Fig.
1.]
WWW.ANIMATED ART: Microarrays de DNA: uso de una matriz de
oligonucleótidos para analizar los patrones de expresión de genes
Figura 13-20 Estudio de las interacciones proteicas utilizando el sistema del doble
híbrido en la levadura
El sistema usa la unión de dos proteínas que se están investigando para restaurar la
función de la proteína Gal4, que activa un gen informador. Cam, Trp y Leu son
componentes de los sistemas de selección para trasladar los plásmidos entre células. El
gen informador es lacZ, que reside en un cromosoma de la levadura (mostrado en azul).
Figura 13-21 Pasos del ensayo de immunoprecipitación de la cromatina (ChIP)
ChIP es una técnica para aislar el DNA y sus proteínas asociadas en una región
específica de la cromatina, de forma que ambos puedan ser analizados conjuntamente.
Figura 13-22 Alteración de la función génica utilizando mutagénesis dirigida
El suceso molecular básico en la sustitución dirigida de genes. Un transgén, que
contiene las secuencias de los extremos de un gen pero con un segmento de DNA que
puede seleccionarse en medio, es introducido en una célula. Una doble recombinación
entre el transgén y el gen cromosómico normal produce un gen cromosómico
recombinante que ha incorporado el segmento anormal.
Figura 13-23 Alteración de la función génica utilizando la interferencia de RNA
Tres formas para crear e introducir un RNA de doble cadena (dsRNA) en una célula. El
dsRNA después estimulará el RNAi, degradando las secuencias que coinciden con las
del dsRNA. [Reimpreso con permiso de S. Hammond, A. Caudy y G. Hannon, Nat.
Rev. Genet. 2, 2001, 116.]
Figura 13-24 Alteración de la función proteica utilizando genética química
La genética química se usa para reducir la actividad de una proteína de un gen diana a
través de la unión de una pequeña molécula inhibidora. (a) Ejemplo de genética química
directa, en la que moléculas pequeñas son directamente probadas en células de levadura
para identificar una que produzca un fenotipo de interés. (b) Ejemplo de la genética
química inversa, en la que una pequeña molécula se une primero a una proteína de
interés y subsecuentemente se prueba su efecto fenotípico cuando se aplica a las células.
[De B. Stockwell, “Chemical Genetics: Ligand-Based Discovery of Gene Function”,
Nat. Rev. Genet. 1, 2000, 117.]
Figura 13-25 Inserción de transgenes en un organismo no modelo
Creación de escarabajos transgénicos que expresan una proteína verde fluorescente.
TIR, repetición invertida terminal (del inglés terminal inverted repeat). [De E. A.
Wimmer, “Applications of Insect Transgenesis”, Nat. Rev. Genet. 4, 2003, 225-232.]
Figura 13-26 Ejemplos de insectos no modelos expresando un transgén
Ejemplos de una proteína informadora transgénica verde fluorescente expresada en los
ojos de algunos insectos no modelo. La expresión es dirigida por un único promotor
activo en el ojo. Los insectos son el mosquito (Aedes aegypti), la polilla del gusano de
la seda (Bombyx mori) y el escarabajo (Tribolium castaneum). [(a-c) Cortesía de V. A.
Kooks y Alexander S. Raikhel. (d) De J. L. Thomas et al. Copyright 2002 de Elsevier
Science. (e y f) Cortesía de Marek Jindra. (g-i) Copyright 2000 de Elsevier Science.]
PARCHEADOS
Figura 13-2 Lógica de la elaboración de un mapa de secuencia del genoma
1 Genoma
2 Se cortan varias copias del genoma en fragmentos aleatorios.
3 Se hace una librería de los fragmentos clonados.
4 Se secuencia cada clon.
5 Se solapan las lecturas de secuencias.
6 Se solapan los contigs en una secuencia completa.
Figura 13-4 Las lecturas de los extremos de múltiples insertos pueden solaparse
para producir un contig
1 Cebador 2
2 Cebador 1
Figura 13-5 Las lecturas de extremos emparejados pueden usarse para unir dos
contigs de secuencia
1 Contig secuenciado A
2 Contig secuenciado B
3 Lectura de secuencia 1
4 Lectura de secuencia 2
5 Lecturas de extremos emparejados del mismo inserto clonado
6 Vector de un inserto largo
7 Andamio A-B
Figura 13-6 Estrategia usada para el ensamblaje de la secuenciación aleatoria de
genomas completos
1 Lecturas de extremos emparejados
2 Lecturas de extremos emparejados
3 Andamio
4 Contig secuenciado 1
5 Hueco
6 Contig secuenciado 2
7 Hueco
8 Contig secuenciado 3
Figura 13-7 Un mapa físico pone los clones en orden
1 Huella digital del DNA
2 Clon
3 Digestiones de restricción separadas en gel
4 Mapa físico
Figura 13-8 Estrategia usada para la secuenciación de clones ordenados
1 Se ordenan los clones de insertos largos mediante el solapamiento de huellas del DNA
para crear un mapa físico.
2 Marcador molecular
3 Mapa físico
4 Se seleccionan los clones con un solapamiento mínimo.
5 Se dividen en subclones.
6 Se secuencian los subclones.
7 Se ensamblan los subclones para crear la secuencia del genoma.
Figura 13-9 El contenido informativo del genoma incluye los sitios de unión
1 Una proteína reguladora se une al DNA.
2 La RNA polimerasa se une al DNA.
3 El ribosoma se une al mRNA.
4 Los tRNAs se unen a cada codón del mRNA.
5 El espliceosoma se une al transcrito de RNA primario.
6 La proteína de terminación de la traducción se une al mRNA.
7 La polimerasa poli(A) se une al transcrito de RNA primario.
8 Intrón
9 Exón
10 Elemento de regulación de la transcripción
11 Promotor
12 Sitio de inicio de la traducción
13 Codones
14 Sitio de corte y empalme 5’
15 Codones
16 Sitio de corte y empalme 3’
17 Codones
18 Sitio de fin de la traducción
19 Sitio de poliadenilación
Figura 13-10 Los cDNA y los ESTs revelan exones o extremos de los genes en los
rastreos genómicos
1 Exón 1
2 Exón 2
3 Exón 3
4 Exón 4
5 DNA genómico
Figura 13-11 Los rastreos genómicos buscan varios sitios de unión
1 Mapa de los sitios de unión en el genoma
2 Exón
3 Sitio de unión de la RNA polimerasa
4 Sitio de unión del ribosoma
5 Sitio de corte y empalme 5’
6 Sitio de corte y empalme 3’
7 Sitio de corte y empalme 5’
8 Sitio de corte y empalme 3’
9 Promotor
10 Sitio de inicio de la traducción
11 Intrón
12 Exón
13 Exón
14 DNA genómico
15 Sitio de unión de la RNA polimerasa
16 Cadena codificadora
17 Cadena molde
18 Transcripción
19 Transcrito de RNA primario
20 Sitio de corte y empalme 3’
21 Sitio de corte y empalme 5’
22 Sitio de corte y empalme 5’
23 Sitio de corte y empalme 3’
24 Corte y empalme
25 Sitio de unión del ribosoma
26 Traducción
27 Polipéptido
Figura 13-12 Se integran muchas formas de evidencia para hacer predicciones de
genes
1 Predicciones a partir de la proteína
2 Similitud por BLAST
3 Predicciones a partir del mRNA y sus propiedades
4 Sesgo en el uso de codones
5 Motivo de secuencia
6 Predicciones a partir de los programas de análisis de sitios de unión
7 Sitio promotor
8 Sitios de corte y empalme
9 Sitio de inicio de la traducción
10 Sitios de corte y empalme
11 Sitio de terminación de la traducción
12 Sitio de poliadenilación
13 Intrón
14 Exón
15 Intrón
16 Exón
17 Intrón
18 Exón
19 Marco abierto de lectura (ORF)
20 Gen predicho
Figura 13-13 Mapa de la secuencia del cromosoma 20 humano
1 Cromosoma 20
Figura 13-14 Mapa citogenético del cromosoma 7 humano
1 Todos los puntos de rotura de reordenaciones
2 Todos los puntos de rotura de reordenaciones asociadas a malignidad
3 Todos los puntos de rotura de reordenaciones caracterizados a nivel de secuencia
Figura 13-15 Los genomas del ratón y el humano tienen largos bloques sinténicos
de genes en común
1 Cromosoma 11 del ratón
2 Cromosoma ancestral
3 Cromosoma 17 humano
Figura 13-17 Dos cepas de E. coli contienen islas de genes específicos de cada cepa
1 Comparación de las cepas O157:H7 y K-12 de E. coli
Figura 13-19 Los microarrays de DNA desvelan perfiles de expresión génica
1 Tiempo
Figura 13-20 Estudio de las interacciones proteicas con el uso del sistema de dos
híbridos de la levadura
1 Vectores de doble híbrido de levadura
2 Dominio de unión de Gal4 (DU)
3 Proteína “cebo”
4 Dominio de activación de Gal4 (DA)
5 Proteína “diana”
6 Unión
7 Interacción
8 Diana
9 Cebo
10 Transcripción
11 Promotor GAL
12 Gen informador lacZ
13 Gal4 DA
14 Gal4 DU
Figura 13-21 Pasos en el ensayo de inmunoprecipitación de la cromatina (ChIP)
1 Interconexión entre las proteínas y el DNA.
2 Se rompe la cromatina en piezas pequeñas.
3 Se añade el anticuerpo a la proteína diana y se purifica.
4 Se revierten las interconexiones para separar el DNA y la proteína.
5 Anticuerpo
6 Amplificación y secuenciación
Figura 13-22 Alteración de la función génica usando la mutagénesis dirigida
1 Gen A con un segmento mutante
2 Secuencia mutante
3 Cromosoma
4 Gen A
5 Recombinación entre el transgén mutante y el gen cromosómico
6 Gen A mutante
7 Cromosoma
Figura 13-23 Alteración de la función génica usando la interferencia de RNA
1 El dsRNA es sintetizado in vitro.
2 Un transgén que contiene una repetición invertida es introducido en el genoma.
3 Un transgén que contiene dos promotores en orientaciones opuestas es introducido en
el genoma.
4 El transcrito de RNA forma una estructura autocomplementaria de tallo y bucle.
5 Las moléculas de RNA complementarias se transcriben e hibridan.
6 El dsRNA es inyectado a la célula.
Figura 13-24 Alteración de la función proteica usando la genética química
1 Genética química directa
2 Genética química inversa
3 Proteína de interés
4 Pocillos con colonias de levadura
5 Se añade un compuesto por pocillo.
6 Se explora qué compuestos se unen a la proteína.
7 Se encuentra el compuesto que produce el fenotipo de interés.
8 Se trata las células con la molécula que se une a la proteína.
9 Se identifica la proteína diana del compuesto.
10 Se hacen experimentos para determinar el fenotipo.
Figura 13-25 Inserción de transgenes en un organismo no modelo
1 Promotor-intensificador GFP del ojo
2 Transposasa
3 Plásmido donador
4 Plásmido ayudante
5 Núcleo
6 Embrión
7 Microinyección de una mezcla de plásmidos en el embrión
8 Células germinales primordiales (algunas han incorporado los plásmidos)
9 El constructo del transgén se transpone en el genoma de algunas células de la línea
germinal
10 Siguiente generación
11 Los escarabajos con los ojos verde fluorescente han heredado un transgén integrado
en el genoma
Figura del ejercicio 24
1 K-12 no patogénica
2 CFT073 uropatogénica
3 O157:H7 enterohemorrágica
4
Número total de proteínas = 7638
2996 (39.2%) en las tres cepas
911 (11.9%) en dos de las tres cepas
3554 (46.5%) en una de las tres cepas