Download EL GENOMA HUMANO VISTO POR ENSEMBL

Document related concepts

Proyecto del genoma wikipedia , lookup

Genoma humano wikipedia , lookup

Pseudogén wikipedia , lookup

Genómica funcional wikipedia , lookup

Genómica wikipedia , lookup

Transcript
EL GENOMA HUMANO VISTO POR ENSEMBL
El objetivo de estas prácticas consistirá en analizar una región del genoma humano de
aproximadamente 1 Mb de extensión. Se indicará, entre otras cosas, las características generales del
cromosoma en el que esa región está incluida, las características generales de la región propiamente
dicha, los tipos de secuencias que incluye, así como los datos más relevantes de algunas de estas
secuencias.
Para ello utilizaremos el visualizador de genomas de Ensembl, proyecto conjunto de EBI-EMBL y
Wellcome Trust Sanger Institute, cuyo objetivo es el desarrollo de un software gracias al cual se produce
y mantiene un sistema automático de anotación de genomas de organismos eucariotas, principalmente.
La página principal de Ensembl se encuentra en la dirección de internet http://www.ensembl.org
Además, haremos uso de otras páginas de internet que contienen información actualizada sobre
nomenclatura oficial de genes en el hombre (www.genenames.org), características de genes
(www.genecards.org), elementos reguladores en CIS (http://www.cisred.org/), microRNAs
(http://www.mirbase.org/), entre otras. En la página web del profesor José Martín,
http://www.uam.es/gpepe, se incluirá un archivo con los enlaces a las páginas web de internet de
utilidad para el desarrollo de esta parte de las prácticas.
Pasaremos ahora a describir los detalles más importantes que el visualizador de genomas de Ensembl
puede ofrecernos.
Ensembl.-
2
1
Página principal de Ensembl. Especies para las que mantiene información.
Febrero de 2015
-1-
(1)
Lista de especies con información genómica
Febrero de 2015
-2-
(2)
Página de entrada al genoma humano. Se señalan el cuadro de búsquedas y un enlace que nos lleva a las
estadísticas y a las características del ensamblaje del genoma humano con el que trabaja Ensembl. En el
enlace http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/definitions.shtml encontraremos
información sobre la terminología empleada en el ensamblaje del genoma humano.
Febrero de 2015
-3-
Para acceder en Ensembl a las características del genoma humano, pueden utilizarse 3 estrategias de
búsqueda: por nombre de gen/secuencia, por región genómica (rango de pares de bases de un
cromosoma concreto), o por nombre de una enfermedad de influencia genética.
Veamos un ejemplo:
Se trata de analizar la región del cromosoma 13 comprendida entre los pares de bases 47,900,000 y
48,899,999. Lo primero que habría que decir es que el origen por el que se empiezan a contar los pares
de bases es el telómero del brazo corto del cromosoma. Es decir, el par de bases inicial del cromosoma
13 se situará en el telómero del brazo corto (p), y el par de bases final, en el telómero del brazo largo
(q).
En el cuadro de búsquedas de la página inicial de Ensembl, pondremos:
13:47900000-48899999 y a continuación haremos click en el botón Go
Y obtenemos:
Febrero de 2015
-4-
La leyenda de colores nos permite conocer los distintos tipos de secuencias que Ensembl reconoce. En
este sentido, la región en detalle (Region in detail) nos permite identificar la existencia de secuencias
génicas (color ocre) que incluyen todas aquellas en las que existe coincidencia entre la anotación
producida de forma automatizada por el equipo de Ensembl y la anotación manual realizada por el
equipo de Havana (Human And Vertebrate ANalysis and Annotation). Las secuencias de color granate
son secuencias codificadoras de proteínas reconocidas sólo por Ensembl o sólo por Havana. Asimismo
podemos observar secuencias tales como pseudogenes (color gris, anotadas por Ensembl o por Havana),
genes RNA, ya sean microRNAs como intergénicos largos (color morado, anotados por Ensembl o por
Havana), transcritos procesados (color azul, anotados por Havana).
Un detalle a destacar es que varias de estas secuencias están solapadas, e incluso algunas de ellas se
encuentran inmersas dentro de otras (secuencias/genes solapantes, genes dentro de genes, …)
Las características más generales respecto al cromosoma en el que se encuentra la región a analizar
(cromosoma 13), la podemos obtener a partir del enlace de la izquierda (Chromosome summary),
señalado con una flecha.
Aquí pueden verse las características más reseñables sobre el cromosoma 13. La flecha señala la banda
citogenética donde se sitúa la región a estudiar.
A continuación haremos un repaso de las características más generales de alguno de los distintos tipos
de secuencias que hemos visto en la imagen de la región en detalle. Comenzaremos con algún gen
codificador de proteínas, por ejemplo el que aparece señalado como RB1. Si pinchamos en la etiqueta
RB1, se nos despliega la ventana que aparece en fondo azul. Ahí podemos ver el código que Ensembl
asigna a este gen; si pinchamos ahora en el enlace señalado con la flecha roja (ENSG00000139687),
podremos ver ya ciertas características de este gen.
Febrero de 2015
-5-
De acuerdo con la anotación que Ensembl hace de este gen, se trata del gen del retinoblastoma (cuyo
símbolo oficial es RB1, de acuerdo con HGNC). Dicho gen es capaz de producir 6 transcritos, de los
cuales solo uno de ellos codifica una proteína aceptada por “The Consensus CDS project” (CCDS).
Utilizando el enlace señalado con una flecha roja (splice variants) podremos obtener información sobre
el mecanismo de aparición de esos 6 transcritos.
Si pinchamos en el enlace correspondiente al identificador del transcrito productor de la proteína
consensuada por CCDS (ENST00000267163), entraremos en la ficha correspondiente a las
características de dicho transcrito, como por ejemplo: estructura exón/intrón, datos estadísticos del
transcrito, etc.
Febrero de 2015
-6-
Además, utilizando los distintos ítems del menú de la izquierda (recuadrado en rojo), tendremos
posibilidad de profundizar en distintos aspectos relativos a las características de dicho transcrito. En el
aula de informática, se indicarán los aspectos más importantes a tener en cuenta.
En relación a la proteína que dicho transcrito codifica, podemos pinchar en el enlace señalado con una
flecha, y se nos mostrarán de forma gráfica distintos datos relativos a la misma:
Aminoácidos codificados por cada exón, dominios que se pueden reconocer en la proteína según
distintas bases de datos de dominios, así como estadísticas de esta proteína.
En relación a los dominios que se pueden reconocer en la proteína, atenderemos a lo que nos indica la
base de datos de Pfam (http://pfam.sanger.ac.uk). Pinchando en el dominio RB_A, por ejemplo, se nos
despliega un menú que nos permite analizar la anotación que Pfam ha realizado respecto de este
dominio de proteína, cuyo código es PF01858. Pinchando ahora en dicho código, iremos a la página de
Pfam correspondiente a este dominio. En el aula de informática aprenderemos a sacar partido a esta
información.
Finalmente, en la página web de Gene Cards (www.genecards.org) correspondiente al gen RB1
tendremos a nuestra disposición una información mucho mayor sobre distintos aspectos de este gen.
Febrero de 2015
-7-
Como podemos ver, tenemos información resumida sobre la función del gen que estamos analizando.
Además, utilizando el menú desplegable que aparece en amarillo, podremos acceder a otro tipo de
información que Ensembl no nos proporcionaba, como por ejemplo, lo que se refiere a las rutas en las
que este gen está implicado, o las interacciones con otros genes/proteínas, tejidos de expresión del gen,
etc.
Febrero de 2015
-8-
Otros aspectos interesantes a considerar respecto del gen que estamos analizando, es lo que concierne
a la regulación de su expresión, el grado de conservación de la secuencia a lo largo de la evolución, y a
los elementos móviles que se han insertado durante la evolución a lo largo de su secuencia y regiones
flanqueantes próximas en 5’ y 3’. Dichos aspectos los podemos obtener a través de la pantalla de
Ensembl donde se muestra la región en detalle. Además, dicha pantalla debe configurarse
convenientemente. Dicha configuración se indicará durante el desarrollo de la práctica en el aula de
informática.
Pantalla de configuración de la región en detalle.
Febrero de 2015
-9-
Visión en detalle de la región del gen RB1
Elementos conservados
Transcritos de RBL
Islas CpG (Promotor)
Transcritos/secuencias en
antisentido a RB1
Variantes Estructurales
Detalles de las regiones
reguladoras
Nivel de conservación de
secuencia del gen RB1 en
diferentes especies (primates)
Posición de elementos móviles
(Retrovirus endógenos, Sines, Lines,
Trasposones DNA
Código de colores Genes/Elementos
reguladores.
Febrero de 2015
-10-
Descripción de un pseudogen.En esta parte se trata básicamente de determinar la procedencia de uno de los pseudogenes que
encontramos en la región del genoma que estamos analizando.
En dicha región observamos la presencia del pseudogen PCNPP5. ¿Cómo podríamos averiguar de qué
gen proviene? La idea básica es que su secuencia se parecería en mayor o menor medida a la secuencia
del gen de procedencia. Por tanto, lo primero es averiguar la secuencia del pseudogen. Si pinchamos en
la etiqueta identificativa, se nos despliega la ventana que se muestra en la imagen anterior. Pinchando
ahora en el identificador que Ensembl le ha dado, obtendremos la ficha correspondiente a sus
características, entre ellas la secuencia correspondiente.
Febrero de 2015
-11-
Seleccionando con el cursor la secuencia, podremos utilizarla para buscar secuencias similares en las
bases de datos de secuencias, mediante una herramienta de alineamiento básico (BLAST).
Para ello, acudimos a la página de BLAST del NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi), y
seleccionamos BLAST de nucleótidos
Febrero de 2015
-12-
Secuencia del pseudogen
(En FASTA)
Base de datos
contra la que
buscar
Restringir la
búsqueda a
humanos
El resultado es el siguiente:
Obsérvese que la secuencia señalada presenta una probabilidad de alineamiento por azar bajísima (Evalue = 0, de hecho) y una identidad del 96%. Cuánto más bajo sea el valor del parámetro E-value, más
significativo es el alineamiento.
Febrero de 2015
-13-
Pinchando en el enlace correspondiente al GEN (flecha roja), podremos saber más detalles del gen que
ha dado origen al pseudogen:
Febrero de 2015
-14-