Download PRÁCTICA DE LABORATORIO SECO

Document related concepts

Marcador de secuencia expresada wikipedia , lookup

BLAST wikipedia , lookup

Genómica computacional wikipedia , lookup

Alineamiento de secuencias wikipedia , lookup

Genómica funcional wikipedia , lookup

Transcript
MAESTRÏA EN BIOLOGÍA MOLECULAR MÉDICA 2006
PRÁCTICA DE LABORATORIO SECO
Objetivo:
Dada una secuencia parcial obtenida de un gel de secuencia:
1) traducirla en los 6 marcos de lectura posibles
2) decidir cual es el ORF más probable
3) buscar por homología con secuencias de proteínas en bases de datos si existe una
proteína compatible con la secuencia primaria parcial predicha
4) Buscar el DNA genomico y el cDNA (mRNA) que codifica dicha proteina.
5) Predecir los intrones en el DNA; comparalos con los verdaderos intrones
6) Ubicar el gen en qué cromosoma del genoma humano se encuentra; ver quienes son
los genes vecinos.
7) Buscar sitios para unión de un determinado factor de transcripción en la región
promotora de un gen
Introducción teórica
Como consecuencia del gran avance que se ha realizado en los Proyectos Genoma, en
los últimos años se ha acumulado gran información en secuencias de DNA y
proteínas. Estas secuencias se encuentran contenidas en distintas base de datos, siendo
el GenBank (en EEUU), el EMBL (en el Reino Unido) y el DDBJ (en Japón), las
mayores bases de datos de secuencias nucleotídicas y de proteínas, y SWISS PROT y
PIR bases de datos únicamente de secuencias de proteínas. Estas bases de datos son
actualizadas diariamente y se encuentran disponibles en Internet por ejemplo en el
NCBI (National Center for Biotechnology Information), el cual provee de una base de
datos no redundante (nr) que incluye secuencias nucleotídicas y proteicas únicas de
las bases de datos mencionadas anteriormente.
Las búsquedas de homologías permiten un primer acercamiento a la función
biológica de un nuevo gen. En las bases de datos del NCBI, las búsquedas son
realizadas principalmente utilizando el programa BLAST (Basic Local Aligment
Search Tool), el cual constituye un algoritmo de búsqueda de similitudes aplicable a
cualquier secuencia de DNA o proteína. Dado que existen cinco aplicaciones distintas
del programa BLAST, el primer paso en la búsqueda de homología consiste en
seleccionar el programa BLAST más apropiado, según si la secuencia de interés es
nucleotídica o proteica y en el caso de la primera, si ésta es susceptible de contener
errores como en caso de los ESTs (en estas secuencias se busca rapidez y cantidad,
sacrificando un poco de calidad), y otras secuencias de ADN secuenciadas una sola
vez.
Los programas BLASTN, BLASTX, TBLAST, son utilizados para analizar
secuencias nucleotídicas, especialmente secuencias genómicas y los cDNA
secuenciados una sola vez, mientras que los programas BLASTP TBLASTN son
utilizados para analizar secuencias proteicas, es decir que una vez obtenido el marco
de lectura del gen de interés. El segundo paso consiste en elegir una base de datos
apropiada.
En la tabla a continuación se muestra el tipo de base de datos utilizada según el
programa BLAST seleccionado y el análisis realizado por éste a la secuencia de interés
y a las secuencias presentes en la base de datos.
Programas
BLASTN
Secuencia de interés
Secuencia en base de datos
nucleotídica, ambas cadenas
nucleotídica
BLASTX
nucleotídica, seis marcos de proteica
lectura
TBLASTX
nucleotídica, seis marcos de nucleotídica, seis marcos de
lectura
lectura
BLASTP
TBLASTN
Proteica
proteica
Proteica
nucleotídica, seis marcos de
lectura
El problema con el que se encuentra quien compare datos y obtenga similitud
con otra secuencia en la base de datos, es saber si tiene relevancia estadística. En la
mayoría de los programas de búsqueda se eliminan o se filtran, en la mayoría de los
casos, los segmentos de baja complejidad que llevarían a considerar secuencias como
relacionadas, cuando en realidad la similitud la estarían dando regiones de
composición simple, muy frecuentes en genomas de organismos muy dispares.
(secuencias repetidas, microsatélites, poly A, etc.). Esto reduce ampliamente la
posibilidad de asignaciones erróneas y aumenta la fidelidad de los resultados
obtenidos en la búsqueda BLAST.
La asignación de una función biológica a un gen nuevo requiere de búsquedas
de homologías altamente específicas. Existen programas que comparan motivos
proteicos, estos evalúan únicamente aquellas posiciones conservadas en el grupo de
secuencias, de esta manera se puede asignar una proteína a una familia proteica, aún
cuando esta esté lejanamente relacionada tal que no presente homología fuera del
motivo conservado ensayado. Este es el caso del programa Emotif, el cual aplicado a
una serie de secuencias proteicas alineadas genera una serie de motivos con un rango
variado de especificidad y sensibilidad. La base de datos Identify, generada con este
programa contiene más de 50000 motivos distintos y es el resultado de aplicar el
programa Emotif a las bases de datos BLOCKS y PRINTS. La base de datos Pfam,
constituye otro ejemplo de bases de datos constituidas por grupos de secuencias de
proteínas alineadas y aunque muy similar a la anterior en este aspecto, presentan una
diferencia importante; mientras Identify contiene secuencias conservadas cortas que
describen motivos importantes en función, los alineamientos Pfam representan
dominios proteicos completos.
La búsqueda de homología de secuencias nucleotídicas o proteicas mencionadas
anteriormente, constituyen una herramienta fundamental cuando se tiene un gen cuya
función biológica se desconoce, sin embargo puede suceder que proteínas que tienen
baja homología de secuencia, puedan adoptar estructuras terciarias similares con
funciones moleculares parecidas o relacionadas. En base a esto, un método más
sensible para determinar la función molecular de una proteína desconocida consiste
en determinar una estructura tridimensional por cristalografía de rayos X y luego
comparar la estructura resultante contra una base de datos estructural de proteínas.
Cómo debe ser el formato de la secuencia a analizar?
La secuencia debe estar en formato FASTA/Pearson. Una secuencia con este formato
esta escrito en una sola línea y la descripción de la secuencia (nombre) se escribe
precedida del símbolo”>”. (mayor).ej.
>MNKSV40 Monkey DNA fragment
ggaattcctgactgcatagcatagcaaactagaggattatgggcatatagacagatagacataggggg
(en letras minúsculas o mayúsculas)
Algunos Parámetros del NCBI BLAST
PROGRAM: Aquí se elige el programa Blast a usar ej.: blastp
DESCRIPTIONS: Restringe el número de descripciones cortas de secuencias que
aparean, por default es 100
ALIGMENTS: número de alineamientos mostrados en pantalla, por default es 50 y
está restringido a los de mayor score
EXPECT: significancia estadística de los apareamientos contra las secuencias de la
base. Por default es 10, esto implica que se requieren 10 apareamientos para ser
considerado probable.
CUTOFF: valor de corte del score. Se calcula del EXPEXCT value. Cuanto mayor es el
CUTOFF mayor rigurosidad de apareamiento se le esta pidiendo al programa.
MATRIX: Matriz empleada para hacer los apareamientos. Estas matrices están
construidas a partir de algoritmos que surgen de valores de comparación entre
distintos aminoácidos a lo largo de la evolución
Nucleotide sequence database content
El contenido de bases de datos disponibles en BLAST son las siguientes:
* Nucleotide Sequence Databases
Database:
nr: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or
2 HTGS sequences). No longer "non-redundant".
est: Database of GenBank+EMBL+DDBJ sequences from EST division.
est_human: Human subset of GenBank+EMBL+DDBJ sequences from EST division.
est_mouse: Mouse subset of GenBank+EMBL+DDBJ sequences from EST division.
est_others: Non-Mouse, non-Human
sequences from EST Division.
sequences
of
GenBank+EMBL+DDBJ
gss: Genome Survey Sequence, includes single-pass genomic data, exon-trapped
sequences, and Alu PCR sequences.
htgs: Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2. Finished
phase 3 HTG sequences are in nr.
pat: Nucleotides from the Patent division of GenBank.
yeast: Saccharomyces cerevisiae genomic nucleotide sequences.
mito: Database of mitochondrial sequences.
vector: Vector subset of GenBank(R), NCBI, in ftp://ftp.ncbi.nlm.nih.gov/blast/db/.
ecoli: Escherichia coli genomic nucleotide sequences.
pdb: Sequences derived from the 3-dimensional structures from the Brookhaven
Protein Data Bank.
drosophila genome: Drosophila genome provided by Celera and Berkeley Drosophila
Genome Project (BDGP).
month: All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the
last 30 days.
alu: Select Alu repeats from REPBASE, suitable for masking Alu repeats from
query
sequences.
It
is
available
by
FTP
from
ftp://ftp.ncbi.nlm.nih.gov/blast/db/alu.n.Z. See "Alu alert" by Claverie and
Makalowski, Nature 371: 752 (1994).
dbsts: Database of GenBank+EMBL+DDBJ sequences from STS division.
chromosome: Searches Complete Genomes, Complete Chromosome, or contigs form
the NCBI Reference Sequence project.
wgs_anopheles: Anopheles gambiae (mosquito) whole genome shotgun sequences.
* Peptide sequence database content
Database:
nr: All non-redundant GenBank CDS translations + PDB + SwissProt + PIR+PRF.
swissprot: Last major release of the SWISS-PROT protein sequence database (no
incremental updates).
pat: Proteins from the Patent division of GenBank.
yeast: Saccharomyces cerevisiae genomic CDS translations.
e.coli: Escherichia coli genomic CDS translations
pdb: Sequences derived from the 3-dimensional structures from the Brookhaven
Protein Data Bank
drosophila genome: Drosophila genome proteins provided by Celera and Berkeley
Drosophila Genome Project (BDGP).
month: All new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF
released in the last 30 days
Procedimiento del ejercicio
- Archivo de la secuencia:
gggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctgagtcaggaaacattttcagacct
atggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccg
gacgatattgaacaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcg
tggcccctgcaccagcagctcctacaccggcggcccctgcaccagccccctcctggcccctgtcatcttctgtccc
ttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattctgggacagccaagtctgtgact
tgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgatt
ccacacccccgcccggcacccgcgtccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgag
gcgctgcc
Entrar a la página http://au.expasy.org/tools/dna.html
denominada Translate tool, que sirve para traducir una secuencia de DNA o RNA en todos los
marcos de lectura posibles
Copiar sólo la secuencia incógnita, y pegarla en el recuadro del utilitario Translate.
Ejecutar
-Decidir cuál marco de lectura es el que puede leerse más adecuadamente como una secuencia
corrida de aminoácidos.
-PIntar la secuencia elegida, y salvarla en un archivo de texto.
-
Ir al sitio BLAST http://www.ncbi.nlm.nih.gov/BLAST/ donde se procederá a buscar si
en el banco de datos de secuencias de proteínas hay alguna cuya secuencia coincida en
parte con el ORF predicho.
Elegir Standard protein blast. A partir del archivo donde se acaba de guardar el ORF
seleccionado, copiar la secuencia de aminoácidos y pegar en el cuadro de trabajo del
BLAST. Iniciar el programa de búsqueda
Observar si inmediatamente el programa encuentra alguna característica muy
relevante correspondiente a la secuencia entrada. Luego apretar FORMAT, y esperar a
que aparezca el resultado.
Mirar los resultados de las homologías encontradas.
Luego de haber interpretado el formato en que aparecen los resultados, ir al sitio que
corresponde a una de las secuencias encontradas con este procedimiento.
El de la AF135121 (hacer click en el hyperlink). Hojear un poco esa pagina; ver la
información que da.
Salvar las secuencias de la proteina completa, de su DNA, y de su RNA; ademas
grabar la página, para tener registrados cuales son los exones e intrones.
Ir al sitio NetGene2 (http://genome.cbs.dtu.dk/services/NetGene2/ ) donde existe una
herramienta para predecir sitios de splicing. Utilizarla dandole a analizar la secuencia
de DNA genomica de la proteina incognita.Grabar la información recibida del
programa, para analizar luego, o en el momento, si hay tiempo, los intrones
predichos por dicho programa y los que realmente tiene el DNA. Analizar sólo los
datos que corresponden a la cadena directa.
Como complemento de este trabajo obtener más información sobre el gen en cuestión,
yendo
al
sitio
de
Human
Genome
Resources
(http://www.ncbi.nlm.nih.gov/genome/guide/human/) Buscar información sobre p53
humana. Ubicar la información sobre TP53 que es nuestro gen; ubicar en qué
cromosoma se encuentra y visualizar el cromosoma con el gen localizado. Detectar
cuáles son los genes vecinos, y cuál es el sentido de transcripción relativa de p53 y de
sus dos vecinos. Cuántos exones tiene cada uno de los tres genes?
Utilizar el hiperlink que se crea en TP53 para interiorizarse en el tipo de información
que se puede obtener en internet sobre este gen/proteína.
- Ejercicio suplementario: Analizar una secuencia de DNA en un programa que busca
sitios de unión para factores de transcripción
- Primero vamos al sitio de Genbank a buscar la secuencia de DNA que contiene la
región
promotora
del
gen
p53.
(Accession
number
J04238).
(http://www.ncbi.nlm.nih.gov/). Abrir el archivo para ver la secuencia, y grabar los
nucleotidos en un archivo de texto. Por si se pierden, aquí abajo está copiada
gggagaaaacgttagggtgtggatattacggaaagccttcctaaaaaatgacatttaactgat
gagaagaaaggatccagctgagagcaaacgcaaaagctttcttccttccacccttctatttga
cacaatgcaggattcctccaaaatgatttccaccaattctgccctcacagctctggcttgcag
aattttccaccccaaaatgttagtatctacggcaccaggtcggcgagaatcctgactctgcac
cctcctccccaactccatttcctttgcttcctccggcaggcggattacttgcccttacttgtc
atggcgactgtccagctttgtgccaggagcctcgcaggggttgatgggattggggttttcccc
tcccatgtgctcaagactggcgctaaaagttttgagcttctcaaaagtctagagccaccgtcc
agggagcaggtagctgctgggctccggggacactttgcgttcgggctgggagcgtgctttcca
cgacggtgacacgcttccctggattgg
Ahora ir al sitio (http://www.gene-regulation.com/pub/databases.html#transfac)
donde hay todo tipo de información sobre factores de transcripción. Por ejemplo,
entren a clasificación y verán cómo se clasifican todos los factores de transcripción.
Ahora marquen en el margen superior, la legüeta de Programs; observen todos los
programas que hay y quedense con el programa Ali-Baba. Hagan click donde dice
"use Alibaba on this site". Si les pide un login pueden usar ell usuario smoreno, y la
password sm3507. Pintar en el recuadro adecuado la secuencia del promotor que
grabaron. Hagan la búsqueda y verán los sitios que aparecen.
Esperamos que hayan aprovechado estos ejercicios.