Download Terminador transcripcional

Document related concepts

Intrón wikipedia , lookup

Exón wikipedia , lookup

ARN mensajero wikipedia , lookup

Historia de la biología del ARN wikipedia , lookup

Empalme alternativo wikipedia , lookup

Transcript
ENCONTRANDO SENTIDO A LAS SECUENCIAS
DE ADN
¿Como podemos saber donde están
localizados los genes conociendo únicamente
la información de la secuencia?
• DIFERENCIAS ENTRE GENES PROCARIOTAS Y EUCARIOTAS
Tamaño del
Genoma
# de genes
Unidad génica.
(Tamaño promedio
de un gen)
Mycoplasma genitalium
0.58
473
1235 bp
Haemophilus influenzae
1.8
1,709
1042 bp
Saccharomyces
cerevisiae
1.3
6,241
2,100 bp
Neurospora crassa
42.9
10,000 13,000
13,601
18,424
2,910
3,000 - 4,000 bp
Organismo
Procariota:
Eucariota:
Drosophila melanogaster 165
Caenorhabditis elegans
100
Homo sapiens
10,000 bp
30,000 - 40,000
ESTRUCTURA DE LOS GENES BACTERIANOS
I. Transcripto de 1 solo gen
Promotor
Sitio de inicio de la
transcripción
Terminador
transcripcional
ATG
TAA
Secuencia
codificante
hisG
Transcripto (RNAm)
Sitio de unión a Sitio inicio de la
ribosoma (RBS) traduccion (ATG)
Fin de la traducción
La orientación del promotor determina el sentido de la transcripción
(y por lo tanto cuál de las 2 hebras se transcribe)
ESTRUCTURA DE LOS GENES BACTERIANOS
II. Operón Policistrónico
Uno por operón
Promotor
Terminador
transcripcional
Sitio de inicio de la
transcripción
TAA
TAA ATG
ATG
Secuencia codificante
Secuencia codificante
hisG
hisH
Transcripto (RNAm)
Sitio de unión + Sitio inicio de
a ribosoma
la traduccion
(RBS)
(ATG)
Fin de la
traducción
Uno por gen
ESTRUCTURA DE LOS GENES EUCARIOTAS
DNA
Exon 5’ no
enhancer promotor codificante
Inicio
transcripción
ATG
STOP
intrones
Exon 5’ no
codificante
Exones internos
Transcripción, capping en 5’ y polyadenilación
Pre-mRNA
Splicing (remoción de los intrones)
mRNA
Traducción
PROTEÍNA
MAR = Matrix attachement regions
Señal Poly-A
BE = Boundary elements (evita que el enhancer actúe en otro
gen)
CARACTERÍSTICAS DE LOS GENES EUCARIOTAS:
•Muestran una distribución muy amplia de tamaños
•No hay grandes diferencias en el tamaño de los exones entre
diferentes organismos
•En general los intrones son mas largos que los exones
•La distribución de los tamaños de los intrones varía desde el mismo
largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos
•No hay una correlación entre el tamaño del gen y el tamaño de los
RNAms
•No hay buena una correlación entre tamaño del gen y el número de
exones
• Las secuencias de los exones son conservadas pero los intrones
varían
¿CÓMO IDENTIFICAR GENES?
Localizar los marcos abiertos de lectura ORFs, Open
Reading Frames
Los ORFs comienzan con un codón Start (AUG = Met, casi
siempre)
Finaliza con uno de los tres codones stops (UAA, UAG, UGA).
La interpretación del resultado es más sencilla en procariotas
que en eucariotas
La búsqueda por homología de los posibles ORF sólo
predice un 50% de los genes
¿CÓMO IDENTIFICAR GENES?
¿Cómo detectar ORFs?
ORF Finding
Se analizan todos los marcos de lectura abiertos: total 6
(inicio en cada base de un codón y en los dos sentidos).
Busca codones de iniciación (Met=AUG o codones
alternativos GUG, CUG o UUG )
y terminación dentro de la secuencia (UAA, UAG, UGA).
El programa permite:
- Definir límite: secuencias de menos de 100 bases antes de un
stop codon (33 amino acids) se excluyen. Promedio > 100 aa
-Seleccionar el codon de inicio
-Seleccionar el “codon usage”
HTTP://WWW.NCBI.NLM.NIH.GOV/GORF/GORF.HTML
CODIGO GENETICO Y USO DE CODONES
código genético no esta
totalmente conservado
http://www.kazusa.or.jp/codon/
CODIGO GENETICO Y USO DE CODONES
The Genetic Code
• The genetic code - Each amino acid is coded by 3 nucleotides, named codon.
• Code redundancy - Most amino acids are coded by several codons.
- 64 triplets code for 20 amino acids & 3 stop codons.
OTROS SITIOS QUE PERMITEN DETERMINAR LOS ORFS
ExPASy (Expert Protein Analysis System)
http://www.expasy.ch/tools/dna.html
Online Analysis Tools University of Guelph, CANADA
http://molbiol-tools.ca/Translation.htm
EMBOSS Transeq from EBI.
http://www.ebi.ac.uk/Tools/emboss/transeq/index.html
DNA to Protein Translation
http://bio.lundberg.gu.se/edu/translat.html
RECONOCIMIENTO DE MOTIVOS
Identificar sitios dentro de un gen es una actividad que
entra dentro de lo conocido como “data mining”
1. Reconocimiento de sitios de splicing
sitios canónicos de splicing (par GT-AG)
consenso en el sitio donante AG|GTRAGT (R=A o G)
consenso en el sitio aceptor
sitios de splicing no canónicos (GC-G, etc)
2. Reconocimiento de promotores
3. Predicción de sitios poly-A
4. Predicción de sitios de terminacion de la transcricion
RECONOCIMIENTO DE MOTIVOS
Splicing (en genes eucariotas)
• Los sitios de unión son muy conservados.
GT-AG = 99.24%
GC-AG = 0.7%
AT-AC = 0.05%
La secuencia altamente conservada (99%) se encuentra
inmediatamente dentro del intrón en los sitios de unión
La secuencia de un intrón genérico se define como
GT………….AG
RECONOCIMIENTO DE MOTIVOS
Reconocer un sitio de splicing 5’
Asumimos que :
•La secuencia de ADN comienza en un exón, contiene
solo un sitio de splicing 5´ y termina en un intrón.
•Las secuencias de los exones, intrones y sitios de
splicing deben tener diferentes propiedades estadísticas
Exones: tienen una composición uniforme de bases , ATCG (25%)
Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G.
Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)
GENSCAN
Métodos estadísticos y modelos probabilísticos para
predicción de motivos en las secuencias. (modelos de
Markov o HMM)
Alineamientos basados en patrones conservados
encontrados en el mismo orden en distintas secuencias.
Predice estructuras genéticas completas, incluyendo exones
intrones, promotores y señales de polyadenilación en
secuencias genómicas.
Permite búsquedas sobre genes incompletos y sobre
cadenas simples o dobles.
http://genes.mit.edu/GENSCAN.html
http://spliceport.cs.umd.edu/
IDENTIFICACIÓN DE SEÑALES
Promotores
Características de los promotores de E. coli
+1
-35
espacia -10
interv
hexamero dor
hexamero alo
15 a 19
5a9
TTGA bases TATA bases
RBS –
CA
AT
Ribosome Binding Site (Shine-Dalgarno) conservadas
aprox -15 upstream AUG. (en B. subtilis la RBS es
AGGAGG)
IDENTIFICACIÓN DE SEÑALES
Terminadores de la transcripción
Características de los terminadores rho-independentes
Loop de 3-8 bases
Stem loop energia
libre debajo de -7
kcal/mol
5’
Tallo de 5-10 pb con un
mínimo de 60% GC
UUUU 3’
At least 4 U residues
Secuencia en el ADNque marca la terminación de la
transcripción para la RNA polimerasa, NO CONFUNDIR con los
codones terminadores de la traducción
IDENTIFICACIÓN DE SEÑALES
En Eucariotas
•Señales de Transcripcion :
TATA box (~-30 TSS),
CAAT box (~-75 TSS),
GC box (~-90 TSS),
Señales de traduccion
TSS= translation start site:
señal de Kozak (upstream
ATG),
GCC[A/G]CCaugG[not U] ==
Señal cap,
óptimo
[A/G]NNaugG[not U] == fuerte ;
Sitio de poli-adenilación. con ‘A’ a -3 mas fuerte que con ‘G’
Enhancers
Cualquier otra combinacion =
débil
Señales de Splicing
http://molbiol-tools.ca/Promoters.htm
http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb
http://www-bimas.cit.nih.gov/molbio/proscan/
http://www.cbrc.jp/research/db/TFSEARCH.html
Enhancer
BÚSQUEDA DE MOTIVOS DE UNIÓN A DNA
http://meme.sdsc.edu/meme/
A generic approach to identify Transcription Factor-specific operator motifs;
Inferences for LacI-family mediated regulation in Lactobacillus plantarum WCFS1.
Francke C, Kerkhoven R, Wels M, Siezen RJ.
BMC Genomics. 2008 Mar 27;9:145.
http://www.ualberta.ca/~stothard/javascript/index.h
Genes RNA Funcionales
• genes RNA transcriptos pero no tranducidos – no
hay preferencia de codones.
Cómo se predicen genes de rRNA, tRNA y small
RNA?
Buscar región Promotora (no es tan especifico)
Estructura secundaria RNA es importante.
Puede ser predicta usando RNA structure
Prediction tools (MFOLD tool).
http://mfold.bioinfo.rpi.edu/cgi-bin/rna-form1.cgi
Identificar Small RNAs
Funciones regulatorias
• Basados en 10 sRNA conocidos en E. coli se
predicen 24 sRNAs, 14 de los cuales han sido
verificados experimentalmente.
• 3 estudios posteriores identifican ~ 20 mas sRNA
genes en E. coli.
Esquema predictivo
“Empty” regions
ORF A
Localizar regiones “vacias” genoma E. coli
ORF C
ORF B
buscar promoteres reconocidos
s70 RNA polimerasa
-35
-10
Promoter
+1
Identificar rho-independent terminators
TTTT
Rescatar secuencias donde la distancia entre promotor y terminador sea
50 a 400 bases.
-35
-10
Promoter
50-400 bases
+1
Buscar consenso en otras bacterias
Terminator
Argaman et. Al – Current Biology 2001.