Download Terminador transcripcional
Document related concepts
Transcript
ENCONTRANDO SENTIDO A LAS SECUENCIAS DE ADN ¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia? • DIFERENCIAS ENTRE GENES PROCARIOTAS Y EUCARIOTAS Tamaño del Genoma # de genes Unidad génica. (Tamaño promedio de un gen) Mycoplasma genitalium 0.58 473 1235 bp Haemophilus influenzae 1.8 1,709 1042 bp Saccharomyces cerevisiae 1.3 6,241 2,100 bp Neurospora crassa 42.9 10,000 13,000 13,601 18,424 2,910 3,000 - 4,000 bp Organismo Procariota: Eucariota: Drosophila melanogaster 165 Caenorhabditis elegans 100 Homo sapiens 10,000 bp 30,000 - 40,000 ESTRUCTURA DE LOS GENES BACTERIANOS I. Transcripto de 1 solo gen Promotor Sitio de inicio de la transcripción Terminador transcripcional ATG TAA Secuencia codificante hisG Transcripto (RNAm) Sitio de unión a Sitio inicio de la ribosoma (RBS) traduccion (ATG) Fin de la traducción La orientación del promotor determina el sentido de la transcripción (y por lo tanto cuál de las 2 hebras se transcribe) ESTRUCTURA DE LOS GENES BACTERIANOS II. Operón Policistrónico Uno por operón Promotor Terminador transcripcional Sitio de inicio de la transcripción TAA TAA ATG ATG Secuencia codificante Secuencia codificante hisG hisH Transcripto (RNAm) Sitio de unión + Sitio inicio de a ribosoma la traduccion (RBS) (ATG) Fin de la traducción Uno por gen ESTRUCTURA DE LOS GENES EUCARIOTAS DNA Exon 5’ no enhancer promotor codificante Inicio transcripción ATG STOP intrones Exon 5’ no codificante Exones internos Transcripción, capping en 5’ y polyadenilación Pre-mRNA Splicing (remoción de los intrones) mRNA Traducción PROTEÍNA MAR = Matrix attachement regions Señal Poly-A BE = Boundary elements (evita que el enhancer actúe en otro gen) CARACTERÍSTICAS DE LOS GENES EUCARIOTAS: •Muestran una distribución muy amplia de tamaños •No hay grandes diferencias en el tamaño de los exones entre diferentes organismos •En general los intrones son mas largos que los exones •La distribución de los tamaños de los intrones varía desde el mismo largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos •No hay una correlación entre el tamaño del gen y el tamaño de los RNAms •No hay buena una correlación entre tamaño del gen y el número de exones • Las secuencias de los exones son conservadas pero los intrones varían ¿CÓMO IDENTIFICAR GENES? Localizar los marcos abiertos de lectura ORFs, Open Reading Frames Los ORFs comienzan con un codón Start (AUG = Met, casi siempre) Finaliza con uno de los tres codones stops (UAA, UAG, UGA). La interpretación del resultado es más sencilla en procariotas que en eucariotas La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes ¿CÓMO IDENTIFICAR GENES? ¿Cómo detectar ORFs? ORF Finding Se analizan todos los marcos de lectura abiertos: total 6 (inicio en cada base de un codón y en los dos sentidos). Busca codones de iniciación (Met=AUG o codones alternativos GUG, CUG o UUG ) y terminación dentro de la secuencia (UAA, UAG, UGA). El programa permite: - Definir límite: secuencias de menos de 100 bases antes de un stop codon (33 amino acids) se excluyen. Promedio > 100 aa -Seleccionar el codon de inicio -Seleccionar el “codon usage” HTTP://WWW.NCBI.NLM.NIH.GOV/GORF/GORF.HTML CODIGO GENETICO Y USO DE CODONES código genético no esta totalmente conservado http://www.kazusa.or.jp/codon/ CODIGO GENETICO Y USO DE CODONES The Genetic Code • The genetic code - Each amino acid is coded by 3 nucleotides, named codon. • Code redundancy - Most amino acids are coded by several codons. - 64 triplets code for 20 amino acids & 3 stop codons. OTROS SITIOS QUE PERMITEN DETERMINAR LOS ORFS ExPASy (Expert Protein Analysis System) http://www.expasy.ch/tools/dna.html Online Analysis Tools University of Guelph, CANADA http://molbiol-tools.ca/Translation.htm EMBOSS Transeq from EBI. http://www.ebi.ac.uk/Tools/emboss/transeq/index.html DNA to Protein Translation http://bio.lundberg.gu.se/edu/translat.html RECONOCIMIENTO DE MOTIVOS Identificar sitios dentro de un gen es una actividad que entra dentro de lo conocido como “data mining” 1. Reconocimiento de sitios de splicing sitios canónicos de splicing (par GT-AG) consenso en el sitio donante AG|GTRAGT (R=A o G) consenso en el sitio aceptor sitios de splicing no canónicos (GC-G, etc) 2. Reconocimiento de promotores 3. Predicción de sitios poly-A 4. Predicción de sitios de terminacion de la transcricion RECONOCIMIENTO DE MOTIVOS Splicing (en genes eucariotas) • Los sitios de unión son muy conservados. GT-AG = 99.24% GC-AG = 0.7% AT-AC = 0.05% La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión La secuencia de un intrón genérico se define como GT………….AG RECONOCIMIENTO DE MOTIVOS Reconocer un sitio de splicing 5’ Asumimos que : •La secuencia de ADN comienza en un exón, contiene solo un sitio de splicing 5´ y termina en un intrón. •Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas Exones: tienen una composición uniforme de bases , ATCG (25%) Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G. Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%) GENSCAN Métodos estadísticos y modelos probabilísticos para predicción de motivos en las secuencias. (modelos de Markov o HMM) Alineamientos basados en patrones conservados encontrados en el mismo orden en distintas secuencias. Predice estructuras genéticas completas, incluyendo exones intrones, promotores y señales de polyadenilación en secuencias genómicas. Permite búsquedas sobre genes incompletos y sobre cadenas simples o dobles. http://genes.mit.edu/GENSCAN.html http://spliceport.cs.umd.edu/ IDENTIFICACIÓN DE SEÑALES Promotores Características de los promotores de E. coli +1 -35 espacia -10 interv hexamero dor hexamero alo 15 a 19 5a9 TTGA bases TATA bases RBS – CA AT Ribosome Binding Site (Shine-Dalgarno) conservadas aprox -15 upstream AUG. (en B. subtilis la RBS es AGGAGG) IDENTIFICACIÓN DE SEÑALES Terminadores de la transcripción Características de los terminadores rho-independentes Loop de 3-8 bases Stem loop energia libre debajo de -7 kcal/mol 5’ Tallo de 5-10 pb con un mínimo de 60% GC UUUU 3’ At least 4 U residues Secuencia en el ADNque marca la terminación de la transcripción para la RNA polimerasa, NO CONFUNDIR con los codones terminadores de la traducción IDENTIFICACIÓN DE SEÑALES En Eucariotas •Señales de Transcripcion : TATA box (~-30 TSS), CAAT box (~-75 TSS), GC box (~-90 TSS), Señales de traduccion TSS= translation start site: señal de Kozak (upstream ATG), GCC[A/G]CCaugG[not U] == Señal cap, óptimo [A/G]NNaugG[not U] == fuerte ; Sitio de poli-adenilación. con ‘A’ a -3 mas fuerte que con ‘G’ Enhancers Cualquier otra combinacion = débil Señales de Splicing http://molbiol-tools.ca/Promoters.htm http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb http://www-bimas.cit.nih.gov/molbio/proscan/ http://www.cbrc.jp/research/db/TFSEARCH.html Enhancer BÚSQUEDA DE MOTIVOS DE UNIÓN A DNA http://meme.sdsc.edu/meme/ A generic approach to identify Transcription Factor-specific operator motifs; Inferences for LacI-family mediated regulation in Lactobacillus plantarum WCFS1. Francke C, Kerkhoven R, Wels M, Siezen RJ. BMC Genomics. 2008 Mar 27;9:145. http://www.ualberta.ca/~stothard/javascript/index.h Genes RNA Funcionales • genes RNA transcriptos pero no tranducidos – no hay preferencia de codones. Cómo se predicen genes de rRNA, tRNA y small RNA? Buscar región Promotora (no es tan especifico) Estructura secundaria RNA es importante. Puede ser predicta usando RNA structure Prediction tools (MFOLD tool). http://mfold.bioinfo.rpi.edu/cgi-bin/rna-form1.cgi Identificar Small RNAs Funciones regulatorias • Basados en 10 sRNA conocidos en E. coli se predicen 24 sRNAs, 14 de los cuales han sido verificados experimentalmente. • 3 estudios posteriores identifican ~ 20 mas sRNA genes en E. coli. Esquema predictivo “Empty” regions ORF A Localizar regiones “vacias” genoma E. coli ORF C ORF B buscar promoteres reconocidos s70 RNA polimerasa -35 -10 Promoter +1 Identificar rho-independent terminators TTTT Rescatar secuencias donde la distancia entre promotor y terminador sea 50 a 400 bases. -35 -10 Promoter 50-400 bases +1 Buscar consenso en otras bacterias Terminator Argaman et. Al – Current Biology 2001.