Download presentación
Document related concepts
Transcript
Bioinformática: fundamentos y aplicaciones de actualidad Fundamentos de Biología Molecular Manuel Lemos Ramos Dpto. de Microbiología y Parasitología Universidade de Santiago de Compostela Bioinformática Sequence 2587 BP; 822 A; 575 C; 499 G; 691 T; 0 other; tatgtttttt ctgatagtgc acagattgtg tttacccaag cgaaatatgg ggcatccgtg gtgcagcttg gctaggtttg aactagcaga aagtgattaa ttagtcatcg aaaaattaag taaagcaagt gttttacata ttaaattact acatacactc ctaattctat ttatatttca catcaacaca caaacacaaa taccatttag atccaatatc attgcgcaca gcttgaatct gttattgatg taactcagat gtacactaaa acactactat cagcctccat attgctagcg cagctctcgc agaagaagtt tctcgattcg atgaggttgt tgtttcggca ctcaagccat caaaaatacc gccgcttctg ttgctgtcat ttcgagcaaa ccaatatggc aaaagatgtc gcagctatcc ttgaatatac ccctggagtt gctcatctcg ccaaggtgta cagaccatca atattcgcgg cgtagaaggt aaatcatggt tgatggagtc acacaaggac aagcattcga cggaggtcct tcaattcgag cgctatcagt atcgatcccg atatggtaaa gagtgttgaa gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg tgtcgtcgct aagatcctcg tgatttcctt aaaggagacg caaccacagg cggacaagca actcttcaga agataaatct ttcagtgaac atattgccat tgcaaataga tagagacctt ggtcgcctat actcgccgtg atgggcaaga gcaacaaaat gtaaagaaga ttattcgata gagactcaag atagtgcaaa aaatgacttg tccaatatca actgagcgat gctcaccgtt tggagttctt tggtgaagca aaacagattc tgatatcgct cattccagtt acaaaaacta tcatggtcaa aacagtatcg ccttggcatc aaacacattt ggctagctga ctctgccatc tcactagccg agcatcttgg caaagcaaag aagataacgg cttaacgcac cagcatcgtc aggaaggcct ccttacactc cagccaatgc ggacaaccaa attacttcta taatgaagat aaaattgaat tagaaacgca actggataag taggtcaaac cgaacataac tttatttatg gtttaagttt tgccagtagc ataccaatac agaactcaac tcggatcctg caacgccaaa tcaagttttg cggatgctac agaccaaaaa atcggcctct ttgttcaaga tgagatcacc gtaatttgat tgtcacacca ggccttcgtt atgattcatt tagcaccgat gcaccacaga acctctcgtt aaatttgacg attcagcact caccagccgt tgtaccgtat caataatcaa cattcagtat ttgctcaagt cagccaaggc ctaactttac tgagctgtac tacacgtatg acaacattgc tcaccgttat caaacccata ccttaagtca gaaacaagct tggcctatga attgggttat caaacgtctc ggcaactgaa atttctgcat tttatagcga ctatgatgat gagttacaac taagaaagtg aacggaataa cccactactc ctatgtcaac cgacgatcaa agggattgaa ttatcaaatc aattaaaatt ggatcaatta cgaatggtat gtcaacacgc ctagcggcaa gttatagcaa aggtgaagat gtccattgaa cagcgtaaac ccatggaatg ttgtcgcagc actaaattat gtaccacttg gggtactagc ctgaagttga attatactgc tgcgaagtca tcaaccgtga ccaacttaat agcggtacag aaaaccaagt tgaactgccg ttgtcgatat caccgcttac tttaaaccaa tgcaagatgt cactattact ttaacttaac cgacaaagag tactaccgtt ggaatgatat ccgcggtaaa ataacgacta ctctcaagct gagcgtaact atgctattac cgctaaatat gattaaacca ttattcacaa agccagcgtt atgctggctt tgttgttcca aataaaaaag gctagataac tagccttttc ttacaatgtc caatgtatct agattac tgacagcagc agtcacaact gatatttaaa tgatagtaat aataaggtaa ctttcccctg acgcgaactt gacattgaag tcaaccaata aatcgaatca tactcttttg gtcatcaaag tttgacacca aagctttcct agtggcaatt tttgccgatc ctacttaagc ctgcataaca gatacaacga gcagacacca cgttttcagc caaaccaaag ttagttacct gatatttcaa gtttatacac cttttgagcg cccggtggta cttggcgcac ttccgtgccc gtgaacgatc cgtcacaata ttcattgaac ttaagtgaag attggagccc ggtaacggac gatgatgaaa gccggtaata agtgcgacca gcgggcatat acaaacttag gagttttagc tgaactcctc tgagcgatta 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 1740 1800 1860 1920 1980 2040 2100 2160 2220 2280 2340 2400 2460 2520 2580 2587 Desoxi-riboNucleic Acid (DNA) Ácido Desoxi-riboNucleico (ADN) Bioinformática La estructura del ADN El monómero del ADN es un nucleótido. Los nucleótidos están formados por un azúcar (desoxiribosa), una base nitrogenada y un grupo fosfato. Los componentes del nucleótido están unidos por fuertes enlaces covalentes. Las bases son purinas (Guanina y Adenina) y pirimidinas (Citosina y Timina). La estructura del ADN está formada por 2 cadenas complementarias. Las 2 cadenas están orientadas en direcciones opuestas, quedando en cada una un extremo 5’ y un extremo 3’. La unión entre las 2 cadenas se realiza mediante enlaces de hidrógeno entre 2 bases (1 de cada cadena), formando un “par de bases”. La adenina se une siempre a la timina mediante 2 enlaces. La guanina se une siempre a la citosina mediante 3 enlaces. Los grupos hidroxilo libres del fosfato son los que dan una fuerte carga eléctrica negativa y el carácter ácido a la molécula La molécula de ADN se enrrolla en la forma de una doble hélice. Por cada 10 pares de bases, la molécula gira 360º. La estructura recuerda a una escalera de caracol. Bioinformática La estructura del ADN Distintas formas de representación del ADN La estructura del ADN Bioinformática Genes y Genomas Un gen es un fragmento de ADN que contiene la información necesaria (en forma de secuencia de bases) para codificar la síntesis de una proteína o un ARN. Podemos considerar a un gen como una unidad de información. No todo el material genético de un organismo está organizado en genes. Existe ADN no codificante. En las células humanas solamente el 3% del ADN da lugar a la síntesis de proteínas El genoma de un organismo es el conjunto de material genético que contienen sus células. Bioinformática Tamaño de las moléculas de ADN El virus más pequeño contiene poco más de 4.000 pares de bases. Una bacteria contiene como media 5.106 pares de bases (5.000 Kb o 5 Mb) (2 m de longitud). Como norma general las bacterias contienen una sola molécula de ADN circular, mientras que las células eucarióticas (animales y vegetales) contienen varias moléculas de ADN lineal organizadas en cromosomas. Una célula humana contiene 3.000 Mb distribuidas en 46 cromosomas. Cada cromosoma contiene una molécula lineal de ADN. Bioinformática Organización del material genético El material genético de las células eucarióticas se organiza en cromosomas. Cada uno está formado por una mólecula de ADN en doble hélice lineal asociado a proteínas básicas (histonas). El material genético de las células procarióticas se organiza habitualmente en 1 sólo cromosoma que contiene una molécula de ADN circular. Estructura del cromosoma Mitosis Bioinformática Estructura del ARN El ARN (ácido ribonucleico) contiene ribosa en lugar de desoxi-ribosa. Está formado por las mismas bases nitrogenadas, excepto la Timina que se sustituye por Uracilo. El Uracilo es también complementario de la Adenina. A diferencia del ADN está formado por una única cadena de nucleótidos. La longitud de la cadena es mucho menor que en el ADN. Se pueden formar enlaces entre bases complementarias dentro de la misma cadena, lo que origina estructuras tridimensionales complejas. Bioinformática Tipos de ARN TIPO ARNr Ribosómico ARNt Transferencia ARNm Mensajero ABUN- Nº BASES DANCIA FUNCION 1203500 Estructura de los ribosomas 15% 75 Transporte de aminoácidos 5% variable Síntesis de proteínas 80% Bioinformática De los genes a las proteínas Replicación Transcripción ADN Dogma Central de la Biología Molecular Flujo de la información genética ARN Transcripción inversa (retrovirus) Traducción Proteínas Bioinformática De los genes a las proteínas Bioinformática La replicación del ADN Bioinformática Replicación del ADN Catalizada por una ADNpolimerasa que añade nucleótidos al extremo 3’-OH de la cadena naciente. La ADN-polimerasa necesita un cebador de ARN. Los nucleótidos se añaden por emparejamiento complementario con las bases de la cadena molde. Los sustratos, desoxiribonucleótido trifosfato (dNTP) se hidrolizan al añadirse, liberando energía para la síntesis del ADN. Existen diversas proteínas que colaboran en la replicación. DNA pol ARN cebador Bioinformática Transcripción La síntesis del ARNm la realiza una ARN polimerasa en dirección 5’--> 3’. Los ribonucleótidos se añaden por emparejamiento complementario con las bases de la cadena molde de ADN. La presencia de Adenina en el ADN determina la adición de un Uracilo en el ARN. Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática La transcripción en procariotas Los genes que codifican proteínas involucradas en la misma ruta metabólica suelen presentarse agrupados en el cromosoma, formando operones, lo que permite la expresión coordinada. Una región reguladora adyacente al operón, determina su transcripción- es el “operador”. Proteínas reguladoras funcionan con los operadores, para controlar la transcripción de los genes. Bioinformática Propiedades de los promotores • Los Promotores son regiones de aprox. 40 bp localizados en el extremo -5' del punto de inicio de la transcripción. • Existen 2 elementos de secuencia consenso: • La “región -35”, con consenso TTGACA – (unión de la subunidad sigma?) • La “región -10” (Pribnow box ), con consenso TATAAT (región ideal para la apertura de la doble hebra). Bioinformática Transcripción Terminación asistida por factores proteicos (r) Secuencias específicas: sitios de terminación en el DNA – Repeticiones invertidas (palíndromos), ricos en G:C, que forman una estructura de lazo en el RNA – 6-8 A en DNA, que producen U en el RNA Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática Transcripción en eucariotas La Cromatina limita el acceso de las proteínas reguladoras a los promotores. Existen factores proteicos que deben reorganizar la cromatina. Las RNA polimerasas I, II y III transcriben rRNA, mRNA y tRNA, respectivamente. Las 3 polimerasas interaccionan con los promotores a través de los “factores de transcripción”. La “TATA box” (TATAAA) es un promotor “consenso”. Los factores de transcripción reconocen secuencias promotoras específicas e inician la transcripción (algunos factores se unen a secuencias específicas en la región codificante del gen). Además de promotores, los genes eucariotas tienen “enhancers”, o “upstream activation sequences”. Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática Estructura del gen eucariota Los genes eucariotas están divididos en exones (se traducen a aminoácidos) e intrones (no codificantes). Ejemplos: El gen de la actina tiene un intrón de 309-pb que separa los primeros 3 aminoácidos de los restantes 350. El gen del colágeno pro-alpha-2 del pollo, mide 40-kb, con 51 exones que suman sólo 5 kb. Los exones suelen medir entre 45 y 249 bases. El mecanismo por el que se escinden los intrones y por el que se unen los exones, es complejo y muy preciso (“RNA- splicing”) Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática Estructura del gen eucariota Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática Traducción del mensaje genético La información contenida en la secuencia de bases del ADN es trasladada o traducida a una secuencia de aminoácidos en una proteína, a través del ARN que actúa como intermediario Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática Las proteínas Aminoácidos esenciales que forman las proteínas Alanina Ala A Isoleucina Ile I Arginina Arg R Leucina Leu L Asparragina Asn N Lisina Lys K Aspártico Asp D Metionina Met M Cisteína Cys C Prolina Pro P Fenilalanina Phe F Serina Ser S Glicina Gly G Tirosina Tyr Y Glutámico Glu E Treonina Thr T Glutamina Gln Q Triptófano Trp W Histidina His H Valina Val V Bioinformática Sequence 2587 BP; 822 A; 575 C; 499 G; 691 T; 0 other; tatgtttttt ctgatagtgc acagattgtg tttacccaag cgaaatatgg ggcatccgtg gtgcagcttg gctaggtttg aactagcaga aagtgattaa ttagtcatcg aaaaattaag taaagcaagt gttttacata ttaaattact acatacactc ctaattctat ttatatttca catcaacaca caaacacaaa taccatttag atccaatatc attgcgcaca gcttgaatct gttattgatg taactcagat gtacactaaa acactactat cagcctccat attgctagcg cagctctcgc agaagaagtt tctcgattcg atgaggttgt tgtttcggca ctcaagccat caaaaatacc gccgcttctg ttgctgtcat ttcgagcaaa ccaatatggc aaaagatgtc gcagctatcc ttgaatatac ccctggagtt gctcatctcg ccaaggtgta cagaccatca atattcgcgg cgtagaaggt aaatcatggt tgatggagtc acacaaggac aagcattcga cggaggtcct tcaattcgag cgctatcagt atcgatcccg atatggtaaa gagtgttgaa gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg tgtcgtcgct aagatcctcg tgatttcctt aaaggagacg caaccacagg cggacaagca actcttcaga agataaatct ttcagtgaac atattgccat tgcaaataga tagagacctt ggtcgcctat actcgccgtg atgggcaaga gcaacaaaat gtaaagaaga ttattcgata gagactcaag atagtgcaaa aaatgacttg tccaatatca actgagcgat gctcaccgtt tggagttctt tggtgaagca aaacagattc tgatatcgct cattccagtt acaaaaacta tcatggtcaa aacagtatcg ccttggcatc aaacacattt ggctagctga ctctgccatc tcactagccg agcatcttgg caaagcaaag aagataacgg cttaacgcac cagcatcgtc aggaaggcct ccttacactc cagccaatgc ggacaaccaa attacttcta taatgaagat aaaattgaat tagaaacgca actggataag taggtcaaac cgaacataac tttatttatg gtttaagttt tgccagtagc ataccaatac agaactcaac tcggatcctg caacgccaaa tcaagttttg cggatgctac agaccaaaaa atcggcctct ttgttcaaga tgagatcacc gtaatttgat tgtcacacca ggccttcgtt atgattcatt tagcaccgat gcaccacaga acctctcgtt aaatttgacg attcagcact caccagccgt tgtaccgtat caataatcaa cattcagtat ttgctcaagt cagccaaggc ctaactttac tgagctgtac tacacgtatg acaacattgc tcaccgttat caaacccata ccttaagtca gaaacaagct tggcctatga attgggttat caaacgtctc ggcaactgaa atttctgcat tttatagcga ctatgatgat gagttacaac taagaaagtg aacggaataa cccactactc ctatgtcaac cgacgatcaa agggattgaa ttatcaaatc aattaaaatt ggatcaatta cgaatggtat gtcaacacgc ctagcggcaa gttatagcaa aggtgaagat gtccattgaa cagcgtaaac ccatggaatg ttgtcgcagc actaaattat gtaccacttg gggtactagc ctgaagttga attatactgc tgcgaagtca tcaaccgtga ccaacttaat agcggtacag aaaaccaagt tgaactgccg ttgtcgatat caccgcttac tttaaaccaa tgcaagatgt cactattact ttaacttaac cgacaaagag tactaccgtt ggaatgatat ccgcggtaaa ataacgacta ctctcaagct gagcgtaact atgctattac cgctaaatat gattaaacca ttattcacaa agccagcgtt atgctggctt tgttgttcca aataaaaaag gctagataac tagccttttc ttacaatgtc caatgtatct agattac tgacagcagc agtcacaact gatatttaaa tgatagtaat aataaggtaa ctttcccctg acgcgaactt gacattgaag tcaaccaata aatcgaatca tactcttttg gtcatcaaag tttgacacca aagctttcct agtggcaatt tttgccgatc ctacttaagc ctgcataaca gatacaacga gcagacacca cgttttcagc caaaccaaag ttagttacct gatatttcaa gtttatacac cttttgagcg cccggtggta cttggcgcac ttccgtgccc gtgaacgatc cgtcacaata ttcattgaac ttaagtgaag attggagccc ggtaacggac gatgatgaaa gccggtaata agtgcgacca gcgggcatat acaaacttag gagttttagc tgaactcctc tgagcgatta 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 1740 1800 1860 1920 1980 2040 2100 2160 2220 2280 2340 2400 2460 2520 2580 2587 Síntesis de proteínas Bioinformática Síntesis de proteínas /product="HuvA protein" /protein_id="CAC28362.1" /db_xref="GI:12697532" /db_xref="GOA:Q9AJS1" /db_xref="SPTREMBL:Q9AJS1" /translation="MYTKTLLSASILLALSPAALAEEVSRFDEVVVSATRTSQAIKNT AASVAVISSKDIEANMAKDVAAILEYTPGVSTNSSSRQGVQTINIRGVEGNRIKIMVD GVTQGQAFDGGPYSFVNSSAISIDPDMVKSVEVIKGAASSLHGSDAIGGVVAFDTKDP RDFLKGDATTGGQAKLSYSSEDKSFSEHIAIANRSGNLETLVAYTRRDGQEQQNFADR KEDYSIETQDSAKNDLLLKLQYQLSDAHRLEFFGEALHNKTDSDIAHSSYKNYHGQDT TKQYRLGIKHIWLADSAIADTITSRASWQSKEDNGLTHRFQPASSGRPPYTPANADNQ QTKDYFYNEDKIELETQLDKLVTLGQTEHNFIYGLSFASSDISNTNTELNSDPATPNQ VLVYTPDATDQKIGLFVQDEITLLSGNLIVTPGLRYDSFSTDPGGSTTEPLVKFDDSA LTSRLGALYRINNQHSVFAQVSQGFRAPNFTELYYTYDNIAHRYVNDPNPYLKSETSL AYELGYRHNTNVSATEISAFYSDYDDFIERVTTKKVNGITHYSYVNLSEATIKGIELS NQLKLDQLIGAPNGMSTRLAASYSKGEDGNGRPLNSVNPWNVVAALNYDDESTTWGTS LKLNYTAAKSAGNINRDQLNSGTENQVELPSATIVDITAYFKPMQDVTITAGIFNLTD KEYYRWNDIRGKTNLDNDYSQAERNYAITAKYEF" Bioinformática Bioinformática Síntesis de proteínas La síntesis transcurre desde el extremo N-terminal al extremo C-terminal. Los ribosomas leen el ARNm en la dirección 5’--3’. La traducción tiene lugar en polirribosomas o polisomas. Hay más de un ribosoma traduciendo cada ARNm simultáneamente. La elongación de la cadena proteica tiene lugar por adición secuencial de aminoácidos al extremo Cterminal. Garret & Grisham. Biochemistry 2ª ed. Saunders College Publishing Bioinformática El código genético Cada aminoácido está codificado por una secuencia de 3 nucleótidos en el ARNm llamada codón. Las combinaciones de las 4 bases tomadas de 3 en 3 originan 64 posibles permutaciones. Puesto que solamente existen 20 aminoácidos formando parte de las proteínas, el código es redundante: existen codones sinónimos. Existe además un codón que marca el inicio de una proteína y 3 codones que marcan el fin. Bioinformática Síntesis de proteínas Initiation Bioinformática El código genético N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C pautas de 3 lectura 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C (ORF’s) 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C sentido de lectura para la secuencia de la cadena superior DNA 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ sentido de lectura para la secuencia de la cadena inferior pautas de -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N lectura (ORF’s) -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N Bioinformática El código genético N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C pautas de 3 lectura 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C (ORF’s) 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C sentido de lectura para la secuencia de la cadena superior DNA 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ sentido de lectura para la secuencia de la cadena inferior pautas de -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N lectura (ORF’s) -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N Bioinformática El código genético N- ile leu phe arg val ile arg pro ... thr arg asn phe thr ... arg -C pautas de 3 lectura 2 N- tyr phe ile ser ser asn ser thr leu asn ala lys leu his leu thr -C (ORF’s) 1 N- leu phe tyr phe glu ... phe asp leu lys arg glu thr ser leu asn -C sentido de lectura para la secuencia de la cadena superior DNA 5’- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTAAC –3’ 3’- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGAAGTGAATTG –5’ sentido de lectura para la secuencia de la cadena inferior pautas de -1 C- ... lys ile glu leu leu glu val lys phe ala phe ser ... lys val -N -2 C- ile lys asn arg thr ile arg gly ... val arg phe lys val ... arg -N lectura (ORF’s) -3 C- asn ... lys ser thr asn ser arg leu arg ser val glu ser leu ser -N Bioinformática Mutaciones Bioinformática Variabilidad genética Los SNPs o “polimorfismos de nucleótido único” son variaciones de la secuencia de bases de una región del genoma, que afectan a un único nucleótido. Para ser considerado un SNP debe ocurrir en al menos un 1% de la población. Los SNPs proporcionan el 90% de la variación genética humana y ocurren cada 100 o 300 bases a lo largo de todo el genoma (tanto en regiones codificantes como no codificantes). 2 de cada 3 SNPs corresponden a la sustitución de C por T. Una gran parte no tienen efecto alguno sobre las funciones celulares, pero algunos pueden producir alteraciones o cambios diversos. Bioinformática Variabilidad genética: SNPs y Haplotipos Un haplotipo es un bloque de ADN en un cromosoma que contiene un determinado número de SNPs. El haplotipo es el patrón de SNPs en ese bloque. Cada haplotipo contiene SNPs característicos. Mapa de Haplotipos (Hap Map): mapa de los haplotipos y los SNPs que los caracterizan. Permitirá la identificación de genes y variaciones que a afectan a la salud humana. Bioinformática Variabilidad genética La variación de la secuencia de bases en un gen determinado puede cambiar la proteína codificada por ese gen. Bioinformática Variabilidad genética: alelos