Download práctica 6: análisis computacional de secuencias de dna
Document related concepts
Transcript
PRÁCTICA 6: ANÁLISIS COMPUTACIONAL DE SECUENCIAS DE DNA 1. RESUMEN Esta práctica puede considerarse una introducción al mundo de la bioinformática, la cual es una disciplina científica emergente que utiliza la tecnología informática para organizar, analizar, interpretar y distribuir información biológica. En la parte presencial de la práctica se han hecho una serie de ejercicios con el fin de familiarizarnos con las bases de datos de DNA, de proteínas, de genomas o de polimorfismos, con el proyecto “HapMap” y con la comparación de dos secuencias o la búsqueda de secuencias anónimas con ayuda de diversas herramientas online para el análisis computacional. Así mismo, en la parte no presencial de la práctica, hubo que realizar otra serie de ejercicios, cuyos resultados se muestran a continuación. 2. EJERCICIOS DE LA PARTE NO PRESENCIAL Ejercicio 1. Busca en GenBank secuencias de DNA de la nécora (Necora puber). ¿Cuántos genes diferentes encuentras? Se encuentran 4 genes diferentes: Secuencia del gen que codifica para el ARNr 28S Secuencia del gen que codifica para el ARNr 18S Secuencia del gen mitocondrial que codifica para el RNAr 16S Secuencia del gen H3 Ejercicio 2. Averigua en la base de datos de genomas del EMBL, cuántos pares de bases tiene el genoma de Pseudomonas aeruginosa. Tiene 6.264.403 pares de bases. Ejercicio 3. Compara la secuencia proteica dada consigo misma en Dotlet. Ajusta la escala y la astringencia (escala de grises). ¿Que puedes deducir de esta comparación? ¿Qué cambia modificar el zoom? Que es un DNA que tiene una serie de motivos repetidos. Si alejamos el zoom se observa toda la secuencia comparada. Si lo acercamos vemos una región concreta ampliada. 4. Utilizando la herramienta de BLAST identifica el fragmento de DNA dado: ¿De qué tipo de secuencia se trata y a que especie pertenece? La secuencia dada es el gen de la nucleoproteína del virus Influenza A H5N1 (gripe aviar). Ejercicio 5. En el portal del EMBOSS del CNIO estima el uso de codones de la insulina humana con el programa cusp. ¿Cuál es el codón más utilizado para el aminoácido Lisina (K)? El codón más empleado es el AAG. Se emplea el 64.7 % de las veces que se añade una lisina (fracción: 0.647). El codón de uso minoritario sería el AAA, el cual se emplea un 35.3% de las veces que se añade una lisina (fracción 0.353). Ejercicio 6. Utiliza la herramienta Mapper para construir el mapa de restricción de la siguiente secuencia: GAATTCATACC. ¿Qué enzimas son capaces de cortarla? Enzimas de restricción ApoI EcoRI TspEI Dianas de corte [R^AATTY] [G^AATTC] [ ^AATT ] Ejercicio 7. Traduce con transeq la siguiente secuencia: CTCGAGGGGTAG. ¿Cuál es la secuencia de la proteína resultante y cuál es su longitud? La secuencia de la proteína resultante es LEG* (stop). La longitud total es de 3 aminoácidos. Ejercicio 8. Identifica con GenScan los exones de la secuencia dada. ¿Cuántos y qué exones has obtenido? Se han identificado 4 exones: 3 internos y uno terminal. Tipo de exón Interno Interno Interno Terminal Comienzo 339 636 840 1239 Fin 476 736 906 1400 Longitud 138 101 67 162 Ejercicio 9. Utilizando el servidor de MFold, predice la estructura de la secuencia de ARN dada. ¿Cuántas estructuras se predicen? ¿Cuál es su energía? Incluye un dibujo de la estructura más probable. Se predicen 4 estructuras. Estructura 1: G = -41.10 Estructura 2: G = -39.90 Estructura 3: G = -39.90 Estructura 4: G = -39.10 La estructura más probable será la que implique un menor gasto de energía libre. En este caso la secuencia de ARN adquiriría la estructura secundaria número 4. Ejercicio 10. Alinea las secuencias del gen pol del VIH-1 en EBI ClustalW. Utilizando el alineamiento resultante, construye un árbol filogenético de máxima parsimonia con dnapars. Visualiza el archivo "outtree" en Phylodendron. Según este árbol, ¿que subtipo está más relacionado con el subtipo A? El subtipo más relacionado según este árbol es el subtipo G.