Download CÁTEDRA DE GENÉTICA MOLECULAR Integrantes
Document related concepts
Transcript
Bioinformática CÁTEDRA DE GENÉTICA MOLECULAR Integrantes: Dambra, Laura Delgado, Pryscilha Donalisio, David Oscar Millán, Esteban Molina, María Carolina Paniagua, Gustavo TRABAJO PRÁCTICO Nº 2/15: BIOINFORMÁTICA I El inmenso caudal de información científica que se produce día a día y la profundidad de la misma generan la necesidad de recurrir a procesos de análisis cada vez más complejos. De esta forma surge como herramienta útil la bioinformática. No obstante, es un campo tan dinámico que es prácticamente imposible que un investigador se mantenga actualizado en todas las áreas de su progreso, con lo cual es necesario capacitarse y actualizarse de forma continua. OBJETIVO Familiarizar al alumno en el manejo de herramientas básicas de bioinformática, las que le permitirán adquirir destreza en el uso de ciertas herramientas computacionales básicas que le ayudarán en la comprensión y aplicación de algunos de los diversos recursos on line para su aplicación, directa o indirecta, en investigación y en la elucidación de diferentes problemáticas enmarcadas en el ámbito de la Biología/Genética Molecular. EJERCICIO 1 “Internet como Recurso de Búsqueda y Estrategias Básicas de Búsqueda” Nota: El alumno debe adquirir el hábito de trabajar con un dispositivo de almacenamiento de datos móvil para guardar archivos que resulten de utilidad. OBJETIVOS DEL EJERCICIO 1: 1. Obtener una apreciación básica de lo que es la bioinformática y como puede ser utilizada. 2. Familiarizarse con recursos “on-line” útiles en el aprendizaje de la bioinformática. Después de realizado el siguiente ejercicio el alumno será capaz de: Navegar cómodamente en Internet. Utilizar motores de búsqueda eficientemente. Identificar y utilizar sitios de apoyo relacionados a la bioinformática. Evaluar fuente y calidad de la información obtenida. ACTIVIDAD 1: 1. Abrir un explorador de Internet. Para una introducción básica sobre algunos conceptos claves en Bioinformática, explorar el documento disponible en el siguiente site: http://www.bibalex.org/cssp/event/attachments/what_is_bioinformatics.pdf a) Resuma la definición que se otorga a la palabra bioinformática. Bioinformática: es la conceptualización de la biología en términos de moléculas y la aplicación de técnicas de la Informática para comprender y organizar la información asociada con estas moléculas a una gran escala. Es un sistema de gestión de información para la biología molecular y tiene muchas aplicaciones prácticas. Antes de continuar navegando, es bueno tener en cuenta que se debería ir registrando la información obtenida a partir de los sites visitados. Esto resulta de utilidad por varios motivos: Volver a una página ya visitada o para encontrar una imagen particular. Compartir un site con alguien más. Cuando es necesario citar las referencias en cualquier informe o publicación en que se esté trabajando. Siempre es necesario distinguir el trabajo propio de aquel escrito por otros autores. 2. Explorar brevemente el siguiente sitio: Este sitio contiene instrucciones de cómo citar sitios de internet utilizados como fuente bibliográfica y da algunos ejemplos claros. http://library.duke.edu/research/citing El siguiente vínculo, pertenece a una herramienta gratuita que simplifica el trabajo a la hora de generar bibliografías: http://www.easybib.com Los sitios que se han estado visitando pertenecen a páginas “estáticas”. Están siendo proporcionadas por servidores locales y remotos. Como se habrá observado, el acceder a un site se hace más fácil si se poseen links como los descriptos anteriormente. Pero qué sucedería si uno intenta averiguar “algo” de lo que no poseamos un vínculo. En este caso será necesario efectuar una Búsqueda. Existen algunos “buscadores” o motores de búsqueda generales tales como Google (www.google.com); Yahoo (www.yahoo.com) Dogpile (www.dogpile.com). Estos buscadores son un buen punto de partida al momento de iniciar una búsqueda, aunque nunca debe olvidarse que son motores de búsqueda generales. En el ámbito científico existen buscadores específicos por ejemplo para literatura especializada, tales como Scopus, PubMed o Google Académico. ACTIVIDAD 2: 3. Acceder a los siguientes sites: www.link.springer.com www.onlinelibrary.wiley.com 4. Buscar en el segundo vínculo el siguiente trabajo, introduciendo en el campo de búsqueda el apellido del primer autor: Alvarez M, Schrey AW and Richards CL. 2015. Ten years of transcriptomics in wild populations: what have we learned about their ecology and evolution? Molecular Ecology 24: 710-725. doi: 10.1111/mec.13055 Dentro de Instituciones Universitarias Argentinas es posible acceder a revistas científicas de excelente nivel a través de la Biblioteca Electrónica del Ministerio de Ciencia y Tecnología de la Nación: 5. Explorar rápidamente los sites: www.fceqyn.unam.edu.ar www.biblioteca.mincyt.gov.ar 6. Acceder a la pestaña “Accesos” y luego explorar las distintas opciones. Seleccionar Publicaciones Periódicas y Posteriormente, en el cuadro Disciplinas a la izquierda, seleccionar la gran área “Ciencias Naturales”, área “Ciencias Biológicas” y subárea “Genética y Herencia”, y luego “Buscar”. Observar las diferentes publicaciones a las cuales se tiene acceso a través de esta Biblioteca. Una herramienta muy útil!!!!: http://www.mendeley.com/features/ ACTIVIDAD 3: Describa para qué sirve esta herramienta, qué ventajas le proporciona y qué recursos le ofrece!!! La página de Mendeley.com es un administrador gratuito y una red social académica. Los recursos que ofrece son: un buscador e importador de publicaciones gratuitas por internet; la capacidad de crear nuestra propia biblioteca y administrar cómo ésta ordena los papers; hacer anotaciones o resaltar; add-ons para office (para generar formatos de citas específicas) y una red social integrada al programa. EJERCICIO 2 “DNA Data Bank of Japan”, “European Molecular Laboratory” “National Center for Biotechnology Information”, OBJETIVOS DEL EJERCICIO 2: 1. Realizar un reconocimiento básico de las páginas principales de los centros europeo, japonés y norteamericano. 2. Acceder a diferentes bases de datos Después de realizado el siguiente ejercicio el alumno será capaz de: Reconocer las diferentes Bases de Datos y herramientas que ofrecen cada uno de los grandes centros del mundo. ACTIVIDAD 1: 1. Abra en un explorador de Internet la página principal de los siguientes sitios y efectúe el reconocimiento de cada uno de ellos: http://www.ncbi.nlm.nih.gov/; http://www.embl.org/; http://www.ddbj.nig.ac.jp/ a) Describa qué ejemplifica el siguiente esquema y que significan cada una de las siglas allí expuestas. Cuáles de ellas representan Bases de Datos y cuáles no? INSDC International Nucleotide Sequence Database Collaboration es una iniciativa de trabajo en conjunto entre DDBJ, EMBL-EBI y el NCBI, que se encarga de cubrir el espectro de escritos básicos y que a través de alineaciones y montajes los convierte en apuntes enriquecidos con información contextual relacionada a muestras y procesos experimentales. GenBank USA NCBI: National Center for Biotechnology Information. Provee información sobre avances en ciencia y salud mediante el acceso a información sobre genómica y biomédica. NLM: U.S National Library of Medicine. Contiene una vasta colección impresa y produce recursos de información electrónicos en un amplio rango de temas, accesible a billones de personas por todo el mundo. También apoya y conduce investigaciones y capacitaciones en informática biomédica y tecnología de la salud. EMBL-Bank Europe EMBL: European Molecular Biology Laboratory. Es una institución de investigación y su laboratorio de ciencias de la vida es uno de los más prestigiosos de Europa. Se trata de una organización intergubernamental especializada en investigación básica en ciencias de la vida, fundada con dinero público de investigación de 21 estados miembros y dos miembros asociados, Argentina y Australia. Tiene como misión desempeñar investigaciones básicas en biología molecular, capacitar científicos, estudiantes y visitantes, ofrecer servicios vitales, desarrollar nuevos instrumentos y métodos y participar activamente en la transferencia de tecnología innovadora desde investigaciones básicas a la industria. EBI: European Bioinformatics Institute. Es parte del EMBL y provee información gratuita y accesible sobre ciencias de la vida, desarrolla investigaciones básicas en biología computacional y ofrece un programa de capacitación extensiva al usuario, respaldando a investigadores académicos e industrias. DDBJ DNA Data Bank of Japan. Es un centro que, como miembro del INSDC, colecta datos de secuencias de nucleótidos y provee acceso gratuito a esta información con el objeto de respaldar las actividades de investigación en ciencias de la vida, mejorando la calidad del INSDC como dominio público, haciendo accesible la base de datos a cualquiera en el mundo. CIB-DDBJ: Center for Information Biology & DNA Data Bank of Japan. Sus investigaciones se concentran en dilucidar mecanismos evolutivos de varios tipos de fenómenos biológicos considerándolos como flujo de información y fusionando la biología estructural y molecular. NIG: National Institute of Genetics. El centro DDBJ opera actualmente en las instalaciones del NIG en Mishima, Japón. Bases de Datos Institutos de Investigación NCBI / NLM EMBL / EBI DDBJ CBI-DDBJ / NIG ACTIVIDAD 2: Dado los conceptos generales respecto a Bases de Datos, se plantean a continuación una serie de actividades que involucran el ingreso a algunas de ellas para buscar la información que se les solicita: 1. Defina los siguientes acrónimos y descríbalos brevemente: Y-STRs: repeticiones cortas repetidas en tándem en el cromosoma Y. Su utilidad se ve reflejada en estudios de paternidad, análisis forenses y en la correcta interpretación de resultados de perfiles genéticos. EDNAP-EMPOP: grupo europeo de perfiles de ADN (EDNAP). Base de datos de ADN mitocondrial de la población (EMPOP) a nivel mundial. Actualmente se trabaja activamente desde el laboratorio de Medicina Legal de Innsbruck (Austria) en la creación de una gran base de datos mundial denominada EMPOP (EDNAP mtDNA population database) que tiene por objetivo recopilar secuencias de ADNmt a nivel mundial y ofrecer así a la comunidad forense una herramienta fundamental en el tratamiento estadístico de las muestras analizadas mediante ADNmt. HapMap: mapa de haplotipos: es un proyecto internacional para determinar los patrones comunes de variación de la secuencia de ADN en el genoma humano y para que esta información esté libremente disponible y sea de dominio público. El objetivo del Proyecto Internacional HapMap es comparar las secuencias genéticas de diferentes individuos para identificar las regiones cromosómicas donde se comparten las variantes genéticas; éste ayudará a los investigadores biomédicos a encontrar los genes involucrados en enfermedades y así dar respuesta con fármacos terapéuticos. dbSNPs: base de datos de polimorfismos de nucleótido simple. La base pública de polimorfismos de un solo nucleótido (SNP) dbSNP cuenta ya con más de 7 millones de SNPs y en la actualidad el proyecto HAPMAP se halla en el proceso de caracterización de la variabilidad haplotípica en diferentes grupos étnicos, lo que seguramente contribuirá a la mejor definición de la variabilidad genética, los procesos evolutivos y quizás las relaciones entre determinados polimorfismos con el riesgo de enfermedades comunes, gracias al conocimiento que se tiene del desequilibro de ligamiento y la conformación del genoma en bloques de haplotipos. GWA: GENOME WIDE ASSOCIATION (Asociación de Genoma Completo). El estudio de asociación de genoma completo (GWAS) proporciona un enfoque no sesgado para ubicar en los mapas cromosómicos las variantes genéticas de riesgo frecuentes. Una variante de riesgo frecuente se define arbitrariamente como la que tiene una frecuencia igual o superior al 5% en la población general. Una característica importante de los GWAS es la formación de grandes consorcios de investigación internacionales en torno a varias enfermedades. El más amplio de ellos, el Coronary Artery Disease Genomewide Replication and Meta-Analysis (CARDIoGRAM), dedicado a la enfermedad coronaria (EC), ha determinado ya el fenotipo y el genotipo de una población de descubrimiento de 82.000 individuos y una población de replicación de resultados de más de 40.000. Estos consorcios reúnen los tamaños muestrales elevados necesarios no sólo para localizar en el mapa cromosómico las variantes de riesgo, sino también para integrar y enriquecer las competencias y los recursos precisos para interpretar y analizar los datos. Como resultado de la actividad de estos grandes consorcios, se espera que la mayor parte de las variantes genéticas que predisponen a enfermedades frecuentes como la EC y el cáncer puedan ubicarse en el mapa cromosómico en un futuro próximo. Los mecanismos por los que se espera que las variantes de riesgo genético mejoren el manejo de estas enfermedades serían la detección genética sistemática con fines de diagnóstico y prevención, la farmacogenética para proporcionar el fármaco adecuado a la persona adecuada y en la dosis adecuada y, finalmente, su uso como dianas para el desarrollo de nuevos fármacos más apropiados. 2. Ingrese a la página del NCBI, particularmente a “About NCBI” y acceda a “Outreach and Education” (los títulos están allí Traten de buscarlos SIN ayuda de la cátedra!) y utilice los recursos educativos para identificar el glosario (BLAST Glossary, Genetic Glossary and Genome Glossary, revise todos.) y defina los siguientes términos: Alineamiento: el proceso o resultado de coincidir los nucleótidos o los residuos aminoácidos de dos o más secuencias biológicas para alcanzar los máximos niveles de identidad y, en el caso de las secuencias de aminoácidos, también de conservación; con el propósito de evaluar el grado de similitud y la posibilidad de homología. (BLAST Glossary) Algoritmo: un procedimiento fijo programado en una computadora. (BLAST Glossary). CNV: Copy Number Variation. Cuando el número de copias de un gen particular varía de un individuo al siguiente. Es un tipo de variación estructural en la cual un tramo de ADN se duplica en alguna persona, aunque algunas veces puede incluso triplicarse o cuadruplicarse. Al mirar la región cromosómica correspondiente, se observa variación en el número de copias en personas normales. A veces, estas variantes de número de copias incluyen más de un gen, incluso varios genes, lo que puede significar que una persona puede presentar tres, cuatro o más copias de ese gen, en lugar de las dos copias normales. (Talking Glossary of Genetic Terms). Cambios estructurales en el ADN de larga escala que varían de un individuo a otro. Incluye deleciones, inserciones, duplicaciones y variaciones complejas, que pueden abarcar en un rango de Kpb a Mpb de tamaño. Las CNV pueden influenciar la expresión génica, la variación fenotípica y alterar la dosis de genes. En ciertos casos pueden estar asociadas a alteraciones del desarrollo, ser causa de enfermedades o conferir susceptibilidad a tratamientos complejos de enfermedades. (Genome Glossary) Score de Distancia: LOD Score (“Logarithm Of the Odds”). En genética, el valor del logaritmo de posibilidades es una estimación estadística de si es probable que dos genes, o un gen y un gen de enfermedad, estén localizados próximos en un mismo cromosoma y, por ende, también ligados. (Talking Glossary of Genetic Terms) Epistasis: es una circunstancia donde la expresión de un gen es afectada por la expresión independiente de uno o más genes ligados. Por ejemplo, si la expresión de un gen #2 depende de la expresión de un gen #1 y el gen #1 es silenciado, la expresión del gen #2 no ocurre. En este ejemplo, se dice que el gen #1 es epistático sobre el gen #2. (Talking Glossary of Genetic Terms) Gen: es la unidad física básica de la herencia. Son pasados de padres a hijos y contienen la información necesaria para rasgos específicos. Los genes están organizados, uno luego de otro, en estructuras denominadas cromosomas. (Talking Glossary of Genetic Terms). Región del ADN que controla una característica hereditaria discreta, por lo general, correspondiente a una única proteína o ARN. Esta definición incluye la unidad funcional completa, abarcando las secuencias codificantes, las secuencias reguladoras y los intrones. (Molecular Biology of the Cell. 4th edition. Glossary). Homología: la similitud atribuida a la descendencia a partir de un ancestro común. (BLAST Glossary / NCBI Glossary). Uno de dos o más genes que presentan secuencias similares como resultado de la procedencia de un gen ancestral común. El término cubre a ortólogos y parálogos. (Molecular Biology of the Cell. 4th edition. Glossary). Identidad: el tramo en el cual dos secuencias (nucleotídicas o aminoacídicas) tienen los mismos residuos en las mismas posiciones en un alineamiento, con frecuencia expresado en porcentaje (BLAST Glossary). IUPAC code: la IUPAC (International Union of Pure and Applied Chemistry) establece un código universal estándar para la representación de aminoácidos y ácidos nucleicos en los archivos de tipo FASTA. Utiliza caracteres alfabéticos en donde cada símbolo representa un solo significado. Los códigos para ácidos nucleicos son: Ortología/Ortólogo: los componentes biológicos homólogos (genes, proteínas o estructuras) que se originaron en diferentes especies a partir de un componente individual presente en el ancestro común de las mismas. Pueden o no tener una función similar. (BLAST glossary) Refiere a genes homólogos ubicados en genomas de organismos diferentes (Genomes. 2nd edition. Brown TA. Glossary). Paralogía/Parálogo: componentes biológicos homólogos dentro de especies individuales que surgieron por duplicación génica. (BLAST Glossary). Refiere a dos o más genes homólogos localizados en el mismo genoma. (Genomes. 2nd edition. Brown TA. Glossary). P-value: la probabilidad de que un alineamiento probable ocurra con un valor particular o con un mejor valor que el esperado en una búsqueda en la base de datos. Se calcula relacionando el valor de alineamiento observado, S, con la distribución esperada de valores HSP (High-Scoring Segment Pair, es un alineamiento local sin espacios que alcanza uno de los valores más altos de alineamiento en una búsqueda dada) obtenida a partir de comparaciones de secuencias aleatorias de la misma longitud y composición que la secuencia problema. La mayor significancia para el pvalor será cercana a 0. El P-valor y el E-valor son diferentes maneras de representar la significancia de un alineamiento. (BLAST Glossary) E-value: Expectation Value or Expect Value. Representa el número de alineamientos distintos con valores equivalentes o mayores a S que se espera que ocurran en una búsqueda. (BLAST Glossary) Similitud de Secuencia: el tramo en el cual las secuencias nucleotídicas o proteicas se relacionan. La similitud entre dos secuencias puede expresarse como un porcentaje de identidad de secuencia y/o como porcentaje de sustituciones positivas. (BLAST Glossary) Score de Similitud: (S) se calcula como la suma de valores de sustituciones y gaps (huecos). Los valores de sustituciones se obtienen de una tabla de búsqueda (PAM, BLOSUM). Los valores de gap se calculan como la suma de G, la penalidad por abertura de gap y L, la penalidad por extensión de gap. Para un gap de longitud n, el costo sería G+Ln y, si bien la elección es empírica, se acostumbra usar un alto valor para G (10-15) y uno bajo para L (1-2). (BLAST Glossary) Sintenia: en la misma hebra. La frase “sintenia conservada” refiere al orden de genes conservados en cromosomas de especies diferentes pero relacionadas. (NCBI Glossary). La presencia de regiones de cromosomas con los mismos genes en el mismo orden en especies diferentes. (Molecular Biology of the Cell. 4th edition. Glossary). Refiere a un par de genomas en los que al menos algunos de los genes mapean en posiciones similares. (Genomes. 2nd edition. Brown TA. Glossary). Confronte estas definiciones con las que aparecen en textos de Genética. Discútalas. Indique con qué otros términos se relacionan. Se han utilizado los glosarios de los libros: “Biología Molecular de la Célula”. Alberts. 4ª edición y “Genomas”. Terence A Brown. 2ª edición, ambos disponibles en la página del NCBI. Se observa que las definiciones básicas de genética están concentradas en Talking Glossary of Genetic Terms, Genome Glossary y en los libros de texto. Las definiciones relacionadas con los programas empleados en bioinformática para el análisis de secuencias no se encuentran en los libros de texto de Genética siendo, sin embargo, muy comunes en el glosario del programa informático BLAST. El glosario de BLAST presenta, en general, términos bioinformáticos y vinculados a relaciones evolutivas. En cambio, el glosario del NCBI presenta una mayor variedad de términos, ya que tiene por objeto servir de guía para acceder a los servicios que ofrece. Tanto en los libros de texto como en Talking Glossary of Genetic Terms y Genome Glossary, se encuentran definiciones ejemplificadas y en un lenguaje más accesible para el público. BLAST y NCBI proporcionan definiciones más concretas y precisas. Bibliografía NCBI Glossary: http://www.ncbi.nlm.nih.gov/books/NBK21106/?report=reader Talking Glossary of Genetic Terms: http://www.genome.gov/glossary/index.cfm?showall=true&textonly=true#letterS Genome Glossary: http://www.ncbi.nlm.nih.gov/projects/genome/glossary.shtml “Biología Molecular de la Célula”. Alberts. 4ª edición. Glosario: http://www.ncbi.nlm.nih.gov/books/NBK21052/ Genomes. 2nd edition. Terrence A. Brown. Glossary: http://www.ncbi.nlm.nih.gov/books/NBK21106/?report=reader Wikipedia: http://es.wikipedia.org/wiki/Formato_FASTA