Download CÁTEDRA DE GENÉTICA MOLECULAR Integrantes

Document related concepts

Genómica computacional wikipedia , lookup

Genómica wikipedia , lookup

BLAST wikipedia , lookup

Proyecto del genoma wikipedia , lookup

Genómica funcional wikipedia , lookup

Transcript
Bioinformática
CÁTEDRA DE GENÉTICA MOLECULAR
Integrantes:
Dambra, Laura
Delgado, Pryscilha
Donalisio, David Oscar
Millán, Esteban
Molina, María Carolina
Paniagua, Gustavo
TRABAJO PRÁCTICO Nº 2/15: BIOINFORMÁTICA I
El inmenso caudal de información científica que se produce día a día y la profundidad
de la misma generan la necesidad de recurrir a procesos de análisis cada vez más
complejos. De esta forma surge como herramienta útil la bioinformática. No obstante,
es un campo tan dinámico que es prácticamente imposible que un investigador se
mantenga actualizado en todas las áreas de su progreso, con lo cual es necesario
capacitarse y actualizarse de forma continua.
OBJETIVO
Familiarizar al alumno en el manejo de herramientas básicas de bioinformática, las que
le permitirán adquirir destreza en el uso de ciertas herramientas computacionales
básicas que le ayudarán en la comprensión y aplicación de algunos de los diversos
recursos on line para su aplicación, directa o indirecta, en investigación y en la
elucidación
de
diferentes
problemáticas
enmarcadas
en
el
ámbito
de
la
Biología/Genética Molecular.
EJERCICIO 1
“Internet como Recurso de Búsqueda y Estrategias Básicas de Búsqueda”
Nota: El alumno debe adquirir el hábito de trabajar con un dispositivo de
almacenamiento de datos móvil para guardar archivos que resulten de utilidad.
OBJETIVOS DEL EJERCICIO 1:
1. Obtener una apreciación básica de lo que es la bioinformática y como puede
ser utilizada.
2. Familiarizarse con recursos “on-line” útiles en el aprendizaje de la
bioinformática.
Después de realizado el siguiente ejercicio el alumno será capaz de:
Navegar cómodamente en Internet.
Utilizar motores de búsqueda eficientemente.
Identificar y utilizar sitios de apoyo relacionados a la bioinformática.
Evaluar fuente y calidad de la información obtenida.
ACTIVIDAD 1:
1. Abrir un explorador de Internet.
Para una introducción básica sobre algunos conceptos claves en Bioinformática,
explorar el documento disponible en el siguiente site:
http://www.bibalex.org/cssp/event/attachments/what_is_bioinformatics.pdf
a) Resuma la definición que se otorga a la palabra bioinformática.
Bioinformática: es la conceptualización de la biología en términos de moléculas
y la aplicación de técnicas de la Informática para comprender y organizar la información
asociada con estas moléculas a una gran escala. Es un sistema de gestión de
información para la biología molecular y tiene muchas aplicaciones prácticas.
Antes de continuar navegando, es bueno tener en cuenta que se debería ir registrando
la información obtenida a partir de los sites visitados. Esto resulta de utilidad por varios
motivos:
Volver a una página ya visitada o para encontrar una imagen particular.
Compartir un site con alguien más.
Cuando es necesario citar las referencias en cualquier informe o publicación
en que se esté trabajando. Siempre es necesario distinguir el trabajo propio de
aquel escrito por otros autores.
2. Explorar brevemente el siguiente sitio:
Este sitio contiene instrucciones de cómo citar sitios de internet utilizados como fuente
bibliográfica y da algunos ejemplos claros.
http://library.duke.edu/research/citing
El siguiente vínculo, pertenece a una herramienta gratuita que simplifica el trabajo a la
hora de generar bibliografías:
http://www.easybib.com
Los sitios que se han estado visitando pertenecen a páginas “estáticas”. Están siendo
proporcionadas por servidores locales y remotos. Como se habrá observado, el acceder a un
site se hace más fácil si se poseen links como los descriptos anteriormente. Pero qué
sucedería si uno intenta averiguar “algo” de lo que no poseamos un vínculo. En este caso será
necesario efectuar una Búsqueda.
Existen algunos “buscadores” o motores de búsqueda generales tales como Google
(www.google.com); Yahoo (www.yahoo.com) Dogpile (www.dogpile.com).
Estos buscadores son un buen punto de partida al momento de iniciar una búsqueda,
aunque nunca debe olvidarse que son motores de búsqueda generales. En el ámbito
científico existen buscadores específicos por ejemplo para literatura especializada,
tales como Scopus, PubMed o Google Académico.
ACTIVIDAD 2:
3. Acceder a los siguientes sites:
www.link.springer.com
www.onlinelibrary.wiley.com
4. Buscar en el segundo vínculo el siguiente trabajo, introduciendo en el campo de
búsqueda el apellido del primer autor:
Alvarez M, Schrey AW and Richards CL. 2015. Ten years of transcriptomics in wild
populations: what have we learned about their ecology and evolution? Molecular
Ecology 24: 710-725. doi: 10.1111/mec.13055
Dentro de Instituciones Universitarias Argentinas es posible acceder a revistas
científicas de excelente nivel a través de la Biblioteca Electrónica del Ministerio de
Ciencia y Tecnología de la Nación:
5. Explorar rápidamente los sites:
www.fceqyn.unam.edu.ar
www.biblioteca.mincyt.gov.ar
6. Acceder a la pestaña “Accesos” y luego explorar las distintas opciones. Seleccionar
Publicaciones Periódicas y Posteriormente, en el cuadro Disciplinas a la izquierda,
seleccionar la gran área “Ciencias Naturales”, área “Ciencias Biológicas” y subárea
“Genética y Herencia”, y luego “Buscar”. Observar las diferentes publicaciones a las
cuales se tiene acceso a través de esta Biblioteca.
Una herramienta muy útil!!!!:
http://www.mendeley.com/features/
ACTIVIDAD 3:
Describa para qué sirve esta herramienta, qué ventajas le proporciona y qué
recursos le ofrece!!!
La página de Mendeley.com es un administrador gratuito y una red social
académica.
Los recursos que ofrece son: un buscador e importador de publicaciones gratuitas
por internet; la capacidad de crear nuestra propia biblioteca y administrar cómo ésta
ordena los papers; hacer anotaciones o resaltar; add-ons para office (para generar
formatos de citas específicas) y una red social integrada al programa.
EJERCICIO 2
“DNA Data Bank of Japan”, “European Molecular Laboratory” “National Center
for Biotechnology Information”,
OBJETIVOS DEL EJERCICIO 2:
1. Realizar un reconocimiento básico de las páginas principales de los centros
europeo, japonés y norteamericano.
2. Acceder a diferentes bases de datos
Después de realizado el siguiente ejercicio el alumno será capaz de:
Reconocer las diferentes Bases de Datos y herramientas que ofrecen cada uno
de los grandes centros del mundo.
ACTIVIDAD 1:
1. Abra en un explorador de Internet la página principal de los siguientes sitios y
efectúe el reconocimiento de cada uno de ellos:
http://www.ncbi.nlm.nih.gov/; http://www.embl.org/; http://www.ddbj.nig.ac.jp/
a) Describa qué ejemplifica el siguiente esquema y que significan cada una de las
siglas allí expuestas. Cuáles de ellas representan Bases de Datos y cuáles no?
INSDC International Nucleotide Sequence Database Collaboration es una
iniciativa de trabajo en conjunto entre DDBJ, EMBL-EBI y el NCBI, que se encarga de
cubrir el espectro de escritos básicos y que a través de alineaciones y montajes los
convierte en apuntes enriquecidos con información contextual relacionada a muestras y
procesos experimentales.
GenBank USA
NCBI: National Center for Biotechnology Information. Provee información sobre
avances en ciencia y salud mediante el acceso a información sobre genómica y
biomédica.
NLM: U.S National Library of Medicine. Contiene una vasta colección impresa y
produce recursos de información electrónicos en un amplio rango de temas, accesible a
billones de personas por todo el mundo. También apoya y conduce investigaciones y
capacitaciones en informática biomédica y tecnología de la salud.
EMBL-Bank Europe
EMBL: European Molecular Biology Laboratory. Es una institución de investigación y su
laboratorio de ciencias de la vida es uno de los más prestigiosos de Europa. Se trata
de una organización intergubernamental especializada en investigación básica en
ciencias de la vida, fundada con dinero público de investigación de 21 estados
miembros y dos miembros asociados, Argentina y Australia. Tiene como misión
desempeñar investigaciones básicas en biología molecular, capacitar científicos,
estudiantes y visitantes, ofrecer servicios vitales, desarrollar nuevos instrumentos y
métodos y participar activamente en la transferencia de tecnología innovadora desde
investigaciones básicas a la industria.
EBI: European Bioinformatics Institute. Es parte del EMBL y provee información gratuita
y accesible sobre ciencias de la vida, desarrolla investigaciones básicas en biología
computacional y ofrece un programa de capacitación extensiva al usuario, respaldando
a investigadores académicos e industrias.
DDBJ
DNA Data Bank of Japan. Es un centro que, como miembro del INSDC, colecta datos
de secuencias de nucleótidos y provee acceso gratuito a esta información con el objeto
de respaldar las actividades de investigación en ciencias de la vida, mejorando la
calidad del INSDC como dominio público, haciendo accesible la base de datos a
cualquiera en el mundo.
CIB-DDBJ: Center for Information Biology & DNA Data Bank of Japan. Sus
investigaciones se concentran en dilucidar mecanismos evolutivos de varios tipos de
fenómenos biológicos considerándolos como flujo de información y fusionando la
biología estructural y molecular.
NIG: National Institute of Genetics. El centro DDBJ opera actualmente en las
instalaciones del NIG en Mishima, Japón.
Bases de Datos
Institutos de Investigación
NCBI / NLM
EMBL / EBI
DDBJ
CBI-DDBJ / NIG
ACTIVIDAD 2:
Dado los conceptos generales respecto a Bases de Datos, se plantean a continuación
una serie de actividades que involucran el ingreso a algunas de ellas para buscar la
información que se les solicita:
1. Defina los siguientes acrónimos y descríbalos brevemente:
Y-STRs: repeticiones cortas repetidas en tándem en el cromosoma Y. Su utilidad se ve
reflejada en estudios de paternidad, análisis forenses y en la correcta interpretación de
resultados de perfiles genéticos.
EDNAP-EMPOP: grupo europeo de perfiles de ADN (EDNAP). Base de datos de ADN
mitocondrial de la población (EMPOP) a nivel mundial. Actualmente se trabaja
activamente desde el laboratorio de Medicina Legal de Innsbruck (Austria) en la
creación de una gran base de datos mundial denominada EMPOP (EDNAP mtDNA
population database) que tiene por objetivo recopilar secuencias de ADNmt a nivel
mundial y ofrecer así a la comunidad forense una herramienta fundamental en el
tratamiento estadístico de las muestras analizadas mediante ADNmt.
HapMap: mapa de haplotipos: es un proyecto internacional para determinar los
patrones comunes de variación de la secuencia de ADN en el genoma humano y para
que esta información esté libremente disponible y sea de dominio público. El objetivo
del Proyecto Internacional HapMap es comparar las secuencias genéticas de diferentes
individuos para identificar las regiones cromosómicas donde se comparten las variantes
genéticas; éste ayudará a los investigadores biomédicos a encontrar los genes
involucrados en enfermedades y así dar respuesta con fármacos terapéuticos.
dbSNPs: base de datos de polimorfismos de nucleótido simple. La base pública de
polimorfismos de un solo nucleótido (SNP) dbSNP cuenta ya con más de 7 millones de
SNPs y en la actualidad el proyecto HAPMAP se halla en el proceso de caracterización
de la variabilidad haplotípica en diferentes grupos étnicos, lo que seguramente
contribuirá a la mejor definición de la variabilidad genética, los procesos evolutivos y
quizás las relaciones entre determinados polimorfismos con el riesgo de enfermedades
comunes, gracias al conocimiento que se tiene del desequilibro de ligamiento y la
conformación del genoma en bloques de haplotipos.
GWA: GENOME WIDE ASSOCIATION (Asociación de Genoma Completo). El estudio
de asociación de genoma completo (GWAS) proporciona un enfoque no sesgado para
ubicar en los mapas cromosómicos las variantes genéticas de riesgo frecuentes. Una
variante de riesgo frecuente se define arbitrariamente como la que tiene una frecuencia
igual o superior al 5% en la población general. Una característica importante de los
GWAS es la formación de grandes consorcios de investigación internacionales en torno
a varias enfermedades. El más amplio de ellos, el Coronary Artery Disease Genomewide Replication and Meta-Analysis (CARDIoGRAM), dedicado a la enfermedad
coronaria (EC), ha determinado ya el fenotipo y el genotipo de una población de
descubrimiento de 82.000 individuos y una población de replicación de resultados de
más de 40.000. Estos consorcios reúnen los tamaños muestrales elevados necesarios
no sólo para localizar en el mapa cromosómico las variantes de riesgo, sino también
para integrar y enriquecer las competencias y los recursos precisos para interpretar y
analizar los datos. Como resultado de la actividad de estos grandes consorcios, se
espera que la mayor parte de las variantes genéticas que predisponen a enfermedades
frecuentes como la EC y el cáncer puedan ubicarse en el mapa cromosómico en un
futuro próximo. Los mecanismos por los que se espera que las variantes de riesgo
genético mejoren el manejo de estas enfermedades serían la detección genética
sistemática con fines de diagnóstico y prevención, la farmacogenética para
proporcionar el fármaco adecuado a la persona adecuada y en la dosis adecuada y,
finalmente, su uso como dianas para el desarrollo de nuevos fármacos más
apropiados.
2. Ingrese a la página del NCBI, particularmente a “About NCBI” y acceda a
“Outreach and Education” (los títulos están allí Traten de buscarlos SIN ayuda de la
cátedra!) y utilice los recursos educativos para identificar el glosario (BLAST
Glossary, Genetic Glossary and Genome Glossary, revise todos.) y defina los
siguientes términos:

Alineamiento: el proceso o resultado de coincidir los nucleótidos o los residuos
aminoácidos de dos o más secuencias biológicas para alcanzar los máximos niveles de
identidad y, en el caso de las secuencias de aminoácidos, también de conservación;
con el propósito de evaluar el grado de similitud y la posibilidad de homología. (BLAST
Glossary)

Algoritmo: un procedimiento fijo programado en una computadora. (BLAST
Glossary).

CNV: Copy Number Variation. Cuando el número de copias de un gen particular
varía de un individuo al siguiente. Es un tipo de variación estructural en la cual un
tramo de ADN se duplica en alguna persona, aunque algunas veces puede incluso
triplicarse o cuadruplicarse. Al mirar la región cromosómica correspondiente, se
observa variación en el número de copias en personas normales. A veces, estas
variantes de número de copias incluyen más de un gen, incluso varios genes, lo que
puede significar que una persona puede presentar tres, cuatro o más copias de ese
gen, en lugar de las dos copias normales. (Talking Glossary of Genetic Terms).
Cambios estructurales en el ADN de larga escala que varían de un individuo a
otro. Incluye deleciones, inserciones, duplicaciones y variaciones complejas, que
pueden abarcar en un rango de Kpb a Mpb de tamaño. Las CNV pueden influenciar la
expresión génica, la variación fenotípica y alterar la dosis de genes. En ciertos casos
pueden estar asociadas a alteraciones del desarrollo, ser causa de enfermedades o
conferir susceptibilidad a tratamientos complejos de enfermedades. (Genome Glossary)

Score de Distancia: LOD Score (“Logarithm Of the Odds”). En genética, el valor
del logaritmo de posibilidades es una estimación estadística de si es probable que dos
genes, o un gen y un gen de enfermedad, estén localizados próximos en un mismo
cromosoma y, por ende, también ligados. (Talking Glossary of Genetic Terms)

Epistasis: es una circunstancia donde la expresión de un gen es afectada por la
expresión independiente de uno o más genes ligados. Por ejemplo, si la expresión de
un gen #2 depende de la expresión de un gen #1 y el gen #1 es silenciado, la
expresión del gen #2 no ocurre. En este ejemplo, se dice que el gen #1 es epistático
sobre el gen #2. (Talking Glossary of Genetic Terms)

Gen: es la unidad física básica de la herencia. Son pasados de padres a hijos y
contienen la información necesaria para rasgos específicos. Los genes están
organizados, uno luego de otro, en estructuras denominadas cromosomas. (Talking
Glossary of Genetic Terms).
Región del ADN que controla una característica hereditaria discreta, por lo
general, correspondiente a una única proteína o ARN. Esta definición incluye la unidad
funcional completa, abarcando las secuencias codificantes, las secuencias reguladoras
y los intrones. (Molecular Biology of the Cell. 4th edition. Glossary).

Homología: la similitud atribuida a la descendencia a partir de un ancestro
común. (BLAST Glossary / NCBI Glossary).
Uno de dos o más genes que presentan secuencias similares como resultado de
la procedencia de un gen ancestral común. El término cubre a ortólogos y parálogos.
(Molecular Biology of the Cell. 4th edition. Glossary).

Identidad: el tramo en el cual dos secuencias (nucleotídicas o aminoacídicas)
tienen los mismos residuos en las mismas posiciones en un alineamiento, con
frecuencia expresado en porcentaje (BLAST Glossary).

IUPAC code: la IUPAC (International Union of Pure and Applied Chemistry)
establece un código universal estándar para la representación de aminoácidos y ácidos
nucleicos en los archivos de tipo FASTA. Utiliza caracteres alfabéticos en donde cada
símbolo representa un solo significado.
Los códigos para ácidos nucleicos son:

Ortología/Ortólogo: los componentes biológicos homólogos (genes, proteínas o
estructuras) que se originaron en diferentes especies a partir de un componente
individual presente en el ancestro común de las mismas. Pueden o no tener una
función similar. (BLAST glossary)
Refiere a genes homólogos ubicados en genomas de organismos diferentes
(Genomes. 2nd edition. Brown TA. Glossary).

Paralogía/Parálogo: componentes biológicos homólogos dentro de especies
individuales que surgieron por duplicación génica. (BLAST Glossary).
Refiere a dos o más genes homólogos localizados en el mismo genoma.
(Genomes. 2nd edition. Brown TA. Glossary).

P-value: la probabilidad de que un alineamiento probable ocurra con un valor
particular o con un mejor valor que el esperado en una búsqueda en la base de datos.
Se calcula relacionando el valor de alineamiento observado, S, con la distribución
esperada de valores HSP (High-Scoring Segment Pair, es un alineamiento local sin
espacios que alcanza uno de los valores más altos de alineamiento en una búsqueda
dada) obtenida a partir de comparaciones de secuencias aleatorias de la misma
longitud y composición que la secuencia problema. La mayor significancia para el pvalor será cercana a 0. El P-valor y el E-valor son diferentes maneras de representar la
significancia de un alineamiento. (BLAST Glossary)

E-value: Expectation Value or Expect Value. Representa el número de
alineamientos distintos con valores equivalentes o mayores a S que se espera que
ocurran en una búsqueda. (BLAST Glossary)

Similitud de Secuencia: el tramo en el cual las secuencias nucleotídicas o
proteicas se relacionan. La similitud entre dos secuencias puede expresarse como un
porcentaje de identidad de secuencia y/o como porcentaje de sustituciones positivas.
(BLAST Glossary)

Score de Similitud: (S) se calcula como la suma de valores de sustituciones y
gaps (huecos). Los valores de sustituciones se obtienen de una tabla de búsqueda
(PAM, BLOSUM). Los valores de gap se calculan como la suma de G, la penalidad por
abertura de gap y L, la penalidad por extensión de gap. Para un gap de longitud n, el
costo sería G+Ln y, si bien la elección es empírica, se acostumbra usar un alto valor
para G (10-15) y uno bajo para L (1-2). (BLAST Glossary)

Sintenia: en la misma hebra. La frase “sintenia conservada” refiere al orden de
genes conservados en cromosomas de especies diferentes pero relacionadas. (NCBI
Glossary).
La presencia de regiones de cromosomas con los mismos genes en el mismo
orden en especies diferentes. (Molecular Biology of the Cell. 4th edition. Glossary).
Refiere a un par de genomas en los que al menos algunos de los genes mapean
en posiciones similares. (Genomes. 2nd edition. Brown TA. Glossary).
Confronte estas definiciones con las que aparecen en textos de Genética.
Discútalas. Indique con qué otros términos se relacionan.
Se han utilizado los glosarios de los libros: “Biología Molecular de la Célula”.
Alberts. 4ª edición y “Genomas”. Terence A Brown. 2ª edición, ambos disponibles en la
página del NCBI. Se observa que las definiciones básicas de genética están
concentradas en Talking Glossary of Genetic Terms, Genome Glossary y en los libros
de texto. Las definiciones relacionadas con los programas empleados en bioinformática
para el análisis de secuencias no se encuentran en los libros de texto de Genética
siendo, sin embargo, muy comunes en el glosario del programa informático BLAST.
El glosario de BLAST presenta, en general, términos bioinformáticos y vinculados a
relaciones evolutivas. En cambio, el glosario del NCBI presenta una mayor variedad de
términos, ya que tiene por objeto servir de guía para acceder a los servicios que ofrece.
Tanto en los libros de texto como en Talking Glossary of Genetic Terms y Genome
Glossary, se encuentran definiciones ejemplificadas y en un lenguaje más accesible
para el público. BLAST y NCBI proporcionan definiciones más concretas y precisas.
Bibliografía
 NCBI Glossary: http://www.ncbi.nlm.nih.gov/books/NBK21106/?report=reader
 Talking Glossary of Genetic Terms:
http://www.genome.gov/glossary/index.cfm?showall=true&textonly=true#letterS
 Genome Glossary: http://www.ncbi.nlm.nih.gov/projects/genome/glossary.shtml
 “Biología Molecular de la Célula”. Alberts. 4ª edición. Glosario:
http://www.ncbi.nlm.nih.gov/books/NBK21052/
 Genomes. 2nd edition. Terrence A. Brown. Glossary:
http://www.ncbi.nlm.nih.gov/books/NBK21106/?report=reader
 Wikipedia: http://es.wikipedia.org/wiki/Formato_FASTA