Download Introducción a la Bioinformática

Document related concepts

Genómica computacional wikipedia , lookup

FASTA wikipedia , lookup

BLAST wikipedia , lookup

Homología de secuencias wikipedia , lookup

Genómica estructural wikipedia , lookup

Transcript
Introducción a la
Bioinformática - LAB
Tomás Arredondo Vidal
2010
Introducción a la Bioinformática
Esta charla trata de lo siguiente:
• Introducción a bases de datos y herramientas utilizadas en
la bioinformática
Introducción a la Bioinformática
ADN de Células:
Prokariotas
• Organismos microscópicos
• Su genoma es una molécula circular de ADN
• Genoma es del orden de 0.6-8 Mpb (millones de pares de
bases)
• Densidad de genes es de aproximadamente un gen =
1000 pares de bases
• Sus genes no son sobrepuestos (no overlap)
• Sus genes son transcritos (copiados a ARNm)
inmediatamente después de una región llamada promotor
• Son continuamente codificantes (sin intrones)
Introducción a la Bioinformática
ADN de Células:
Eukariotes
• Organismos variados (plantas, animales, hongos,...)
• Genoma consiste de múltiples pedazos contiguos de
ADN típicamente denominados cromosomas
• Genoma es del orden de 10-3000 Mpb (millones de
pares de bases)
• Densidad de genes es de aproximadamente un gen =
100000 pares bases
• Genoma incluye muchas áreas no codificantes
• Sus genes son transcritos (copiados a ARNm) después
de una región llamada promotor pero elementos en la
secuencia a gran distancia pueden tener gran efecto en el
proceso
• Genes pueden derivar en múltiples formas de ARNm y
proteínas
• Mas complejas!
Introducción a la Bioinformática
Introducción a la Bioinformática
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información
De ADN a ADN, de ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
Replicación
Transcripción
Traducción
Proteína
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información
De ADN a ADN, de ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Documentación
PUBMED
• El National Center for Biotechnology Information (NCBI)
tiene muchos diferentes recursos disponibles para
investigadores bioinformaticos en la web
• NCBI crea bases de datos publicas, hace investigacion
en biologia computacional, desarrolla herramientas para
analizar datos genomicos (e.g. BLAST) y disemina la
informacion para tener mejor entendimiento de los
procesos moleculares que afectan las enfermedades y la
salud humana
• NCBI da acceso a PUBMED, mas de 200 revistas sobre
biologia, medicina, bioinformatica
•Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc
Introducción a la Bioinformática
Genómica
NCBI
• En Genomica NCBI trabaja en conjunto con el European
Molecular Biology Laboratory (EMBL) y el DNA Data Bank
of Japan
• Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/
• Bases de datos de NCBI:
• http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos
• La bioinformática requiere encontrar e interpretar datos
biológicos. De nuestro interés son las bases de datos para
nucleótidos, proteínas y vías metabólicas
• Algunas bases de datos o fuentes de nucleótidos
incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl,
RefSeq y PDB
• Entrez es una colección de bases de datos nucleótidos y
mantiene un registro histórico (primario) de todos las
secuencias de nucleótidos que se han introducido en
Genbank, RefSeq y PDB
• Entrez (4/2006) tiene sobre 130 mil millones de bases!
• Se puede utilizar el Genbank ID (e.g. X01714), un gene
id (e.g. gi41296) o el nombre de la proteína (dUTPase)
para iniciar búsquedas en Genbank
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez / Genbank
•
•
•
•
•
•
•
•
Locus: nombre de locus, tamaño de la secuencia (pb’s), el
tipo de molecula (ADN, ARN), topologia (lineal o circular)
Definition: definición corta del gen que corresponde a la
secuencia
Accession: lista el identificador único en las varias bases de
datos (e.g. X01714)
Keywords: palabras claves
Source: el nombre común del organismo relevante al cual
pertenece la secuencia
Organism: Identificación del organismo completo con la
completa información taxonómica
Reference: Artículos en los que se determino la secuencia
Comments: Comentarios
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez / Genbank
•
•
•
•
FEATURES: Área que incluye varias secciones
• source: Origen de regiones especificas en la secuencia,
se usa para distinguir vectores de clones de secuencias
• promoter: muestra la ubicación precisa de un elemento
promotor
• misc feature: característica miscelánea, indica comienzo
de trascripción
• RBS (Ribosome Binding Site): lugar del ultimo elemento
al principio de la cadena (upstream)
• CDS: secuencia codificante (ORFs)
misc feature: indica elementos potencialmente reguladores
BASE COUNT: cuenta de las bases a, t, c, g
Secuencia: secuencia genética en líneas de 60 nucleótidos
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica en un
prokariote del gen dUTPase
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menu Search: Nucleotide
3. Escribir el identificador de Genbank / accession (X01714)
4. Seleccionar el link X01714
5. Seleccionar Display → Fasta para el formato FASTA
6. Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica, el
gen dUTPase en el ARN mithocondrial de un eukariote
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menu Search: Nucleotide
3. Escribir el identificador de Genbank / accession (U90223)
4. Seleccionar el link U90223
5. Seleccionar Display → default para el formato FASTA
6. Seleccionar Text para generar un archivo texto
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Como seleccionar un record de una secuencia especifica en un
eukariote del gen dUTPase en la secuencia genética (un
cromosoma)
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menu Search: Nucleotide
3. Escribir el identificador de Genbank / accession (AF018430)
4. Seleccionar el link AF018430
5. Seleccionar Display → default para el formato FASTA
6. Seleccionar Text para generar un archivo texto
FASTA es un formato formato para seleccionar (copiar y pegar)
la secuencia de nucleótidos deseado.
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una búsqueda relacionada con una proteína
especifica (e.g. dUTPase) sin saber el número de accesión
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menu Search: Nucleotide
3. Escribir: human [organism] AND dUTPase [Protein name] y
apretar Go
La búsqueda va a retornar varias selecciones: AH005568 es la
secuencia completa, el resto son exons y secuencias
de aminoácidos nuclear y mitocondrial
1. Seleccionar Link al lado del link AF018432 y seleccionar
secuencias relacionadas
2. La selección retorna varios datos, algunos son secuencias de
ARNm como el U90223
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una búsqueda relacionada con una proteína
especifica (e.g. dUTPase) sin saber el número de accesión
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menú Search: Nucleotide
3. Escribir: human [organism] AND dUTPase [Protein name] y
apretar Go
La búsqueda va a retornar varias selecciones: AH005568, ...
algunas exones y otras son secuencias completas de
aminoácidos nuclear y mitocondrial
1. Seleccionar Link al lado del link AF018432 y seleccionar
secuencias relacionadas
2. La selección retorna varios datos, algunos son secuencias de
ARNm como el U90223
Introducción a la Bioinformática
Genómica
Bases de datos de nucleótidos: Entrez
Para hacer una busqueda relacionada con una proteína
especifica (e.g. dUTPase) sin saber el número de accesión
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez
2. Elegir del menú Search: Nucleotide
3. Escribir: human [organism] AND dUTPase [Title] y apretar Go
La búsqueda va a retornar mas de 190 selecciones de GenBank
pero muchas son secuencias parciales de ARNm llamadas
ESTs (Expressed Sequence Tags)
Para eliminar estos ESTs:
1. Seleccionar Limits link (abajo de ventana Search)
2. Seleccionar Exclude ESTs
3. Ir a la parte de arriba y seleccionar Go
Introducción a la Bioinformática
Genómica
Bases de datos de genes: LocusLink/Entrez Gene
Para hacer una búsqueda relacionada con un locus (ubicación)
de un gen en una cromosoma (no solo instancias de secuencias
relacionados a un gen)
1. Ir a Genbank Entrez Gene:
http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene
2. En el For escribir: DUT (nombre del gen) y apretar Go
3. Ir a SNP Gene View:
La búsqueda va a retornar el LocusID de tres organismos con
este gen (dUTPase)
Introducción a la Bioinformática
Genómica
Significado de los campos: Entrez Gene
La búsqueda en Entrez Gene va a retornar la siguiente
información (e.g. DUT), incluyendo su ubicación
• Official Symbol: DUT and Name: dUTP pyrophosphatase
[Homo sapiens]
• Other Aliases: HGNC:3078, dUTPase
• Other Designations: dUTP nucleotidohydrolase; deoxyuridine
5'-triphosphate nucleotidohydrolase; deoxyuridine
triphosphatase
• Chromosome: 15; Location: 15q15-q21.1
• GeneID: 1854
Introducción a la Bioinformática
Genómica
Bases de datos de genes
Para trabajar con genomas completos virales:
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.
2. Elegir en la barra arriba del menú: Genome
3. Hacer click en el link: Viruses
4. Escribir en la ventana de búsqueda: HIV2
5. Seleccionar
6. La barra azul simboliza el genoma del virus, se puede
seleccionar para ver la región de interés
7. Se puede seleccionar la sección Coding para ver una lista de
proteínas, esta a la vez se puede guardar (Save) en varios
formatos incluyendo Fasta
Introducción a la Bioinformática
Genómica
Bases de datos de genes
Para trabajar con genomas completos bacteriales:
1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/.
2. Elegir en la barra arriba del menú: Genome
3. Hacer click en el link Related resources: Microbial
4. Se puede seleccionar el genoma para una bacteria de interés
5. Se puede seleccionar bajo Genbank para ver la secuencia
Introducción a la Bioinformática
Genómica
Proyecto del Genoma Humano
Para trabajar con el genoma humano:
1. Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/
Para buscar genes:
1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene
2. Ver sample searches : human muscular dystrophy
Para ver homologias entre varios organismos y el genoma humano:
1. Ir a:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene
2. Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus
norvegicus
3. Plot It!
Introducción a la Bioinformática
Genómica
Bases de datos de genes eukariotes: Ensembl
Ensembl incluye el genoma de eukariotes como el ratón,
humano, mosquito y mas:
1. Ir a Ensemble: www.ensembl.org/.
2. Elegir botón: Homo sapiens
3. Elegir cromosoma 15, al medio de q21.1
4. Se puede ver el gen DUT
Otras cosas de interés son el mapa del sitio (Site Map) y el tour
del sitio (Ensembl Tour)
Ensemble también incluye información acerca de los genes
como por ejemplo las enfermedades que han sido relacionados
a el. Elegir data mining de la pagina principal. Otro sitio de
interés es el buscados de genomas de USC:
1. Ir a : genome.cse.ucsc.edu/.
2. Ir a genomes, buscar: U90223 (dUTPase)
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Secuenciar genomas es mas fácil que secuenciar
proteínas de aminoácidos directamente
• La mayoría de las secuencias de aminoácidos conocidas
se ha obtenido indirectamente a través del análisis de
secuencia genómicas
• La proteómica o el estudio de la visualización y análisis
de las moléculas de proteínas en organismos nos indican
que las proteínas reales no actúan como se esperaría de
una simple traducción de ORFs de nucleótidos
• La razón es que cuando se traduce la cadena de
aminoácidos puede ser muy modificada antes de
convertirse en la proteína final
• Esto se denomina maduración de la proteína
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
Algunos etapas en la maduración (modificaciones de posttraducción) de las proteínas incluyen:
1. Cortes en la cadena de aminoácidos
2. Eliminación de fragmentos en la cadena de
aminoácidos
3. Modificación química de aminoácidos especificas
4. Suma de moléculas de lípidos
5. Suma de moléculas glicosidicas (de azúcar)
Un rol fundamentar para una base de datos de proteínas
es mostrar esta información cuando esta disponible por
experimentos (e.g. 2D gel electrofóresis) o se predice
por técnicas computacionales
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Para que la proteína haga su función correcto dentro de la
célula es necesario que llegue a su ubicación correcta en el
organismo o en la célula. Esto requiere que durante su
traducción la cadena sea expuesta a señales especificas que
célula utiliza para dirigir la proteína a su ubicación especifica
atravesando membranas en su ruta
• Algunos destinos finales de las proteínas incluyen:
1. Membrana celular
2. Afuera de la célula
3. Transportado al periplasma (para bacterias)
4. Transportado al mitocondria o otro organello
5. Transportado al núcleo celular
Saber el destino final de la proteína es importante para saber su
funcionamiento y este tipo de información se incluye bases de
datos de proteínas
Introducción a la Bioinformática
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas
• Factores adicionales para determinar el funcionamiento de la
proteína son sus folds (vueltas)
• Típicamente estos se determinan a través de la hidrofobicidad,
acoplamiento (docking) de los aminoácidos, cargas
electrostáticas
• La cadena péptica se convierte en una proteína en 3D
funcional y estable a través de esta vueltas
• La estructura final depende de subdominios (o formas) de
aminoácidos que funcionan como bloques lego
• La naturaleza organiza estos bloques para producir la inmensa
variedad de proteínas existentes
• La mayoría de las proteínas naturales están hechas de
combinaciones de una a 10 dominios elegidos de varios miles
• Estos dominios se identifican por características bases
(signaturas) de aminoácidos, estas secuencias conservadas que
generan dominios se denominan motifs
Introducción a la Bioinformática
Proteómica
1A5P:_ RIBONUCLEASE A
KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES
LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT
QANKHIIVAC EGNPYVPVHF DASV
KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES
LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT
QANKHIIVAC EGNPYVPVHF DASV
Introducción a la Bioinformática
Y
F
C
S
L
W
H
L
R
P
Q
I
N
S
K
R
T
M
D
V
A
E
G
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas: SWISS-PROT
• La principal base de datos de proteínas por la calidad
de sus datos anotados es SWISS-PROT
• Se utiliza el Primary Accession Number (identificador de la
proteína) para identificar una secuencia que se quiere encontrar
(e.g. P32861)
• SWISS-PROT es un recurso de datos derivado
(secundario) de la literatura y manualmente verificados
• TrEMBL es una base de datos automáticamente anotada
Introducción a la Bioinformática
Proteómica
Bases de datos de proteínas: SWISS-PROT
Como ejemplo vamos a ver la proteína denominada EGF
receptor:
1. Ir a SWISS-PROT: www.expasy.ch/sprot/.
2. Escribir en la ventana Search: P00533
3. Go!
Introducción a la Bioinformática
Proteómica
Significado de los Campos: SWISS-PROT
La búsqueda en SWISS-PROT va a retornar varios campos:
• Entry Name: identificador que indica que tipo de registro se
retorno en la búsqueda, no es necesariamente estable
(puede cambiar)
• Primary Accession Number: identificador único y estable de
la secuencia, este numero tiene que ser usado como
referencia del trabajo (e.g. P00533)
• Secondary Accession Numbers: identificadores antiguos
relacionados con esta secuencia
• Fecha inicial
• Sequence was last modified in: Fecha ultima modificación
• Annotations were last modified in: últimos cambios a este
registro
Introducción a la Bioinformática
Proteómica
Significado de los Campos: SWISS-PROT
Otros campos retornados:
• Protein name: información descriptiva de la secuencia
• Synonyms: el nombre y numero de la reacción bioquímica
que esta proteína (enzima) ejecuta
• Gene name: nombre del gen relacionado
• From: origen de la proteína
• Taxonomy: clasificación taxonómica del organismo origen de
la proteína
• Comments: sección con información de utilidad que no
pertenece a otra de las secciones
• Cross-References: sección con enlaces a otras bases de
datos que contienen información acerca de esta proteína
• Keywords: palabras claves en este registro
• Features: sección que mapea la información de la proteína a
su secuencia
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas
• Algunas recursos sobre vías metabólicas incluyen:
KEGG, BRENDA, IUBMB, ECOCYC
• KEGG (Kyoto Encyclopedia of Genes and Genomes)
incluye una gran cantidad de vías metabólicas y es la mas
importante a nivel mundial
• En KEGG típicamente se utiliza el numero de la enzima
(E.C. para comenzar una búsqueda)
• BRENDA es un sistema de información enzimático
• IUBMB es el sitio oficial de la Unión de Bioquímica y
Biología Molecular
• ECOCYC es la enciclopedia de genes y el metabolismo
de E.Coli
Introducción a la Bioinformática
Vías Metabólicas
Bases de datos de Vías Metabólicas
• Típicamente se utiliza el nombre de la via (e.g.
Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE
DEGRADATION)
• KEGG:
• www.genome.ad.jp/kegg
• Expasy:
• www.expasy.ch/cgi-bin/search-biochem-index
• Brenda:
• www.brenda.uni-koeln.de/
•La IUMBM tiene informacion sobre nombres de enzimas:
• www.chem.qmw.ac.uk/iubmb/
• ECOCYC:
• www.ecocyc.org
Introducción a la Bioinformática
Vías Metabólicas
Bases de datos de Vías Metabólicas: KEGG
# [ LinkDB | KEGG ]
# ENTRY EC 2.7.1.2
# NAME Glucokinase
# CLASS Transferases Transferring phosphoruscontaining groups Phosphotransferases with an alcohol
group as acceptor
# SYSNAME ATP:D-glucose 6-phosphotransferase
# REACTION ATP + D-Glucose = ADP + D-Glucose 6phosphate
# SUBSTRATE ATP D-Glucose
# PRODUCT ADP D-Glucose 6-phosphate
# COMMENT A group of enzymes found in invertebrates
and microorganisms highly specific for glucose.
<...>
Introducción a la Bioinformática
Vías Metabólicas
Aplicaciones Para Comparar Secuencias
• BLAST (Basic Local Alignment Search Tool) es la
principal aplicación para comparar secuencias
• Las principales versiones son BLASTP y TBLASTN
• BLASTP compara la secuencia de una proteína con una
base de datos de proteínas
• TBLASTN comparar la secuencia de una proteína con
una base de datos de nucleótidos
Introducción a la Bioinformática
Herramientas Bioinformáticas
Usos de BLAST
• Para encontrar algo acerca de la función de mi proteína:
usar BLASTP para comparar con otras proteínas en las
bases de datos
• Para descubrir nuevos genes que codifican a alguna
proteína (o enzima): usar TBLASTN para comparar la
proteína con secuencias de ADN traducidas en todas sus
posibles ORFs
Introducción a la Bioinformática
Herramientas Bioinformáticas
BLASTP: Protein to Protein BLAST
Como ejemplo vamos a usar el servidor NCBI BLAST
para encontrar proteínas similares al nucleolin del
hamster en la base de datos SWISS-PROT:
1. Ir a BLAST: www.ncbi.nih.gov/BLAST
2. Elegir Standard protein-protein BLAST
3. Insertar proteina a comparar: puede ser usando el
numero de accesion (P09405) o insertando la
secuencia en formato FASTA
4. Choose database: swissprot
5. Deseleccionar CD Search (dominios conservados muy
tipicos como Zn Fingers)
6. Apretar BLAST!
7. Seleccionar Format! que abre una ventana nueva
8. Guardar los resultados (Save Picture As)
Introducción a la Bioinformática
Herramientas Bioinformáticas
Resultados de BLAST
• Parte grafica: muestra donde nuestra secuencia es
similar a las otras secuencias
• Hit list: nombre de secuencias similares a la nuestra
• Alignments: los alineamientos entre nuestra secuencia y
las secuencias similares
• Parametros: parametros usados
Introducción a la Bioinformática
Herramientas Bioinformáticas
Resultados de BLAST
• Sequence Accesion Number
• Description
• Bit score – estima el significado del alineamiento
(mientras mayor mejor)
• E-value – estima el numero de veces que se pudiera
encontrar un alineamiento tan bueno aleatoriamente
(mientras menor mejor)
• Alineamientos (%identidad, largo)
Introducción a la Bioinformática
Herramientas Bioinformáticas
Otros tipos de BLAST
• BLASTP compara una secuencia de aminoácidos contra
una base de datos de secuencias de proteínas
• BLASTN compara una secuencia de nucleótidos contra
una base de datos de nucleótidos
• BLASTX toma una secuencia de nucleótidos y la traduce
en los seis posibles RFs para comparar con una base de
datos de secuencias de proteínas
• TBLASTN compara una secuencia de aminoácidos
contra una base de datos de nucleótidos, traduciendo la
secuencia de aminoácidos a todos sus posibles RFs
• TBLASTX compara una secuencia de aminoácidos
contra una base de datos de nucleótidos, traduciendo la
secuencia de aminoacidos y la base de datos a todos sus
posibles RFs
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias Múltiples
• Alineamientos múltiples se utilizan para comparar
secuencias homologas (ancestro comun)
• Se alinean aminoácidos o nucleótidos en la misma
columna por que son homólogos de acuerdo a algún
criterio
• Los criterios principales son:
• similitud estructural
• similitud evolucionaría
• similitud funcional
• similitud secuencial
Los programas automáticos típicamente usan el criterio de
similitud secuencial porque es el mas fácil de implementar.
Cuando las secuencias son similares todos los criterios son
equivalentes
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias Múltiples
Una comparación de múltiples secuencias nos permite:
• Extrapolar: determinar que una secuencia realmente es
parte de una familia de proteinas o dominio
• Analisis filogenetico: con una seleccion cuidadose se
puede reconstruir la historia evolucionaria de las proteinas
• Identificacion de patrones: al descubrir una region
conservada se puede identificar una region que es
caracteristica de una funcion (motif) en secuencias
nucleicas o de aminoacidos
• Elementos reguladores de ADN: se puede encontrar
sitios de binding
• Prediccion de estructura: ayuda a generar predicciones
de la estructura 3D de la proteina
• Analisis PCR: identificar porciones menos degeneradas
de la familia de proteinas
Introducción a la Bioinformática
Herramientas Bioinformáticas
Aplicaciones Para Comparar Secuencias Múltiples
Este análisis nos permite ver las fuerzas que moldean la
evolución:
Aminoácidos (o nucleótidos) importantes no cambian
(mutan)... Porque?
Los menos importantes cambian mas fácilmente, a veces
aleatoriamente, y a veces para adaptarse a una función
Introducción a la Bioinformática
Herramientas Bioinformáticas
KEGG, Genbank y BLAST para encontrar vías de
interés en un organismo especifico (eg. LB400)
Como encontrar si hay una enzima especifica de una vía
especifica en un genoma de interés (e.g. LB400):
1. Ir a KEGG: http://www.genome.jp/kegg/pathway.html
2. Elegir:
2,4-Dichlorobenzoate degradation
3. Elegir:
enzima 1.1.3.38 (vanillyl-alcohol oxidase)
4. Ir a Genbank: http://www.ncbi.nlm.nih.gov/
5.
Elegir una proteina que no diga mutante en
Nombre, ni Hipotetical/Putativo en Organismo
Elegir Numero de accesión: P56216
Ver en formato FASTA y copiar
• Ir a LB400: http://genome.ornl.gov/microbial/bfun/
• Hacer TBLASTN con secuencia en formato FASTA, ver
si la secuencia tiene alineamientos correctos
Introducción a la Bioinformática
Herramientas Bioinformáticas
BLAST para seleccionar secuencias para el
Alineamiento Múltiple
Vamos a usar ExPASy BLAST y ExPASy para encontrar
secuencias parecidas a la proteína P20472 (calcium
kinase):
1. Ir a ExPASy:
http://www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl
2. Insertar proteina a comparar: P20472
3. Seleccionar: blastp
4. Elegir SWISS-PROT + TREMBL + TREMBL_NEW
5. En Options: elegir el numero de secuencias (scoring y
alignment) a 1000
6. Apretar BLAST!
7. Seleccionar secuencias: 10 o menos (al principio)
8. Exportar las secuencias: (usar FASTA)
Introducción a la Bioinformática
Herramientas Bioinformáticas
ClustalW para Alineamiento Múltiple
1.
2.
3.
4.
5.
6.
7.
Ir a ClustalW: www.ebi.ac.uk/clustalw/index
Insertar secuencias en la ventana Sequence
En Alignment pulldown: elegir Fast
En Output Format pulldown: elefir Aln Without Numbers
En Output order: elegir Input
Presionar el boton RUN
Guardar los resultados
Los resultados se analizan para ver las posiciones que
son importantes y que no se les permite mutar
(conservados) evolucionariamente.
Introducción a la Bioinformática
Genómica
Evolución Genética
• Todos los genes están relacionados (Zuckerkandl,
Pauling 1960’s)
• Los genes a veces evolucionan independientemente del
organismo (formulado por R. Dawkins 1976)
• Solamente unos pocos miles de familias de genes
existen (C. Chothia, 1992, Nature 357)
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Definiciones
• Genes Homólogos: Genes con un ancestro común
• Genes Ortólogos: Homólogos separados por
especiacion en el cual un ancestro común genera dos
subgrupos que lentamente se separan para convertirse en
nuevas especies
• Genes Paralogs: Homólogos separados por un evento
de duplicación. Una de las copias típicamente mantiene
su función mientras que la otra tiene otra función pero
relacionada
• Genes Xenologs: Xenologs ocurren por la transferencia
horizontal de una especie a otra. No hay historia del
nuevo gen en el genoma que fue insertado
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas:
Introducción a la Bioinformática
Genómica
Análisis filogenético: Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
Introducción a la Bioinformática
Genómica
Análisis filogenético: Globina y Myoglobina
Globin
ancestor
Ancestral duplication
globin
gene
globin
mouse
globin
globin
man
Myoglobin
Myoglobin
mouse
Myoglobin
man
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Algunas herramientas
• ClustalW: Herramienta de tipo caja negra para análisis
filogenético
• Phylip: Método mas sofisticado que permite controlar los
parámetros necesarios en la reconstrucción
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos: Medicina
Genome Gene map Gene sequence Expression
t
c
g c g c
g
g
t
g
a
t
Diseases
Alzheimers
Cancer
Arthritis
g
t
c
t
g
t
c
a
t
a
t
g
g
g
t
g
a
a
t
a
t
t
a
c
c
t
g g c g
t
g c
t
a
g
CV Disease
MS
Obesity
Vision
Arthritis
Introducción a la Bioinformática
Genómica
Análisis Filogenético: Algunas herramientas
Ir a Entrez:
Genome
Seleccionar Microorganismo
Seleccionar proteína de interés
Exportar la secuencia (FASTA)
Seleccionar: blastp (protein-protein)
Apretar BLAST!
Se detectan los dominios putativos conservados
Hacer click en la secuencia conservada (en rojo)
Click en search for similar domain architecture para
comparar con otros microorganismos
Introducción a la Bioinformática
Ejemplo. Bacillus anthracis
plasmid: pX01
Introducción a la Bioinformática
SE ACABO?
Referencias
•
•
•
•
•
•
•
Brown, T.A., Genomes, Wiley, 1999
Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003
Perkus, J. K., Mathematics of Genome Analysis, 2002
Gibas, C., Developing Bioinformatics Computer Skills,
2001
http://www.biologia.edu.ar/index.html
http://www.arrakis.es/%7Elluengo/
Link antiguo: http://www.multisan2001.com