Download Introducción a la Bioinformática
Document related concepts
Transcript
Introducción a la Bioinformática - LAB Tomás Arredondo Vidal 2010 Introducción a la Bioinformática Esta charla trata de lo siguiente: • Introducción a bases de datos y herramientas utilizadas en la bioinformática Introducción a la Bioinformática ADN de Células: Prokariotas • Organismos microscópicos • Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 1000 pares de bases • Sus genes no son sobrepuestos (no overlap) • Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor • Son continuamente codificantes (sin intrones) Introducción a la Bioinformática ADN de Células: Eukariotes • Organismos variados (plantas, animales, hongos,...) • Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas • Genoma es del orden de 10-3000 Mpb (millones de pares de bases) • Densidad de genes es de aproximadamente un gen = 100000 pares bases • Genoma incluye muchas áreas no codificantes • Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso • Genes pueden derivar en múltiples formas de ARNm y proteínas • Mas complejas! Introducción a la Bioinformática Introducción a la Bioinformática Introducción a la Bioinformática Dogma Central (Watson & Crick) • Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína Introducción a la Bioinformática Dogma Central (Watson & Crick) Replicación Transcripción Traducción Proteína Introducción a la Bioinformática Dogma Central (Watson & Crick) Introducción a la Bioinformática Dogma Central (Watson & Crick) • Transferencia general de la información De ADN a ADN, de ADN a ARN, de ARN a Proteína Introducción a la Bioinformática Documentación PUBMED • El National Center for Biotechnology Information (NCBI) tiene muchos diferentes recursos disponibles para investigadores bioinformaticos en la web • NCBI crea bases de datos publicas, hace investigacion en biologia computacional, desarrolla herramientas para analizar datos genomicos (e.g. BLAST) y disemina la informacion para tener mejor entendimiento de los procesos moleculares que afectan las enfermedades y la salud humana • NCBI da acceso a PUBMED, mas de 200 revistas sobre biologia, medicina, bioinformatica •Ir a: www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Pmc Introducción a la Bioinformática Genómica NCBI • En Genomica NCBI trabaja en conjunto con el European Molecular Biology Laboratory (EMBL) y el DNA Data Bank of Japan • Sitio web de NCBI: http://www.ncbi.nlm.nih.gov/ • Bases de datos de NCBI: • http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi Introducción a la Bioinformática Genómica Bases de datos de nucleótidos • La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos, proteínas y vías metabólicas • Algunas bases de datos o fuentes de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl, RefSeq y PDB • Entrez es una colección de bases de datos nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en Genbank, RefSeq y PDB • Entrez (4/2006) tiene sobre 130 mil millones de bases! • Se puede utilizar el Genbank ID (e.g. X01714), un gene id (e.g. gi41296) o el nombre de la proteína (dUTPase) para iniciar búsquedas en Genbank Introducción a la Bioinformática Genómica Significado de los campos: Entrez / Genbank • • • • • • • • Locus: nombre de locus, tamaño de la secuencia (pb’s), el tipo de molecula (ADN, ARN), topologia (lineal o circular) Definition: definición corta del gen que corresponde a la secuencia Accession: lista el identificador único en las varias bases de datos (e.g. X01714) Keywords: palabras claves Source: el nombre común del organismo relevante al cual pertenece la secuencia Organism: Identificación del organismo completo con la completa información taxonómica Reference: Artículos en los que se determino la secuencia Comments: Comentarios Introducción a la Bioinformática Genómica Significado de los campos: Entrez / Genbank • • • • FEATURES: Área que incluye varias secciones • source: Origen de regiones especificas en la secuencia, se usa para distinguir vectores de clones de secuencias • promoter: muestra la ubicación precisa de un elemento promotor • misc feature: característica miscelánea, indica comienzo de trascripción • RBS (Ribosome Binding Site): lugar del ultimo elemento al principio de la cadena (upstream) • CDS: secuencia codificante (ORFs) misc feature: indica elementos potencialmente reguladores BASE COUNT: cuenta de las bases a, t, c, g Secuencia: secuencia genética en líneas de 60 nucleótidos Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Como seleccionar un record de una secuencia especifica en un prokariote del gen dUTPase 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menu Search: Nucleotide 3. Escribir el identificador de Genbank / accession (X01714) 4. Seleccionar el link X01714 5. Seleccionar Display → Fasta para el formato FASTA 6. Seleccionar Text para generar un archivo texto Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Como seleccionar un record de una secuencia especifica, el gen dUTPase en el ARN mithocondrial de un eukariote 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menu Search: Nucleotide 3. Escribir el identificador de Genbank / accession (U90223) 4. Seleccionar el link U90223 5. Seleccionar Display → default para el formato FASTA 6. Seleccionar Text para generar un archivo texto Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Como seleccionar un record de una secuencia especifica en un eukariote del gen dUTPase en la secuencia genética (un cromosoma) 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menu Search: Nucleotide 3. Escribir el identificador de Genbank / accession (AF018430) 4. Seleccionar el link AF018430 5. Seleccionar Display → default para el formato FASTA 6. Seleccionar Text para generar un archivo texto FASTA es un formato formato para seleccionar (copiar y pegar) la secuencia de nucleótidos deseado. Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Para hacer una búsqueda relacionada con una proteína especifica (e.g. dUTPase) sin saber el número de accesión 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menu Search: Nucleotide 3. Escribir: human [organism] AND dUTPase [Protein name] y apretar Go La búsqueda va a retornar varias selecciones: AH005568 es la secuencia completa, el resto son exons y secuencias de aminoácidos nuclear y mitocondrial 1. Seleccionar Link al lado del link AF018432 y seleccionar secuencias relacionadas 2. La selección retorna varios datos, algunos son secuencias de ARNm como el U90223 Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Para hacer una búsqueda relacionada con una proteína especifica (e.g. dUTPase) sin saber el número de accesión 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menú Search: Nucleotide 3. Escribir: human [organism] AND dUTPase [Protein name] y apretar Go La búsqueda va a retornar varias selecciones: AH005568, ... algunas exones y otras son secuencias completas de aminoácidos nuclear y mitocondrial 1. Seleccionar Link al lado del link AF018432 y seleccionar secuencias relacionadas 2. La selección retorna varios datos, algunos son secuencias de ARNm como el U90223 Introducción a la Bioinformática Genómica Bases de datos de nucleótidos: Entrez Para hacer una busqueda relacionada con una proteína especifica (e.g. dUTPase) sin saber el número de accesión 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez 2. Elegir del menú Search: Nucleotide 3. Escribir: human [organism] AND dUTPase [Title] y apretar Go La búsqueda va a retornar mas de 190 selecciones de GenBank pero muchas son secuencias parciales de ARNm llamadas ESTs (Expressed Sequence Tags) Para eliminar estos ESTs: 1. Seleccionar Limits link (abajo de ventana Search) 2. Seleccionar Exclude ESTs 3. Ir a la parte de arriba y seleccionar Go Introducción a la Bioinformática Genómica Bases de datos de genes: LocusLink/Entrez Gene Para hacer una búsqueda relacionada con un locus (ubicación) de un gen en una cromosoma (no solo instancias de secuencias relacionados a un gen) 1. Ir a Genbank Entrez Gene: http://www.ncbi.nih.gov/entrez/query.fcgi?db=gene 2. En el For escribir: DUT (nombre del gen) y apretar Go 3. Ir a SNP Gene View: La búsqueda va a retornar el LocusID de tres organismos con este gen (dUTPase) Introducción a la Bioinformática Genómica Significado de los campos: Entrez Gene La búsqueda en Entrez Gene va a retornar la siguiente información (e.g. DUT), incluyendo su ubicación • Official Symbol: DUT and Name: dUTP pyrophosphatase [Homo sapiens] • Other Aliases: HGNC:3078, dUTPase • Other Designations: dUTP nucleotidohydrolase; deoxyuridine 5'-triphosphate nucleotidohydrolase; deoxyuridine triphosphatase • Chromosome: 15; Location: 15q15-q21.1 • GeneID: 1854 Introducción a la Bioinformática Genómica Bases de datos de genes Para trabajar con genomas completos virales: 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/. 2. Elegir en la barra arriba del menú: Genome 3. Hacer click en el link: Viruses 4. Escribir en la ventana de búsqueda: HIV2 5. Seleccionar 6. La barra azul simboliza el genoma del virus, se puede seleccionar para ver la región de interés 7. Se puede seleccionar la sección Coding para ver una lista de proteínas, esta a la vez se puede guardar (Save) en varios formatos incluyendo Fasta Introducción a la Bioinformática Genómica Bases de datos de genes Para trabajar con genomas completos bacteriales: 1. Ir a Entrez: www.ncbi.nlm.nih.gov/entrez/. 2. Elegir en la barra arriba del menú: Genome 3. Hacer click en el link Related resources: Microbial 4. Se puede seleccionar el genoma para una bacteria de interés 5. Se puede seleccionar bajo Genbank para ver la secuencia Introducción a la Bioinformática Genómica Proyecto del Genoma Humano Para trabajar con el genoma humano: 1. Ir a: http://www.ncbi.nlm.nih.gov/genome/guide/ Para buscar genes: 1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Gene 2. Ver sample searches : human muscular dystrophy Para ver homologias entre varios organismos y el genoma humano: 1. Ir a: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene 2. Seleccionar Tax Plot: Homo sapiens, mus musculus and rattus norvegicus 3. Plot It! Introducción a la Bioinformática Genómica Bases de datos de genes eukariotes: Ensembl Ensembl incluye el genoma de eukariotes como el ratón, humano, mosquito y mas: 1. Ir a Ensemble: www.ensembl.org/. 2. Elegir botón: Homo sapiens 3. Elegir cromosoma 15, al medio de q21.1 4. Se puede ver el gen DUT Otras cosas de interés son el mapa del sitio (Site Map) y el tour del sitio (Ensembl Tour) Ensemble también incluye información acerca de los genes como por ejemplo las enfermedades que han sido relacionados a el. Elegir data mining de la pagina principal. Otro sitio de interés es el buscados de genomas de USC: 1. Ir a : genome.cse.ucsc.edu/. 2. Ir a genomes, buscar: U90223 (dUTPase) Introducción a la Bioinformática Proteómica Bases de datos de proteínas • Secuenciar genomas es mas fácil que secuenciar proteínas de aminoácidos directamente • La mayoría de las secuencias de aminoácidos conocidas se ha obtenido indirectamente a través del análisis de secuencia genómicas • La proteómica o el estudio de la visualización y análisis de las moléculas de proteínas en organismos nos indican que las proteínas reales no actúan como se esperaría de una simple traducción de ORFs de nucleótidos • La razón es que cuando se traduce la cadena de aminoácidos puede ser muy modificada antes de convertirse en la proteína final • Esto se denomina maduración de la proteína Introducción a la Bioinformática Proteómica Bases de datos de proteínas Algunos etapas en la maduración (modificaciones de posttraducción) de las proteínas incluyen: 1. Cortes en la cadena de aminoácidos 2. Eliminación de fragmentos en la cadena de aminoácidos 3. Modificación química de aminoácidos especificas 4. Suma de moléculas de lípidos 5. Suma de moléculas glicosidicas (de azúcar) Un rol fundamentar para una base de datos de proteínas es mostrar esta información cuando esta disponible por experimentos (e.g. 2D gel electrofóresis) o se predice por técnicas computacionales Introducción a la Bioinformática Proteómica Bases de datos de proteínas • Para que la proteína haga su función correcto dentro de la célula es necesario que llegue a su ubicación correcta en el organismo o en la célula. Esto requiere que durante su traducción la cadena sea expuesta a señales especificas que célula utiliza para dirigir la proteína a su ubicación especifica atravesando membranas en su ruta • Algunos destinos finales de las proteínas incluyen: 1. Membrana celular 2. Afuera de la célula 3. Transportado al periplasma (para bacterias) 4. Transportado al mitocondria o otro organello 5. Transportado al núcleo celular Saber el destino final de la proteína es importante para saber su funcionamiento y este tipo de información se incluye bases de datos de proteínas Introducción a la Bioinformática Introducción a la Bioinformática Proteómica Bases de datos de proteínas • Factores adicionales para determinar el funcionamiento de la proteína son sus folds (vueltas) • Típicamente estos se determinan a través de la hidrofobicidad, acoplamiento (docking) de los aminoácidos, cargas electrostáticas • La cadena péptica se convierte en una proteína en 3D funcional y estable a través de esta vueltas • La estructura final depende de subdominios (o formas) de aminoácidos que funcionan como bloques lego • La naturaleza organiza estos bloques para producir la inmensa variedad de proteínas existentes • La mayoría de las proteínas naturales están hechas de combinaciones de una a 10 dominios elegidos de varios miles • Estos dominios se identifican por características bases (signaturas) de aminoácidos, estas secuencias conservadas que generan dominios se denominan motifs Introducción a la Bioinformática Proteómica 1A5P:_ RIBONUCLEASE A KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV KETAAAKFER QHMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT QANKHIIVAC EGNPYVPVHF DASV Introducción a la Bioinformática Y F C S L W H L R P Q I N S K R T M D V A E G Introducción a la Bioinformática Proteómica Bases de datos de proteínas: SWISS-PROT • La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT • Se utiliza el Primary Accession Number (identificador de la proteína) para identificar una secuencia que se quiere encontrar (e.g. P32861) • SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados • TrEMBL es una base de datos automáticamente anotada Introducción a la Bioinformática Proteómica Bases de datos de proteínas: SWISS-PROT Como ejemplo vamos a ver la proteína denominada EGF receptor: 1. Ir a SWISS-PROT: www.expasy.ch/sprot/. 2. Escribir en la ventana Search: P00533 3. Go! Introducción a la Bioinformática Proteómica Significado de los Campos: SWISS-PROT La búsqueda en SWISS-PROT va a retornar varios campos: • Entry Name: identificador que indica que tipo de registro se retorno en la búsqueda, no es necesariamente estable (puede cambiar) • Primary Accession Number: identificador único y estable de la secuencia, este numero tiene que ser usado como referencia del trabajo (e.g. P00533) • Secondary Accession Numbers: identificadores antiguos relacionados con esta secuencia • Fecha inicial • Sequence was last modified in: Fecha ultima modificación • Annotations were last modified in: últimos cambios a este registro Introducción a la Bioinformática Proteómica Significado de los Campos: SWISS-PROT Otros campos retornados: • Protein name: información descriptiva de la secuencia • Synonyms: el nombre y numero de la reacción bioquímica que esta proteína (enzima) ejecuta • Gene name: nombre del gen relacionado • From: origen de la proteína • Taxonomy: clasificación taxonómica del organismo origen de la proteína • Comments: sección con información de utilidad que no pertenece a otra de las secciones • Cross-References: sección con enlaces a otras bases de datos que contienen información acerca de esta proteína • Keywords: palabras claves en este registro • Features: sección que mapea la información de la proteína a su secuencia Introducción a la Bioinformática Genomica Bases de datos de Vías Metabólicas • Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC • KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial • En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda) • BRENDA es un sistema de información enzimático • IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli Introducción a la Bioinformática Vías Metabólicas Bases de datos de Vías Metabólicas • Típicamente se utiliza el nombre de la via (e.g. Xenobiotics/DDT, 2,4-DICHOLOROBENZOATE DEGRADATION) • KEGG: • www.genome.ad.jp/kegg • Expasy: • www.expasy.ch/cgi-bin/search-biochem-index • Brenda: • www.brenda.uni-koeln.de/ •La IUMBM tiene informacion sobre nombres de enzimas: • www.chem.qmw.ac.uk/iubmb/ • ECOCYC: • www.ecocyc.org Introducción a la Bioinformática Vías Metabólicas Bases de datos de Vías Metabólicas: KEGG # [ LinkDB | KEGG ] # ENTRY EC 2.7.1.2 # NAME Glucokinase # CLASS Transferases Transferring phosphoruscontaining groups Phosphotransferases with an alcohol group as acceptor # SYSNAME ATP:D-glucose 6-phosphotransferase # REACTION ATP + D-Glucose = ADP + D-Glucose 6phosphate # SUBSTRATE ATP D-Glucose # PRODUCT ADP D-Glucose 6-phosphate # COMMENT A group of enzymes found in invertebrates and microorganisms highly specific for glucose. <...> Introducción a la Bioinformática Vías Metabólicas Aplicaciones Para Comparar Secuencias • BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias • Las principales versiones son BLASTP y TBLASTN • BLASTP compara la secuencia de una proteína con una base de datos de proteínas • TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos Introducción a la Bioinformática Herramientas Bioinformáticas Usos de BLAST • Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs Introducción a la Bioinformática Herramientas Bioinformáticas BLASTP: Protein to Protein BLAST Como ejemplo vamos a usar el servidor NCBI BLAST para encontrar proteínas similares al nucleolin del hamster en la base de datos SWISS-PROT: 1. Ir a BLAST: www.ncbi.nih.gov/BLAST 2. Elegir Standard protein-protein BLAST 3. Insertar proteina a comparar: puede ser usando el numero de accesion (P09405) o insertando la secuencia en formato FASTA 4. Choose database: swissprot 5. Deseleccionar CD Search (dominios conservados muy tipicos como Zn Fingers) 6. Apretar BLAST! 7. Seleccionar Format! que abre una ventana nueva 8. Guardar los resultados (Save Picture As) Introducción a la Bioinformática Herramientas Bioinformáticas Resultados de BLAST • Parte grafica: muestra donde nuestra secuencia es similar a las otras secuencias • Hit list: nombre de secuencias similares a la nuestra • Alignments: los alineamientos entre nuestra secuencia y las secuencias similares • Parametros: parametros usados Introducción a la Bioinformática Herramientas Bioinformáticas Resultados de BLAST • Sequence Accesion Number • Description • Bit score – estima el significado del alineamiento (mientras mayor mejor) • E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor) • Alineamientos (%identidad, largo) Introducción a la Bioinformática Herramientas Bioinformáticas Otros tipos de BLAST • BLASTP compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas • BLASTN compara una secuencia de nucleótidos contra una base de datos de nucleótidos • BLASTX toma una secuencia de nucleótidos y la traduce en los seis posibles RFs para comparar con una base de datos de secuencias de proteínas • TBLASTN compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoácidos a todos sus posibles RFs • TBLASTX compara una secuencia de aminoácidos contra una base de datos de nucleótidos, traduciendo la secuencia de aminoacidos y la base de datos a todos sus posibles RFs Introducción a la Bioinformática Herramientas Bioinformáticas Aplicaciones Para Comparar Secuencias Múltiples • Alineamientos múltiples se utilizan para comparar secuencias homologas (ancestro comun) • Se alinean aminoácidos o nucleótidos en la misma columna por que son homólogos de acuerdo a algún criterio • Los criterios principales son: • similitud estructural • similitud evolucionaría • similitud funcional • similitud secuencial Los programas automáticos típicamente usan el criterio de similitud secuencial porque es el mas fácil de implementar. Cuando las secuencias son similares todos los criterios son equivalentes Introducción a la Bioinformática Herramientas Bioinformáticas Aplicaciones Para Comparar Secuencias Múltiples Una comparación de múltiples secuencias nos permite: • Extrapolar: determinar que una secuencia realmente es parte de una familia de proteinas o dominio • Analisis filogenetico: con una seleccion cuidadose se puede reconstruir la historia evolucionaria de las proteinas • Identificacion de patrones: al descubrir una region conservada se puede identificar una region que es caracteristica de una funcion (motif) en secuencias nucleicas o de aminoacidos • Elementos reguladores de ADN: se puede encontrar sitios de binding • Prediccion de estructura: ayuda a generar predicciones de la estructura 3D de la proteina • Analisis PCR: identificar porciones menos degeneradas de la familia de proteinas Introducción a la Bioinformática Herramientas Bioinformáticas Aplicaciones Para Comparar Secuencias Múltiples Este análisis nos permite ver las fuerzas que moldean la evolución: Aminoácidos (o nucleótidos) importantes no cambian (mutan)... Porque? Los menos importantes cambian mas fácilmente, a veces aleatoriamente, y a veces para adaptarse a una función Introducción a la Bioinformática Herramientas Bioinformáticas KEGG, Genbank y BLAST para encontrar vías de interés en un organismo especifico (eg. LB400) Como encontrar si hay una enzima especifica de una vía especifica en un genoma de interés (e.g. LB400): 1. Ir a KEGG: http://www.genome.jp/kegg/pathway.html 2. Elegir: 2,4-Dichlorobenzoate degradation 3. Elegir: enzima 1.1.3.38 (vanillyl-alcohol oxidase) 4. Ir a Genbank: http://www.ncbi.nlm.nih.gov/ 5. Elegir una proteina que no diga mutante en Nombre, ni Hipotetical/Putativo en Organismo Elegir Numero de accesión: P56216 Ver en formato FASTA y copiar • Ir a LB400: http://genome.ornl.gov/microbial/bfun/ • Hacer TBLASTN con secuencia en formato FASTA, ver si la secuencia tiene alineamientos correctos Introducción a la Bioinformática Herramientas Bioinformáticas BLAST para seleccionar secuencias para el Alineamiento Múltiple Vamos a usar ExPASy BLAST y ExPASy para encontrar secuencias parecidas a la proteína P20472 (calcium kinase): 1. Ir a ExPASy: http://www.expasy.ch/cgi-bin/BLASTEMBnet-CH.pl 2. Insertar proteina a comparar: P20472 3. Seleccionar: blastp 4. Elegir SWISS-PROT + TREMBL + TREMBL_NEW 5. En Options: elegir el numero de secuencias (scoring y alignment) a 1000 6. Apretar BLAST! 7. Seleccionar secuencias: 10 o menos (al principio) 8. Exportar las secuencias: (usar FASTA) Introducción a la Bioinformática Herramientas Bioinformáticas ClustalW para Alineamiento Múltiple 1. 2. 3. 4. 5. 6. 7. Ir a ClustalW: www.ebi.ac.uk/clustalw/index Insertar secuencias en la ventana Sequence En Alignment pulldown: elegir Fast En Output Format pulldown: elefir Aln Without Numbers En Output order: elegir Input Presionar el boton RUN Guardar los resultados Los resultados se analizan para ver las posiciones que son importantes y que no se les permite mutar (conservados) evolucionariamente. Introducción a la Bioinformática Genómica Evolución Genética • Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s) • Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976) • Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357) Introducción a la Bioinformática Genómica Análisis Filogenético: Definiciones • Genes Homólogos: Genes con un ancestro común • Genes Ortólogos: Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies • Genes Paralogs: Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada • Genes Xenologs: Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado Introducción a la Bioinformática Búsqueda de secuencias/proteínas homologas: Introducción a la Bioinformática Genómica Análisis filogenético: Ortólog y Paralog A Duplicación A B Especiación A1 B1 A2 B2 Introducción a la Bioinformática Genómica Análisis filogenético: Globina y Myoglobina Globin ancestor Ancestral duplication globin gene globin mouse globin globin man Myoglobin Myoglobin mouse Myoglobin man Introducción a la Bioinformática Genómica Análisis Filogenético: Algunas herramientas • ClustalW: Herramienta de tipo caja negra para análisis filogenético • Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción Introducción a la Bioinformática Motivación para los estudios Bioinformáticos: Medicina Genome Gene map Gene sequence Expression t c g c g c g g t g a t Diseases Alzheimers Cancer Arthritis g t c t g t c a t a t g g g t g a a t a t t a c c t g g c g t g c t a g CV Disease MS Obesity Vision Arthritis Introducción a la Bioinformática Genómica Análisis Filogenético: Algunas herramientas Ir a Entrez: Genome Seleccionar Microorganismo Seleccionar proteína de interés Exportar la secuencia (FASTA) Seleccionar: blastp (protein-protein) Apretar BLAST! Se detectan los dominios putativos conservados Hacer click en la secuencia conservada (en rojo) Click en search for similar domain architecture para comparar con otros microorganismos Introducción a la Bioinformática Ejemplo. Bacillus anthracis plasmid: pX01 Introducción a la Bioinformática SE ACABO? Referencias • • • • • • • Brown, T.A., Genomes, Wiley, 1999 Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003 Perkus, J. K., Mathematics of Genome Analysis, 2002 Gibas, C., Developing Bioinformatics Computer Skills, 2001 http://www.biologia.edu.ar/index.html http://www.arrakis.es/%7Elluengo/ Link antiguo: http://www.multisan2001.com