Download PPT - CSIC
Document related concepts
no text concepts found
Transcript
Genómica Estructural Asignatura de Genómica Vegetal Máster del IBMCP Curso 2009-2010 Análisis de secuencias 1 Secuencia “cruda” 2 Predicción de genes 3 Elementos reguladores en cis 4 Motivos en proteína 5 Función hipotética Predicción de genes Algoritmos • Genscan (http://genes.mit.edu/GENSCAN.html) • GeneMark (http://opal.biology.gatech.edu/GeneMark/) Fuentes de información • Secuencias consenso de procesamiento • Similitud de secuencia Refinado estructura exones / intrones • Secuencias de inicio transcripción • Secuencias de poliadenilación El algoritmo GENESCAN • Se basa en un modelo probabilístico. • Tiene en cuenta el sesgo de uso de codones en regiones codificantes, codones de inicio y parada, tamaños típicos de exones, presencia de promotores, presencia de genes en las dos cadenas…) • No usa búsquedas de similitudes para predecir genes • No tiene en cuenta el procesamiento alternativo • Podría combinar dos exones de genes consecutivos. Predicción de genes (fiabilidad) Parámetros (Sensibilidad) Sn= Exones correctos Exones reales Exones correctos (Especificidad) Sp= Exones predichos ME=Exones que faltan: anotados, pero no predichos WE=Exones equivocados: predichos, pero no reales CE=Exones correctos: predichos, y reales Realidad Predición WE CE ME Predicción de genes (valoración) A favor • El número de genes predichos es correcto • Funciona bien para genes simples En contra • El diseño de los algoritmos es bueno para vertebrados • Exones iniciales y finales son más difíciles de predecir correctamente Protocolos de “inteligencia artificial” Características • Los programas infieren los criterios de búsqueda basándose en la “experiencia” Algoritmos Neural Networks - Hidden Markov Models Stochastic context-free grammars Ejemplos • NNDP (Neural Network Promoter Predictor) (http://www.fruitfly.org/seq_tools/promoter.html) • GRAIL (http://compbio.ornl.gov/tools/index.shtm) Anotación de las secuencias Objetivo • Dar “nombre” a la secuencia. Atribuirle una función hipotética ¿Con qué respuesta nos conformamos? Procedimientos • Búsqueda de genes parecidos, ya presentes en las Bases de Datos (FASTA, BLAST,…) • Búsqueda de motivos en la proteína y en el promotor Búsqueda de homologías en Bases de Datos FASTA vs BLAST • FASTA es más sensible que BLAST para búsquedas basadas en secuencias de nucleótidos • BLAST es bueno para encontrar homologías “locales” en secuencias de aminoácidos BLAST Tipos de búsqueda Blastn Sec fav: nuc DB: nuc Blastp prot prot Blastx nuc (tr) prot Parámetros importantes • Código genético a emplear • Filtro de complejidad • P value Tblastn nuc (tr) nuc (tr) Tblastx prot nuc (tr) BLAST Sequences producing High-scoring Segment Pairs: Score sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) (... 1191 sp|P01014|OVAY_CHICK GENE Y PROTEIN (OVALBUMIN-RELATED). 949 sp|P01012|OVAL_CHICK OVALBUMIN (PLAKALBUMIN). 645 sp|P19104|OVAL_COTJA OVALBUMIN. 626 sp|P05619|ILEU_HORSE LEUKOCYTE ELASTASE INHIBITOR (LEI). 216 sp|P80229|ILEU_PIG LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 325 sp|P29508|SCCA_HUMAN SQUAMOUS CELL CARCINOMA ANTIGEN (SCC... 439 sp|P30740|ILEU_HUMAN LEUKOCYTE ELASTASE INHIBITOR (LEI) (... 211 sp|P05120|PAI2_HUMAN PLASMINOGEN ACTIVATOR INHIBITOR-2, P... 176 sp|P35237|PTI_HUMAN PLACENTAL THROMBIN INHIBITOR. 473 sp|P29524|PAI2_RAT PLASMINOGEN ACTIVATOR INHIBITOR-2, T... 183 sp|P12388|PAI2_MOUSE PLASMINOGEN ACTIVATOR INHIBITOR-2, M... 179 sp|P36952|MASP_HUMAN MASPIN PRECURSOR. 198 sp|P32261|ANT3_MOUSE ANTITHROMBIN-III PRECURSOR (ATIII). 142 sp|P01008|ANT3_HUMAN ANTITHROMBIN-III PRECURSOR (ATIII). 122 P(N) 7.7e-160 7.0e-127 3.4e-100 1.2e-96 3.7e-71 4.0e-71 3.5e-70 1.3e-66 1.8e-65 1.3e-61 9.4e-61 1.8e-60 2.6e-58 4.0e-48 7.5e-48 Anotación de las secuencias Resultado gene CDS 117519..121391 /gene="At5g01290" /note="T10O8.2; F7J8.270; mRNA capping enzyme (HCE), Homo sapiens, EMBL:AF025654" join(117519..117617,117741..117858,117932..118050, 118141..118242,118329..118391,118521..118655, 118748..118954,119354..119473,119876..119965, 120119..120259,120425..120532,120626..120712, 120863..121171,121266..121391) /gene="At5g01290" /codon_start=1 • Gen con función conocida • Gen parecido a uno con función conocida • Gen parecido a uno sin función conocida • Gen sin parecido a otros Búsqueda de elementos reguladores TATA box CAAT box … CAAT … DOF core … AAAG … GCBP2 … GTGGGCCCG … • PLACE (Database of Plant Cis-Acting Regulatory DNA Elements) (http://www.dna.affrc.go.jp/htdocs/PLACE/signalscan.html) • PlantCARE (Plant Cis-Acting regulatory Elements) (http://sphinx.rug.ac.be:8080/PlantCARE/) Búsqueda de elementos reguladores • Promomer (http://www.bar.utoronto.ca/ntools/cgi-bin/BAR_Promomer.cgi) Búsqueda de motivos en proteínas Nt Ct NLS (Transporte al núcleo) Myb (Unión al DNA) Cremallera de leucinas (Interacción Prot-prot) Desconocido • TargetP, ChloroP (http://www.cbs.dtu.dk/services) • MetaPredict (http://dodo.bioc.columbia.edu/predictprotein/) • Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/) Búsqueda de motivos en proteínas Nt Ct Nt Ct Nt Ct … DGMNEHLEKKDVACA … Búsqueda en Bases de Datos • Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/) • Protein Families Database of Alignments (PFAM) (http://www.sanger.ac.uk/software/pfam) Búsqueda de motivos en proteínas Análisis 3D automatizado Filogenia estructural Análisis de polimorfismos • La secuencia de nucleótidos varía ligeramente en variedades de una misma especie Ejemplo: Ler vs. Col, 56,670 polimorfismos 37,344 SNPs 18,759 InDels 747 InDels grandes http://www.arabidopsis.org/Cereon/index.html Aplicaciones Identificación de variedades Establecimiento de mapas Asistencia a la clonación Diagnóstico RFLPs, CAPS, dCAPS AFLPs chips de SNPs CAPS Cleaved Amplified Polymorphic Sequences DNA genómico Landsberg EcoRI EcoRI Heterozigoto Columbia EcoRI EcoRI EcoRI EcoRI dCAPS Derived-CAPS Var1 …GTGGAAGAAGCTCGATGAGGCTTTGGGG… Var2 …GTGGAAGAAGCTCGATGAGGCTTTGAGG… Bsl I Primer dCAP Var1 Var2 CCNNNNNNNGG GTGGAAGAAGCTCGACCAGGCTTTG PCR (dCAP + Pr2) Digestión Bsl I AFLP Amplified Fragments Length Polymorphisms DNA genómico Digestión (frec+rara) Ligación adaptadores Amplificación por PCR AFLP fingerprint