Download PPT - CSIC

Document related concepts
no text concepts found
Transcript
Genómica Estructural
Asignatura de Genómica Vegetal
Máster del IBMCP
Curso 2009-2010
Análisis de secuencias
1
Secuencia “cruda”
2
Predicción de genes
3
Elementos reguladores en cis
4
Motivos en proteína
5
Función hipotética
Predicción de genes
Algoritmos
• Genscan (http://genes.mit.edu/GENSCAN.html)
• GeneMark (http://opal.biology.gatech.edu/GeneMark/)
Fuentes de información
• Secuencias consenso de procesamiento
• Similitud de secuencia
Refinado estructura exones / intrones
• Secuencias de inicio transcripción
• Secuencias de poliadenilación
El algoritmo GENESCAN
• Se basa en un modelo probabilístico.
• Tiene en cuenta el sesgo de uso de codones en
regiones codificantes, codones de inicio y parada,
tamaños típicos de exones, presencia de
promotores, presencia de genes en las dos
cadenas…)
• No usa búsquedas de similitudes para predecir
genes
• No tiene en cuenta el procesamiento alternativo
• Podría combinar dos exones de genes
consecutivos.
Predicción de genes (fiabilidad)
Parámetros
(Sensibilidad) Sn=
Exones correctos
Exones reales
Exones correctos
(Especificidad) Sp=
Exones predichos
ME=Exones que faltan: anotados, pero no predichos
WE=Exones equivocados: predichos, pero no reales
CE=Exones correctos: predichos, y reales
Realidad
Predición
WE
CE
ME
Predicción de genes (valoración)
A favor
• El número de genes predichos es correcto
• Funciona bien para genes simples
En contra
• El diseño de los algoritmos es bueno para
vertebrados
• Exones iniciales y finales son más difíciles de
predecir correctamente
Protocolos de “inteligencia artificial”
Características
• Los programas infieren los criterios de búsqueda
basándose en la “experiencia”
Algoritmos
Neural Networks - Hidden Markov Models Stochastic context-free grammars
Ejemplos
• NNDP (Neural Network Promoter Predictor)
(http://www.fruitfly.org/seq_tools/promoter.html)
• GRAIL
(http://compbio.ornl.gov/tools/index.shtm)
Anotación de las secuencias
Objetivo
• Dar “nombre” a la secuencia. Atribuirle una
función hipotética
¿Con qué respuesta nos conformamos?
Procedimientos
• Búsqueda de genes parecidos, ya presentes
en las Bases de Datos (FASTA, BLAST,…)
• Búsqueda de motivos en la proteína y en
el promotor
Búsqueda de homologías en Bases de Datos
FASTA vs BLAST
• FASTA es más sensible que BLAST para
búsquedas basadas en secuencias de nucleótidos
• BLAST es bueno para encontrar homologías
“locales” en secuencias de aminoácidos
BLAST
Tipos de búsqueda
Blastn
Sec fav: nuc
DB:
nuc
Blastp
prot
prot
Blastx
nuc (tr)
prot
Parámetros importantes
• Código genético a emplear
• Filtro de complejidad
• P value
Tblastn
nuc (tr)
nuc (tr)
Tblastx
prot
nuc (tr)
BLAST
Sequences producing High-scoring Segment Pairs:
Score
sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) (... 1191
sp|P01014|OVAY_CHICK GENE Y PROTEIN (OVALBUMIN-RELATED).
949
sp|P01012|OVAL_CHICK OVALBUMIN (PLAKALBUMIN).
645
sp|P19104|OVAL_COTJA OVALBUMIN.
626
sp|P05619|ILEU_HORSE LEUKOCYTE ELASTASE INHIBITOR (LEI).
216
sp|P80229|ILEU_PIG
LEUKOCYTE ELASTASE INHIBITOR (LEI) (...
325
sp|P29508|SCCA_HUMAN SQUAMOUS CELL CARCINOMA ANTIGEN (SCC...
439
sp|P30740|ILEU_HUMAN LEUKOCYTE ELASTASE INHIBITOR (LEI) (...
211
sp|P05120|PAI2_HUMAN PLASMINOGEN ACTIVATOR INHIBITOR-2, P...
176
sp|P35237|PTI_HUMAN PLACENTAL THROMBIN INHIBITOR.
473
sp|P29524|PAI2_RAT
PLASMINOGEN ACTIVATOR INHIBITOR-2, T...
183
sp|P12388|PAI2_MOUSE PLASMINOGEN ACTIVATOR INHIBITOR-2, M...
179
sp|P36952|MASP_HUMAN MASPIN PRECURSOR.
198
sp|P32261|ANT3_MOUSE ANTITHROMBIN-III PRECURSOR (ATIII).
142
sp|P01008|ANT3_HUMAN ANTITHROMBIN-III PRECURSOR (ATIII).
122
P(N)
7.7e-160
7.0e-127
3.4e-100
1.2e-96
3.7e-71
4.0e-71
3.5e-70
1.3e-66
1.8e-65
1.3e-61
9.4e-61
1.8e-60
2.6e-58
4.0e-48
7.5e-48
Anotación de las secuencias
Resultado
gene
CDS
117519..121391
/gene="At5g01290"
/note="T10O8.2; F7J8.270; mRNA capping enzyme (HCE), Homo
sapiens, EMBL:AF025654"
join(117519..117617,117741..117858,117932..118050,
118141..118242,118329..118391,118521..118655,
118748..118954,119354..119473,119876..119965,
120119..120259,120425..120532,120626..120712,
120863..121171,121266..121391)
/gene="At5g01290"
/codon_start=1
• Gen con función conocida
• Gen parecido a uno con función conocida
• Gen parecido a uno sin función conocida
• Gen sin parecido a otros
Búsqueda de elementos reguladores
TATA box
CAAT box
… CAAT …
DOF core
… AAAG …
GCBP2
… GTGGGCCCG …
• PLACE (Database of Plant Cis-Acting Regulatory
DNA Elements)
(http://www.dna.affrc.go.jp/htdocs/PLACE/signalscan.html)
• PlantCARE (Plant Cis-Acting regulatory Elements)
(http://sphinx.rug.ac.be:8080/PlantCARE/)
Búsqueda de elementos reguladores
• Promomer
(http://www.bar.utoronto.ca/ntools/cgi-bin/BAR_Promomer.cgi)
Búsqueda de motivos en proteínas
Nt
Ct
NLS (Transporte
al núcleo)
Myb (Unión
al DNA)
Cremallera de leucinas
(Interacción Prot-prot)
Desconocido
• TargetP, ChloroP (http://www.cbs.dtu.dk/services)
• MetaPredict (http://dodo.bioc.columbia.edu/predictprotein/)
• Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/)
Búsqueda de motivos en proteínas
Nt
Ct
Nt
Ct
Nt
Ct
… DGMNEHLEKKDVACA …
Búsqueda en Bases de Datos
• Pattern Matching (http://www.arabidopsis.org/cgi-bin/patmatch/)
• Protein Families Database of Alignments (PFAM)
(http://www.sanger.ac.uk/software/pfam)
Búsqueda de motivos en proteínas
Análisis 3D automatizado
Filogenia estructural
Análisis de polimorfismos
• La secuencia de nucleótidos varía ligeramente en
variedades de una misma especie
Ejemplo: Ler vs. Col, 56,670 polimorfismos
37,344 SNPs
18,759 InDels
747 InDels grandes
http://www.arabidopsis.org/Cereon/index.html
Aplicaciones
Identificación de variedades
Establecimiento de mapas
Asistencia a la clonación
Diagnóstico
RFLPs, CAPS, dCAPS
AFLPs
chips de SNPs
CAPS
Cleaved Amplified Polymorphic Sequences
DNA genómico
Landsberg
EcoRI
EcoRI
Heterozigoto
Columbia
EcoRI
EcoRI
EcoRI
EcoRI
dCAPS
Derived-CAPS
Var1
…GTGGAAGAAGCTCGATGAGGCTTTGGGG…
Var2
…GTGGAAGAAGCTCGATGAGGCTTTGAGG…
Bsl I
Primer dCAP
Var1
Var2
CCNNNNNNNGG
GTGGAAGAAGCTCGACCAGGCTTTG
PCR
(dCAP + Pr2)
Digestión
Bsl I
AFLP
Amplified Fragments Length Polymorphisms
DNA genómico
Digestión (frec+rara)
Ligación adaptadores
Amplificación por PCR
AFLP fingerprint