Download Titulo titulo, titulo titulo - Decsai

Document related concepts
Transcript
Bioinformática y la era post-genómica
Coral del Val Muñoz
Dept. Ciencias de la Computación e Inteligencia Artificial,
Universidad de Granada
Dept. Molecular Biophysics, German Cancer Research Center Heidelberg, Alemania
Dept. Molecular Microbiology HHMI, Washington University, St. Louis USA
Volvemos al principio…“El dogma central”
ADN
Replicacion
ARN
Trascripción
Proteína
Traducción
Biología Molecular:
ProcariotasVsEucariotas
•
Eucariotas: tienen una
membrana nuclear y orgánulos
(plantas, animales, hongos,…)
•Procariotas: no tienen una membrana
Que separe núcleo y orgánulos (bacteria)
•NO todos los organismos unicelulares son procariotas (levadura)
BIOS Scientific Publishers Ltd, 1999
¿Cómo y dónde encontramos los genes?
ATGCCAGGCCCCCCACCAGCCACGTTGGGGCAGCCCCCACAGCTCCCGGCCTTCGGGCCAAGGTGTCGGGGTGCGTCTCCTGGCCCATC
AATACAGATTACATATTTATATCAATCGCGGGCTCTGAGGGCGCCCTCGGAGAGCGGCCCCGCGCCTACGAAACCAAACTGGGAGTGG
TCGCGCGGAAACTCTGGCTCGGGATTGGCTGCGGGCGCCCGCCGCGGTGCGGGGGGATTGCTAATCGTATTCAGCATGTTTTGCACAAG
AAATGTCAGCCAGAAAGGGCTATCTGCTCCCTTCGCCAAATTATCCCACAACAATGTCATGCTCGGAGAGCCCCGCCGCGAACTCTTTT
TTGGTCGACTCGCTCATCAGCTCGGGCAGAGGCGAGGCAGGCGGCGGTGGTGGTGGCGCGGGGGGCGGCGGCGGTGGCGGTTACTACG
CCCACGGCGGGGTCTACCTGCCGCCCGCCGCCGACCTGCCATACGGGCTGCAGAGCTGCGGGCTCTTCCCCACGCTGGGCGGCAAGCGC
AATGAGGCAGCGTCGCCGGGCAGCGGTGGCGGTGGCGGGGGTCTAGGTCCCGGGGCGCACGGCTACGGGCCCTCGCCCATAGACCTGT
GGCTAGACGCGCCCCGGTCTTGCCGGATGGAGCCGCCTGACGGGCCGCCGCCGCCGCCCCAGCAGCAGCCGCCGCCCCCGCCGCAACC
ACCCCAGCCAGCGCCGCAGGCCACCTCGTGCTCTTTCGCGCAGAACATCAAAGAAGAGAGCTCCTACTGCCTCTACGACTCGGCGGACA
AATGCCCCAAAGTCTCGGCCACCGCCGCCGAACTGGCTCCCTTCCCGCGGGGCCCGCCGCCCGACGGCTGCGCCCTGGGCACCTCCAGC
GGGGTGCCAGTGCCTGGCTACTTCCGCCTTTCTCAGGCCTACGGCACCGCCAAGGGCTATGGCAGCGGCGGCGGCGGCGCGCAGCAACT
CGGGGCTGGCCCGTTCCCCGCGCAGCCCCCGGGGCGCGGTTTCGATCTCCCGCCCGCGCTAGCCTCCGGCTCGGCCGATGCGGCCCGGA
AGGAGCGAGCCCTCGATTCGCCGCCGCCCCCCACGCTGGCTTGCGGCAGCGGCGGGGGCTCGCAGGGCGACGAGGAGGCGCACGCGTC
GTCCTCGGCCGCGGAGGAGCTCTCCCCGGCCCCTTCCGAGAGCAGCAAAGCCTCGCCGGAGAAGGATTCCCTGGGTAAGCAGGGCTGC
AGAGGGCTGCAGTCAGGCGGGCAGACAGGCAGACACAAGGAGGAGAAGGATCAGAAAACTAGGAGCCCGCGCAGCAGCCGGCCGGC
CTTGGCCCAAGCTGCAGGCAGGCTGACCTTGTGAACTTGCTTTTTAATATTTGGGCGTGGGGGCGCAGTAAAATTCATGTCCGGCTTAG
CGCCCCACAGCAAGACGTCCTCGGCGCTGGCCTCAGCTCCCCCTGACTAGGGACGAGGACACCAGCGAGCAGGCCCCCTCCTGTGCGCT
CTTTCCTGTGGCCGGGAGGACCCAGAGCCCTGGTCCCTGCCCAGCCTGCGCGGCGCGGCCCACGCGGGGGGAGGGGGAGGGAGGGAAA
GTAGCTCGCCCGCAGATAGCGCGGATGTTTGTAAGGCATCCAAAATAAGCAGCCGCCAGCGCCAATAAATAAGCCCATTAACCGGCGA
AGTTCGAGTGTACGATCCCCCATGCTTTTTTCAAAGTTGCTGAGGGGCGGGAATCTTCGTGGCGGGAAGAAGAAAAGGCAAATCCGGC
CTGGAAGCGGGGGGCCCTGAGCTGAGAGCCAGAGAAGGGCCATTTCCCTTCCCCTGGACCTCGGAATCGCCCAGCTATGTATCCTGGCT
CCTGGAGAAACTTGAGGGAGGGCCCTTGACCCCCGAATCGGTTTTTCCTGCCTTCCCCATTGGACCAATGATGCCCTTCTTTCTCCCCTT
ATCGAGTCTTGGGCAATCAGGGCCCTGGGGTGAGACAGCCAAGCTGCCTGGCCCATCTTCCAAGTAAGCACCCCGCGCTCCTAGCCTGG
GGGCTACAGGAAATGCTTGTCTGCCATATGGCAAGAGGCAAAGAAAAGCGTTAAGTTCAAGATGTACAGCCTGCCCTCCCAGGCCTTTC
CTTCTGCAAGCATCTACGGCTTAGCGCTAAAACAGGTGTTTGGAAAAGTGGGGGAAATGTAAATTGGAAGGGTCATGTAGATTGAAGG
CCCACTCAATTTTTGTCATGACTTATGGAGGAACTGCTTGCTCTCAGCAAGCCAAAAACGGGGGCACGACTCTCTTCTCTGTGACTTGGG
ACATCTCTCTTATGGGAGAAACGGAGGCAATTCACCCCCGCGGGCAGCCCGTGTGGCCTCGACTTAATCATCCCCTCTTTATTCTCTTAC
ATGCCAGGCAATTCCAAAGGTGAAAACGCAGCCAACTGGCTCACGGCAAAGAGTGGTCGGAAGAAGCGCTGCCCCTACACGAAGCAC
CAGACACTGGAGCTGGAGAAGGAGTTTCTGTTCAATATGTACCTTACTCGAGAGCGGCGCCTAGAGATTAGCCGCAGCGTCCACCTCAC
GGACAGACAAGTGAAAATCTGGTTTCAGAACCGCAGGATGAAACTGAAGAAAATGAATCGAGAAAACCGGATCCGGGAGCTCACAGC
CAACTTTAATTTTTCCTGATGAATCTCCAGGCGAC
Gen procariota (bacterias)
• Alta densidad de genes y estructura sencilla
• Genes cortos con poca información
• Genes solapados
Ejemplo de promotor procariota
• Pribnow box located at –10 (6-7bp)
• Promoter sequence located at -35
(6bp)
Eukaryotic Gene Organisation
Promoter
GC
CAAT
Proximal
Promoter
proximal
TSS
TATAPromoter
Inr
Core
core
Transcription:
core promoter: loosely conserved initiator region (Inr) around
TSS
~ - 25: TATA-box
proximal promoter: ~ - 75: CAT (CCAAT)
~ - 170: GC-box
enhancer/silencer: upstream or downstream to promoter
Translation:
• 5‘ Kozak sequence:
GCCACCATG
• 3‘ polyadenylation site: AATAAA
Gen eucariota (con núcleo)
• Baja densidad de genes y estructura compleja
• Corte y unión alternativo (Splicing alternativo)
5'UTR
• Pseudo-genes
Exon 1
preRNA:
Intron 1
Exon 2
3'UTR
Exon 3
Intron 2
ATG
TAA
Splicing /
Polyadenylation
polyA
TAA AAAAAAAAA
ATG
mRNA:
Traducción
active protein:
CPLTW
..............GFL
Splice variant
CPLTW
..............PJC
Modificación posttransduccional
CPLTW
..............LAC
Genes Procariotas vs Eucariotas
Espliceosoma
¿Cómo reconocer un gen?
• Por homología (similaridad en la secuencia)
– Requiere una secuencia similar no muy distante
• Ab initio
– Requiere: Información de su composición
– Información de señales
Identificación por homología
Alineamientos por pares
- Globales: Needleman & Wunsch
- Locales: Smith & Watterman
Alineamientos múltiples:
- Clustalw
- T-Coffee
- Di-Align
- DSC
Búsquedas en Bases de Datos
- BLAST
- Phi-BLAST
- FASTA
- Megablast
- Psi-BLAST
- BLAT
- WU-BLAST
Métodos por homología
• Problemas:
– Genes sin homólogos en las bases de datos
no son detectados
– Se requiere de homólogos cercanos para
deducir la estructura del gen
Métodos ab Initio
• Integra la detección de señales con las
estadísticas de codificación
– Éstas se deducen de un conjunto de
entrenamiento
– Detectar pequeños motivos de ADN
(promotores, start/stop codons, splice sites,
etc.)
• Un sistema de puntuación “scoring” puede ser
utilizado para evaluar estas predicciones
Detección de señales
• El problema de la detección de señales
– Las señales de ADN tienen un bajo nivel de información
– Son altamente inespecíficas y degeneradas
– Dificultad para distinguir un TP de un FP
• Como mejorar la detección de señales
– Tomar en cuenta el contexto (ej. un sitio aceptor debe
encontrarse entre un intrón y un exón)
– Combinar las estadísticas de codificación
PSWM
Gribskov Profiles
Modelos Ocutos de Markov
Redes Neuronales
Métodos ab Initio
Probabilidad de la
región codificante
Secuencia de ADN
Búsqueda de señales y
regiones codificantes
Modelos Ocutos de Markov
PSWM
Gribskov Profiles
Redes Neuronales
Computational annotation tools
•
•
•
•
Gene finding
Repeat finding
EST/cDNA alignment
Homology searching
– BLAST, FASTA, HMM-based methods, etc.
• Protein family searching
– PFAM, Prosite, etc.
Which analyses need to be run?
• Similarity searches
– BLAST (Altschul et al., 1990)
• BLASTN (nucleotide databases)
• BLASTX (amino acid databases)
• TBLASTX (amino acid databases, six-frame translation)
– sim4 (Miller et al., 1998)
• Sequence alignment program for finding near-perfect
matches between nucleotide sequences containing introns
• Gene predictors
– Genefinder (Green, unpublished)
– GenScan (Burge and Karlin, 1997)
– Genie (Reese et al., 1997)
• Other analyses
– tRNAscanSE (Lowe and Eddy, 1996)
Which analyses need to be run and how?
• mRNAs
– ORFFinder(Frise, unpublished)
• Protein translations
– HMMPFAM 2.1 (Eddy 1998) against PFAM (v
2.1.1 Sonnhammer et al. 1997, Bateman et al.
1999)
– Ppsearch (Fuchs 1994) against ProSite (release
15.0) filtered with EMOTIF ( Nevill-Manning et al.
1998)
– Psort II (Horton and Nakai 1997)
– ClustalW (Higgins et al. 1996)
Raw sequence: Adh.fa
GAATTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATAC
TTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTG
TTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGG
GCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAA
ACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGG
AATTCCACGGAAATGTCAGGAGATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGC
GGCGATCTCGTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTT
TGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGT
TTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCC
CTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCAC
TGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGG
AATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGA
GATAGGAGAAGAAAACAGAACAACAGCAAATACTGAGCCCAAATGAGCGATAGATAGATAGATCGTGCGGCGATCTCGTACTGGTAACT
GGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGGTTCTGGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCC
AGTTCTCTGGCTCGTTGCCTGTGCCAATTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAA
TTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTA
CAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCAT
TGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCAACAGACGGAATACCTGCCCGCCCCTTGCC
GTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGACTGCTCGTACTGTTGGGCGAGGATTCCGT
AAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTATCAGAGATCCGTATTGTGTGGCCGTGGGGA
GACCCTTCTCGCTTAGCATCGAAAAGCTTACGATCGGGTTTTGGGCTTTGGTTGTGGCCTCCAGTTCTCTGGCTCGTTGCCTGTGCCAA
TTCAAGTGCGCATCCGGCCGTGTGTGTGGGCGCAATTATGTTTATTTACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTC
TCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAGAACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAG
CTGGGCATACTTCTTTTCCTTCTCCCTTCCCATGTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGA
CCTGATCCTGTTTGACTGGTAACTGGTAATTTGATCGATTCAAACGATTCTGGGTCTCCCCGGTTTTCTGTCCCGGTTCAATCTCGTAG
AACTTGCCCTTGGTGGACAGTGGGACGTACAACACCTGCCGGTTTTCATTAAGCAGCTGGGCATACTTCTTTTCCTTCTCCCTTCCCAT
GTACCCACTGCCATGGGACCTGGTCGCATTGCCGTTGCCATGTTGCGACATATTGACCTGATCCTGTTTGCCATCCTCGAAGACGGCCA
ACAGACGGAATACCTGCCCGCCCCTTGCCGTCGTTTTCACGTACTGTGGTCGTCCCTTGTTTATGGGCAGGCATCCCTCGTGCGTTGGA
CTGCTCGTACTGTTGGGCGAGGATTCCGTAAACGCCGGCATGTTGTCCACTGAGACAAACTTGTAAACCCGTTCCCGAACCAGCTGTAT
CAGAGATCCGTATTGTGTGGCCGTGGGGAGACCCTTCTCGCTTAGCATCGAAAAGTAACCTGCGGGAATTCCACGGAAATGTCAGGAGA
TAGGAGAAGAAAACAGAACAACAGCAAATACTGTGCGGCGATCTCGTACTGGACGGAAATGTCAGGAGATAGGAGAAGAAAA
Secuencias reguladoras
• Promotores
– Elementos del nucleo promotor
• Caja TATA
• Initiador (Inr)
• Elementos posteriores al promotor (DPE)
– Factores de transcripción (“TF”)
•
•
•
•
caja CAAT
caja GC
sitios SP-1
caja GAGA
– Sitios activadores de la transcripción
Espliceosoma
Gracias por
su atención…
http://www.m4m.es