Download PRACTICO SECO 2009

Document related concepts

BLAST wikipedia , lookup

Homología de secuencias wikipedia , lookup

Genómica funcional wikipedia , lookup

FASTA wikipedia , lookup

Genómica computacional wikipedia , lookup

Transcript
PRACTICO SECO
ANALISIS DE HOMOLOGÍAS
BÚSQUEDA DE ELEMENTOS EN PROMOTOR EUCARIÓTICO
2009
1. Análisis de holmologías de secuencias
Como consecuencia del gran avance que se ha realizado en los Proyectos Genoma, en los últimos
años se ha acumulado gran información en secuencias de DNA y proteínas. Estas secuencias se
encuentran contenidas en distintas base de datos, siendo el GenBank (EEUU), el EMBL (Reino
Unido) y el DDBJ (Japón), las mayores bases de datos de secuencias nucleotídicas y de proteínas, y
SWISS PROT y PIR bases de datos únicamente de secuencias de proteínas. Estas bases de datos
son actualizadas diariamente y se encuentran disponibles en Internet por ejemplo en el NCBI (National
Center for Biotechnology Information), el cual provee de una base de datos no redundante (nr) que
incluye secuencias nucleotídicas y proteicas únicas de las bases de datos mencionadas anteriormente.
Las búsquedas de homologías permiten un primer acercamiento a la función biológica de un nuevo
gen. En las bases de datos del NCBI, las búsquedas son realizadas principalmente utilizando el
programa BLAST (Basic Local Aligment Search Tool), el cual constituye un algoritmo de búsqueda de
similitudes aplicable a cualquier secuencia de DNA o proteína. Dado que existen cinco aplicaciones
distintas del programa BLAST, el primer paso en la búsqueda de homología consiste en seleccionar el
programa BLAST más apropiado, según si la secuencia de interés es nucleotídica o proteica. Las
aplicaciones nucleotide BLASTN, BLASTX, TBLAST, son utilizados para analizar secuencias
nucleotídicas, mientras que los programas protein BLAST y TBLASTN son utilizados para analizar
secuencias proteicas, es decir que una vez obtenido el marco de lectura del gen de interés.
En la tabla a continuación se muestra el tipo de base de datos utilizada según la aplicación del
programa BLAST seleccionada y el análisis realizado por éste a la secuencia de interés y a las
secuencias presentes en la base de datos:
Programas
Secuencia de interés
Secuencia en base de datos
Nucloetide
BLAST
nucleotídica, ambas cadenas
nucleotídica
BLASTX
nucleotídica, seis marcos de proteica
lectura
TBLASTX
nucleotídica, seis marcos de nucleotídica, seis marcos de
lectura
lectura
Protein
BLAST
Proteica
proteica
TBLASTN
Proteica
nucleotídica, seis marcos de
lectura
No existe ninguna base de datos del BLAST que abarque todas las secuencias. Por lo tanto, se debe
elegir una base de datos apropiada. Dentro de las bases de secuencias nucleotídicas, están:
Human (or mouse) genomic + transcript: estas bases de datos combinan alineamientos de
secuencias genómicas y de cDNA en un mismo reporte.
Nucleotide collection nr/nt: secuencias de beses GenBank+EMBL+DDBJ+PDB (sin ESTs).
est: secuencias EST de beses GenBank+EMBL+DDBJ
Dentro de las bases de datos de secuencias proteicas:
Non redundant protein sequences (nr): secuencias de bases GenBank CDS translations + PDB +
SwissProt + PIR+PRF.
pdb: secuencias derivadas de estructuras 3-D del Brookhaven Protein Data Bank
Algoritmos: Se puede optimizar la búsqueda eligiendo el algoritmo. Para secuencias nucleotídicas se
puede optas por:
-Megablast: para secuencias muy similares. Compara la secuencia de interés (query) con secuencias
altamente relacionadas. Trabaja mejor si el porcentaje de identidad es de 95% o mayor, pero es muy
rápido. Este algoritmo funciona por default.
-Discontiguous Megablast: para secuencias más disímiles. Puede seleccionar secuencias que no
tengan un alto porcentaje de identidad. Es útil para comparaciones entre especies diferentes.
-Blastn: es lento, pero permite encontrar secuencias mucho más disímiles.
Cómo es la secuencia en formato FASTA?
Una secuencia con este formato esta escrito en una sola línea y la descripción de la secuencia
(nombre) se escribe precedida del símbolo”>”. (mayor).ej.
>MNKSV40 Monkey DNA fragment
ggaattcctgactgcatagcatagcaaactagaggattatgggcatatagacagatagacataggggg
(en letras minúsculas o mayúsculas)
Homología entre dos secuencias: Mientras que BLAST es una herramienta fundamental y muy útil
para el análisis de homologías en bases de datos, BLAST 2 Sequences (bl2seq) se aplica al
alineamiento directo de dos secuencias, una contra otra. Por ejemplo, si se quiere observar las
diferencias a nivel de secuencia entre dos genes o proteínas homólogas de dos especies distintas
(humano vs ratón) no es necesario confrontar el gen murino contra toda el banco de datos humano,
sino que se lo puede hacer en forma directa utilizando “bl2seq”. Este programa se encuentra en la
misma página del BLAST, bajo el título “Specialized BLAST”, Align two sequences using BLAST
(bl2seq). Para realizar esto, bl2seq tiene dos espacios para cargar las dos secuencias que se quieran
confrontar. Estas se pueden cargar como copy/paste de las secuencia o mediante en Accession
Number o GI.
2. Otros programas para análisis de homologías - TIGR Gene Indices
Existen otros programas para análisis de holmologías, además del BLAST, entre ellos, el TIGR Gene
Indices (http://compbio.dfci.harvard.edu/tgi/tgipage.html). Los Gene Indices constituyen una colección
de 77 bases de datos específicas de especies. Los Gene Indices se construyen ensamblando
secuencias de ESTs (expression secuence tags) y secuencias de cDNA del GenBank para las
distintas especies. Los ESTs son secuencias de cDNA generadas por una sola secueciación, por lo
tanto, la secuencia resultante es un fragmento que puede contener errores y cuya longitud es de 500 a
800 nucleótidos. Este proceso produce un set de transcriptos virtuales o secuencias TC (Tentative
Consensos). Las secuencias TC son genes putativos que pueden utilizarse para análisis de
homologías de manera similar al BLAST.
3. Análisis de homología de dominios proteicos
La asignación de una función biológica a un gen nuevo requiere de búsquedas de homologías
altamente específicas. Existen programas que comparan motivos proteicos, estos evalúan únicamente
aquellas posiciones conservadas en el grupo de secuencias, de esta manera se puede asignar una
proteína a una familia proteica, aún cuando esta esté lejanamente relacionada tal que no presente
homología
fuera
del
motivo
conservado
ensayado.
La
base
de
datos
Pfam
(http://www.sanger.ac.uk/Software/Pfam/search.shtml), constituye un ejemplo de bases de datos
constituidas por grupos de secuencias de proteínas alineadas
La búsqueda de homología de secuencias nucleotídicas o proteicas mencionadas anteriormente,
constituyen una herramienta fundamental cuando se tiene un gen cuya función biológica se
desconoce, sin embargo puede suceder que proteínas que tienen baja homología de secuencia,
puedan adoptar estructuras terciarias similares con funciones moleculares parecidas o relacionadas.
En base a esto, un método más sensible para determinar la función molecular de una proteína
desconocida consiste en determinar una estructura tridimensional por cristalografía de rayos X y luego
comparar la estructura resultante contra una base de datos estructural de proteínas.
4. Proteoma y localisoma
El entendimiento global de los mecanismos moleculares que gobiernan la biología subcelular necesita
no solo el conocimiento del genoma del organismo sino también del complemento de proteínas
codificado dentro del genoma (PROTEOMA). Una variedad de metodologías permiten actualmente
analizar proteínas en una escala a nivel proteómico, algunos ejemplos son: doble híbrido (a gran
escala), inmunoprecipitaciones/espectrometría de masa de los complejos proteicos, arrays de
proteínas.
Dentro de los abordajes que permiten obtener una amplia información sobre proteínas, los estudios de
distribución subcelular de las proteínas dentro de una célula eucariota son de gran utilidad por los
datos que aportan. La localización de las proteínas ayuda a comprender la función de un gen,
permitiendo corroborar la información inferida de un dato genético. Más aún, la localización de una
proteína puede revelar su mecanismo de acción.
Para determinar la localización subcelular de una proteína, su correspondiente gen es típicamente
fusionado a un reportero o a un epitope tag que rutinariamente se agregan en el N o C terminal del
gen, una elección que puede ser crítica para obtener la ubicación justa de la localización. Las
secuencias de localización en organelas están ubicadas típicamente en el N-terminal, por lo tanto,
reporteros fusionados a este N-terminal pueden interrumpir esas secuencias dando como resultado
una ubicación anómala de la proteína. En otros casos el C-terminal puede ser importante para el
adecuado funcionamiento y regulación de la proteína. El número de copias de un gen puede tener
también impacto sobre la correcta localización de la proteína para la cual codifica; proteínas
sobreexpresadas pueden saturar los mecanismos de transporte intracelular y de esta manera tener
una distribución aberrante. Por otro lado proteínas débilmente expresadas pueden no ser visualizadas
por la técnica de inmunofluorescencia.
Para tratar de cumplir el objetivo de determinar la localización subcelular de las proteínas en
Saccharomyces cerevisiae a nivel proteómico, varios grupos de investigación de la Universidad de
Yale en colaboración desarrollaron un método de epitope-tagging (agregado de un epitope a la
proteína para su detección inmunológica) y análisis por inmunofluorescencia y definieron la
localización de 2774 proteínas. Integrando sus resultados con datos ya publicados de localización de
proteínas pudieron determinar la localización de 3300 proteínas de levaduras, lo que conforma el 55%
del proteoma. Con los datos experimentales obtenidos se construyó un programa con algoritmos
denominado sistema Bayesian que les permitió predecir la distribución subcelular de 6100 proteínas.
Con este estudio no solo se pudo localizar muchas proteínas (se obtuvieron datos experimentales de
localización para 1000 proteínas de función desconocida, además de las de función conocida) sino
también predecir la localización de otras tantas.
ESTRATEGIAS
Se emplearon dos estrategias de epitope-tagging de las proteínas en este estudio para
inmunolocalizarlas:
- Clonado directo de los ORF (open reading frame) amplificados por PCR en un vector de expresión
y “tagging” en levaduras. Utilizando plásmidos y sobrexpresando las proteínas “taggeadas”.
- “Tagging” al azar por mutagénesis por transposón.
Estos dos métodos tienen las desventajas de:
La sobrexpresion de proteínas, puede saturar el sistema de transporte intracelular produciendo una
localización anormal de las proteínas.
La marcación utilizando transposón, puede interrumpir importantes señales de localización.
Para sobrellevar estos inconvenientes surgió una nueva técnica de marcación de las proteínas, con la
que se generaron cepas de levaduras que expresan las proteínas full-length pero “taggeadas” en el
carboxilo terminal con GFP, utilizando sus promotores endógenos. Las proteínas están taggeadas en
su localización cromosómica de manera que los niveles y los patterns de expresión están
minimamente perturbados.
A continuación se detallan los protocolos de las dos estrategias seguidas:
A) Clonado directo-expresión con plásmido-V5 epitope-tagged
Los ORF amplificados por PCR fueron insertados inmediatamente upstream de la secuencia del
epitope V5 y downstream del promotor de Gal1, tal que la inducción por galactosa en levaduras
puede ser usado para dirigir la expresión de cada gen como proteína de fusión que lleva un epitope
V5 en su C-terminal, estos plásmidos luego fueron transformados en la cepa apropiada de
levaduras (formato de 96 wells). El período de inducción de las proteínas se mantuvo al mínimo
para minimizar los efectos posibles de la sobreexpresión. Los productos proteicos fueron luego
localizados por inmunofluorescencia usando anticuerpo monoclonal contra V5. Este análisis también
se hizo en el formato de 96 wells.
B) Transposón:
Genes de levaduras también fueron epitope-tagged por mutagénesis por inserción usando una serie de
transposones bacterianos, cada uno modificado para llevar los elementos mostrados en la figura. Por
mutagénesis al azar se producen mutaciones en el genoma de levadura y se genera una biblioteca genómica
de levaduras con mutaciones en E.coli. Los plásmidos con los fragmentos de DNA genómico mutagenizados
fueron introducidos en una cepa de levaduras diploide, los alelos se integraron así a su correspondiente loci
genómico por recombinación homóloga. Las inserciones en marco con secuencias codificantes de los genes
fueron seleccionadas y posteriormente modificadas in vivo por recombinación Cre-lox tal que todos los
reporteros, y marcadores de selección fueron removidos. Lo que queda de la inserción del transposón es lo
que corresponde a una secuencia de 93 aa, que consiste en el epitope HA presente por triplicado. Las
proteínas que llevaban ese HA-tag transposón se localizaron utilizando inmunofluorescencia con anticuerpo
monoclonal anti-HA. De este abordaje se obtuvieron 1147-17 cepas con HA-tagged que comprendían 2958
proteínas diferentes.
C
C) Se “taggeó sistemáticamente cada ORF de levaduras en su localización cromosómica a través de
recombinación homóloga. Se generaron oligonucleótidos para cada uno de los 6234 ORF que contenían
homología con el sitio deseado de inserción y también homología con a un vector que contenía el GFP y un
marcador de selección. Con esos primers entonces se amplificó a partir del vector la zona correspondiente a
GFP y el marcador de selección rodeado de zonas de homología con el ORF. Este producto de PCR se utilizó
para transformar levaduras para que se produzca la recombinación homologa y por lo tanto el tagging del
ORF.
Los resultados obtenidos por esto trabajos permitieron clasificar las proteínas de acuerdo a su
localización subcelular. El 75% del proteoma de la levadura está clasificado en 22 localizaciones
subcelulares diferentes.
5- Análisis de secuencias promotoras en genes de eucariontes superiores. Factores de
transcripción y sitios de unión
El estudio de la regulación de la expresión génica es uno de los desafíos mas grandes de la biología y
la bioinformática. La identificación de los determinantes en la expresión de genes requiere de una
combinación de resultados experimentales y del análisis computacional.
El software MatInspector es una herramienta que utiliza una enorme familia de matrices de
comparación de elementos de unión al DNA de distintos factores de transcripción para ubicar posibles
sitios en el DNA a analizar. Es una herramienta muy rápida y a cada coincidencia con la base de datos
que utilice, le asigna un valor de calidad que permite filtrar los elementos poco confiables dando
mejores resultados.
En el sitio http://www.genomatix.de/online_help/help_matinspector/matinspector_help.html se presenta
información adicional de cómo funciona el sistema de matrices utilizadas en la comparación y otros
aspectos útiles en el análisis de secuencias de unión de factores de transcripción.
ACTIVIDADES DEL TRABAJO PRÁCTICO
OBJETIVO:
Dada una secuencia parcial obtenida a partir de un screening por doble híbrido, analizarla para
obtener información acerca de su función, buscando marcos de lectura probables y homología con
secuencias de proteínas de función conocida en bases de datos.
1
61
121
181
241
301
361
atgtcacaac
tgtggtaaga
ccaactgtct
gcgctatggg
gactccaatg
caagaaaaat
ggttgtaaag
aagttggtaa
catgtttatt
ttgaaaacta
ataccgctgg
tcgtattaat
ggattgccga
tggatttgag
cagtatcaga
aatcgtcttt
tgtagcagat
tcaagaagat
ttgtttctct
agtattacat
aaacgaccca
agaaagctgg
tccaagggcc
gttgaagttg
tatgatagac
atcgatcttc
ttctgtcaag
caaaccattg
taatcgttgg
aatttccaga
atgggcgtcg
taagaccatt
cagattcttt
gtgtgccaat
aacaattaag
tgatggtgcc
agtctacgta
tgtagagcta
gtcataccca
agagaatgta
tattcttgtt
1-
Copiar la secuencia completa en formato FASTA.
2-
Determinar los marcos de lectura abiertos (ORFs). Usando, por ejemplo, el programa ORF
FINDER
http://www.ncbi.nlm.nih.gov/gorf/gorf.html
Elegir el ORF más probable o el único obtenido en el caso de obtener uno.
Seleccionarlo dentro del ORF finder y aparecerá la secuencia de nucleótidos y los aa
codificados, indicándose el codón de iniciación y terminación.
Cliquear “accept”, y en view seleccionar FASTA protein para copiar la secuencia de aa para
posterior análisis.
3-
Análisis de secuencia de aminoácidos:
Comparar la secuencia de aa resultante con bases de secuencias de proteínas (protein blast) y
con bases de nucleótidos traducidos en los 6 marcos de lectura (tblastn). Analizar las
secuencias con mayor score obtenidas en cada aplicación. Qué proteína es?
4-
Obtener más información sobre la proteína de la búsqueda, ir al sitio de SGD (Saccharomyces
Genome Database)
http://genome-www.stanford.edu/Saccharomyces/
Esta página corresponde al banco de datos del genóma de S.cerevisiae.
En la ventana que dice search colocar el nombre de la proteína de la cual queremos información
(Rho1). El resultado de la búsqueda es un gen.
Además de tener toda la información de la que se dispone sobre esa proteína, se puede ir al link
que está a la derecha arriba que da un mapa del cromosoma donde está ubicado este gen en
levaduras. Anotar el nombre del ORF que identifica a Rho1.
5- Ahora vamos a localizar a Rho1.
En la ventana de localización (localization resources) se encuentran las bases de datos que
permiten obtener datos de la localización de la proteína:
A) GFP DB at UCSF: base de datos de la universidad de California, construída en base a
estudios de localización con GFP a nivel cromosómico. Luego se analiza la colocalización de esa proteína con proteínas marcadoras de localización subcelular y
finalmente se define en base a estas dos informaciones una localización resultante.
B) YGAC Triples: Yale Genome Analysis Center, esta página es armada y mantenida por
los grupos de investigación que publicaron los trabajos de localización de
proteínaparecen varios links. Ir a TRIPLES (a database of TRansposon-Insertion
Phenotypes, Localization, and Expression in Saccharomyces). La página que se abre
corresponde a la base de localización del proteoma de levaduras. Se puede buscar la
ubicación de la proteína de interés en las bases de datos generadas a partir de los dos
protocolos descriptos (transposon, y eppitope-tagging V5).
C) YPL db at uni graz (Yeast Protein Localization Database): provee información sobre
la localización subcelular de proteínas en Saccharomyces cerevisiae. Los estudios de
localización se realizaron usando fusiones de GFP en el N-terminal de las proteínas a
nivel cromosómico y la técnica de Confocal Laser Scanning Microscopy
D) Organelle DB Umich: base de datos de localización de proteínas en organelas,
estructuras subcelulares y complejos proteicos. Organelle DB incorpora
permanentemente datos de estudios de localización de proteínas a escala proteómica
en Saccharomyces cerevisiae. Esta base de datos también contiene información de
otros organismos.
No todas las proteínas han sido localizadas en las bases de datos disponibles. En algunos casos
se dispone de una imagen y en otros no. Para Rho1 por el método de transposón no se la pudo
ubicar (dice ubicada en background), con el otro método dio localización en periferia. De la
localización de esta proteína no se dispone de foto.
Para poder ver imágenes en los tres tipos de estrategias pueden pedir la ubicación de estas
proteínas YDR425W, YLR201C, YOR060C, YLR187W, YNL158W, YLR201C, YPL203W,
YJL164C, YIL 033C. A qué genes corresponden estos ORF?
6-
Como último ejercicio buscar las secuencias de nucleótidos correspondientes a distintos
genes:
Para esto ir a
http://www.ncbi.nlm.nih.gov/
En la ventana Search, elegir la base de datos en donde se hará la busqueda, puede ser proteínas
o nucleótidos según la información que se necesite.
Elegir nucleótidos y buscar las secuencias correspondientes a:
syntaxin-1 binding protein humana
protein kinase A Mucor racemosus
UDP-glycosyltransferase Arabidopsis thaliana
TIGR Gene Indices
Objetivo: buscar secuencias correspondientes a la GTPase Rho1 en Aspergillus nidulans
utilizando la secuencia de S.cerevisiae.
1. Copiar la secuencia inicial del TP en forma FASTA
2. Ir a: http://compbio.dfci.harvard.edu/tgi/
3. Clickear en links: The Gene Indices
4. Ir a: Fungi
5. Elegir Aspergillus nidulans
6. En sequence similarity search clickear BLAST
7. Seleccionar en database: Aspergillus nidulans
8. Ingresar la secuencia FASTA
9. Clickear: Submit BLAST job
10. Seleccionar la primera secuencia TC9796
- Primero aparece la secuencia nucleotídica del TC.
- Después los posibles ORFs. Seleccionar el ORF más largo para compararlo en BLAST align 2
seq con la secuencia proteica traducida de S.cerevisiae.
- Luego aparece el esquema que muestra cómo se armó el TC9796 a partir de las distintas
secuencias de ESTs
-Por último aparecen las secuencias reportadas más similares a TC9796 (Similarity search results).
Esta información nos da idea de la función de ese gen por similitud con otras secuencias
conocidas.
Análisis de elementos de unión a factores de transcripción en un gen eucariótico
Objetivo: De la secuencia promotora parcial del gen de la leptina, encontrar los putativos sitios de
unión de los factores: SP1, c/EBP , STATs, y CREB
Parte 1
Sp1 (specificity protein 1) es un factor de transcripción que se une a elementos ricos en G-C y activa
un amplio rango de genes. C/EBP (CAAT/enhancer binding protein) es un factor que está involucrado
en procesos celulares como el control y la regulación del metabolismo en hígado y tejido adiposo. La
familia de factores STAT (Signal Transducers and Activators of Transcription) se encuentran
involucrados en la transducción de señales de factores de crecimiento. CREB (cAMP response
element binding protein) es un factor que principalmente media la respuesta generada por aumentos
en los niveles de cAMP intracelular.
La base de datos que utiliza el software MatInspector contiene las matrices de comparación para estos
y muchos otros factores de transcripción.
1- Ir al sitio http://www.genomatix.de/products/MatInspector. Esta herramienta es de uso libre y
gratuito pero hay que registrarse primero. Una vez obtenido el usuario y contraseña, cliquear login.
2- Dentro del portal de genomatix, elegir el software MatInspector
3- Copiar la secuencia del promotor de leptina en el recuadro
4- Elegir la biblioteca “Transcription factors binding sites y continue”
5- Enviar el pedido de análisis. En la siguiente página dejar el matrix group y extra output que
aparecen seleccionados por default y clickear “submit query”. Luego buscar los elementos para
los factores de interés.
6- Preguntas
Que estrategias generales se utilizaron para generar las matrices utilizadas?
Cuales serían las limitaciones de este tipo de análisis?
Parte 2
Como otra opción para este análisis entren en la siguiente página:
http://www.ucm.es/info/mmol/bioinf.htm
Pueden hacer una recorrida a todas las herramientas que se pueden utilizar desde esta página,
algunas ya utilizadas en puntos anteriores.
7- Para nuestro objetivo busquen el link www Promoter Scan (http://www-bimas.cit.nih.gov/cgibin/molbio/proscan) y copien nuevamente la secuencia del promotor de leptina en el recuadro
habilitado para ello.
Comparen la información obtenida de los distintos softwares.
8- Como estrategia contraria, realizaremos un ejercicio para saber si un determinado elemento está
presente en un promotor dado. Para ello vamos a utilizar una demostración diseñada dentro de la
página. Para ello ir al link Regulatory Sequences Análisis Tools (RSAtools) http://rsat.ulb.ac.be/rsat/. Y
en la izquierda, a matrix scan
Allí elegir una de las demos disponibles.
Secuencia promotora del gen de leptina
2922
2862
2802
2742
2682
2622
2562
2502
2442
2382
2322
2262
2202
2142
2082
2022
1962
1902
1842
1782
1722
1662
1602
1542
1482
1422
1362
1
61
121
181
241
301
361
421
481
541
601
661
721
781
841
901
961
1021
1081
1141
1201
1261
1321
1381
1441
1501
1561
aagcttcttt
tggatgcaca
aatgtgcaat
gtagaaaaca
atacaacaag
cacagaaatg
tgcgacaggg
aagtcaggga
aagatttcat
tgcctgtctt
cctcaggacc
tgaacaatat
caagggaaga
ttcttcttgc
ttgctagcat
tctataaatg
gccctggtct
aatttgtggt
atcaagacaa
tttgaagcat
aaaacttgct
cccggcggcc
ctgacactta
tatctggtgc
tcttttgatt
attaccaaac
atgttatggg
aaggatggag
gttgggcatc
gtatgtgtgt
ttttaggctt
aataaacaat
caaatttcct
ttgcgctgat
ccccgaacag
tttaatatgg
tgctttaatc
actgtgataa
gaaatcagtg
caactataag
agagagccta
ggaatattaa
gccgctctgg
cctgcagtac
cagaccagtt
tacgtgcacc
gtgatctact
ggtttgaggc
cagctgtaaa
tggaaaatag
ccaacgtggg
tttttttttc
ccggcagtgg
ttttgttttg
aggccctagt
cccacagacg
tccctggttc
tctaagccaa
ttacacaatt
gtaattttcc
cctcccgcct
agagatcggc
acacttatca
tcttaatcct
ttgtgttaac
caccttgaaa
gtctgactgc
taaatagacc
tattaacacc
gaatgtctat
cctcaggctt
ttctgctctc
gctgaacaca
ccctgtttta
tcaggtgggc
attcctctct
aaagaaccta
atactgagat
aaacttttac
caggctcggt
ttttgttttt
gaatggggaa
gactggaaag
aagggctggg
ggcaaaattg
ttttgttgac
cgtgagaact
cagtctccct
tggagccgtg
gttcccaaat
gttatcttca
tgtacagatt
aagagcagaa
ctgcggggtc
tgcaagtagg
ctgggaaagg
cctacgcaac
actagggtgg
gaacactgtt
gacccttatc
caccccctca
atcacagtac
ttgtactctc
cgttgaaata
tacaagcatg
aaatgtagaa
tcaccgacgt
tttattgaga
tattcttccg
aaaaaaggcc
aactttctct
aggatattac
agaattcaaa
attcttcttt
aagtgctgag
gcagaggaac
aatactttta
taagctaagg
gattgcaaaa
taacagcaat
gggcaaaggg
agagatattg
aatgcattcc
ggagataagg
tgaaaaactc
ttctgttgtt
agtagttctc
ccttttgaaa
taccgatatg
tctctttatt
ttgggggcag
agccactgca
accattctta
catttgcagt
cagagtttca
ggagaagcga
tggaggaatc
aaagggccag
atgggtactt
actttataga
tgttttgttt
atgttgcagg
ataaattttg
taatttttta
atgtacgtca
catgtgtgtt
ttttagggaa
agccatattt
ctaatttctt
tggggggagg
actgagatac
cgccctggta
taagatgttt
ctttttgccc
cccttaataa
tgatgtcacc
tctcagccag
gttcccccaa
tctggcctct
gcttttgggc
tccccgcttt
ctcttgttgc
1302
1242
1182
1122
1062
1002
942
882
822
762
702
642
582
522
462
402
342
282
222
162
102
42
18
1621
1681
1741
1801
1861
1921
1981
2041
2101
2161
2221
2281
2341
2401
2461
2521
2581
2641
2701
2761
2821
2881
2941
ccaggctgta
gccattctcc
ggctaatttt
aatcctgacc
gagctaccac
gcgcagtggg
ggattctaag
agggtaaaac
acaaacgata
tggctacatc
gatggagacc
tccagagagc
ctcgattctc
ggtcggggag
agggccgtcg
gggcgcagcc
ccgcgccccg
ccggagcctc
gggaggtacc
cgcgaggtgc
ggcggggcgg
tgatcgggcc
acggttgcaa
gtgcaatggt
tgcctcagcc
gtatttttag
tcaggtgatc
gcctggctgg
gaccagaata
gaaagtcatt
aaaacaaaac
caggtgaaac
tgggaccacc
cacagtatgt
gtgcactccc
cgcgtgccag
cctggcgcac
gggccgagtc
gtatgcccca
agcggctcga
tggagggaca
caagggtgcg
acactgcggg
gagctggcgc
gctataagag
ctgatcttgg
tctcaagtag
tagagatgag
cacccacctt
gttggttctc
ggcctgggtt
taacctcgct
aaaacaaaac
atgcctacca
ccccaacccc
ccagagtgtc
tggggtgcca
agaaggggtg
tgcgggccgc
ccgattcgct
gcccgctccg
agcaccttcc
tcaaggattt
cgcgtggctc
cccagggcta
tagaaatgcg
gggcgggcag
ctcactgcaa
ctgggattac
gtttcaccat
ggcctcccaa
aatggagtgg
cctagcccat
ggaccttaga
aaaccaaccc
caccactcac
cactttgtac
cccaaaggcc
gccagagaca
ggacttcaga
tccctctaac
cccaccccga
cggagcccct
caaggggctg
ctcgctccta
ctggcgcgcc
gcagccgccc
ccggggcctg
gcatggagcc
cctccacttc
agacactcac
gttggccagg
agtgctggga
tttgtttttg
tgctattcct
ttcctcatcc
atcatgtaaa
aggctatgat
gtaggaaata
acagtgcccg
acttgccctg
acccccaacc
cctgggcttc
agccgcgcca
cacagccacc
gtccttgcgc
ccagccaccc
gaggccctcc
ggcacgtcgc
cggggcagtt
ccgtaggaat
ccaggttcaa
caccacacct
ctggtctcga
ttacaggctt
gagctgctct
taccagctgt
ctgaagccca
gcggggaact
gacaaaaacg
cggagttgag
cctggagccc
aggcttggaa
ccgcaatctg
cctggcgtcc
ggaccaacga
cccgccccga
catagtcgcg
ccaaattttt
ctcgaggccc
taccctgagg
gcgcaagttg
gcagcgccat