Download PRACTICO SECO 2009
Document related concepts
Transcript
PRACTICO SECO ANALISIS DE HOMOLOGÍAS BÚSQUEDA DE ELEMENTOS EN PROMOTOR EUCARIÓTICO 2009 1. Análisis de holmologías de secuencias Como consecuencia del gran avance que se ha realizado en los Proyectos Genoma, en los últimos años se ha acumulado gran información en secuencias de DNA y proteínas. Estas secuencias se encuentran contenidas en distintas base de datos, siendo el GenBank (EEUU), el EMBL (Reino Unido) y el DDBJ (Japón), las mayores bases de datos de secuencias nucleotídicas y de proteínas, y SWISS PROT y PIR bases de datos únicamente de secuencias de proteínas. Estas bases de datos son actualizadas diariamente y se encuentran disponibles en Internet por ejemplo en el NCBI (National Center for Biotechnology Information), el cual provee de una base de datos no redundante (nr) que incluye secuencias nucleotídicas y proteicas únicas de las bases de datos mencionadas anteriormente. Las búsquedas de homologías permiten un primer acercamiento a la función biológica de un nuevo gen. En las bases de datos del NCBI, las búsquedas son realizadas principalmente utilizando el programa BLAST (Basic Local Aligment Search Tool), el cual constituye un algoritmo de búsqueda de similitudes aplicable a cualquier secuencia de DNA o proteína. Dado que existen cinco aplicaciones distintas del programa BLAST, el primer paso en la búsqueda de homología consiste en seleccionar el programa BLAST más apropiado, según si la secuencia de interés es nucleotídica o proteica. Las aplicaciones nucleotide BLASTN, BLASTX, TBLAST, son utilizados para analizar secuencias nucleotídicas, mientras que los programas protein BLAST y TBLASTN son utilizados para analizar secuencias proteicas, es decir que una vez obtenido el marco de lectura del gen de interés. En la tabla a continuación se muestra el tipo de base de datos utilizada según la aplicación del programa BLAST seleccionada y el análisis realizado por éste a la secuencia de interés y a las secuencias presentes en la base de datos: Programas Secuencia de interés Secuencia en base de datos Nucloetide BLAST nucleotídica, ambas cadenas nucleotídica BLASTX nucleotídica, seis marcos de proteica lectura TBLASTX nucleotídica, seis marcos de nucleotídica, seis marcos de lectura lectura Protein BLAST Proteica proteica TBLASTN Proteica nucleotídica, seis marcos de lectura No existe ninguna base de datos del BLAST que abarque todas las secuencias. Por lo tanto, se debe elegir una base de datos apropiada. Dentro de las bases de secuencias nucleotídicas, están: Human (or mouse) genomic + transcript: estas bases de datos combinan alineamientos de secuencias genómicas y de cDNA en un mismo reporte. Nucleotide collection nr/nt: secuencias de beses GenBank+EMBL+DDBJ+PDB (sin ESTs). est: secuencias EST de beses GenBank+EMBL+DDBJ Dentro de las bases de datos de secuencias proteicas: Non redundant protein sequences (nr): secuencias de bases GenBank CDS translations + PDB + SwissProt + PIR+PRF. pdb: secuencias derivadas de estructuras 3-D del Brookhaven Protein Data Bank Algoritmos: Se puede optimizar la búsqueda eligiendo el algoritmo. Para secuencias nucleotídicas se puede optas por: -Megablast: para secuencias muy similares. Compara la secuencia de interés (query) con secuencias altamente relacionadas. Trabaja mejor si el porcentaje de identidad es de 95% o mayor, pero es muy rápido. Este algoritmo funciona por default. -Discontiguous Megablast: para secuencias más disímiles. Puede seleccionar secuencias que no tengan un alto porcentaje de identidad. Es útil para comparaciones entre especies diferentes. -Blastn: es lento, pero permite encontrar secuencias mucho más disímiles. Cómo es la secuencia en formato FASTA? Una secuencia con este formato esta escrito en una sola línea y la descripción de la secuencia (nombre) se escribe precedida del símbolo”>”. (mayor).ej. >MNKSV40 Monkey DNA fragment ggaattcctgactgcatagcatagcaaactagaggattatgggcatatagacagatagacataggggg (en letras minúsculas o mayúsculas) Homología entre dos secuencias: Mientras que BLAST es una herramienta fundamental y muy útil para el análisis de homologías en bases de datos, BLAST 2 Sequences (bl2seq) se aplica al alineamiento directo de dos secuencias, una contra otra. Por ejemplo, si se quiere observar las diferencias a nivel de secuencia entre dos genes o proteínas homólogas de dos especies distintas (humano vs ratón) no es necesario confrontar el gen murino contra toda el banco de datos humano, sino que se lo puede hacer en forma directa utilizando “bl2seq”. Este programa se encuentra en la misma página del BLAST, bajo el título “Specialized BLAST”, Align two sequences using BLAST (bl2seq). Para realizar esto, bl2seq tiene dos espacios para cargar las dos secuencias que se quieran confrontar. Estas se pueden cargar como copy/paste de las secuencia o mediante en Accession Number o GI. 2. Otros programas para análisis de homologías - TIGR Gene Indices Existen otros programas para análisis de holmologías, además del BLAST, entre ellos, el TIGR Gene Indices (http://compbio.dfci.harvard.edu/tgi/tgipage.html). Los Gene Indices constituyen una colección de 77 bases de datos específicas de especies. Los Gene Indices se construyen ensamblando secuencias de ESTs (expression secuence tags) y secuencias de cDNA del GenBank para las distintas especies. Los ESTs son secuencias de cDNA generadas por una sola secueciación, por lo tanto, la secuencia resultante es un fragmento que puede contener errores y cuya longitud es de 500 a 800 nucleótidos. Este proceso produce un set de transcriptos virtuales o secuencias TC (Tentative Consensos). Las secuencias TC son genes putativos que pueden utilizarse para análisis de homologías de manera similar al BLAST. 3. Análisis de homología de dominios proteicos La asignación de una función biológica a un gen nuevo requiere de búsquedas de homologías altamente específicas. Existen programas que comparan motivos proteicos, estos evalúan únicamente aquellas posiciones conservadas en el grupo de secuencias, de esta manera se puede asignar una proteína a una familia proteica, aún cuando esta esté lejanamente relacionada tal que no presente homología fuera del motivo conservado ensayado. La base de datos Pfam (http://www.sanger.ac.uk/Software/Pfam/search.shtml), constituye un ejemplo de bases de datos constituidas por grupos de secuencias de proteínas alineadas La búsqueda de homología de secuencias nucleotídicas o proteicas mencionadas anteriormente, constituyen una herramienta fundamental cuando se tiene un gen cuya función biológica se desconoce, sin embargo puede suceder que proteínas que tienen baja homología de secuencia, puedan adoptar estructuras terciarias similares con funciones moleculares parecidas o relacionadas. En base a esto, un método más sensible para determinar la función molecular de una proteína desconocida consiste en determinar una estructura tridimensional por cristalografía de rayos X y luego comparar la estructura resultante contra una base de datos estructural de proteínas. 4. Proteoma y localisoma El entendimiento global de los mecanismos moleculares que gobiernan la biología subcelular necesita no solo el conocimiento del genoma del organismo sino también del complemento de proteínas codificado dentro del genoma (PROTEOMA). Una variedad de metodologías permiten actualmente analizar proteínas en una escala a nivel proteómico, algunos ejemplos son: doble híbrido (a gran escala), inmunoprecipitaciones/espectrometría de masa de los complejos proteicos, arrays de proteínas. Dentro de los abordajes que permiten obtener una amplia información sobre proteínas, los estudios de distribución subcelular de las proteínas dentro de una célula eucariota son de gran utilidad por los datos que aportan. La localización de las proteínas ayuda a comprender la función de un gen, permitiendo corroborar la información inferida de un dato genético. Más aún, la localización de una proteína puede revelar su mecanismo de acción. Para determinar la localización subcelular de una proteína, su correspondiente gen es típicamente fusionado a un reportero o a un epitope tag que rutinariamente se agregan en el N o C terminal del gen, una elección que puede ser crítica para obtener la ubicación justa de la localización. Las secuencias de localización en organelas están ubicadas típicamente en el N-terminal, por lo tanto, reporteros fusionados a este N-terminal pueden interrumpir esas secuencias dando como resultado una ubicación anómala de la proteína. En otros casos el C-terminal puede ser importante para el adecuado funcionamiento y regulación de la proteína. El número de copias de un gen puede tener también impacto sobre la correcta localización de la proteína para la cual codifica; proteínas sobreexpresadas pueden saturar los mecanismos de transporte intracelular y de esta manera tener una distribución aberrante. Por otro lado proteínas débilmente expresadas pueden no ser visualizadas por la técnica de inmunofluorescencia. Para tratar de cumplir el objetivo de determinar la localización subcelular de las proteínas en Saccharomyces cerevisiae a nivel proteómico, varios grupos de investigación de la Universidad de Yale en colaboración desarrollaron un método de epitope-tagging (agregado de un epitope a la proteína para su detección inmunológica) y análisis por inmunofluorescencia y definieron la localización de 2774 proteínas. Integrando sus resultados con datos ya publicados de localización de proteínas pudieron determinar la localización de 3300 proteínas de levaduras, lo que conforma el 55% del proteoma. Con los datos experimentales obtenidos se construyó un programa con algoritmos denominado sistema Bayesian que les permitió predecir la distribución subcelular de 6100 proteínas. Con este estudio no solo se pudo localizar muchas proteínas (se obtuvieron datos experimentales de localización para 1000 proteínas de función desconocida, además de las de función conocida) sino también predecir la localización de otras tantas. ESTRATEGIAS Se emplearon dos estrategias de epitope-tagging de las proteínas en este estudio para inmunolocalizarlas: - Clonado directo de los ORF (open reading frame) amplificados por PCR en un vector de expresión y “tagging” en levaduras. Utilizando plásmidos y sobrexpresando las proteínas “taggeadas”. - “Tagging” al azar por mutagénesis por transposón. Estos dos métodos tienen las desventajas de: La sobrexpresion de proteínas, puede saturar el sistema de transporte intracelular produciendo una localización anormal de las proteínas. La marcación utilizando transposón, puede interrumpir importantes señales de localización. Para sobrellevar estos inconvenientes surgió una nueva técnica de marcación de las proteínas, con la que se generaron cepas de levaduras que expresan las proteínas full-length pero “taggeadas” en el carboxilo terminal con GFP, utilizando sus promotores endógenos. Las proteínas están taggeadas en su localización cromosómica de manera que los niveles y los patterns de expresión están minimamente perturbados. A continuación se detallan los protocolos de las dos estrategias seguidas: A) Clonado directo-expresión con plásmido-V5 epitope-tagged Los ORF amplificados por PCR fueron insertados inmediatamente upstream de la secuencia del epitope V5 y downstream del promotor de Gal1, tal que la inducción por galactosa en levaduras puede ser usado para dirigir la expresión de cada gen como proteína de fusión que lleva un epitope V5 en su C-terminal, estos plásmidos luego fueron transformados en la cepa apropiada de levaduras (formato de 96 wells). El período de inducción de las proteínas se mantuvo al mínimo para minimizar los efectos posibles de la sobreexpresión. Los productos proteicos fueron luego localizados por inmunofluorescencia usando anticuerpo monoclonal contra V5. Este análisis también se hizo en el formato de 96 wells. B) Transposón: Genes de levaduras también fueron epitope-tagged por mutagénesis por inserción usando una serie de transposones bacterianos, cada uno modificado para llevar los elementos mostrados en la figura. Por mutagénesis al azar se producen mutaciones en el genoma de levadura y se genera una biblioteca genómica de levaduras con mutaciones en E.coli. Los plásmidos con los fragmentos de DNA genómico mutagenizados fueron introducidos en una cepa de levaduras diploide, los alelos se integraron así a su correspondiente loci genómico por recombinación homóloga. Las inserciones en marco con secuencias codificantes de los genes fueron seleccionadas y posteriormente modificadas in vivo por recombinación Cre-lox tal que todos los reporteros, y marcadores de selección fueron removidos. Lo que queda de la inserción del transposón es lo que corresponde a una secuencia de 93 aa, que consiste en el epitope HA presente por triplicado. Las proteínas que llevaban ese HA-tag transposón se localizaron utilizando inmunofluorescencia con anticuerpo monoclonal anti-HA. De este abordaje se obtuvieron 1147-17 cepas con HA-tagged que comprendían 2958 proteínas diferentes. C C) Se “taggeó sistemáticamente cada ORF de levaduras en su localización cromosómica a través de recombinación homóloga. Se generaron oligonucleótidos para cada uno de los 6234 ORF que contenían homología con el sitio deseado de inserción y también homología con a un vector que contenía el GFP y un marcador de selección. Con esos primers entonces se amplificó a partir del vector la zona correspondiente a GFP y el marcador de selección rodeado de zonas de homología con el ORF. Este producto de PCR se utilizó para transformar levaduras para que se produzca la recombinación homologa y por lo tanto el tagging del ORF. Los resultados obtenidos por esto trabajos permitieron clasificar las proteínas de acuerdo a su localización subcelular. El 75% del proteoma de la levadura está clasificado en 22 localizaciones subcelulares diferentes. 5- Análisis de secuencias promotoras en genes de eucariontes superiores. Factores de transcripción y sitios de unión El estudio de la regulación de la expresión génica es uno de los desafíos mas grandes de la biología y la bioinformática. La identificación de los determinantes en la expresión de genes requiere de una combinación de resultados experimentales y del análisis computacional. El software MatInspector es una herramienta que utiliza una enorme familia de matrices de comparación de elementos de unión al DNA de distintos factores de transcripción para ubicar posibles sitios en el DNA a analizar. Es una herramienta muy rápida y a cada coincidencia con la base de datos que utilice, le asigna un valor de calidad que permite filtrar los elementos poco confiables dando mejores resultados. En el sitio http://www.genomatix.de/online_help/help_matinspector/matinspector_help.html se presenta información adicional de cómo funciona el sistema de matrices utilizadas en la comparación y otros aspectos útiles en el análisis de secuencias de unión de factores de transcripción. ACTIVIDADES DEL TRABAJO PRÁCTICO OBJETIVO: Dada una secuencia parcial obtenida a partir de un screening por doble híbrido, analizarla para obtener información acerca de su función, buscando marcos de lectura probables y homología con secuencias de proteínas de función conocida en bases de datos. 1 61 121 181 241 301 361 atgtcacaac tgtggtaaga ccaactgtct gcgctatggg gactccaatg caagaaaaat ggttgtaaag aagttggtaa catgtttatt ttgaaaacta ataccgctgg tcgtattaat ggattgccga tggatttgag cagtatcaga aatcgtcttt tgtagcagat tcaagaagat ttgtttctct agtattacat aaacgaccca agaaagctgg tccaagggcc gttgaagttg tatgatagac atcgatcttc ttctgtcaag caaaccattg taatcgttgg aatttccaga atgggcgtcg taagaccatt cagattcttt gtgtgccaat aacaattaag tgatggtgcc agtctacgta tgtagagcta gtcataccca agagaatgta tattcttgtt 1- Copiar la secuencia completa en formato FASTA. 2- Determinar los marcos de lectura abiertos (ORFs). Usando, por ejemplo, el programa ORF FINDER http://www.ncbi.nlm.nih.gov/gorf/gorf.html Elegir el ORF más probable o el único obtenido en el caso de obtener uno. Seleccionarlo dentro del ORF finder y aparecerá la secuencia de nucleótidos y los aa codificados, indicándose el codón de iniciación y terminación. Cliquear “accept”, y en view seleccionar FASTA protein para copiar la secuencia de aa para posterior análisis. 3- Análisis de secuencia de aminoácidos: Comparar la secuencia de aa resultante con bases de secuencias de proteínas (protein blast) y con bases de nucleótidos traducidos en los 6 marcos de lectura (tblastn). Analizar las secuencias con mayor score obtenidas en cada aplicación. Qué proteína es? 4- Obtener más información sobre la proteína de la búsqueda, ir al sitio de SGD (Saccharomyces Genome Database) http://genome-www.stanford.edu/Saccharomyces/ Esta página corresponde al banco de datos del genóma de S.cerevisiae. En la ventana que dice search colocar el nombre de la proteína de la cual queremos información (Rho1). El resultado de la búsqueda es un gen. Además de tener toda la información de la que se dispone sobre esa proteína, se puede ir al link que está a la derecha arriba que da un mapa del cromosoma donde está ubicado este gen en levaduras. Anotar el nombre del ORF que identifica a Rho1. 5- Ahora vamos a localizar a Rho1. En la ventana de localización (localization resources) se encuentran las bases de datos que permiten obtener datos de la localización de la proteína: A) GFP DB at UCSF: base de datos de la universidad de California, construída en base a estudios de localización con GFP a nivel cromosómico. Luego se analiza la colocalización de esa proteína con proteínas marcadoras de localización subcelular y finalmente se define en base a estas dos informaciones una localización resultante. B) YGAC Triples: Yale Genome Analysis Center, esta página es armada y mantenida por los grupos de investigación que publicaron los trabajos de localización de proteínaparecen varios links. Ir a TRIPLES (a database of TRansposon-Insertion Phenotypes, Localization, and Expression in Saccharomyces). La página que se abre corresponde a la base de localización del proteoma de levaduras. Se puede buscar la ubicación de la proteína de interés en las bases de datos generadas a partir de los dos protocolos descriptos (transposon, y eppitope-tagging V5). C) YPL db at uni graz (Yeast Protein Localization Database): provee información sobre la localización subcelular de proteínas en Saccharomyces cerevisiae. Los estudios de localización se realizaron usando fusiones de GFP en el N-terminal de las proteínas a nivel cromosómico y la técnica de Confocal Laser Scanning Microscopy D) Organelle DB Umich: base de datos de localización de proteínas en organelas, estructuras subcelulares y complejos proteicos. Organelle DB incorpora permanentemente datos de estudios de localización de proteínas a escala proteómica en Saccharomyces cerevisiae. Esta base de datos también contiene información de otros organismos. No todas las proteínas han sido localizadas en las bases de datos disponibles. En algunos casos se dispone de una imagen y en otros no. Para Rho1 por el método de transposón no se la pudo ubicar (dice ubicada en background), con el otro método dio localización en periferia. De la localización de esta proteína no se dispone de foto. Para poder ver imágenes en los tres tipos de estrategias pueden pedir la ubicación de estas proteínas YDR425W, YLR201C, YOR060C, YLR187W, YNL158W, YLR201C, YPL203W, YJL164C, YIL 033C. A qué genes corresponden estos ORF? 6- Como último ejercicio buscar las secuencias de nucleótidos correspondientes a distintos genes: Para esto ir a http://www.ncbi.nlm.nih.gov/ En la ventana Search, elegir la base de datos en donde se hará la busqueda, puede ser proteínas o nucleótidos según la información que se necesite. Elegir nucleótidos y buscar las secuencias correspondientes a: syntaxin-1 binding protein humana protein kinase A Mucor racemosus UDP-glycosyltransferase Arabidopsis thaliana TIGR Gene Indices Objetivo: buscar secuencias correspondientes a la GTPase Rho1 en Aspergillus nidulans utilizando la secuencia de S.cerevisiae. 1. Copiar la secuencia inicial del TP en forma FASTA 2. Ir a: http://compbio.dfci.harvard.edu/tgi/ 3. Clickear en links: The Gene Indices 4. Ir a: Fungi 5. Elegir Aspergillus nidulans 6. En sequence similarity search clickear BLAST 7. Seleccionar en database: Aspergillus nidulans 8. Ingresar la secuencia FASTA 9. Clickear: Submit BLAST job 10. Seleccionar la primera secuencia TC9796 - Primero aparece la secuencia nucleotídica del TC. - Después los posibles ORFs. Seleccionar el ORF más largo para compararlo en BLAST align 2 seq con la secuencia proteica traducida de S.cerevisiae. - Luego aparece el esquema que muestra cómo se armó el TC9796 a partir de las distintas secuencias de ESTs -Por último aparecen las secuencias reportadas más similares a TC9796 (Similarity search results). Esta información nos da idea de la función de ese gen por similitud con otras secuencias conocidas. Análisis de elementos de unión a factores de transcripción en un gen eucariótico Objetivo: De la secuencia promotora parcial del gen de la leptina, encontrar los putativos sitios de unión de los factores: SP1, c/EBP , STATs, y CREB Parte 1 Sp1 (specificity protein 1) es un factor de transcripción que se une a elementos ricos en G-C y activa un amplio rango de genes. C/EBP (CAAT/enhancer binding protein) es un factor que está involucrado en procesos celulares como el control y la regulación del metabolismo en hígado y tejido adiposo. La familia de factores STAT (Signal Transducers and Activators of Transcription) se encuentran involucrados en la transducción de señales de factores de crecimiento. CREB (cAMP response element binding protein) es un factor que principalmente media la respuesta generada por aumentos en los niveles de cAMP intracelular. La base de datos que utiliza el software MatInspector contiene las matrices de comparación para estos y muchos otros factores de transcripción. 1- Ir al sitio http://www.genomatix.de/products/MatInspector. Esta herramienta es de uso libre y gratuito pero hay que registrarse primero. Una vez obtenido el usuario y contraseña, cliquear login. 2- Dentro del portal de genomatix, elegir el software MatInspector 3- Copiar la secuencia del promotor de leptina en el recuadro 4- Elegir la biblioteca “Transcription factors binding sites y continue” 5- Enviar el pedido de análisis. En la siguiente página dejar el matrix group y extra output que aparecen seleccionados por default y clickear “submit query”. Luego buscar los elementos para los factores de interés. 6- Preguntas Que estrategias generales se utilizaron para generar las matrices utilizadas? Cuales serían las limitaciones de este tipo de análisis? Parte 2 Como otra opción para este análisis entren en la siguiente página: http://www.ucm.es/info/mmol/bioinf.htm Pueden hacer una recorrida a todas las herramientas que se pueden utilizar desde esta página, algunas ya utilizadas en puntos anteriores. 7- Para nuestro objetivo busquen el link www Promoter Scan (http://www-bimas.cit.nih.gov/cgibin/molbio/proscan) y copien nuevamente la secuencia del promotor de leptina en el recuadro habilitado para ello. Comparen la información obtenida de los distintos softwares. 8- Como estrategia contraria, realizaremos un ejercicio para saber si un determinado elemento está presente en un promotor dado. Para ello vamos a utilizar una demostración diseñada dentro de la página. Para ello ir al link Regulatory Sequences Análisis Tools (RSAtools) http://rsat.ulb.ac.be/rsat/. Y en la izquierda, a matrix scan Allí elegir una de las demos disponibles. Secuencia promotora del gen de leptina 2922 2862 2802 2742 2682 2622 2562 2502 2442 2382 2322 2262 2202 2142 2082 2022 1962 1902 1842 1782 1722 1662 1602 1542 1482 1422 1362 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 1021 1081 1141 1201 1261 1321 1381 1441 1501 1561 aagcttcttt tggatgcaca aatgtgcaat gtagaaaaca atacaacaag cacagaaatg tgcgacaggg aagtcaggga aagatttcat tgcctgtctt cctcaggacc tgaacaatat caagggaaga ttcttcttgc ttgctagcat tctataaatg gccctggtct aatttgtggt atcaagacaa tttgaagcat aaaacttgct cccggcggcc ctgacactta tatctggtgc tcttttgatt attaccaaac atgttatggg aaggatggag gttgggcatc gtatgtgtgt ttttaggctt aataaacaat caaatttcct ttgcgctgat ccccgaacag tttaatatgg tgctttaatc actgtgataa gaaatcagtg caactataag agagagccta ggaatattaa gccgctctgg cctgcagtac cagaccagtt tacgtgcacc gtgatctact ggtttgaggc cagctgtaaa tggaaaatag ccaacgtggg tttttttttc ccggcagtgg ttttgttttg aggccctagt cccacagacg tccctggttc tctaagccaa ttacacaatt gtaattttcc cctcccgcct agagatcggc acacttatca tcttaatcct ttgtgttaac caccttgaaa gtctgactgc taaatagacc tattaacacc gaatgtctat cctcaggctt ttctgctctc gctgaacaca ccctgtttta tcaggtgggc attcctctct aaagaaccta atactgagat aaacttttac caggctcggt ttttgttttt gaatggggaa gactggaaag aagggctggg ggcaaaattg ttttgttgac cgtgagaact cagtctccct tggagccgtg gttcccaaat gttatcttca tgtacagatt aagagcagaa ctgcggggtc tgcaagtagg ctgggaaagg cctacgcaac actagggtgg gaacactgtt gacccttatc caccccctca atcacagtac ttgtactctc cgttgaaata tacaagcatg aaatgtagaa tcaccgacgt tttattgaga tattcttccg aaaaaaggcc aactttctct aggatattac agaattcaaa attcttcttt aagtgctgag gcagaggaac aatactttta taagctaagg gattgcaaaa taacagcaat gggcaaaggg agagatattg aatgcattcc ggagataagg tgaaaaactc ttctgttgtt agtagttctc ccttttgaaa taccgatatg tctctttatt ttgggggcag agccactgca accattctta catttgcagt cagagtttca ggagaagcga tggaggaatc aaagggccag atgggtactt actttataga tgttttgttt atgttgcagg ataaattttg taatttttta atgtacgtca catgtgtgtt ttttagggaa agccatattt ctaatttctt tggggggagg actgagatac cgccctggta taagatgttt ctttttgccc cccttaataa tgatgtcacc tctcagccag gttcccccaa tctggcctct gcttttgggc tccccgcttt ctcttgttgc 1302 1242 1182 1122 1062 1002 942 882 822 762 702 642 582 522 462 402 342 282 222 162 102 42 18 1621 1681 1741 1801 1861 1921 1981 2041 2101 2161 2221 2281 2341 2401 2461 2521 2581 2641 2701 2761 2821 2881 2941 ccaggctgta gccattctcc ggctaatttt aatcctgacc gagctaccac gcgcagtggg ggattctaag agggtaaaac acaaacgata tggctacatc gatggagacc tccagagagc ctcgattctc ggtcggggag agggccgtcg gggcgcagcc ccgcgccccg ccggagcctc gggaggtacc cgcgaggtgc ggcggggcgg tgatcgggcc acggttgcaa gtgcaatggt tgcctcagcc gtatttttag tcaggtgatc gcctggctgg gaccagaata gaaagtcatt aaaacaaaac caggtgaaac tgggaccacc cacagtatgt gtgcactccc cgcgtgccag cctggcgcac gggccgagtc gtatgcccca agcggctcga tggagggaca caagggtgcg acactgcggg gagctggcgc gctataagag ctgatcttgg tctcaagtag tagagatgag cacccacctt gttggttctc ggcctgggtt taacctcgct aaaacaaaac atgcctacca ccccaacccc ccagagtgtc tggggtgcca agaaggggtg tgcgggccgc ccgattcgct gcccgctccg agcaccttcc tcaaggattt cgcgtggctc cccagggcta tagaaatgcg gggcgggcag ctcactgcaa ctgggattac gtttcaccat ggcctcccaa aatggagtgg cctagcccat ggaccttaga aaaccaaccc caccactcac cactttgtac cccaaaggcc gccagagaca ggacttcaga tccctctaac cccaccccga cggagcccct caaggggctg ctcgctccta ctggcgcgcc gcagccgccc ccggggcctg gcatggagcc cctccacttc agacactcac gttggccagg agtgctggga tttgtttttg tgctattcct ttcctcatcc atcatgtaaa aggctatgat gtaggaaata acagtgcccg acttgccctg acccccaacc cctgggcttc agccgcgcca cacagccacc gtccttgcgc ccagccaccc gaggccctcc ggcacgtcgc cggggcagtt ccgtaggaat ccaggttcaa caccacacct ctggtctcga ttacaggctt gagctgctct taccagctgt ctgaagccca gcggggaact gacaaaaacg cggagttgag cctggagccc aggcttggaa ccgcaatctg cctggcgtcc ggaccaacga cccgccccga catagtcgcg ccaaattttt ctcgaggccc taccctgagg gcgcaagttg gcagcgccat