Download ¿Dónde está la sabiduría que hemos perdido en conocimiento
Document related concepts
Transcript
¿Dónde está la sabiduría que hemos perdido en conocimiento? ¿Dónde el conocimiento que hemos perdido en información? Thomas S. Eliot 1 2 INSTITUT CAVANILLES DE BIODIVERSITAT I BIOLOGIA EVOLUTIVA “Evolución reductiva del tamaño del genoma en bacterias intracelulares” Tesis doctoral Laura Gómez Valero Valencia, 2006 3 4 Dª. LAURA GÓMEZ VALERO, licenciada en Biología por la Universitat de València, presenta la memoria del trabajo de investigación titulado “Evolución reductiva del tamaño del genoma en bacterias intracelulares”, para optar al grado de Doctora en Biología por la Universitat de València. Fdo. Laura Gómez Valero Este trabajo ha sido dirigido por D. Francisco J. Silva Moreno, Doctor en Ciencias Biológicas y Profesor Titular del Departamento de Genética de la Universitat de València, y Dª Amparo Latorre Castillo, Doctora en Ciencias Biológicas y Profesora Titular del Departamento de Genética de la Universitat de València. Fdo. Dr. Francisco J. Silva Fdo. Dra. Amparo Latorre 5 6 Gracias… Me parece increíble que haya pasado tanto tiempo, nada más y nada menos que ocho años desde que entré a colaborar en el departamento de Genética. Un tiempo durante el cual recibí la ayuda de mucha gente que directa o indirectamente me permitió avanzar por esta carrera de obstáculos que es la investigación. Así que por si no os lo dije en su momento, os lo dijo ahora: muchas gracias y perdonarme si olvido algún nombre, ya sabéis lo despistada que soy. En primer lugar, gracias a mis directores de tesis: Francisco J. Silva y Amparo Latorre, por confiar en mí para llevar a cabo este trabajo, por su ayuda y por su paciencia en mis peores momentos de más estrés. Gracias a la Consellería d’Empresa, Universitat y Ciència por concederme la beca predoctoral que ha permitido financiar este trabajo. Gracias a todos los profesores del grupo que siempre se mostraron dispuestos a ofrecer su ayuda ante cualquier duda o consulta: Andrés, Fernando, Ana, Eladio, David, Sari... Gracias Bea, por enseñarme tanto y tan bien en los primeros años aún a costa de robarte tanto tiempo. Gracias Eduardo, Jurgen y Roy por acogerme como a una más en el laboratorio y ofrecerme vuestra ayuda. Gracias Daniel, Antonieta, Florian, Rupert, Doroteh, Karl, Cyril, Nicolás, Elvira, Heike, Alfonso y Yacine, por hacerme sentir como en casa cuando estaba muy lejos de ésta. Si en algo me considero afortunada es en los compañeros, amigos, con los que me ha tocado compartir el día a día durante todos estos años, que han hecho tan divertidas y entrañables las comidas, los almuerzos y todos los ratos compartidos, que han estado siempre dispuestos a prestar ayuda y a los que sin duda he de echar muchísimo de menos: Vicente Sentandreu (gracias por hacernos reir tanto), Vicente Pérez (nuestro Vin), Eugeni, MariaJosé, Benja (gracias por esas clases particulares de inglés que tanto me ayudan a mi y tan poco a tí), Mireia, Teresa, Silvia (a la que eche tanto de menos en estos últimos meses), Iñaki (nuestro bioinformático personal dispuesto siempre a ayudarnos a todos con los problemillas de los programas), Alicia, Jose, Vicky, Nuria, 7 Alma, Pepa, Alex, Loreto, Araceli, Pedro, Ana, Yolima..... Esto incluye también a los que ya se fueron pero cuyo recuerdo permanece: Paula (gracias por empujarme a dar nuevos pasos), Mario (gracias por aconsejarme perseverar siempre), Rosabel, Jorg (gracias por animarme tanto a salir fuera), Borys, Francois, Olga, Ana, Manoli, Marisa... Además tuve la suerte de interaccionar con otros grupos en el Cavanilles. Especialmente gracias al grupo de Ecología Evolutiva, que me han acogido siempre como a una más: gracias Maria José, gracias Manuel (también por enseñarnos que más allá de las bancadas y de las paredes de este edificio, existen las montañas…), gracias Edu y Pau y gracias a mi gran amigo Sergi por una lista interminable de motivos, pero sobretodo por estar siempre ahí, especialmente cuando más lo necesitaba. Igualente gracias al dpto. de Biología Celular, por permitirme colaborar con ellos y enseñarme el mundo de la microscopía: gracias a J. Manuel García Verdugo, gracias a Mario (dudo que se pueda tener un profesor mejor en técnicas microscópicas) y gracias a Vite, “el mejor copiloto de los tiempos”, por hacerme reir tanto y compartir tantas mañanas, teorías y momentos inolvidables. Gracias a los amigos y familia ajenos a este mundillo, que aún sin acabar de entender a qué me dedico exactamente y por qué, me han apoyado siempre de manera incondicional, y se han preocupado y alegrado conmigo a lo largo del camino: gracias Marta, Pauli, Pili, Neus, Vir, Chusi, Amparo, Vir, Samu, Boni, Mariajesús, Paqui, Jose, Marise, Vicente, Luis, Nacho, Kiko... Y sobretodo, gracias mamá y papá por animarme siempre a hacer en la vida aquello que más me gustaba, por respetar mis decisiones, por ser un apoyo constante, por invertir tanto en mi educación, por tener tanta paciencia y por quererme tanto. 8 A mis padres: Andrés y Pilar 9 10 INDICE INTRODUCCIÓN GENERAL 1.1. 1.2. 1.3. 1.4. 1.5. 3 El tamaño de los genomas El genoma de bacterias Evolución reductiva Simbiosis en bacterias obligadas intracelulares El análisis de las pérdidas 3 7 10 16 20 2. OBJETIVOS GENERALES 25 3. MATERIAL Y MÉTODOS 29 3.1 Especies empleadas 31 3.1.1 Capítulo 4 3.1.2 Capítulo 5 3.1.3 Capítulo 6 31 33 36 3.2 Obtención de las secuencias 3.2.1 Extracción de DNA 3.2.2 Regiones neutras estudiadas 3.2.3 Regiones empleadas para calibrar el reloj molecular 3.2.4 Amplificación por PCR 3.2.5 Purificación de productos de PCR 3.2.6 Clonación 3.2.7 Secuenciación 3.3 Alineamiento y editado de las secuencias 3.3.1 Capítulo 5 3.3.2 Capítulo 6 39 39 41 42 43 49 50 51 51 51 55 3.4 Reconstrucciones filogenéticas 56 3.5 Test de reloj molecular y test de tasas relativas 58 3.6 Estima de los tiempos de divergencia 58 3.7 Análisis de la pérdida de nucleótidos 59 3.7.1 Capítulo 4 3.7.2 Capítulo 6 60 62 11 4. 3.8 Análisis de las regiones intergénicas 64 3.9 Estima del número de sustituciones sinónimas y no sinónimas 65 3.10 Análisis estadísticos 65 Reducción genómica en Buchnera aphidicola 67 4.1 Introducción 4.1.1 Simbiosis en insectos 4.1.2 Los pulgones 4.1.3 Buchnera aphidicola 69 70 74 4.2 Objetivos 85 4.3 Resultados y discusión 86 4.3.1 Reconstrucción del ancestro 4.3.2 Identificación de los eventos de pérdida 4.3.3 Análisis de las pérdidas en los linajes de BAp y BSg 4.3.4 Análisis de las pérdidas en BBp 4.3.5 Análisis de los espaciadores ancestrales 4.3.6 Análisis funcional de los genes perdidos 5. 86 88 95 101 109 111 Las últimas etapas de la reducción genómica en B. aphidicola y en B. floridanus 115 5.1 Introducción 117 5.1.1 Las últimas etapas de la evolución reductiva 5.1.2 Tasas de inserción/deleción 5.1.3 Mecanismos implicados en la generación de indels 5.1.4 Secuencias que permiten actuar a los mecanismos de pérdida 5.1.5 Genomas en estadios finales del proceso de reducción 5.1.6 El género de pulgones Rhopalosiphum y R. padi 5.1.7 “Candidatus Blochmannia” 5.1.8 Las hormigas del género Camponotus 5.1.9 El reloj molecular 117 118 120 122 124 125 128 130 134 5.2 Objetivos 138 5.3 Resultados y discusión en B. aphidicola 139 12 5.3.1 Reconstrucción filogenética 5.3.2 Análisis de las sustituciones nucleotídicas 5.3.3 Análisis de los indels 5.3.4 Calibrado del reloj molecular 5.3.5 Tasas de indels y de sustituciones nucleotídicas 5.4 Resultados y discusión en B. floridanus 5.4.1 Reconstrucción filogenética 5.4.2 Análisis de las sustituciones nucleotídicas 5.4.3 Análisis de indels 5.4.4 Calibrado del reloj molecular 5.4.5 Tasas de indels y de sustituciones nucleotídicas 6. Las etapas iniciales de la evolución reductiva en M. leprae 6.1 Introducción 139 145 150 157 163 171 171 175 177 191 198 203 205 6.1.1 Las primeras etapas de la evolución reductiva 6.1.2 El potencial de pérdida 6.1.3 Genomas en estadios iniciales del proceso de reducción 6.1.4 El género Mycobacterium 6.1.5 Mycobaterium leprae 205 207 208 210 211 6.2 Objetivos 214 6.3 Resultados y discusión 215 6.3.1 Reconstrucción filogenética 6.3.2 Reconstrucción del genoma ancestral 6.3.3 Análisis de las pérdidas en M. leprae 6.3.4 Análisis de la desintegración génica de los pseudogenes de M. leprae 6.3.5 Estima de la edad de los pseudogenes 6.3.6 Relación entre los genes perdidos y su distribución en operones 6.3.7 Pérdida de nucleótidos en los genes perdidos 215 217 225 230 235 253 259 7. DISCUSIÓN GENERAL 263 8. CONCLUSIONES 279 9. REFERENCIAS 285 13 14 1. INTRODUCCIÓN GENERAL 2 2 ..........................................................................................................................Introducción general 1. INTRODUCCIÓN GENERAL 1.1 El tamaño de los genomas La cantidad total de DNA en un genoma (haploide), es una característica particular de cada especie conocida como el valor C. El rango de valores C de los organismos vivos varía ampliamente, desde menos de 106 pares de bases (pb) para algunos genomas de arqueas, bacterias y protistas, hasta más de 1011 pb para algunos protistas, plantas y animales (ver figura 1.1). Animales Plantas Hongos Protistas Bacterias Archaea 1. E+05 1.E+06 1.E+07 1.E+08 1.E+09 1.E+10 1.E+11 1.E+12 1.E+13 Figura 1.1. Estima de tamaños genómicos (pb) basada en datos de DOGS (Database of Genome Sizes). Se muestra el tamaño genómico de algunas especies de referencia cuyo nombre se indica en la parte superior de cada barra. Figura modificada a partir de Bentley et al. (2004). A priori, se espera que la cantidad de DNA se correlacione positivamente con la complejidad genética del organismo y así ocurre en el caso de los procariotas y en algunos eucariotas. Sin embargo dentro de los eucariotas esta correlación no siempre se cumple (Thomas, 1971), es lo que se conoce como la paradoja del valor C. Así por ejemplo, el tamaño genómico del género de anfibios Xenopus y del hombre son similares, sin 3 ........................................................................................................................................................... embargo nosotros asumimos que el hombre posee un mayor grado de complejidad respecto al desarrollo genético. La paradoja del valor C se resolvió cuando se descubrió que, a diferencia de lo que ocurre en procariotas, donde la mayor parte del DNA es codificante (Bergthorsson y Ochman, 1998), en eucariotas existe una gran cantidad de DNA que no se expresa en proteínas o RNAs. De modo que, si sólo tenemos en cuenta la cantidad de DNA que contiene información, ésta sí que se relaciona con la complejidad genética de las especies, con lo que la paradoja queda resuelta. Sin embargo, el enigma en torno a las fuerzas que dirigen la evolución del genoma y las causas que permiten explicar el tamaño genómico en cada una de las especies, continúa sin resolverse. Las principales teorías que han surgido para explicar la evolución del tamaño genómico de los organismos son las siguientes: a) Teorías adaptativas Surgen a partir de la observación de Mirsky y Ris (1951), de la fuerte correlación existente entre el tamaño celular, el tamaño nuclear y el tamaño del genoma de vertebrados. Correlación que también se da en plantas y protistas. En base a esta observación Bennet (1972) sugiere que el DNA tiene un papel estructural para controlar el volumen nuclear y denomina a esta función del DNA y a otras no relacionadas con la secuencia, función nucleotípica. Vinogradov (1998) propone posteriormente otra función nucleotípica del DNA, tamponar las fluctuaciones de soluto intracelular. Dentro de estas funciones estructurales asignadas al DNA, destaca la función nucleoesquelética propuesta por Cavalier-Smith (1978), según la cual el DNA constituye el esqueleto nuclear. De modo que el aparente exceso de DNA de células grandes se explica porque células de mayor tamaño requieren un esqueleto mayor, y un mayor volumen nuclear para optimizar la razón entre el volumen del núcleo y del citoplasma y controlar así el flujo de transcritos entre ambos. Cavalier-Smith extiende esta teoría, para explicar el tamaño del DNA de todos los organismos vivientes. Según ésta, existe 4 ..........................................................................................................................Introducción general selección a favor de un reducido tamaño genómico, dado que un menor genoma permite ganar tiempo y espacio. Sin embargo, en eucariotas, el rango de tamaños es resultado de una compensación entre selección para economizar (que actúa sobre todos los organismos) y selección para tener una cantidad de DNA suficiente para constituir un buen esqueleto y mantener invariante la razón del volumen núcleo/citoplasma. Esta presión de selección a favor de un reducido tamaño genómico explicaría que el genoma de bacterias, mitocondrias y cloroplastos se halle reducido por causas metabólicas. Otra aproximación adaptativa interesante es la de Comeron (2001), que sugiere que el exceso de DNA no codificante en eucariotas puede estar favorecido por fuerzas selectivas, dado que la presencia de éste aumenta las probabilidades de recombinación, lo que en último término intensifica la eficacia de la selección. b) Teorías de presión mutacional Según éstas, la selección tiende a genomas reducidos dado que genomas más grandes implican un mayor coste de replicación y energía, al igual que postulan las teorías adaptativas. Sin embargo, a diferencia de las teorías nucleotípicas y similares, proponen que los genomas grandes, con exceso de DNA no codificante, son genomas mal adaptados, resultado de una presión persistente que añade DNA al genoma. De modo que, el tamaño genómico final, es el balance entre la presión hacia el incremento y la tolerancia del organismo para la acumulación de DNA no codificante por selección natural. Dentro de este grupo están por un lado las teorías del DNA egoísta, según las cuales la cantidad de DNA aumenta mediante la acción de elementos egoístas tales como elementos transponibles, secuencias de inserción etc., que existen sólo por su propio beneficio, independientemente del impacto sobre el hospedador (Doolittle y Sapienza, 1980; Orgel et al. 1980), y por otro las teorías del DNA basura (Ohno, 1972), que denominan así al DNA no codificante y carente de función que tiende a acumularse en 5 ........................................................................................................................................................... los genomas, como los pseudogenes, aunque la definición del término “DNA basura” es a menudo imprecisa. c) Teorías del sesgo delecional Esta teoría propuesta por Petrov y Hartl (2000b) afirma que la variación de tamaño genómico entre organismos se explica por diferencias respecto al sesgo delecional de pequeñas (1-400 pb) inserciones/deleciones (indels), puesto que genomas más reducidos tienen sesgos mayores. Este sesgo es resultado de un proceso mutacional y dada la reducida magnitud de los eventos, no estaría dirigido por fuerzas selectivas. El sesgo hacia la deleción ha sido también propuesto como la principal fuerza para explicar el tamaño genómico de procariotas (Mira et al. 2001). Lawrence y colaboradores (2001) proponen también esta tendencia a la deleción en bacterias, pero argumenta que se explica como un mecanismo de defensa contra la invasión de secuencias de inserción y fagos. De este modo, las bacterias de vida libre impedirían la expansión masiva de elementos egoístas y la acumulación de parásitos genéticos, manteniendo el tamaño genómico estable. Estas teorías rechazan una respuesta selectiva para explicar el tamaño genómico de bacterias, bien porque cuestionan las ventajas asociadas a un genoma de menor tamaño, bien porque consideran que el tamaño de los eventos es tan reducido respecto al genoma completo, que no tienen efectos perceptibles sobre la eficacia biológica. d) Teorías basadas en genética poblacional Lynch (2006) propone recientemente una teoría para explicar el tamaño genómico de los organismos basada en la estructura poblacional. Según Lynch, la expansión del genoma es una respuesta pasiva, que se da en aquellas especies donde la selección natural no puede actuar eficazmente para erradicar el exceso de DNA. Según esta teoría, el tamaño del genoma se expande en algunos organismos, no porque posea alguna función fenotípica, como proponen las teorías adaptativas, o porque el exceso de DNA tenga actividad intrínseca, como proponen las teorías del DNA egoísta; sino porque 6 ..........................................................................................................................Introducción general no puede eliminarse. Asume por tanto también que el exceso de DNA casi siempre implica una carga mutacional y que por tanto, la selección tiende a eliminarlo, siempre que el ambiente genético-poblacional lo permita. 1.2 El genoma de bacterias El genoma bacteriano se haya compuesto por un replicón generalmente circular, aunque existen excepciones como Borrelia burgdorferi (Ferdows et al. 1996) o Agrobacterium tumefaciens (Allardet-Servent et al. 1993), que presentan un cromosoma lineal. Generalmente se asume que los organismos procariotas son haploides, dado que es una característica ampliamente extendida, aunque no universal, y a menudo poseen replicones de tamaño inferior, conocidos como plásmidos. En la mayoría de los casos presentan también una serie de elementos accesorios, bien como plásmidos o bien integrados en el cromosoma principal, que constituyen el denominado exogenoma. Mientras que al grupo de genes presente universalmente en una especie bacteriana se le conoce como endogenoma (ver figura 1.2). Los elementos accesorios, aunque generalmente son móviles, pueden ser funcionales o no y pueden ser elementos egoístas que actúan en su propio beneficio, proporcionar alguna ventaja al hospedador, o tener ambos efectos. Ejemplos de secuencias que constituyen el exogenoma son los profagos, las secuencias de inserción, los integrones o las islas de patogenicidad. Estas últimas son regiones del cromosoma de bacterias patógenas que codifican para factores de virulencia, como toxinas o factores de invasión (Hacker et al. 1997) y que contribuyen en gran medida a la variabilidad hallada en numerosos patógenos. Estas islas de patogenicidad son sólo una clase de un grupo más amplio, que constituye las denominadas islas genómicas de los genomas bacterianos, capaces de conferir propiedades de resistencia antimicrobiana, simbióticas, adaptaciones metabólicas, etc. (Hacker y Kaper, 2000). La presencia de estos elementos accesorios es una prueba a favor de que la transferencia horizontal, es la principal vía de entrada de DNA en los 7 ........................................................................................................................................................... genomas bacterianos (Ochman et al. 2000). Las duplicaciones y la recombinación también pueden incrementar el número de nucleótidos en los genomas procariotas. El fenómeno de recombinación, tanto homóloga como independiente de recA, es así mismo el mecanismo que permite la pérdida de DNA en bacterias. La orientación de las repeticiones flanqueantes a la región donde tiene lugar la recombinación determina la resolución del fenómeno en una inserción, una deleción o un reordenamiento. La expansión y/o contracción del genoma es una función de la distribución de tamaños de indels producidos por mutación y el subsiguiente filtro impuesto por selección natural. Si la selección natural es totalmente inefectiva, debido a un pequeño coeficiente de selección o a un tamaño efectivo poblacional reducido, el genoma aumentará progresivamente si la tasa de ganancia de DNA sobrepasa a la de pérdida, y en caso contrario se reducirá hasta el mínimo compatible con el mantenimiento de la función génica (Lynch, 2006). Sin embargo si hay selección natural actuando sobre el tamaño genómico, éste evolucionará hasta un óptimo de eficacia para el organismo (figura 1.2). ENDOGENOMA EXOGENOMA Cromosoma Islas genómicas gen Plásmidos Fagos TAMAÑO GENÓMICO FINAL Pl Plásmidos Integrones Transposones Selección ón INSERCIONES Deriva Genética é DELECIONES SI NO Efectos en la eficacia biológica Presión mutacional Figura 1.2. Fuerzas evolutivas que afectan a la evolución del tamaño genómico bacteriano, compuesto por el exogenoma y endogenoma. Los indels generan una presión mutacional que puede expandir o contraer el genoma. Algunas de estas mutaciones afectan al fenotipo por lo que se ven sujetas al filtro de la selección natural, mientras que aquellas que no afectan al fenotipo quedan sujetas a la acción de la deriva genética. La combinación de estas fuerzas determina el tamaño genómico final. 8 ..........................................................................................................................Introducción general A pesar del flujo de entrada y salida que puede darse en éstos, los genomas bacterianos son reducidos en relación a los de eucariotas. Así, mientras el tamaño genómico en eucariotas varía hasta en cuatro órdenes de magnitud (107-1011pb), hay sólo un orden de magnitud de diferencia entre genomas procariotas (Casjens, 1998; Gregory y Hebert, 1999). Concretamente, el rango que comprende el tamaño de los genomas bacterianos oscila entre el genoma más grande de 9.2 Mb de Myxococcus xanthus, hasta los más pequeños de 0.42 Mb y 0,16 Mb pertenecientes a Buchnera aphidicola, endosimbionte del pulgón Cinara cedri (BCc) (PérezBrocal et al. 2006) y a Carsonella ruddii, simbionte de psílidos (Nakabachi et al. 2006), respectivamente. A pesar de este menor rango de variación en procariotas, en éstos, incluso dentro de especies o cepas estrechamente relacionadas, con escasa divergencia a nivel de secuencia nucleotídica, el tamaño puede variar ampliamente (Casjens, 1998). Los genomas procariotas no sólo se caracterizan por ser de menor tamaño, sino también por una mayor compactación, con carencia de intrones, espaciadores más reducidos y escasa presencia de secuencias no codificantes. Así, mientras el genoma de organismos eucariotas tiene hasta un 60% de DNA no codificante, genomas de virus y procariotas tienen más de un 85% de DNA codificante y algo similar ocurre en los genomas unicelulares de eucariotas (Lynch, 2006). Por lo tanto, dado que la mayor parte del DNA de bacterias contiene información de secuencia, a diferencia de lo que ocurre en eucariotas, en bacterias, diferencias en el tamaño genómico se corresponden con diferencias en la complejidad (Bergthorsson y Ochman, 1998). Es por ello que, en el caso de bacterias, el número de genes es un reflejo del estilo de vida. Así, las bacterias con los genomas más pequeños suelen ser especialistas: parásitos obligados que crecen sólo dentro de hospedadores o bajo otras condiciones muy especiales; mientras que las bacterias con los genomas más grandes son generalistas metabólicos y/o sufren alguna forma de desarrollo como esporulación, formación de micelios etc. 9 ........................................................................................................................................................... Entre los genomas más pequeños, se encuentran los de simbiontes y patógenos. Estudios de filogenética molecular (Woese, 1987), demostraron que dichos genomas representaban un estado derivado y no primitivo como inicialmente se pensaba. Hoy día se sabe que, el caso de los micoplasmas, es sólo un ejemplo de la reducción genómica que sufren un amplio número de bacterias que mantienen una asociación obligada con el hospedador. Ejemplos de las mismas son patógenos como las bacterias del género Rickettsia o mutualistas como Buchnera. No obstante, existen excepcionalmente bacterias de vida libre que sufren reducción genómica, como las bacterias marinas del género Prochlorococcus (Dufresne et al. 2005) o Pelagibacter ubique (Giovannoni et al. 2005). A pesar de la idea ampliamente extendida y aceptada de los genomas bacterianos como unidades reducidas y compactas, el progresivo incremento en el número de secuencias disponibles ha puesto de manifiesto el hallazgo de un número creciente de pseudogenes en bacterias y la existencia de una proporción elevada de DNA no codificante en diversas especies. Este mayor número de pseudogenes y la mayor proporción de DNA no codificante se ha descrito especialmente en algunas bacterias obligadas intracelulares como los patógenos Mycobacterium leprae (Cole et al. 2001) con más de 1.000 pseudogenes o Bordetella pertussis con más de 200 (Parkhill et al. 2003). Este hallazgo contrasta con la compactación y reducción extremas que caracterizan también a otras bacterias obligadas intracelulares, pero esta aparente paradoja sólo refleja diferentes estadios de un mismo proceso, la evolución reductiva. 1.3 Evolución reductiva Las bacterias que han sufrido la transición de un estado de vida libre a un ambiente intracelular comparten una serie de hechos comunes que son al parecer consecuencia de este cambio en el estilo de vida. Una de las principales consecuencias derivadas de esta transición es la reducción drástica del tamaño genómico. 10 ..........................................................................................................................Introducción general Son varias las razones que pueden explicar esta evolución reductiva. Por un lado, en el nuevo ambiente intracelular la bacteria no requiere parte de la información que antes necesitaba, como por ejemplo los genes implicados en movilidad, o aquellos que son redundantes con el hospedador. Esto conlleva a un aumento del material que potencialmente puede perderse sin consecuencias en la eficacia. En estas etapas iniciales de la reducción los genomas empezarían por tanto a sufrir la inactivación de genes teniendo lugar la aparición masiva de pseudogenes. Este momento de la evolución reductiva estaría representado por bacterias como las previamente citadas M. leprae o B. pertussis. Estos estadios tempranos se caracterizan además por una elevada inestabilidad genómica que promueve un gran número de reordenamientos (Belda et al. 2005). Dado que en estos estadios iniciales la proliferación de secuencias de inserción y otros DNAs móviles puede catalizar la inestabilidad (Moran y Plague, 2004). De modo que en esta fase los genomas no están tan reducidos, presentan numerosos pseudogenes y abundantes repeticiones dispersas. Además, los cambios en la dinámica poblacional conllevan a una reducción del tamaño efectivo poblacional, debido a los drásticos cuellos de botella a los que se ve sometida la población, al pasar de un hospedador a otro. Ello implica un aumento de la deriva y una disminución por tanto en la eficacia de selección, que tiene como consecuencia la acumulación de mutaciones en genes necesarios, pero no esenciales, que pasan entonces a formar parte del repertorio potencial de pérdida. Este incremento en la deriva genética se manifiesta en diversos hechos genómicos de estas bacterias como: el incremento en las tasas de sustitución, el sesgo hacia AT en la composición nucleotídica (Moran, 1996; Clark et al. 1999; Wernegreen, 2002), la pérdida del sesgo en el uso de codones (Rispe et al. 2004) o el bajo nivel de polimorfismo intraespecífico (Funk et al. 2001; Abbot y Moran, 2002). Adicionalmente, el secuestro en un ambiente intracelular reduce o impide por completo la entrada de material por transferencia horizontal, con lo que la pérdida de éste puede ser irreversible. Una segunda consecuencia es 11 ........................................................................................................................................................... que la recombinación con material genético diferente se ve impedida, con lo que no es posible recuperar la clase más eficaz en la población, lo que unido al pequeño tamaño poblacional aumenta la fijación de mutaciones ligeramente deletéreas. Es lo que se conoce como Trinquete de Muller (Muller, 1964; Felsenstein, 1974). La pérdida masiva y la turbulencia que caracterizan las primeras etapas de la reducción contrastan con la estabilidad genómica y la escasez de DNA no codificante que caracteriza los últimos estadios. Esta estabilidad es resultado de la pérdida de genes de recombinación y secuencias repetidas durante las etapas tempranas y de las reducidas oportunidades de intercambio genético, debido al secuestro en un ambiente intracelular. La importancia relativa de todos estos factores explicativos está por determinar, pero en conjunto conducen inevitablemente a la reducción del genoma. Pese a los hechos generales bien establecidos del proceso de evolución reductiva, numerosos son los aspectos que quedan por resolver respecto a la dinámica de pérdida, los mecanismos relacionados, o las fuerzas evolutivas que dirigen el proceso. Así, en general, se asume que el ritmo de pérdida ha variado a lo largo del proceso de reducción. Dado que inicialmente la información que puede perderse es abundante y ésta va disminuyendo a medida que avanza el proceso de reducción, a priori es razonable asumir que el ritmo de pérdida es mayor inicialmente. Sin embargo ésto ha llevado en numerosas ocasiones a una asunción no comprobada que establece que el mayor ritmo de pérdida es resultado del tamaño superior de los eventos en los estadios iniciales, frente al de los sucesos que protagonizan las últimas etapas. Pero lo cierto es que un ritmo mayor de pérdida, puede alcanzarse no sólo mediante deleciones de mayor tamaño sino también a través de un incremento en la frecuencia de los eventos de tamaño moderado o reducido. Así, por un lado una corriente postula que las grandes deleciones (abarcando decenas de loci) protagonizan los estadios tempranos de la reducción y sólo en etapas finales, la pérdida se da gradualmente a través de 12 ..........................................................................................................................Introducción general un proceso gen a gen (Moran y Mira, 2001; Wernegreen, 2002a; Moran, 2003; Nilsson et al. 2005). Por otro lado, otros estudios apoyan una pérdida gradual mediante eventos de tamaño moderado, cuyo ritmo de acumulación va descendiendo a lo largo del proceso de evolución reductiva (Silva et al. 2001; Delmotte et al. 2006). Ambas corrientes asumen una perdida final gradual, dado que la disminución del potencial de pérdida y el hecho de que el propio proceso de reducción acabe afectando a los elementos que permiten actuar a los mecanismos de recombinación conllevarían a etapas finales caracterizadas por eventos muy pequeños (Tamas et al. 2002). Acerca de la principal fuerza evolutiva que dirige esta reducción, las hipótesis postuladas, que en general se engloban dentro de teorías más generales del tamaño genómico como las expuestas previamente, básicamente se pueden clasificar en dos grupos. a) Seleccionistas Según éstas, existe una presión selectiva que favorece un pequeño tamaño genómico en todas las bacterias. Existen diversos argumentos para explicar la mayor eficacia asociada a un genoma reducido. Por ejemplo, se postula que los genomas con exceso de DNA tienen un mayor potencial mutacional y por lo tanto mayores probabilidades de sufrir mutaciones, que pueden matar a la célula o reducir su fecundidad o viabilidad; además, requieren más espacio y compiten por tanto con otras funciones por éste, restan energía y requieren más fosfato, nutriente escaso en la biosfera (Cavalier-Smith, 2003). Sin embargo, la ventaja selectiva asociada a genomas reducidos principalmente postulada en bacterias, es que un menor tamaño puede conllevar ventajas como una reducción del tiempo de replicación o un menor gasto energético (Albert et al. 1996; Davis y Hodgson, 1997; Selosse et al. 2001; Rogozin et al. 2002; Ranea et al. 2005; Cavalier-Smith, 2005). En base a estas teorías, las fuerzas evolutivas que actuarían sobre genomas bacterianos de vida libre y endosimbiontes serían las mismas, pero la mayor reducción de los últimos sería resultado de la mayor cantidad de información que puede perderse. 13 ........................................................................................................................................................... Lynch (2006) también argumenta una ventaja selectiva de los genomas reducidos, pero en base a su teoría poblacional a priori los genomas de bacterias intracelulares, debido a la eficacia reducida de la selección tenderían a expandirse. Sin embargo se reducen, y Lynch explica este hecho porque afirma que no son hábitats adecuados para los elementos móviles, que progresivamente van desapareciendo dando lugar a la contracción del genoma. Pese a que algunas de las condiciones favorables asociadas a una dimensión genómica reducida son evidentes, no se puede afirmar sólo a partir de esta observación que la selección es la fuerza que moldea el tamaño genómico. b) Mutacionales: Las hipótesis restantes postulan que es la deriva genética la principal fuerza evolutiva responsable del tamaño del genoma de bacterias intracelulares y que, dado que existe un sesgo hacia la deleción en éstas, el manifiesto del mismo es el responsable de la compactación genómica. Efectivamente, el sesgo hacia la deleción ha sido demostrado en bacterias, tanto de vida libre como intracelulares (Andersson y Andersson, 1999; Moran y Mira, 2001). De modo que en el caso de las bacterias intracelulares la reducción es mayor probablemente porque la cantidad de DNA sobre el que puede actuar este sesgo se incrementa, aunque tampoco podemos descartar que lo que ocurra sea un aumento del sesgo de pérdida en éstas. Sin embargo, Lawrence (2001) afirma que en el caso de las bacterias obligadas intracelulares, dado que la exposición a parásitos genéticos se reduciría dramáticamente, ya no hay selección a favor de tasas de deleción elevadas, de modo que el sesgo de pérdida está reducido respecto a las bacterias de vida libre. Esto daría lugar a la creciente acumulación de pseudogenes, como ocurre en M. leprae (Cole et al. 2001). Pero el sesgo mutacional hacia la deleción, aunque inferior respecto al de bacterias de vida libre, eliminaría progresivamente los pseudogenes. Esto conllevaría a genomas con un moderado contenido de los mismos y restos génicos abundantes, como ocurre 14 ..........................................................................................................................Introducción general en Rickettsia prowazekii donde existe un 24% de DNA no codificante (Andersson et al. 1998). Finalmente, quedarían muy pocos pseudogenes y la mayor parte del DNA sin función se eliminaría, como ha ocurrido en el caso de Buchnera y Carsonella (Shigenobu et al. 2000; Clark et al. 2001). En las últimas etapas del proceso, el genoma podría llegar a alcanzar un mínimo que vendrá determinado por el nicho intracelular específico en cada caso, con lo que la bacteria será extremadamente vulnerable a cualquier cambio ambiental. Esta tremenda astringencia genómica puede por tanto condenar a la extinción a estas bacterias si el hospedador es eliminado. Otra posibilidad es el reemplazamiento por nuevas bacterias más eficaces para el hospedador, como se ha sugerido en el caso de B. aphidicola de C. cedri (Pérez-Brocal et al. 2006). Este pulgón contiene además de esta bacteria otras bacterias intracelulares, cuya expansión en el hospedador ha llevado a postular una posible sustitución de B. aphidicola por estos endosimbiontes secundarios (Gómez-Valero et al. 2004b). Así mismo, también se ha postulado que la agrupación bacteria–hospedador puede evolucionar con éxito hasta que la bacteria llegue a un grado de integración en la célula del hospedador de modo que ya no sea reconocida como una entidad separada, como en el caso de mitocondrias y cloroplastos. Sin embargo, la diferencia principal entre estos orgánulos y las bacterias obligadas intracelulares citadas, es que en el caso de mitocondrias y cloroplastos la simbiosis inicial se estableció en la línea germinal y tuvo lugar la transferencia de genes al núcleo, lo que hasta ahora no se ha descrito en estos endosimbiontes (Palenik, 2002). Para estudiar el proceso de reducción genómica en las diferentes especies bacterianas que lo sufren es necesario establecer el ritmo de pérdida en éstas, como se ha hecho ya para diversas especies eucariotas (Graur et al. 1989; Saitou y Ueda, 1994; Petrov et al. 1996; Ophir y Graur, 1997; Petrov y Hartl, 1998; Bensasson et al. 2001). Este cálculo requiere secuencias de especies o cepas próximas para determinar los sucesos de indels (tamaño y frecuencia de los mismos) o los genes perdidos, y estimas temporales para 15 ........................................................................................................................................................... calcular tasas respecto al tiempo absoluto. Así mismo, trabajar con diferentes especies que se encuentren en etapas distintas del proceso de reducción genómica nos permitirá saber si el ritmo y modo de pérdida varían o no a lo largo del proceso. La reducción genómica extrema ha sido documentada en varios grupos bacterianos incluyendo gram-positivas, clamidias, espiroquetas o linajes dentro de las gamma y alfa proteobacterias. Hasta el momento, los genomas más pequeños (<1Mb), han sido encontrados mayormente en bacterias que mantienen una asociación intracelular obligada con un hospedador, de modo que estos organismos son modelos adecuados para caracterizar la evolución reductiva del tamaño genómico. 1.4 Simbiosis en bacterias obligadas intracelulares El término simbiosis (del griego simbios que significa “viviendo juntos”) fue acuñado por Anton de Bary en 1879, para definir la asociación entre dos o más especies diferentes. El concepto excluye por lo tanto a las poblaciones, que son asociaciones entre individuos de una misma especie. Así mismo, aunque la relación simbiótica puede ser tanto permanente como limitada a un periodo extenso, las asociaciones de corta duración no se incluyen en la definición original. Las relaciones simbióticas se pueden clasificar en relación a diferentes hechos característicos de la asociación establecida (Paracer y Ahmadjian, 2000). De este modo, en base por ejemplo a su localización, diferenciamos entre endo y ectosimbiontes. Los endosimbiontes son aquellos que viven dentro de los tejidos o células del hospedador, durante todo o parte del ciclo de vida de éste. Dentro de éstos, aquellos que pueden replicarse en el interior de las células del hospedador se conocen como endosimbiontes intracelulares. Por el contrario, los ectosimbiontes residen fuera del organismo hospedador. En base al grado de dependencia, la simbiosis puede ser tanto obligada como facultativa. En el caso de una simbiosis obligada, los 16 ..........................................................................................................................Introducción general organismos no pueden vivir sin la relación simbiótica. Mientras que los organismos que establecen simbiosis facultativas, pueden también ser organismos independientes. No obstante, en ocasiones es difícil diferenciar entre ambas, dado que por ejemplo, un organismo puede ser de vida libre pero estar en nichos tan especializados que son difíciles de identificar (Douglas, 1996). Probablemente, la clasificación principal de las relaciones de simbiosis se basa en las ventajas o desventajas derivadas de la asociación sobre los organismos implicados. Según este criterio, distinguimos tres tipos de simbiosis: mutualismo, comensalismo y parasitismo. El mutualismo se define como la relación entre dos organismos, en la que ambos optimizan su eficacia biológica relativa. En el comensalismo sólo uno de los organismos implicados aumenta su eficacia sin causar perjuicio al otro. Mientras que en el parasitismo uno de los simbiontes aumenta su eficacia provocando un perjuicio a la otra parte. Los límites entre estas categorías no están completamente separados y son frecuentes de hecho las transiciones entre ellos. Por ejemplo, el mutualismo a menudo evoluciona a partir de una relación de parasitismo o viceversa. No obstante, independientemente de las transiciones que pueden darse entre los diferentes tipos de simbiosis, los términos son a menudo confusos, porque no se utilizan correctamente. Así, las propuestas para redefinir el término simbiosis a lo largo de la historia, igualando numerosas veces su significado al del mutualismo, ha dado lugar a confusiones (Saffo, 1992; Lewin, 1995). Sin embargo, el término tal y como fue propuesto por Anton de Bary, se refiere no sólo al mutualismo sino a cualquier asociación entre especies que implique beneficio, perjuicio o no tenga efecto sobre las mismas. Las relaciones simbióticas son muy comunes en la naturaleza y han influenciado la diversidad y especiación de numerosas especies, siendo una importante fuerza en la evolución de la vida en la tierra en las primeras etapas. Quizás el ejemplo más importante es la asociación simbiótica entre organismos procariotas durante el precámbrico, que ha dado lugar al origen 17 ........................................................................................................................................................... de orgánulos como la mitocondria o los cloroplastos (Margulis y Fester, 1991). Así mismo, son destacables las numerosas relaciones de simbiosis entre insectos y bacterias intracelulares, que representan una clave para explicar el éxito evolutivo de los artrópodos, que han podido adaptarse a nichos inapropiados asociados con dietas deficitarias, gracias a la compensación nutricional aportada por sus endosimbiontes asociados. En referencia a las modificaciones genómicas derivadas de una relación simbiótica y más concretamente a los cambios inducidos en el tamaño genómico, un grupo de simbiontes destaca del resto: las bacterias obligadas intracelulares. Este grupo de organismos se caracteriza por poseer genomas muy pequeños, resultantes de un proceso de evolución reductiva previamente descrito. Dentro de este grupo encontramos tanto parásitos como mutualistas. Aunque el efecto sobre el hospedador de ambos es diferente, el estilo de vida similar implica que han de enfrentarse a problemas comunes y que sufren las mismas consecuencias derivadas de la estructura poblacional compartida. Así, ambos necesitan superar las barreras físicas, celulares y moleculares del hospedador, de hecho ambos poseen por ejemplo genes de invasión celular; y ambos sufren una transmisión vertical a través de drásticos cuellos de botellas. Además en ambos casos, el factor primario de la relación es generalmente nutricional. Sin embargo, dado que los parásitos buscan alimentarse a partir del hospedador, mientras que los mutualistas representan una fuente de alimento para éste, estos últimos presentan una alta fracción de genes que permiten llevar a cabo funciones biosintéticas, mientras que los parásitos se caracterizan por una mayor fracción de funciones de transporte (Tamas et al. 2001). Así mismo, mientras los parásitos evolucionan comúnmente mediante mecanismos que van cambiando la superficie celular, para evitar ser reconocidos y eliminados por el hospedador (Andersson et al. 1998), los mutualistas a menudos se protegen localizándose en células especializadas del hospedador, los bacteriocitos (Baumann et al. 2000; Wernegreen, 2002). En definitiva, dado que los patógenos no benefician al hospedador como los mutualistas, han de estar adaptándose 18 ..........................................................................................................................Introducción general constantemente a posibles cambios para evitar ser eliminados y por esta misma razón, en ocasiones es frecuente que necesiten encontrar nuevos hospedadores (Wixon, 2001). Este requerimiento de una mayor capacidad para adaptarse a cambios en el ambiente en patógenos versus endosimbiontes, explicaría quizás porque, pese a que ambos sufren evolución reductiva, los genomas de patógenos no están tan extremadamente reducidos como los de mutualistas, dado que experimentan una fuerte selección a favor de la variación fenotípica. Una de las consecuencias más importantes de la evolución de las bacterias obligadas intracelulares es la coevolución con el hospedador. Esta evolución conjunta es resultante de la relación obligada que se establece y que se mantiene a través de una transmisión vertical estricta, que se refleja en la congruencia de árboles filogenéticos procedentes del hospedador y el simbionte. La convergencia temporal en los fenómenos de especiación y divergencia de simbiontes, tiene como principal ventaja que las estimas temporales se pueden extrapolar de uno a otro. Dado que en los procariotas la existencia de un registro fósil es prácticamente inexistente, las bacterias endosimbiontes tienen la ventaja de que los tiempos de divergencia entre las mismas pueden estimarse de manera indirecta a través de su correspondientes hospedadores, para los que generalmente, la probabilidad de hallar un registro fósil asociado es mayor. La secuencia completa de muchos genomas de bacterias obligadas intracelulares está actualmente disponible. Algunos de éstos están filogenéticamente próximos a las bacterias de vida libre, cuyo genoma también ha sido secuenciado; o la secuencia genómica de especies o cepas muy relacionadas a los mismos también ha sido completada, lo que permite el desarrollo de estudios comparativos. Los genomas secuenciados se corresponden, además, con bacterias que abarcan un amplio rango, que representa los diferentes estadios de la reducción genómica. Esta muestra actual, aunque limitada, proporciona una oportunidad única para empezar a 19 ........................................................................................................................................................... descubrir de qué modo exactamente tiene lugar la reducción de los genomas bacterianos. El estudio de la degradación genómica en las mismas no sólo permitirá explicar el proceso de miniaturización génica al que están sometidas, sino que además, dado el drástico cambio en la estructura poblacional sufrido, son ideales para contrarestar las teorías desarrolladas para explicar el tamaño genómico de todos los organismos. 1.5 El análisis de las pérdidas El análisis de los genomas reducidos requiere la identificación de los genes perdidos y el cálculo de tasas. En nuestro estudio, consideramos que un gen activo se convierte en un gen perdido desde el momento en que sufre cualquier evento que destruye la función génica y se transforma por tanto, en un pseudogen. A partir de ese momento, puede sufrir mutaciones tales como sustituciones y/o indels que pueden llegar a hacer desaparecer por completo la similitud con la secuencia original. Es por ello que, a la hora de detectar los genes que ha perdido un genoma, hay que buscar tanto los pseudogenes presentes en el mismo como las pérdidas completas: a) Pseudogenes Son secuencias que originalmente codificaban para proteínas funcionales, pero que actualmente no tienen capacidad de dar lugar a proteínas capaces de llevar a cabo su función adecuadamente. Pueden ser transcripcionalmente activos o no. El criterio que principalmente define a un pseudogen es que aún mantiene un grado de similitud con el gen original, que permite identificarlo. De modo que los pseudogenes pueden detectarse a través de la búsqueda de restos ortólogos de genes funcionales en otro genoma estrechamente emparentado. Adicionalmente existen también pseudogenes de RNA cuya detección es más difícil, dado que al no codificar para una proteína no pueden identificarse a través de la inactivación de ésta. 20 ..........................................................................................................................Introducción general La identificación de pseudogenes está sujeta a los criterios de definición de los mismos, dado que no siempre puede comprobarse experimentalmente que el producto codificado por el supuesto pseudogen no es funcional. Estos criterios de definición pueden estar sujetos a variación. Por ejemplo, los valores mínimos del grado de similitud y la longitud de un gen inactivo respecto a un ortólogo funcional, para considerarlo un pseudogen, dependen del autor. Así mismo, la base de datos de ortólogos para realizar la búsqueda depende de las secuencias disponibles. De hecho, el número de pseudogenes detectados en bacterias se ha incrementado a medida que ha aumentado el número de genomas completamente secuenciados. Por ejemplo, pequeñas pautas abiertas de lectura, que inicialmente se describieron como genes de función desconocida, han pasado al estatus de pseudogen, al descubrir ortólogos de los mismos de mucha mayor longitud en especies estrechamente emparentadas (Ochman y Davalos, 2006). La ortología, muchas veces basada únicamente en una estrecha similitud, puede mejorarse con el criterio de sintenia. La sintenia existe entre dos genes A y B de diferentes cepas, si hay dos o más ORFs en la inmediata proximidad del gen A, que tienen homología a ORFs en la vecindad del gen B. Este criterio implica asumir que el orden génico de las especies con las que trabajamos está conservado, o bien trabajar únicamente con bloques sinténicos del genoma. Es por ello que puede aplicarse únicamente cuando trabajamos con especies cercanamente relacionadas. b) Pérdidas completas Los genes que se han perdido completamente pueden detectarse mediante la comparación del genoma degradado con el de especies muy próximas (Dagan et al. 2006). A la hora de llevar a cabo esta comparación, usualmente se asume que en el momento de la divergencia el contenido génico de las especies comparadas era el mismo y que, por tanto, los genes presentes en una especie pero ausentes en otra probablemente se han perdido en esta última. Esta asunción no está exenta de error, dado que la diferencia 21 ........................................................................................................................................................... en el contenido génico puede también deberse a transferencia horizontal. Sin embargo, en el caso de bacterias intracelulares la transferencia horizontal está muy restringida debido al secuestro en un ambiente intracelular. Si, además, el genoma que ha sufrido degradación génica se compara, no directamente con un genoma estrechamente emparentado, sino con un genoma ancestral reconstruido, la probabilidad de que los genes perdidos estuvieran originalmente en el genoma que estamos estudiando es mayor, dado que la posibilidad de incorporar genes específicos de especie o cepa en el ancestro se reduce. Estudios previos que han llevado a cabo la reconstrucción del ancestro para estudiar el proceso de pérdida son los de Moran y Mira (2001) o Silva et al. (2001). En ambos trabajos, se analiza la pérdida de genes en el endosimbionte B. aphidicola en etapas tempranas, a través de la reconstrucción del ancestro, mediante la comparación con E. coli y Yersinia pestis en el primer trabajo, y con E. coli y Vibrio cholerae en el segundo. Una vez identificadas las pérdidas de un genoma, se puede proceder al cálculo de las tasas relacionadas con procesos implicados en la degradación, cuyas definiciones son a menudo imprecisas. Para evitar por tanto la confusión de los términos empleados, definimos a continuación en base a nuestro criterio, los parámetros con los que trabajamos en nuestro estudio: Tasa de inserción/deleción: es la frecuencia con la que se producen eventos de inserción o deleción por unidad de tiempo. Este parámetro requiere conocer el número de segmentos insertados o delecionados, pero no el tamaño de los mismos. Tasa de pérdida o ganancia: a partir del tamaño y el número de eventos de inserción o deleción, esta variable nos mide la cantidad de nucleótidos que pierde o gana un genoma por unidad de tiempo. El balance entre el DNA incorporado y el DNA perdido resulta en una tasa global de pérdida o ganancia. 22 ..........................................................................................................................Introducción general La tasa de pérdida no ha de ser confundida con la tasa de inactivación, que se define como el número de genes inactivados por unidad de tiempo. 23 24 2. OBJETIVOS GENERALES 25 26 …………………………………………………………………………………Objetivos generales 2. OBJETIVOS GENERALES El principal objetivo del presente trabajo es caracterizar la evolución reductiva en bacterias obligadas intracelulares, tanto en etapas tempranas como tardías de la reducción genómica. Para llevar a cabo este estudio, trabajamos con bacterias cuya secuencia genómica y/o la de especies o cepas cercanas se haya actualmente disponible. De este modo, podemos reconstruir el genoma o estado ancestral, lo que nos permite llevar a cabo estudios comparativos con la secuencia o genoma actual y determinar los cambios que se han producido durante la evolución de un linaje concreto. 27 28 4. MATERIAL Y MÉTODOS 29 30 ……………………………………………………............................................Material y métodos 3. MATERIAL Y MÉTODOS 3.1 Especies empleadas El presente trabajo se ha centrado en tres bacterias obligadas intracelulares: B. aphidicola, Blochmannia floridanus y M. leprae, cuyas características generales se detallan en la tabla 3.1. Aunque éstas han sido las especies principales, dependiendo de si el estudio llevado a cabo en cada capítulo ha sido intra o interespecífico, se han empleado diferentes cepas de alguna de estas especies o bacterias de diferentes especies hospedadoras. Además, en cada capítulo se ha trabajado con otras especies adicionales, para las inferencias filogenéticas o como fuente de información suplementaria para la reconstrucción de ancestros. La información de cada una de las especies o cepas concretas empleadas en cada capítulo y su obtención se detallan a continuación: 3.1.1 Capítulo 4 En este capítulo trabajamos con B. aphidicola de tres especies de pulgones diferentes descritas en la tabla 3.2. Aunque B. aphidicola está descrita como una única especie, el grado de divergencia entre B. aphidicola de diferentes especies de pulgones ha llevado a sugerir que sea subdivida en nuevas especies (Baumann et al. 2000). Por esta razón, nosotros consideraremos como interespecífico el estudio llevado a cabo entre B. aphidicola de diferentes especies de pulgones. 31 Hospedador Pulgones Hormigas Humanos Simbionte Mutualista Mutualista Patógeno Bacteria Gram-negativa Gram-negativa Gram-positiva Clasificación Gamma proteobacteria Gamma proteobacteria Actinobacteria Tamaño genoma (Mb) 0,42-0,64 0,71 3,2 32 Especie/Hospedador B. aphidicola de Acyrthosiphon pisum B. aphidicola de Schizaphis graminum B. aphidicola de Baizongia pistaciae Abreviatura BAp BSg BBp Tamaño Genoma (nts) 640.681 641.454 615.980 %GC 26% 25% 25% Referencias Shigenobu et al. 2000 Tamas et al. 2002 van Ham et al. 2003 Tabla 3.2. Especies de B. aphidicola empleadas en el estudio. Se indica nomenclatura abreviada que utilizaremos para su designación, el tamaño genómico, % de GC y referencias bibliográficas. * Los valores de Buchnera se basan en los obtenidos en los diferentes genomas de B. aphidicola cuya secuencia ha sido completada. Especie B. aphidicola* B. floridanus M. leprae Tabla 3.1. Especies de bacterias obligadas intracelulares empleadas en el estudio y sus principales características. DNA codificante 81-86% 83% 49% %GC 20-25% 27% 57% …………………………………………………...……………….................................................... …………………………………………………………………………………Material y métodos 3.1.2 Capítulo 5 En este capítulo trabajamos con dos especies mutualistas para llevar a cabo estudios intra e interespecíficos: B. aphidicola y B. floridanus. B. aphidicola El estudio de la degradación génica en los últimos estadios de la reducción de B. aphidicola se llevó a cabo a dos niveles: intra e interespecífico. Para llevar a cabo el estudio intraespecífico se escogió como especie hospedadora el pulgón Rhopalosiphum padi. Se analizaron un total de 37 genotipos de la especie R. padi de diversas localizaciones geográficas distribuidas por todo el mundo (ver figura 3.1): 16 de ellos con mtDNA de haplotipo I (hI), y 21 con mtDNA de haplotipo II (hII). SERBIA ALEMANIA REP.CHECA CANADA GRAN BRETAÑA FRANCIA: Le Rheu Colmar Ensar St.Amand MÉXICO Madon SIRIA Rennes KENIA AUSTRALIA Figura 3.1. Distribución geográfica de los diferentes genotipos de R. padi empleados. Además de éstas, para el estudio a nivel interespecífico, se analizaron cuatro especies más del género Rhopalosiphum pertenecientes a la subfamilia Aphidinae, tribu Aphidini: R. maidis, R. insertum, R. nymphaeae y R. cerasipholiae (esta especie sólo fue empleada en el análisis con el gen repA2). Para calibrar el reloj molecular en B. aphidicola, dos especies más de la subfamilia Aphidinae fueron incluidas: Schizaphis graminum y 33 …………………………………………………...……………….................................................... Acyrthosiphon pisum, pertenecientes a las tribus Aphidini y Macrosiphini respectivamente (ver tabla 3.3). Tabla 3.3. Nombre, código, localización geográfica y haplotipo mitocondrial de las especies empleadas. * Las secuencias de estas especies se extrajeron de la base de datos. Especies Rhopalosiphum padi (clones) H6 A4 A2 A3 H1A Colmar 14 Gb Lars 16 Gb Lars 17 Scotland Kp1 A24 A16 H93 République Tchèque A25 Tunisie 1 H15 H4 H5 Canada güel Canada windsor Colmar 10 Colmar 15 Colmar 3 Nord Germany A26 J93 Arbo 4 Arbo 18 17 Ensar Rebillon Le Rheu Ensar 1 Ensar 5 Ensar 6 Serbie2 Kerguelen Grupos externos Rhopalosiphum insertum Rhopalosiphum maidis Rhopalosiphum cerasipholiae Rhopalosiphum nymphaeae Schizaphis graminum * Acyrthosiphon pisum* Código Localización geográfica BRp1 Rennes (Fracia, oeste) BRp2 Le Rheu, Francia BRp3 Le Rheu, France BRp4 Le Rheu, France BRp5 Perth,Australia BRp6 Colmar (Francia, este) BRp7 Bristol, Gran Bretaña BRp8 Bristol, Gran Bretaña BRp9 Dundee, Escocia BRp10 Kendenup, Australia BRp11 Nairobi, Kenia BRp12 Mandon, Francia BRp13 Rennes (Francia, oeste) BRp14 Opava, República Checa BRp15 Alep, Siria BRp16 Tunis, Túnez BRp17 St Amand, Francia BRp18 Rennes (Francia, oeste) BRp19 Rennes (Francia, oeste) BRp20 Guelph, Canada BRp21 Windsor, Canada BRp22 Colmar (Francia, este) BRp23 Colmar (Francia, este) BRp24 Colmar (Francia, este) BRp25 Göttingen, Alemania BRp26 CYMMIT, México BRp27 Rennes (Francia, oeste) BRp28 Rennes (Francia, oeste) BRp29 Rennes (Francia, oeste) BRp30 Rennes (Francia, oeste) BRp31 Rennes (Francia, oeste) BRp32 Le Rheu, Francia BRp33 Rennes (Francia,oeste) BRp34 Rennes (Francia,oeste) BRp35 Rennes (Francia,oeste) BRp36 Belgrade, Serbia BRp37 Islas Kerguelen (Océano Índico) BRi BRm BRc BRn BSg BAp 34 Le Rheu, Francia Le Rheu, Francia Algonquin, Canada Le Rheu, Francia Base de datos Base de datos mt DNA I I I I I I I I I I I I I I I I II II II II II II II II II II II II II II II II II II II II II …………………………………………………………………………………Material y métodos Las muestras de pulgones empleadas fueron suministradas por el Dr. José M. Michelena Saval, de la unidad de Entomología del Instituto Cavanilles y el Dr. Jean-Christophe Simon, del EMSAR de Le Rheu (Rennes) Francia, a excepción de algunas muestras de R. nymphaeae proporcionadas por el Dr. Pérez Hidalgo de la Universidad de León. El material era suministrado en alcohol de 95%, o como material fresco. B. floridanus El estudio de la reducción en esta bacteria se llevó a cabo a nivel intraespecífico. Un total de 9 colonias diferentes de la hormiga Camponotus floridanus fueron empleadas (ver tabla 3.4), y adicionalmente Blochmannia de C. rufipesA fue utilizada como grupo externo. Tabla 3.4. Especies del género Camponotus empleadas en el estudio, código utilizado para designar a B. floridanus de cada una de las colonias de Camponotus, localización geográfica de las mismas y fecha de captura. Especie Código Localización geográfica Fecha de captura Colonias Camponotus floridanus CFloC1 Summerland key (FLORIDA) 2003 Camponotus floridanus CFloC2 Sansibal island (FLORIDA) 2003 Camponotus floridanus CFloC3 Saddlebunch keys (FLORIDA) 2003 Camponotus floridanus CFloC10 Sugarloaf key (FLORIDA) 2003 Camponotus floridanus CFloC51 Key Largo (FLORIDA) 2002 Camponotus floridanus CFloC96 Orchid island (FLORIDA) 2003 Camponotus floridanus CFloC236 Tarpon Springs (FLORIDA) 2003 Camponotus floridanus CFloC308 Orchid island (FLORIDA) 2003 Camponotus floridanus CFloC316 Sugarloaf shores (FLORIDA) 2003 Camponotus rufipes A CRufA Misiones (ARGENTINA) 2003 La distribución geográfica de dichas cepas, comprende diversas zonas geográficas tanto de la península de Florida, como de diferentes islas del archipiélago (ver figura 3.2). CRufA, fue la especie escogida como grupo externo. Para el calibrado del reloj molecular, también se emplearon 35 …………………………………………………...……………….................................................... secuencias procedentes de C. pennsylvanicus y de Formica fusca, disponibles en las bases de datos. CFloC236 CFloC308,C96 CFloC2 CFloC51 CFloC1,C3,C10,C316 Figura 3.2. Localización geográfica de las colonias de hormigas del género Camponotus empleadas en el estudio. Las muestras de C. floridanus y de C. rufipes nos fueron proporcionadas por el grupo del Dr. J. Gadau del grupo de Zoología II del Instituto Theodor Boveri (Biozentrum, Universidad de Würzburg). 3.1.3 Capítulo 6 La especie objeto de estudio en este capítulo fue M. leprae, pero tanto para la reconstrucción del genoma ancestral como para la reconstrucción filogenética y el cálculo de parámetros, se emplearon otras especies del género Mycobacterium descritas en la tabla 3.5. 36 …………………………………………………………………………………Material y métodos Además de los anteriormente citados se utilizaron otros genomas con el fin de resolver las relaciones filogenéticas, la ortología o la situación ancestral de algunos genes: Mycobacterium marinum (Mma), Nocardia farcinica cepa IFM10152 (Nfa), Corynebacterium glutamicum cepa ATCC13032 (Cgl), Corynebacterium efficiens Corynebacterium diptheriae NCTC13129 (Cdi). 37 YS-314 (Cef) y Tabla 3.5. Especies de Mycobacterium empleadas en el estudio. Se indica la cepa, la nomenclatura asignada, el hospedador, el tamaño genómico, el contenido en GC y las referencias bibliográficas. Especie Cepa Abreviatura Hospedador Tamaño Genoma (nts.) %GC Referencias Li et al. 2005 Mycobacterium avium subsp. paratuberculosis K-10 Mav Ganado y humanos 4.829.781 69,30% Cole et al . 1998 Mycobacterium tuberculosis H37Rv Mtu(I) Humanos 4.411.532 65% Fleischmann et al. 2002 Mycobacterium tuberculosis CDC1551 Mtu(II) Humanos 4.403.837 65% Garnier et al. 2003 Mycobacterium bovis AF2122/97 Mbo Ganado y otros animales 4.345.492 65% Cole et al. 2001 Mycobacterium leprae TN Mle Humanos 3.268.203 67% …………………………………………………...……………….................................................... 38 …………………………………………………………………………………Material y métodos 3.2 Obtención de las secuencias En los capítulos 4 y 6 se trabajó con el genoma completo de las especies empleadas disponibles en la base de datos NCBI (National Center for Biotechnology Information). En el capítulo 5 se trabajó con secuencias específicas de las especies escogidas, que se obtuvieron experimentalmente mediante el proceso que se detalla a continuación: 3.2.1 Extracción de DNA Extracción de DNA de pulgón Dado que B. aphidicola no puede ser cultivada fuera del pulgón, para obtener el DNA de la bacteria se ha procedido a la extracción del DNA total del pulgón, lo que implica la obtención de una mezcla final compuesta por DNA del hospedador, DNA de B. aphidicola y demás flora intestinal. El método empleado para dicha extracción ha sido el método de extracción de DNA total de Latorre et al. (1986). El protocolo de extracción consta de los siguientes pasos: 1. Homogeneizar la muestra en 160 μl de tampón I (10 mM Tris-HCl, 60 mM NaCl , 5% Sacarosa, 10 mM EDTA, pH 7.8). 2. Añadir 200 μl de tampón II (Tampón de lisis: 300 mM Tris-HCl, 1.25% SDS, 5% Sacarosa, 10 mM EDTA, pH 8). Homogeneizar mediante inversión suave del tubo. Incubar a 65ºC durante 30 min. 3. Neutralización con 60 μl de tampón III (3 M AcOK, pH 5). Homogeneizar la solución mediante inversión enérgica del tubo. Incubar a -20ºC, 20 min. 4. Centrifugar 15 min. a 13000 rpm. 5. Transferir el sobrenadante a un nuevo vial. Añadir un volumen de Isopropanol, homogeneizar la suavemente. Incubar 5 min a temperatura ambiente. 39 muestra …………………………………………………...……………….................................................... 6. Centrifugar 10 min a 13.000 rpm. Eliminar el sobrenadante por decantación. 7. Lavar el precipitado con 500 μl de etanol al 70%. 8. Centrifugar 3 min a 13.000 rpm. Desechar el sobrenadante y secar al vacío durante 5 min. 9. Resuspender el precipitado en 20 μl de LTE+RNasa (LTE: 10 mM Tris-HCl, 0.1 mM EDTA, pH 8.0; 20 μg/ml RNasa). Extracción de DNA de hormigas También en este caso se ha procedido a la extracción del DNA total del insecto. Sin embargo, dado el mayor grosor de la cutícula en el caso de la hormigas con las que trabajamos en comparación con los pulgones, aplicamos un método de extracción con proteinasa K que mostró mucha más eficacia que el anterior. En concreto, aplicamos el método de Salting out (Sunnucks y Hales, 1996). El protocolo de extracción consta de los siguientes pasos: 1. Homogeneizar la muestra en 100 μl de TNES (Tris-HCl 50mM pH 7.5, NaCl 400mM, EDTA 20mM pH 8.0, 0,5% SDS) junto con 6 μl de Proteinasa K (5mg/ml). 2. Añadir 200 μl más de TNES e incubar 1 hora a 50ºC o toda la noche a 37ºC. 3. Añadir 85 μl de NaCl 5M, y homogeneizar invirtiendo el tubo varias veces. 4. Centrifugar a 14.000 rpm durante 10 min. 5. Recuperar el sobrenadante y añadir 450 μl de etanol absoluto frío (20ºC). 6. Incubar 20 min a -80ºC o 1 hora a -20ºC. 7. Centrifugar 10 min a 13.000 rpm. 8. Eliminar el sobrenadante y lavar el precipitado con 200 μl de etanol 70% frío (-20ºC). 40 …………………………………………………………………………………Material y métodos 9. Centrifugar 10 min a 13.000 rpm. 10. Eliminar el sobrenadante por decantación y secar al vacío 20 min. 11. Resuspender en 20-50 μl de LTE (Tris-HCl 10mM pH 8.0, EDTA 0.1 mM pH 8.0), LTE con RNasa (10μg/ml) o mQH2O (según el tamaño de la muestra y el uso posterior de la misma). El protocolo se ha aplicado tanto sobre material fresco (hormigas vivas) como sobre material en etanol o acetona. En un primer momento las muestras fueron preservadas en etanol, pero posteriormente comprobamos que la conservación del DNA mejoraba si las hormigas se mantenían en acetona de acuerdo con Fukatsu (1999). 3.2.2 Regiones neutras estudiadas B. aphidicola Las regiones neutras escogidas para el estudio en este caso fueron el pseudogen cmk (desde la posición 343.618 a la 344.378 en el genoma de BSg) y una región intergénica situada entre los genes hupA y rpoC (desde la posición 35.993 a 36.463 en el genoma de BSg) a la que denominamos IGR. B. floridanus Un total de 16 regiones intergénicas del genoma de B. floridanus, fueron seleccionadas al azar para su amplificación en las diferentes colonias de C. floridanus y en C. rufipes. Las regiones intergénicas definidas por los genes flanqueantes a las mismas y el tamaño de éstas se muestran en la tabla 3.6. 41 …………………………………………………...……………….................................................... Tabla 3.6. Regiones intergénicas del genoma de B. floridanus seleccionadas para el estudio. El tamaño se basa en la secuencia disponible del genoma completo de B. floridanus. GEN FLANQUEANTE ANTERIOR GEN FLANQUEANTE POSTERIOR TAMAÑO REGIÓN INTERGÉNICA tRNA-Ala rplJ rplD cspC trpA tonB lolA fba cysH psd yrbA ubiE manX infC Bfl040 pheT metF rplA rplW zwf tonB cls serS rpiA cysG orn murA aarF manY rpml yidZ lplA 1688 317 8 870 704 335 502 252 139 521 54 561 115 94 608 103 3.2.3 Regiones empleadas para calibrar el reloj molecular B. aphidicola El gen escogido para calibrar el reloj fue repA2, un gen plasmídico que codifica para la replicasa del plásmido y para el cual la secuencia de algunas especies con las que trabajamos ya estaba disponible (Silva et al. 1998). B. floridanus En este caso dos grupos de secuencias se emplearon para calibrar el reloj. En primer lugar se empleó la secuencia de las subunidades I y II de la citocromo oxidasa del hospedador, para obtener un primer punto de calibrado. A partir de éste, todas las regiones intergénicas seleccionadas de B. floridanus se concatenaron en un alineamiento único y se utilizaron para obtener los datos de divergencias más recientes. 42 …………………………………………………………………………………Material y métodos 3.2.4 Amplificación por PCR Tras comprobar el resultado de las extracciones de DNA mediante electroforesis en gel de agarosa, se procedió a la amplificación de las regiones de interés mediante la técnica de reacción en cadena de la polimerasa (PCR). El diseño de cebadores, basados en la secuencias genómicas disponibles, se llevó a cabo mediante el programa PRIMER3 (Rozen y Skaletsky, 2000), con el fin de evitar palíndromes, o estructuras secundarias que afecten al cebador. El diseño de cebadores y las condiciones concretas de cada amplificación se detallan a continuación: B. aphidicola 1. Regiones neutras Para obtener la secuencia de ambas regiones, en primer lugar se diseñaron cebadores degenerados (rpsA1R, aroA1F, hupABu y rpoCBu) basándose en la secuencias de BBp, BAp y BSg, disponibles a partir de los genomas completamente secuenciados de ambas especies (Shigenobu et al. 2000; Tamas et al. 2002; van Ham et al. 2003). Una vez obtenidas las primeras secuencias de estas regiones para algunos genotipos de BRp, se diseñaron cebadores más específicos (hupABuRp, rpoBuRp, cmkRp1F y cmkRp1R). Además, dos cebadores adicionales fueron necesarios para obtener la secuencia de cmk en BRn (cmkRnymF y cmkRnymR) y uno diseñado corriente arriba del gen serC (serCRp) para obtener la secuencia de cmk en BRm. La posición de dichos cebadores y sus secuencias se muestran en la figura 3.3. 43 …………………………………………………...……………….................................................... cmkRnymF rpsA1R cmkRp1R aroA1F cmkRp1F cmkRnymR 334005 336508 335816 335735 serCRp aroA cmk rpsA 336665 337448 serC 338022 339143 rpoCBu hupABu hupABuRp rpoCBuRp rpoC hupA 37493 37771 Cebador 38178 42395 Secuencia 5' ? 3' aroA1F TTA TAA CGA TCA TCG CAT GGC rpsA1R CTG AGA AAA GGT TCG GTA TAG TC hupABu DTT AAT TAA TTG AGT TTT ATT CAT rpoCBu ACW GGA TAT GCA TAT CAY AAA RAA GG hupABuRp TTA ATT GAG TTT TAT TCA T rpoBuRp TAT GCA TAT CAY AAA RAA CG cmkRp1F GGC ATG AGT GTT GGT ATA CGT AAT C cmkRp1R TCT CCT GGA TTA ATA GAA GAA GAC G cmkRnymF CCA AAT TGT ATT TCT AAA ACT TTT CCA TC cmkRnymR TCA ATA GTT GAG CAA AAG ATT CAT TC Figura 3.3. Localización y secuencia de los cebadores utilizados para obtener la secuencia del pseudogen cmk y de IGR. Las posiciones hacen referencia al genoma de BBp. 2. Secuencia del gen repA2 Para calibrar el reloj molecular en B. aphidicola empleamos la secuencia del gen plasmídico repA2 (Latorre et al. 2005). Las secuencias de dicho gen de BAp (AJ006878) y BSg (AJ006876) fueron obtenidas de la base de datos. Para obtener dicha secuencia en el resto de especies empleadas para estimar los tiempos de divergencia, se llevó a cabo una PCR larga con cebadores degenerados: leuA.lo3 y ORF1up2. Posteriormente tras obtener las primeras secuencias se diseñó un cebador específico adicional, repA2d, para obtener la secuencia en BRp y BRi. La posición de los mismos y sus correspondientes secuencias se muestran en la figura 3.4. 44 …………………………………………………………………………………Material y métodos ORF1up2 repA2d ORF 1637 leuA.lo3 repA2 2140 Cebador leuA 3120 2368 3257 4813 Secuencia 5'? 3' ORF1up2 GTW ATG GTW ATG TTT TCW GGW TA leuA.lo3 ARA CTW GCT TGW ARW GCT TGT TCW CCA TC RepA2d TGT AAT CCC AAA CCA GTT TTT AAT CC Figura 3.4. Localización y secuencia de los cebadores empleados para obtener la secuencia de repA2. Las posiciones nucleotídicas están basadas en el genoma de BSg. B. floridanus 1. Regiones neutras Para obtener las secuencias se diseñaron cebadores basados en la secuencia completa de B. floridanus (Gil et al. 2003). Un total de 16 regiones intergénicas se amplificaron mediante PCR. En general, los cebadores se diseñaron sobre la secuencia de los genes flanqueantes, dado que se espera que la secuencia de éstos esté más conservada que las regiones intergénicas, de modo que también puedan ser empleados sobre C. rufipes. Al igual que en los casos anteriores el diseño de cebadores se llevó a cabo con el programa PRIMER3 (Rozen y Skaletsky, 2000). Se diseñaron dos cebadores por región para la amplificación que fueron a su vez empleados en las reacciones de secuenciación. Sin embargo en algunos casos fueron necesarios cebadores adicionales, diseñados sobre posiciones más internas que los utilizados en la PCR, para secuenciar. Igualmente, en algunas regiones fue necesario el diseño de cebadores degenerados para amplificar la región diana en B. rufipes. Los cebadores empleados para cada región, la localización de los mismos y su secuencia específica se detallan en la figura 3.5 y en la tabla 3.7. Indicar que, además de las 16 regiones intergénicas, se amplificaron también parte de dos regiones codificantes: los genes aroK y glmU. 45 …………………………………………………...……………….................................................... Tabla 3.7. Secuencia de los cebadores empleados para amplificar las regiones neutras de B. floridanus y de B. rufipes. Cebador Secuencia 5'→3' BLOHtRNAAl TGG AGC TAA GCG GAA TCG AAC C BLOCHmetFF CAA TAC TGA TAA TAT GTA CAC CAA ATTC BLOCHmetR CAA AAG TGA TAG GTA TTG CAG TTG BLOrplJF AAC CTC CTG GAT CTT ACA AAC G BLOrplAR AAG TAA AAC CAA CGC AAT TTA AGG BLOrpl3 CCA CAA TCT CGA GAT TCT TTT CGC BLOrplDF TTG GCA TCG AGT AAT TTA CAC AC BLOrplWR TTT TCC AAT TAC ATC TAT AAC CAA G BLOrplDF2 ATT TAA ATA GTA TAG ATC CAG TAA G BLOrplWR2 AAT CAC ATA TGC TTT TTT CC BLOcspCS ACA CAT CCT TAC TCC CAT CTG C BLOzwfR TGG GGT CCG AGT GAA TCT AC BLOCHtrpAR ACA TTT AAT GAA AAT AGC TAT GAA ACT G BLOtonBN ATT AAA ATA GCT ATG CGT CGT TGG BLOCHtonBF CGT TGG ATA TAT GCA GTT GAT AAT G BLOtonBF CAC ATG TAA AAT ACA GGA TGA TAC AAC BLOclsR ATA ACC ACG CCA TAA AGG ATG BLOfbaF CAA TGG GCT ACT TGG TCT GG BLOrpiAR TGA TGA ATG CTG CGA ACT TG BcysGR ACA CAA ACA ACG GCA AAT ATC G BcysHF TTG GAT TAC AAC GAG AAT GTG G BLOornF AAA ATT CGA TCC CTT TCT GG BLOpsdF CAT CCT CCT TTC CAT GAA GC BLOmurA CCC GGA AAC CAA ACT TTA CC BLOyrbAF TTC ATT TAA TCC TCA GGA GTG G BLOaarF TGC TAA TCG AAA TCG TTC TCC BLOubiER TTA ATA TGA CAG GGG GCA TTG manYBfl-F TTG AAG CCA TAC CAA CAA TAC AAG manYBfl-R CAT CCA TAA ATA TTG GAG GAA TGT C BLOrpml TTA GAA TGT GCC TTG CGT ATG BLOinfCF GTC CTA ATT CTG ATC CTC CAG TG BLOCHyidR2 GAC ATT AAG TTT TTT GGC AGC BLOCHB040R TTT TTG GCA GCT AAG TTA ACA CTG BLOCHlplAF TAT TAC ATT CTT TCC ATG CAT TTT G BLOCHpheTR TAC CAA CTC ATA TTT CTG CAT CAT C BLOCHarokF CTG GTA AAA GCA CTA TAG GTC GTC AG BLOCHarokR CCG TTC TTT TGC TAA ATC CTC TAA C BLOCHglmUF GAT GAC CAA CTT TTG AAT TGT TAC C BLOCHglmUR GGA AAA TTA GTG TGT GGA GAA GAT G 46 …………………………………………………………………………………Material y métodos BLOCHtRNAAl BLOCHmetR BLOyrbAF BLOmurAR BLOCHmetFF tRNA -Ala metF 664314 yrbA murA 51376 666003 51431 BLOCHrpl3 BLOaarFF BLOrplJF aarF BLOrplAR rplJ BLOubiER ubiE rplA 692543 629813 BLOrplDF BLOrplDF2 BLOrplWR2 manYBfl -R manYBfl -F manX BLOrplwR rplD rplW 222821 693105 630131 manY 489561 222830 489677 BLOCHserSR BLOCHserR2 BLOcspCS BLOCHlolAF BLOzwfR cspC serS zwf 491758 lolA 423649 492629 424152 BLOtonBN BLOinfCF BLOCHtrpAR BLOtonBF trpA BLOrpml infC rpmL tonB 390436 472132 BLOtonBF BLOclsR tonB BLOCHyidzF cls 473616 BLOfbaF BLOCHyidR2 yidZ 473951 Bfl040 46615 BLOrpiAR fba 47224 BLOCHlplAF rpiA 273548 390728 472837 BLOCHpheTR pheT 273801 lplA 394740 394844 BLOCHlglmUR BcysHF BcysGR BLOCHglmUF cysH cysG glmU 193697 193837 10407 9010 BLOCHaroKR BLOpsdF BLOornF psd BLOCHaroKF orn 81411 aroK 81932 28982 29539 Figura 3.5. Localización de los diferentes cebadores empleados para obtener la secuencia de 16 regiones intergénicas y dos regiones codificantes. Las posiciones nucleotídicas están basadas en la secuencia genómica disponible de B. floridanus. 47 …………………………………………………...……………….................................................... Sólo en el caso de las regiones intergénicas situadas entre metF-tRNA-Ala y cysH-cysG no fue posible obtener la región intergénica completa. En la mayor parte de casos el diseño de cebadores en los genes flanqueantes permitió la obtención parcial de secuencias codificantes, que fueron empleadas posteriormente para incrementar la información a la hora de reconstruir la filogenia de las cepas empleadas. Además de éstas, se amplificaron parcialmente dos regiones codificantes correspondientes a los genes aroK y glmU que se utilizaron también para la reconstrucción filogenética. 2. Secuencias de COI/II Las secuencias de las subunidades I y II de la citocromo oxidasa de C. pennsylvanicus (AY334391), C. floridanus (AY334397) y Formica fusca (334398) se extrajeron de la base de datos. Para obtener estas secuencias en C. rufipes llevamos a cabo una PCR empleando dos de los cebadores utilizados en el estudio de Degnan et al. (2004) (C1-J-1754Fb Y C2-N3661Rb). Además de éstos, dos cebadores adicionales diseñados por nosotros fueron utilizados para poder secuenciar el fragmento completo. La situación y secuencia específica de estos cebadores puede verse en la figura 3.6: C1-J-1745F COI(2) COI(3) C2-N-3661R tRNALeu COII COI Cebador Secuencia 5' ? 3' C1-J-1745F CCA CGT TTA AAT AAT ATA AGA TTT TGA C C2-N-3661R CCA CAA ATT TCT GAA CAT TGA CCA COI(I )2 ATT TAC GCT ATT ATT ACA ATT GG COI(I )3 TAA AYC AYA GAT ATA ATG AAA TCC C Figura 3.6. Localización y secuencia de los cebadores empleados para obtener la secuencia de COI/II en B. floridanus de C. rufipes. 48 …………………………………………………………………………………Material y métodos Las condiciones de las PCR llevadas a cabo fueron: 1,5 U de Taq DNA polimerasa (Promega), 200μM de cada dNTP (Amersham), 300nM de cada cebador, y entre 10-40 ng de DNA total intacto. Las condiciones de amplificado fueron: 2 min a 94ºC; 30 ciclos de: 30 s a 94ºC, 30 s a la temperatura adecuada a cada par de cebadores empleados, 30-60 s a 72ºC; y un ciclo final de 7 min a 72ºC. Tras la primera amplificación, si no se obtenía producto, o la muestra obtenida era insuficiente, la temperatura de unión de los cebadores se ajustó gradualmente hasta obtener la muestra necesaria. En algunos casos fue necesario llevar a cabo una long PCR debido al resultado negativo de la PCR, o al elevado tamaño del producto esperado. Las condiciones y componentes de este tipo de PCR permiten la obtención no sólo de fragmentos de gran tamaño sino también de pequeño tamaño de difícil amplificación. El sistema empleado fue Expand Long Template PCR System (Roche). Las condiciones de la PCR Larga eran: 1 U de Taq pol mix, 500μM de cada dNTP (Amersham), 300nM de cada cebador, y entre 10-40 ng de DNA total intacto. Las condiciones de amplificación fueron 2 min a 94ºC, 10 ciclos de: 15 s a 94ºC, 30 s a la temperatura específica a cada par de cebadores empleados, 2 min a 68ºC; 20 ciclos idénticos a los anteriores pero incrementando 20 s/ciclo de extensión, y un ciclo final a 68ºC de 7 min. En el caso de que el sistema se empleara no para fragmentos largos, sino para fragmentos pequeños de difícil amplificación, las condiciones fueron idénticas a las de PCR normal salvo que la temperatura de extensión aplicada fue de 68ºC en lugar de 72ºC. 3.2.5 Purificación de productos de PCR Tras visualizar una muestra de la PCR en un gel de agarosa, el DNA obtenido fue purificado empleando el High Pure PCR product Purification Kit (Roche), siguiendo el protocolo indicado en el manual del fabricante. En algunos casos, debido a la obtención de diversas bandas en la PCR, producto de amplificaciones inespecíficas, fue necesario cortar la banda 49 …………………………………………………...……………….................................................... de interés y proceder a su limpieza. La extracción de DNA desde bandas de agarosa se llevó a cabo con el mismo kit, pero utilizando el protocolo específico para este caso. 3.2.6 Clonación Para obtener la secuencia completa de repA2, en algunas de las especies de B. aphidicola utilizadas fue necesaria la clonación de las mismas. Para ello, una vez purificado el fragmento de PCR tal y cómo se ha descrito previamente, se llevaba a cabo la clonación del mismo en el correspondiente vector, siguiendo los pasos descritos a continuación: Ligación El vector empleado para la clonación fue pGEM-T Easy (Promega), un Tvector comercial. Dicho vector y el correspondiente inserto se ligaron en una reacción de un volumen total de 10μl, que contenía: 5 ng de vector, tampón de ligación, de 1 a 3 ul de T4 ligasa, y la cantidad correspondiente de fragmento de PCR, manteniendo una relación molar 1:3 (vector:inserto). Transformación de células competentes El protocolo de transformación por choque térmico fue el descrito en los manuales de uso rutinario en los laboratorios de biología molecular como: Molecular cloning: A laboratory manual (Sambroock et al. 1989), DNA cloning: A practical approach, vol I-IV (Glover et al. 1998). La cepa de E. coli utilizada es la XL1-Blue MRF (Stratagene). Obtención de los clones recombinantes Tras la transformación se procedió a analizar al menos 10 colonias blancas procedentes de cada una de las reacciones de ligación. Para ello se extraía el DNA de las células mediante el protocolo de miniprep y a continuación se procedía a la digestión del mismo con el correspondiente enzima de 50 …………………………………………………………………………………Material y métodos restricción. El producto resultante se corría en un gel de agarosa para confirmar la presencia del inserto. 3.2.7 Secuenciación Las reacciones de secuenciación fueron llevadas a cabo empleando ABI PRISM BygDye Terminador v3.0 Ready Reaction Cycle Sequencing KIT (Applied Biosystems). Se utilizó una dilución 1:20 de la mezcla de Byg Dye Terminator Ready Reaction que contiene la Taq polimerasa y los cebadores, con el tampón rxn (400mM TrisHCl pH 9.0, 10mM MgCl2), de la cuál se usaron 2 μl por reacción en un volumen final de 8 μl. Los ciclos empleados en las reacciones de secuenciación fueron: 2 min a 94ºC, seguidos de 99 ciclos de: 10s a 95ºC, 5 s a 50ºC y 4 min a 60ºC. Posteriormente las secuencias fueron enviadas al Servicio de Secuenciación de proteínas y ácidos nucleicos de la Universitat de València, donde las muestras eran procesadas con el secuenciador automático ABI Prism (modelo 3700). Finalmente, las secuencias obtenidas se ensamblaron y revisaron con el paquete de programas Staden (Staden et al. 2000). 3.3 Alineamiento y editado de las secuencias En los capítulos 5 y 6 del presente trabajo fue necesario llevar a cabo el alineamiento de genes, pseudogenes o regiones intergénicas. Dada la distinta naturaleza de las secuencias empleadas en ambos capítulos, la proximidad filogenética de las mismas, así como el diferente cúmulo de secuencias a analizar en cada capítulo, las aproximaciones empleadas fueron distintas en cada caso: 3.3.1 Capítulo 5 En este capítulo los alineamientos fueron llevados a cabo con el programa ClustalX 1.83 (Thompson et al. 1997). Posteriormente se revisaron, se modificaron en los casos necesarios y se editaron con GENEDOC v.2.5 51 …………………………………………………...……………….................................................... (Nicholas y Nicholas, 1997) (anexos del 7 al 11). Este último programa también fue empleado para alinear nucleótidos en base al alineamiento de aminoácidos. El concatenado posterior de las secuencias, en los casos en que fue necesario, se realizó mediante el programa BioEdit (Hall, 1999). Este programa también se empleo para llevar a cabo “dot plots” para la búsqueda de repeticiones flanqueantes. En el caso de las regiones intergénicas de B. aphidicola de diferentes especies del género Rhopalosiphum, la divergencia asociada a las regiones neutras a nivel interespecífico nos obligó a llevar a cabo un estudio de los parámetros que determinan un alineamiento, a fin de reducir al máximo las ambigüedades y extraer la información evolutiva contenida en las secuencias. La elevada divergencia entre diferentes especies a nivel de regiones intergénicas, aumenta considerablemente la sensibilidad del alineamiento frente a los cambios en los parámetros que determinan el mismo. En consecuencia es necesario elegir dichos parámetros con un criterio adecuado. El programa de alineamiento Clustal X permite modificar dos parámetros: la matriz de sustituciones nucleotídicas, y la penalización por un hueco que dependen de la penalización por abrir dicho hueco, GOP (gap opening penalty) y por extenderlo, GEP (gap extension penalty). La matriz de sustituciones nos permite dar un valor diferente a cada sustitución nucleotídica. En base a estudios previos comparando secuencias entre BSg y BRp sabemos que en este nivel de divergencia (menos de 50 m.a.), las transiciones son más abundantes que las transversiones (Silva et al. 1998). Sobre la base de esta información dimos un valor a las transiciones (1) intermedio entre transversiones (-9) y coincidencias (10). Sin embargo, los parámetros más importantes de un alineamiento son el GOP y el GEP (Vingron y Waterman, 1994; Wheeler, 1995). Variar los valores de estos parámetros tiene efectos similares a cambiar el método de alineamiento, o el método de reconstrucción del árbol. Estos parámetros son necesarios, dado que si no se penalizaran los huecos en un alineamiento se 52 …………………………………………………………………………………Material y métodos podrían generar alineamientos con más huecos que residuos. Ambos se combinan mediante la siguiente fórmula para el cálculo de la penalización de un hueco (ŋ): ŋ = GOP + (GEP x long) Donde “long” es la longitud del hueco. No existe ninguna justificación matemática, estadística o biológica para esta fórmula y no hay razón para pensar que los indels evolucionan de la manera tan simple descrita por la misma (Salemi y Vandamme, 2003). Es ampliamente utilizada porque a menudo funciona bien y es fácil de implementar en los programas de alineamiento. Además no hay modo de determinar a priori los valores de GOP y GEP (Rinsma-Melchert, 1993), que se escogen arbitrariamente. Para conocer los efectos de la variación de dichos parámetros, Morrison y Ellis (1997) proponen una estrategia que consiste en comprobar todas las combinaciones ortogonales entre estos valores. Para ello el GOP se varía entre 0.5 y 64 veces el coste de una sustitución (log2 = -1,0,1,2,3,4,5 y 6) y el GEP desde 0 hasta 8 veces el coste de una sustitución (log2 = -5,-4,-3,-2,1,0,1,2 y 3). Posteriormente se ha mostrado que con tan sólo 6 de estas combinaciones, se efectúa un barrido de las condiciones, desde las menos a las más restrictivas suficiente para detectar la fuerza de la señal filogenética (Sanchis et al. 2001). Estas 6 combinaciones incluían tres valores de GOP (una penalización elevada, media y pequeña) versus dos valores de GEP. Con estas 6 combinaciones obtuvimos siempre la misma topología pero no el mismo alineamiento. Los resultados mostraron que tanto las condiciones más restrictivas, como las menos, no producían alineamientos correctos; dado que el cociente de transiciones frente a transversiones estaba muy alejado del esperado para regiones neutras de B. aphidicola a esta escala temporal. Además observamos como los valores de GOP intermedios o elevados favorecen grandes deleciones, frente a un conjunto de pequeñas deleciones 53 …………………………………………………...……………….................................................... que implican el mismo número de nucleótidos. Sin embargo, diversos estudios han mostrado que los indels más frecuentes en bacterias obligadas intracelulares son de pequeño tamaño (Andersson y Andersson, 1999; Tamas et al. 2002; van Ham et al. 2003). Para evitar por tanto este problema y seguir un criterio más conservador, decidimos fijar el valor de GOP en 0,5 y efectuar un barrido con los valores de GEP (tabla 3.8). De este modo el valor de la penalización asociada a un hueco está principalmente asociado al número de sitios nucleotídicos implicados en el indel antes que al número de indels. Tabla 3.8. Resultados de los alineamientos para un valor fijo de GOP y un barrido por diferentes valores de GEP. cmk GOP GEP 0,5 0,03 0,5 0,5 0,5 4 0,5 6 0,5 8 0,5 10 0,5 12 0,5 14 IGR GOP GEP 0,5 0,03 0,5 0,5 0,5 4 0,5 6 0,5 8 0,5 10 0,5 12 0,5 14 Penalización según el tamaño del indel 1 nt 2 nt 3 nt 10 nt 10*1 nt 0,53 0,56 0,59 0,81 5,3 1 1,5 2 5,5 10 4,5 8,5 12,5 40,5 45 6,5 12,5 18,5 60,5 65 8,5 16,5 24,5 80,5 85 10,5 20,5 30,5 101 105 12,5 24,5 36,5 121 125 14,5 28,5 42,5 141 145 Penalización según el tamaño del indel 1 nt 2 nt 3 nt 10nt 10*1 nt 0,53 0,56 0,59 0,81 5,3 1 1,5 2 5,5 10 4,5 8,5 12,5 40,5 45 6,5 12,5 18,5 60,5 65 8,5 16,5 24,5 80,5 85 10,5 20,5 30,5 101 105 12,5 24,5 36,5 121 125 14,5 28,5 42,5 141 145 BRp-BRn tv ratio 0 e 0 e 11 3,5 17 2,8 23 2,2 27 2 29 1,9 32 1,7 BRp-BRn ts tv ratio 19 0 e 15 0 e 36 12 3 39 16 2,4 45 17 2,6 46 23 2 26 14 1,8 42 30 1,4 ts 27 36 39 48 51 54 54 55 Para escoger entre los alineamientos resultantes se tomó el ratio de diferencias transicionales-transversionales entre Buchnera de R. padi (BRp) y de R. nymphaeace (BRn). Datos previos de este ratio en terceras posiciones 54 …………………………………………………………………………………Material y métodos de diversos genes entre BRp y BSg (tabla 3.9) daban un promedio corregido por la longitud de cada gen de 1,6. Tabla 3.9. Ratio de diferencias transicionales (si) frente a diferencias transversionales (sv) para la 3ª posición de los genes repA, leuA, leuB y leuC de BRp frente a BSg. Ratio si/sv BRp-BSg repA 2,29 leuA 1,6 leuB 1,5 leuC 1,4 Promedio 1,6 Dado que en nuestro caso la secuencia más alejada, la perteneciente a BRn, está más cerca aún de BRp que BSg, aún esperamos ratios mayores a éste. En base a esto, tomamos cuatro alineamientos que podían ser igualmente válidos bajo nuestro criterio. Los valores de GEP para estos fueron: 6, 8, 10 y 12 (anexos 7 y 8). 3.3.2 Capítulo 6 Alineamiento de los pseudogenes En primer lugar se llevó a cabo el alineamiento de los pseudogenes de Mle con sus correspondientes ortólogos de Mav y Mtu(II) (se toma este genoma como representante del grupo formado por Mbo, Mtu(I) y Mtu(II), dado que es el que posee el mayor número de genes). Sólo se emplearon aquellos pseudogenes que poseían tanto un ortólogo en Mav como en Mtu (II). Un total de 714 pseudogenes ancestrales cumplían este requisito, de modo que llevamos a cabo 1428 alineamientos que implicaban cada pseudogen con sus correspondientes ortólogos funcionales. Para ello utilizamos una versión adaptada del algoritmo de Neddleman-Wusch (alineamiento global), donde los límites no alineados de las secuencias más largas no son penalizados (Erickson y Sellers, 1983). Los valores empleados para la penalización por abrir un hueco en el alineamiento (GOP) y por extenderlo (GEP), fueron los 55 …………………………………………………...……………….................................................... valores por defecto del programa, 1 y 0.5 respectivamente. Para aquellos pseudogenes que al alinearlos de este modo daban una puntuación (score) superior a 65 en el alineamiento, se llevó a cabo un segundo alineamiento con el programa GeneWise (Birney et al. 2004). GeneWise es un programa desarrollado para predecir la función de nuevos genes, a partir de la comparación con proteínas homólogas. Para ello, el programa intenta producir a partir de una secuencia de nucleótidos dada, transcritos que codifiquen una secuencia proteica válida en la secuencia del genoma. La habilidad del programa para modelar también corrimientos en la pauta de lectura, que pueden producirse debido a errores de secuenciación, ha permitido que sea utilizado como una herramienta para investigar la estructura de los pseudogenes (Hillier et al. 2003). Por tanto, este segundo programa tiene en cuenta los posibles cambios de pauta de lectura en los pseudogenes debido a indels a la hora de alinearlos. El alineamiento con Genewise se aplicó sobre 611 pseudogenes. Alineamiento de los genes Con el programa ClustalX (Thompson et al. 1997), llevamos a cabo un alineamiento de nucleótidos, basado en el alineamiento de aminoácidos, de todos los genes de la tabla con sus correspondientes ortólogos funcionales. Un total de 1281 genes ancestrales presentan ortólogos activos en Mav, en Mtu (II) y en Mle, de modo que se efectuaron 3843 alineamientos siguiendo este procedimiento. Por otro lado, para aquellos pseudogenes de Mle que poseen ortólogos activos tanto en Mav como en Mle (714), los correspondientes genes ortólogos fueron alineados entre sí siguiendo el mismo método. 3.4 Reconstrucciones filogenéticas Para llevar a cabo la reconstrucción de árboles filogenéticos a partir de un grupo de secuencias es necesario en primer lugar determinar el modelo evolutivo que mejor se ajuste a nuestros datos. Además, dentro del conjunto de modelos más apropiado es adecuado escoger el menos complejo, dado que 56 …………………………………………………………………………………Material y métodos cuánto más complejo es el modelo, mayor es el número de premisas que es necesario asumir y de parámetros a estimar. Para ello empleamos el programa MODELTEST v.3.7 (Posada y Crandall, 1998) que realiza tests estadísticos para determinar, dentro del conjunto de modelos que mejor se ajustan a los datos, si el empleo de un modelo más complejo incrementa significativamente la probabilidad de haber obtenido mis datos. El fichero de entrada para este programa contiene una matriz con el valor de la máxima verosimilitud de cada uno de los modelos candidatos para un grupo de secuencias dado. Este fichero de entrada se obtiene con el programa PAUP*4.0b10 (Swofford, 2002). A continuación MODELTEST compara la verosimilitud de estos modelos usando likelihood (LRTs) y el criterio de información de Akaike (AIC), que es el que nosotros empleamos. El criterio de información de Akaike (Akaike, 1974) es un estimador asintóticamente no sesgado de la cantidad de información Kullback-Leibler (Kullback y Leibler, 1951), que mide la distancia esperada entre el modelo verdadero y el modelo estimado. Este criterio tiene en cuenta no sólo el buen ajuste del modelo, sino también la varianza de la estima de los parámetros, de modo que penaliza el incremento en el número de parámetros. El mejor modelo será el de menor AIC. La ventaja del criterio de AIC frente a LRTs es que éste último sólo permite comparar dos modelos al mismo tiempo, mientras que AIC permite la comparación simultánea de todos y además puede ser empleado tanto para modelos anidados como no anidados. En el caso de trabajar con secuencias de aminoácidos, el programa equivalente para determinar el modelo evolutivo es PROTTEST (Abascal et al. 2005), basado en el criterio de información de Akaike corregido (AICc) (Felsenstein, 1985; Hurvich y Tsai, 1991). Para las reconstrucciones filogenéticas, en el capítulo 5 se emplearon tres métodos: distancias mediante el programa MEGA v.3 (Kumar, 2005), parsimonia y máxima verosimilitud con PAUP*4.0b10 (Swofford, 2002) y PHYML (Guindon y Gascuel, 2003). En el capítulo 6, las 57 …………………………………………………...……………….................................................... filogenias se resolvieron únicamente por el método de máxima verosimilitud mediante el programa PHYML. Una vez reconstruidos los árboles, la fiabilidad de los clados en el árbol fue evaluada con el método de bootstrap (Felsenstein, 1985). Se trata de un método no paramétrico de remuestreo a partir del conjunto original de los datos. Entre 200 y 2.000 remuestreos son normalmente recomendables (Hedges, 1992; Zharkikh y Li, 1992). Nosotros llevamos a cabo 1.000 remuestreos para todos los conjuntos de datos empleados, excepto en algunos casos donde dado el tamaño muestral y el método escogido, el valor se redujo a 300 para evitar un tiempo excesivo de computación. 3.5 Test de reloj molecular y test de tasas relativas Los test de reloj molecular aplicados en el capítulo 5 fueron llevados a cabo mediante un likelihood ratio test empleando PAUP*4.0b10 (Swofford, 2002). Con este programa se calcula la verosimilitud del árbol forzando y sin forzar reloj. El doble de la diferencia entre ambas verosimilitudes se distribuye como una chi-cuadrado con n-2 grados de libertad, donde n es el número de secuencias. Adicionalmente se llevaron a cabo tests de tasas relativas, concretamente el test de Tajima (Tajima, 1993), que viene implementado en el programa MEGA3 (Kumar, 2005). 3.6 Estima de los tiempos de divergencia Los tiempos de divergencia empleados en el capítulo 4 se obtuvieron a partir de datos de la bibliografía en base a dataciones fósiles, tal y como se explica en resultados y discusión. En el capítulo 5, los tiempos de separación se calcularon del siguiente modo: para los tiempos de divergencia entre los diferentes haplotipos y especies de BRp empleamos el programa Beast v1.0.3 (Drummond et al. 2002). Beast es un programa de estadística bayesiana que permite inferir mediante el uso de cadenas de Markov (Drummond et al. 58 …………………………………………………………………………………Material y métodos 2002) y el modelo Kingman de coalescencia. Mientras que en el caso de Blochmannia, dado que partimos de puntos de calibrado estimados con el programa r8s (Sanderson, 2003) decidimos emplear este mismo programa en nuestro estudio, a fin de minimizar las incongruencias. En el capítulo 6, dada la ausencia de registro fósil asociado, calculamos los tiempos de divergencia entre las especies de Mycobacterium empleadas (Mav, Mle y el grupo de M. tuberculosis) basándonos en la divergencia entre E. coli y S. typhimurium. Ambas se asume que divergieron hace 100 millones de años (m.a.), cuando tuvo lugar la diversificación de los mamíferos (Doolittle et al. 1996), y el número de sustituciones sinónimas por sitio (dS) entre ambas, calculada por ML, es 1,36 (Smith y Eyre-Walker, 2001). A partir de estos valores y de los valores de dS obtenidos entre los tres linajes de Mycobacterium con los que trabajamos, extrapolamos para el cálculo de los tiempos de divergencia asociados. 3.7 Análisis de la pérdida de nucleótidos En los capítulos 4 y 6 analizamos la cantidad de nucleótidos perdidos en los genes inactivados, tanto pseudogenes como genes perdidos en un estado de desintegración más avanzado. Dado que en el caso de las pérdidas totales ya no podemos conocer donde se localiza el inicio y el final del resto del gen original, en el caso de que aún exista, tomamos toda la región comprendida entre los genes flanqueantes anterior y posterior. En el caso de los pseudogenes adoptamos el mismo criterio, puesto que los límites de éstos se establecen en base a la similitud obtenida por BLAST (Basic Local Alignment Search Tool), de modo que es posible no detectar restos del pseudogen cuya secuencia ha podido divergir en gran medida de la del gen original. Como tamaño original, tomamos por tanto también el número de nucleótidos localizado entre los genes ortólogos flanqueantes a la región perdida. El cálculo detallado de estos parámetros en cada capítulo se detalla a continuación. 59 …………………………………………………...……………….................................................... 3.7.1 Capítulo 4 Con el fin de determinar la cantidad de nucleótidos perdidos tras la inactivación de genes en los diferentes linajes de B. aphidicola empleados, llevamos a cabo el cálculo de la longitud de cada gen que se ha perdido en algún linaje de B. aphidicola antes de su inactivación (Lg) y la longitud de la región remanente de dicho gen tras su desintegración (Ld), tal y como hemos descrito.. Una vez obtenidos ambos parámetros, el ratio Ld/Lg nos permite obtener una estima del grado de desintegración génica. En el caso de pérdidas individuales, Lg se define como el número de nucleótidos comprendidos entre los genes adyacentes al gen analizado, menos la longitud de una región intergénica promedio. La substracción de una región intergénica promedio se explica porque previamente a la inactivación, la región analizada estaría constituida por un gen activo y dos regiones intergénicas adyacentes a éste, de modo que tras la pérdida si se da una completa desintegración, el DNA remanente se correspondería con una región intergénica promedio (figura 3.7). Como tamaño de una región intergénica estándar se tomó un valor de 55,1 nucleótidos, dado que éste es el tamaño estimado para los espaciadores ancestrales, aquellos flanqueados por los mismos genes en B. aphidicola y E. coli (Mira et al. 2001). De igual modo, Ld se calcula como el número de nucleótidos entre los genes flanqueantes al gen perdido, menos 55,1 nucleótidos. Estos 55,1 nucleótidos representarían la contribución de cada uno de los genes contiguos al gen perdido, a la región intergénica final. Originalmente, el gen desintegrado estaría flanqueado por dos regiones intergénicas que se perderían conjuntamente de manera parcial junto con el gen desintegrado. De modo que la nueva región intergénica estaría formada por restos de las dos regiones intergénicas originales que en promedio darían un tamaño final de 55,1 nucleótidos. 60 …………………………………………………………………………………Material y métodos Ig1 A) Gen Pseudogen Ig2 Ig1 L1 Ig1 B) Gen L2 Pérdida total Ig2 L1 C) Ig2 L2 Bloque 1 2 3 4 L1 L2 Ld = L 2 – 55.1 Lg = L 1– 55.1 Figura 3.7. Diagrama de las regiones incluidas en la estimación de Ld y Lg. (A) El gen perdido se halla en estado de pseudogen. (B) La acumulación de sustituciones nucleotídicas ha dado lugar a la pérdida de similitud entre el gen ortólogo funcional y la región desintegrada. (C) Ejemplo de un bloque de pérdida formado originalmente por dos genes. Ig: región intergénica Como tamaño original se tomó siempre el de la especie más cercana, de modo que en el caso de genes perdidos en el linaje de BAp, BSg fue la especie de referencia y viceversa. En el caso de pérdidas en BBp como tamaño original se tomó el promedio de los ortólogos funcionales en BAp y BSg, salvo cuando el gen estaba presente sólo en una de estas dos especies. Cuando la especie más cercana no podía ser tomada como referencia porque también tenía perdidos los genes analizados, se recurría a la especie más alejada. Por ejemplo, el gen bioH es gen en BBp, pseudogen en BSg y gen perdido en BAp, en este caso por tanto para analizar la pérdida tanto en BAp como en BSg, sólo podemos tomar como tamaño de referencia el de BBp. Sólo en el caso de yadF se tomó como tamaño original el de B. aphidicola de Tetraneura caerulescens, dado que este gen está ausente en las tres especies analizadas. En el caso de pérdidas de dos o más genes adyacentes en un mismo linaje, decidimos tratar estos genes perdidos como un bloque. En el caso de estos bloques, 55,1 nucleótidos se tomó como el tamaño final de un espaciador promedio entre los genes flanqueantes al bloque de pérdida, 61 …………………………………………………...……………….................................................... independientemente del número de genes que formaran parte del bloque. Además establecimos asignar a cada gen que forma parte del bloque, el ratio Ld/Lg calculado para todo el bloque, a la hora de clasificar cada gen en cada una de las categorías de desintegración de acuerdo con el periodo de pérdida. Sin embargo, en el caso de bloques formados por uno o varios pseudogenes en los que era posible identificar los codones de inicio y de parada originales, el bloque fue dividido en el máximo número posible de segmentos para estimar el ratio Ld/Lg. Aproximadamente 100 genes perdidos tras la divergencia de E. coli y B. aphidicola, pero antes de la formación del LCSA (Last Common Symbiont Ancestor) (Silva et al. 2001), no se incluyeron en el estudio, dado que asumimos que el DNA proveniente de estos genes ha desaparecido por completo tras más de 150 m.a. de evolución. 3.7.2 Capítulo 6 En este caso el cálculo de nucleótidos perdidos sólo se llevó a cabo sobre los genes inactivados en M. leprae. El genoma ortólogo de referencia fue Mtu(II) y en el caso de no poder emplear éste recurrimos al genoma de Mav. Sin embargo, a diferencia de lo que ocurre en B. aphidicola, el grado de sintenia entre estos genomas es mucho menor. De modo que en el caso de regiones perdidas en Mle que no mantienen una sintenia perfecta bien con Mtu(II) o bien con Mav, para conocer el número de nucleótidos que poseía esa región originalmente en el ancestro, es necesario eliminar todo aquello que no sea ancestral en el genoma ortólogo de referencia y esto puede hacerse de dos modos (ver figura 3.8). 62 …………………………………………………………………………………Material y métodos 1 2 3 4 5 7 6 8 9 10 11 12 Gen flanqueante Gen ancestral Gen no ancestral Figura 3.8. Reconstrucción de un segmento hipotético del genoma de Mav o Mtu(II) flanqueado por dos genes que contienen toda una región perdida en Mle, en el que se diferencian los genes ancestrales y no ancestrales. Los genes flanqueantes se consideran ancestrales. a) Eliminando los genes no ancestrales, y las regiones intergénicas flanqueadas por éstos. Esto implicaría en el esquema de la figura eliminar el gen 3 y desde el gen 8 al 11. Entre los genes 2 y el 4, y los genes 7 y 12, quedaría una región intergénica que no podemos saber si es ancestral o no. Podríamos entonces eliminar el espacio equivalente a dos espaciadores estándar, entendiendo por espaciador estándar el número de nucleótidos promedio de un espaciador en los genomas de Mycobacterium. b) Podemos tomar el espacio desde el primer nucleótido que aparece tras el primer gen flanqueante a la región perdida hasta el final del primer gen ancestral que aparece (el gen 2) y a esto sumarle el número de nucleótidos que hay entre el gen 4 y el 7, ambos inclusive. A continuación haría falta sumar dos espaciadores estándar para completar la región. En ambos casos deberíamos llegar al mismo resultado, pero no ocurre así, dado que si lo que hacemos es restar espaciadores estándar, como ocurre en el caso a), es posible que queden restos de otros genes, de pseudogenes o de secuencias de inserción en la región intergénica que queda. De modo que el espacio remanente será mayor que en el caso b), donde lo que hacemos es añadir espaciadores estándard. Además, llevamos a cabo un estudio previo de los espaciadores de Mycobacterium, que mostró que éstos 63 …………………………………………………...……………….................................................... presentan tamaños muy variables. La distribución de frecuencias de los mismos presentaba una enorme varianza, por lo que no es posible determinar el tamaño de un espaciador promedio. En base por tanto a esto, sólo se analizaron las pérdidas en las que tanto los genes perdidos como los flanqueantes a éstos mantenían una sintenia perfecta, bien con el genoma de Mtu(II), o bien con el genoma de Mav. Además, dentro de los pseudogenes también se eliminaron del estudio aquéllos que eran contiguos a pérdidas totales. En el caso de las pérdidas totales contiguas a pseudogenes, para asegurarnos de que estábamos tomando únicamente la región que contiene los restos de pérdidas totales, sin incluir posibles restos del pseudogen adyacente, los límites del BLAST de los pseudogenes fueron revisados. De modo que, aquellos casos en los que faltan más de 20 codones por detectar del extremo del pseudogen flanqueante a nuestra región perdida, no se analizaron. 3.8 Análisis de las regiones intergénicas Con el objetivo de analizar si la reducción genómica en B.aphidicola ha afectado a las regiones intergénicas, en el capítulo 4 analizamos la pérdida de longitud de los espaciadores de B. aphidicola respecto a los de E. coli. Únicamente analizamos los espaciadores ancestrales, que se definen como aquéllos flanqueados por los mismos genes en B. aphidicola y E. coli (Mira et al. 2001). De igual modo y para realizar un análisis homogéneo, sólo trabajamos con aquellos espaciadores presentes en las tres especies de B. aphidicola estudiadas. Además, los espaciadores de genes que codifican para algún tipo de RNA, los pertenecientes a plásmidos, los flanqueantes al gen xenólogo argG y aquellos flanqueados por pseudogenes se excluyeron del análisis. En base a estos criterios, un total de 195 regiones intergénicas fueron analizadas. 64 …………………………………………………………………………………Material y métodos 3.9 Estima del número de sustituciones sinónimas y no sinónimas En el capítulo 6, para los 1281 genes ancestrales que poseen ortólogos activos tanto en Mav como en Mtu (II), se calcularon dN y dS (número de sustituciones no sinónimas y sinónimas por sitio) para cada una de las tres comparaciones posibles: Mav-Mle, Mav-Mtu(II) y Mle-Mtu(II). Para el cálculo de estos parámetros se aplicó el método implementado en el programa yn00, dentro del paquete de programas PAML (Phylogenetic Analysis by Maximum Likelihood), (Yang y Nielsen, 2000), que calcula dN y dS entre dos secuencias. Se trata de un método aproximativo, basado por tanto en los siguientes tres pasos: contar el número de sitios sinónimos y no sinónimos en las dos secuencias, contar las diferencias sinónimas y no sinónimas entre ambas, y corregir para múltiples sustituciones en el mismo sitio. 3.10 Análisis estadísticos Todos los análisis estadísticos fueron llevados a cabo con el programa SPSS v12. 65 66 4. Reducción genómica en B. aphidicola 67 68 ……………………………………………………………………………………….Introducción 4.1 INTRODUCCION 4.1.1 Simbiosis en insectos Los insectos son el grupo de organismos con un mayor número de especies: comprenden entre 3 y 30 millones de especies vivas, de las cuales sólo se han descrito unas 900.000, y constituyen el 85% de la diversidad animal (Nel, 2003). Parte del éxito evolutivo de los insectos es resultante de su asociación endosimbiótica con bacterias intracelulares. Aproximadamente, más del 10% de las especies de insectos dependen de bacterias mutualistas obligadas para su viabilidad y reproducción (Wernegreen, 2002). Debido a esta dependencia estricta, estas bacterias endosimbiontes asociadas reciben el nombre de endosimbiontes primarios. Pulgones, psílidos, moscas blancas y cochinillas son insectos que constituyen cuatro linajes separados dentro del suborden Sternorrhyncha, orden Hemiptera (Campbell et al. 1994; von Dohlen y Moran, 1995) y que comparten una serie de hechos estructurales y propiedades nutricionales. Todos estos organismos se alimentan predominante o exclusivamente del floema de las plantas. Este tipo de alimentación, constituye una dieta desequilibrada dado que es rica en carbohidratos pero deficiente en aminoácidos, vitaminas y ciertos lípidos esenciales (Douglas, 1993; Houk y Griffiths, 1980; Raven, 1983; Sasaki et al., 1991). Para solventar este déficit, han adoptado dos estrategias: por un lado succionan una gran cantidad de floema, lo que les obliga a excretar el exceso de azúcares en forma de melaza; y por otro lado, han establecido una relación de simbiosis con bacterias, que les proporcionan sustancias ausentes o deficitarias en la savia de las plantas, principalmente aminoácidos esenciales (Douglas, 1989; Douglas y Prosser, 1992; Baumann et al. 1995, 1997a; Moran y Telang, 1998). A pesar de estos hechos comunes, estos insectos tienen diferentes endosimbiontes primarios. Dentro de estas cuatro relaciones de simbiosis, la que se da entre los pulgones y su endosimbionte primario, B. aphidicola, es la más ampliamente estudiada. 69 ...........................................................................................................................................Capítulo 4 4.1.2 Los pulgones Los pulgones engloban aproximadamente 4.400 especies de insectos distribuidos por todo el mundo, aunque la mayoría de estas especies se concentran en el hemisferio norte (Dixon et al. 1990; Blackman y Eastop, 1994). Forman parte de la familia Aphididae, dentro del orden Hemiptera. Se trata de insectos generalmente de cuerpo globoso u ovoidal, blando y con un tamaño que oscila entre 1,5-3 mm (ver imagen figura 4.1.a). Viven sobre plantas y aunque generalmente se desarrollan sobre las partes verdes, pueden tener otras ubicaciones. Las especies que se desarrollan sobre partes verdes a menudo provocan diversos síndromes en la planta, como alteraciones morfológicas de frutos, brotes, pecíolo o limbo foliar. Otras especies dan lugar a agallas, formaciones hipertélicas del hospedador, de forma definida, dentro de las que se desarrollan los pulgones (figura 4.1.b). a) b) Figura 4.1. Pulgones y alteraciones inducidas en el hospedador. a) Pulgón adulto y ninfas de la especie A. pisum. b) Agalla inducida por el pulgón B. pistaciae sobre su hospedador Pistacia terebinthus. Los daños producidos en las plantas por los pulgones pueden ser directos e indirectos. Los directos derivan de la pérdida de la savia y las malformaciones. Los indirectos están relacionados con la proliferación de hongos sobre la melaza defecada por los pulgones y sobretodo por los virus que transmiten. 70 ……………………………………………………………………………………….Introducción Los pulgones se caracterizan además por una elevada diferenciación fisio-morfológica y complicados ciclos de vida, consecuencia de la adaptación de los mismos a los ciclos estacionales de sus hospedadores. La modalidad más compleja de su ciclo biológico es la del ciclo holocíclico dioico, con alternancia entre dos hospedadores vegetales y desarrollo tanto de formas sexuales como asexuales. La inclusión de varias generaciones partenogenéticas, vivíparas y telescópicas (un mismo individuo puede albergar hasta 2 generaciones), permite que se alcancen unos tamaños poblacionales enormes, lo que da lugar a importantes plagas agrícolas. Las principales especies responsables de estas plagas pertenecen fundamentalmente a la subfamilia Aphidinae. La clasificación de los pulgones está todavía sujeta a controversia, aunque los autores están de acuerdo en cuanto a los taxones de rango más elevado. Por ejemplo, sí que está establecida y aceptada la existencia de dos grandes agrupaciones monofiléticas que divergieron en el Jurásico hace unos 250 m.a. (Heie, 1987), los ovíparos Adelgidae y Phylloxeridae por un lado y los vivíparos Aphididae por otro. Sin embargo, las relaciones dentro de los Aphididae todavía no están totalmente resueltas. Durante mucho tiempo la filogenia de Heie (1987), basada en datos morfológicos, ha sido tomada como referencia (ver figura 4.2). Así por ejemplo, ésta es la filogenia empleada en los estudios que demuestran coevolución entre los pulgones y el endosimbionte primario de los mismos B. aphidicola (Munson et al. 1991; Moran et al. 1993; Moran y Baumann, 1994). De hecho, diferentes filogenias moleculares llevadas a cabo con genes de B. aphidicola son congruentes con la filogenia de Heie (Rouhbakhsh et al. 1996; Brynnel et al. 1998; Silva et al. 1998; Baumann et al. 1999; van Ham et al. 1999, 2000). Aunque estas filogenias están limitadas por el muestreo taxonómico, siempre sesgado hacia representantes de la subfamilia Aphidinae. La filogenia de Wojciechowsky (1992), basada también en caracteres morfológicos, no está completamente de acuerdo con la filogenia 71 ...........................................................................................................................................Capítulo 4 de Heie (1987). Se han llevado a cabo posteriores reconstrucciones filogenéticas basadas en datos moleculares, para intentar resolver la filogenia de los Aphididae (von Dohlen y Moran, 2000; Martinez-Torres et al. 2001; von Dohlen et al. 2001) pero ninguna de ellas ha permitido esclarecer las relaciones entre los diferentes linajes. La principal controversia está en torno al linaje que ocupa la posición basal. Mientras algunas filogenias sitúan a Pemphiginae junto con Hormaphidinae formando parte de las subfamilias más ancestrales (Heie, 1980, 1987; Wojciechowski, 1992; von Dohlen y Moran, 1995), otros estudios nunca agrupan a las subfamilias Lachninae y Aphidinae y sugieren una posición basal de la subfamilia Lachninae, situándola como la más ancestral (van Ham et al. 1999, 2000; MartinezTorres et al. 2001; Ortiz-Rivas et al. 2004). Phylloxeridae Aphidinae Lachninae Drepanosiphinae Thelaxinae Hormaphidinae Pemphiginae Anoeciinae Figura 4.2. Relaciones filogenéticas de las subfamilias dentro del grupo Aphididae, establecidas con criterios morfológicos (Heie, 1987). Existe un registro fósil de los pulgones, que aunque limitado respecto al gran número de especies existentes hoy en día, proporciona información sobre el origen y evolución de diversos taxones. En base a éste, se sabe por ejemplo que los pulgones aparecieron hace unos 250 m.a., en el Triásico o Pérmico tardío y que sufrieron una radiación evolutiva relacionada 72 ……………………………………………………………………………………….Introducción con la evolución de las gimnospermas. La posterior transición de la era de las gimnospermas a las angiospermas, dio lugar a la extinción de diversos taxones de rango elevado que fueron reemplazados por descendientes de una minoría de taxones. La combinación de las dataciones asociadas a los fósiles encontrados, junto con la información molecular obtenida, ha permitido datar eventos de divergencia. De este modo se ha establecido la edad del ancestro de los Aphididae. En primer lugar Moran (1993), en base a las secuencias del 16S rDNA del endosimbionte y con los tiempos de divergencia del registro fósil y la evidencia biogeográfica, estableció la edad del ancestro de los Aphididae en 160-280 m.a. Pero posteriores recopilaciones de evidencias fósiles (Heie y Wegierek, 1998), hacen pensar que esta datación es demasiado antigua. En base a nuevas estimas, la edad del ancestro se estableció entonces en 86-164 m.a., aplicando un método de máxima verosimilitud, lo que es compatible con el registro fósil que sugiere que el ancestro surgió en el Cretácico (von Dohlen y Moran, 1995) (ver figura 4.3). La edad de los pulgones con los que trabajamos en este estudio, también ha podido ser establecida siguiendo criterios similares. B. pistaciae pertenece a la subfamilia Pemphiginae, mientras que A. pisum y S. graminum, ambas a la familia Aphidinae. La subfamilia Pemphiginae probablemente divergió del resto en el momento de la radiación de la familia Aphididae (van Ham et al. 2003). Esta asunción está basada en el hecho de que, en los pulgones, los datos moleculares indican una rápida radiación, que el registro fósil confirma dada la aparición de la mayoría de tribus en el Terciario temprano. De modo que la divergencia del ancestro de B. pistaciae del ancestro de A. pisum y S. graminum se correspondería con la datación de von Dohlen y Moran de 86-164 m.a. Así mismo, el tiempo de divergencia entre A. pisum y S. graminum también es conocido, dado que se sabe que el ancestro común a éstos es el ancestro de las tribus Aphidini y Macrosiphini, dentro de la subfamilia Aphidinae. Aunque esta subfamilia probablemente estaba presente en el 73 ...........................................................................................................................................Capítulo 4 Cretácico, hace 80 m.a. (Heie, 1987), los primeros fósiles asignables a ambos grupos datan del inicio del periodo Terciario. Así, hay un fósil en ámbar báltico de 38-45 m.a., que probablemente pertenece a Macrosiphini y otro fósil de Rhopalosiphini de 50 m.a. en piedra diatomita de Dinamarca. Además, el ancestro común a Rhopalosiphini y Macrosiphini probablemente habitaba en plantas de la familia Rosaceae y los fósiles de ésta no aparecen hasta el Terciario temprano. Luego, el ancestro de S. graminun y A. pisum tiene que haber estado presente en el Terciario temprano o, siendo muy conservadores, en el Cretácico tardío, de modo que su datación se sitúa entre hace 50-70 m.a. (Clark et al. 1999). a) b) A. pisum Aphidinae TERCIARIO (58) S. graminum Phylloxeroidea CRETÁCICO (65) B. pistaciae Aphidoidea Canadaphidoidea JURÁSICO (136) 86-164 - TRIÁSICO (190) 50-70 - Pemphiginae ((My)) Figura 4.3. Estimas de divergencia entre diferentes linajes de pulgones en base al registro fósil. a) Origen y evolución de la superfamilia Aphidoidea, basada en estudios morfológicos y el registro fósil. Los periodos geológicos se indican junto a la filogenia. Entre paréntesis el tiempo aproximado de inicio de cada uno de los periodos en m.a. b) Tiempos de divergencia entre las especies A. pisum, S. graminum y B. pistaciae en base al registro fósil. 4.1.3 B. aphidicola B. aphidicola es una bacteria gram negativa, de forma esférica u oval, con un diámetro de 2-4 μm y con una pared celular constituida por dos membranas, entre las cuales se sitúa una delgada capa de peptidoglicanos (Mc Lean y Houk 1973; Griffith y Beck 1973; Akhtar y van Emdden 1994). Cada una de estas bacterias está además contenida en vesículas derivadas del hospedador, que se agrupan en células poliploides y uninucleadas conocidas como bacteriocitos (Douglas y Dixon, 1987), (figura 4.4). A su vez, estos bacteriocitos se agrupan, unos 60-90, formando una estructura bilobular 74 ……………………………………………………………………………………….Introducción conocida como bacterioma. El bacterioma está rodeado por una envoltura constituida por una delgada capa de células sincitiales, también llamadas células de la envoltura. Figura 4.4. B. aphidicola y su distribución en bacteriocitos. a) Sección longitudinal de un pulgón adulto. Las flechas señalan diferentes bacteriocitos. Barra, 500 μm. b) Corte semifinos de 1,5 μm de pulgón con el endosimbionte primario B. aphidicola m, mitocondria; R, RER. Bar, 0,5 μm (Gómez-Valero et al. 2004b). El género Buchnera contiene una única especie, B. aphidicola, y la cepa tipo es el endosimbionte del pulgón S. graminum (Munson et al., 1991). De modo que, actualmente éste es el único nombre para designar al endosimbionte primario de cualquier especie de pulgón. Teniendo en cuenta que hay unas 4.400 especies de pulgones (Blackman y Eastop, 1984; Remaudière y Remaudière, 1997) y que las diferencias entre el 16S de B. aphidicola de las especies de pulgones más alejadas es equivalente a la distancia entre E. coli y otras bacterias entéricas como Proteus vulgaris, se ha sugerido que probablemente B. aphidicola debería ser subdividida en nuevas especies (Baumann et al. 2000). Esto ha dado lugar a diversas nomenclaturas para los endosimbiontes primarios de diferentes pulgones en la literatura. En nuestro caso, utilizaremos una nomenclatura reducida basada en tres letras, la 75 ...........................................................................................................................................Capítulo 4 primera referida a B. aphidicola y las siguientes referidas a la especie concreta de pulgón empleada (por ejemplo: BAp es el modo de referirnos a B. aphidicola del pulgón A. pisum). Los nombres asignados a cada una de las especies y cepas empleadas se describen en tablas específicas en el apartado de material y métodos. La relación que existe entre B. aphidicola y su hospedador es una endosimbiosis obligada estricta. B. aphidicola no puede ser cultivada fuera del hospedador y cuando el hospedador es tratado con antibióticos que eliminan al endosimbionte, esto conlleva a la pérdida de la habilidad para la reproducción y a la muerte prematura del insecto (Douglas, 1998). El rol de la endosimbiosis es nutricional, dado que como ya hemos indicado previamente, B. aphidicola provee al pulgón con aminoácidos esenciales, que son deficitarios en la dieta del mismo (Baumann et al. 1995). Esta aportación de aminoácidos es necesaria pero no suficiente para el crecimiento del embrión (Wilkinson y Ishikawa, 1999). La presencia de un pequeño grupo de genes biosintéticos en B. aphidicola, pero ausentes en patógenos intracelulares, sugiere que la mayoría de estos genes pueden estar implicados en la provisión de pequeñas moléculas al hospedador (Shigenobu et al., 2000). Esto ha sido demostrado al menos en el caso de la vitamina riboflavina (Nakabachi y Ishikawa, 1997, 1999). En base a la secuencia del 16S rDNA, los organismos filogenéticamente más próximos a B. aphidicola son los endosimbiontes de las hormigas carpinteras (Blochmannia), los endosimbiontes de las moscas tse tse (Wigglesworthia) y otros miembros de las Enterobacteriaceae (Aksoy, 1995; Schröeder et al. 1996) (ver apartado a, figura 4.5). La filogenia basada en la secuencia del 16S rDNA (Moran et al. 1993; van Ham et al. 1997), concuerda en general con la filogenia de los pulgones basada en su morfología (Heie, 1987) (ver apartado b, figura 4.5), aunque esta última está siendo revisada, tal y como hemos indicado previamente. Esta congruencia filogenética se da también entre las filogenias derivadas de genes cromosómicos y plasmídicos de B. aphidicola, con las derivadas de genes nucleares y mitocondriales del hospedador. Este resultado 76 ……………………………………………………………………………………….Introducción constituye una fuerte evidencia del modo de transmisión vertical que posee esta bacteria (Moran y Baumann, 1994), que se transmite maternalmente por transmisión transovarial, tanto a los embriones en desarrollo como a los huevos (Buchner, 1965), e implica una infección original de la bacteria sobre un ancestro común de los pulgones hace unos 200-250 m.a. (según el registro fósil de los pulgones). La principal consecuencia de esta coevolución es que los datos cronológicos extrapolados de los fósiles de los pulgones se pueden extender al endosimbionte ancestral para calcular tasas respecto al tiempo transcurrido. 77 ...........................................................................................................................................Capítulo 4 a) Buchnera Blochmannia Wigglesworthia γ Enterobacteriaceae P-endosimbiontes de Sitophilus S-endosimbiontes de pulgones, moscas tse tse y moscas blancas E. coli y P. vulgaris P-endosimbiontes de psílidos P-endosimbiontes de moscas blancas β Endosimbiontes de cochinillas Blattabacterium b) Bacteria Flavobacterias Pulgones Ruminobacter amylophilus Proteus vulgaris 48-70 MA Escherichia coli Schlectendalia chinensis 80-160 MA Melaphis rhois Pemphigus betae Mindarus victoriae Chaitophorus viminalis Diuraphis noxia 80-120 MA Acyrthosiphon pisum B. aphidicola Uroleucon sonchi Myzus persicae Rhopalosiphum padi Rhopalosiphum maidis 30-80 MA Schizaphis graminum Figura 4.5. Estudios filogenéticos de B. aphidicola. a) Posición filogenética de B. ahidicola respecto a otras bacterias. Árbol filogenético obtenido por parsimonia en base a la secuencia del 16S rDNA. P: endosimbionte primario; S: endosimbionte secundario; letras griegas: subdivisión de las Proteobacterias. b) Congruencia entre la filogenia de B. aphidicola y de los pulgones. A partir de Baumann et al. 1997. La filogenia bacteriana se construyó a partir de las secuencias del rDNA16S. La filogenia de los pulgones se construyó a partir de caracteres morfológicos (Heie, 1980). Los simbiontes se nombran con el nombre de la especie huésped (a partir de Moran y Baumann, 1994). En ocasiones, junto a B. aphidicola, los pulgones albergan otras bacterias endosimbiontes que globalmente se denominan endosimbiontes secundarios (Buchner 1965; Fukatsu y Ishikawa, 1993; Fukatsu, 1998). A diferencia del endosimbionte principal, B. aphidicola, los endosimbiontes secundarios generalmente no tienen una localización específica, no representan un clado monofilético y no son esenciales para el hospedador 78 ……………………………………………………………………………………….Introducción (Fukatsu e Ishikawa 1993; Moran y Telang 1998). Sin embargo, sí que se han observado diferentes efectos positivos sobre el hospedador derivados de los mismos, como recuperación del daño causado por calor (Chen et al. 2000; Montllor et al. 2002), especialización hacia la planta hospedadora y efectos en la reproducción (Simon et al. 2003; Tsuchida et al. 2004) o resistencia al ataque de parasitoides y otros enemigos naturales (Oliver et al. 2003; Ferrari et al. 2004). Características genómicas Al inicio del trabajo de esta tesis se habían secuenciado completamente tres genomas de B. aphidicola pertenecientes a diferentes especies de pulgones: B. aphidicola de A. pisum (BAp) (Shigenobu et al. 2000), B. aphidicola de S. graminum (BSg) (Tamas et al. 2002) y B. aphidicola de B. pistaciae (BBp) (van Ham et al. 2003). Además, el genoma de B. aphidicola de Cinara cedri (BCc) ha sido secuenciado recientemente (Pérez-Brocal et al. 2006). Las principales características de estos genomas se resumen en la tabla 4.1. Tabla 4.1. Comparación de los principales rasgos genómicos de los diferentes genomas de B. aphidicola secuenciados hasta el momento. Los plásmidos contienen un número variable de repeticiones en tándem, de las cuales sólo el tamaño de la unidad básica se ha tenido en cuenta en este caso. pTrp: plásmido triptófano; pLeu: plásmido leucina; IGRs: regiones intergénicas; pc: plásmido críptico BAp BSg BBp BCc Tamaño genoma(pb) 652.115 653.001 618.379 422.434 pLeu+pTrp pLeu+pTrp pc pLeu Plásmidos Total tamaño plásmidos (pb) 11.434 11.547 2.399 6.054 GC(%) 26,3 25,3 25,3 20,1 608 596 544 402 Número de genes Pseudogenes 13 33 9 3 86,8 84,3 81 85,1 Regiones codificantes (%) Longitud media ORFs (pb) 990,2 982,7 990,4 993,7 126,9 113,3 200,5 135,8 Longitud media IGRs (pb) Un rasgo destacado de estos genomas es que son poliploides, con un promedio de 120 genomas por célula (Komaki y Ishikawa, 1999). Además, el número de genomas por célula varía según el estado del desarrollo del hospedador o la morfología del mismo (Komaki y Ishikawa, 2000). 79 ...........................................................................................................................................Capítulo 4 Tal y como se observa en la tabla, estos genomas poseen un contenido en AT alrededor del 70% (Ohtaka et al. 1992). Este modelo de sesgo hacia AT es una propiedad común de los endosimbiontes que se transmiten verticalmente (Moran y Baumann, 2000). Aunque este sesgo se manifiesta especialmente en regiones neutras se da también en regiones codificantes, lo que tiene como resultado que los polipéptidos de B. aphidicola están enriquecidos en aminoácidos codificados por codones ricos en AT (Clark et al. 1999; Shigenobu et al. 2000), como la lisina. Del mismo modo, el uso alternativo de codones está determinado principalmente por este sesgo antes que por selección a favor de codones óptimos para maximizar las tasas y eficacia de la traducción (Wernegreen y Moran 1999; Moya et al. 2002). Aunque trabajos posteriores han detectado algunos indicios de un tenue sesgo selectivo en el uso de codones (Rispe et al. 2004; Charles et al. 2006). En adición al sesgo en AT, B. aphidicola posee elevadas tasas de sustitución nucleotídica. La tasa de sustitución en el 16S rDNA de B. aphidicola es aproximadamente el doble de la de bacterias de vida libre relacionadas, en base tanto a la comparación de tasas relativas como comparando tasas calibradas respecto al tiempo absoluto (Moran 1996; Clark et al. 1999). Estas elevadas tasas de sustitución también se dan en genes codificantes de proteínas (Moran, 1996; Brynnel et al. 1998; Clark et al. 1999; Wernegreen y Moran, 1999), especialmente en sitios no sinónimos. Se han propuesto dos explicaciones a este aumento en el ritmo de acumulación de sustituciones: relajación de la selección e incremento de la deriva genética. Sin embargo, la explicación más plausible es que la estructura poblacional de B. aphidicola, que implica una estricta transmisión vertical de un pequeño inóculo de bacterias entre hospedadores, da lugar a elevados niveles de deriva genética, incrementándose la tasa de fijación de mutaciones ligeramente deletéreas. Un modo de contrarrestar este aumento de mutaciones ligeramente deletéreas en B. aphidicola, es la expresión masiva de la chaperonina GroEL 80 ……………………………………………………………………………………….Introducción (Fares et al. 2002). Esta proteína participa en el plegamiento de péptidos en sus formas funcionales, y también en la reparación de proteínas dañadas (Gross et al. 1996). De hecho, la sobreproducción de GroEL es característica de algunos endosimbiontes y patógenos de ambiente intracelular (Hogenhout et al. 1998). Entre las modificaciones génicas sufridas por esta bacteria, destaca también la organización de los genes ribosómicos. El operón del rRNA está organizado en dos unidades transcripcionales y sólo una copia de cada unidad está presente en el genoma. Esta reordenación es rara en eubacterias y específica de bacterias de crecimiento lento (Baumann et al. 1995). Destaca también la pérdida de elementos reguladores de la expresión génica (Baumann et al. 1995) y de la regulación enzimática (Jimenez et al. 2000). Otra característica importante es la translocación a plásmidos de genes implicados en las rutas de biosíntesis de aminoácidos esenciales de triptófano (Lai et al. 1994) y leucina (Bracho et al. 1995). Inicialmente, el hallazgo de estos plásmidos se interpretó como un modo de incrementar el número de genes que codifican para estos aminoácidos. Sin embargo, recientemente se ha sugerido que esta translocación al inicio de la simbiosis sería un modo de evitar los sistemas de regulación por feedback, lo que permitiría un suministro continuo de estos aminoácidos al insecto, a pesar de que éste se halle en elevadas concentraciones en la célula (Latorre et al. 2005). Opuestamente a esta amplificación de genes implicados en la biosíntesis de aminoácidos está la pérdida de genes, no sólo no esenciales, sino también de aquellos que aunque no son esenciales son necesarios. Así por ejemplo, B. aphidicola ha perdido la mayor parte de genes implicados en reparación y recombinación como el gen recA, los genes que codifican para proteínas reguladoras y otros sistemas como la regulación por atenuación (Shigenobu et al. 2000) Estas pérdidas, junto con sus elevadas tasas de sustitución, el sesgo en AT, la ausencia de sesgo adaptativo en el uso de 81 ...........................................................................................................................................Capítulo 4 codones y la pérdida de elementos repetidos, constituyen los síntomas de la degradación genómica a la que está sometida esta bacteria, cuya principal consecuencia es la drástica reducción del tamaño genómico. Reducción genómica en B. aphidicola La secuenciación del primer genoma de B. aphidicola, el genoma de BAp (Shigenobu et al. 2000), permitió su comparación con los genomas de bacterias de vida libre estrechamente relacionados como son los genomas de E. coli (Blattner et al. 1997) y Vibrio cholerae (Heidelberg et al. 2000). Esta comparación puso de manifiesto que B. aphidicola, desde su divergencia de estas bacterias había sufrido una importante reducción genómica y numerosos reordenamientos (Silva et al. 2001). La comparación del genoma de B. aphidicola con el genoma de E. coli permitió así mismo la reconstrucción del genoma ancestral mínimo LCA (Last Common Ancestor). Esta reconstrucción se llevó a cabo en dos trabajos diferentes (Moran y Mira 2001; Silva et al. 2001), empleando un genoma de referencia distinto en cada caso. En el trabajo de Silva et al. (2001) se llevó a cabo la reconstrucción del ancestro tomando como referencia a V. cholerae. En base a esta comparación, el LCA posee un contenido mínimo de 1.818 genes y el análisis de los bloques ancestrales del mismo (con una orientación equivalente en E. coli y en B. aphidicola) mostró ejemplos de los tres estadios de degradación génica (pseudogenización, pequeñas deleciones y pérdida total). Este hallazgo favorece la hipótesis de una desintegración génica gradual para explicar la reducción genómica en B. aphidicola. En el trabajo de Moran y Mira (2001) se llevó a cabo la reconstrucción del ancestro entre E. coli y B. aphidicola, tomando como referencia el genoma de Yersinia pestis (Moran y Mira, 2001). Esta bacteria está más prxima a E. coli que a B. aphidicola, lo que produce que los bloques de genes sinténicos sean mucho más largos al considerarse que un bloque es ancestral si coincide el orden entre E. coli y Y. pestis. El genoma ancestral mínimo en este caso estaría constituido por 2.425 genes y se propone que la reducción del genoma se 82 ……………………………………………………………………………………….Introducción habría dado a través de grandes deleciones entre fragmentos sinténicos y deleciones más cortas acompañadas de reordenamientos (Moran y Mira, 2001). Según los autores, esto estaría apoyado por la observación de que los genes perdidos están agrupados (en las bacterias de referencia) y porque no existe una correlación positiva entre la longitud del espacio intergénico con el número de genes perdidos en una región sinténica. Sin embargo, estas observaciones no permiten concluir que la pérdida se ha dado a través de grandes deleciones, puesto que no sabemos cuanto tiempo hace que se inactivaron. Contrariamente a las modificaciones que se observan al comparar B. aphidicola con las bacterias de vida libre relacionadas, la comparación del genoma de BAp con los genomas de B. aphidicola secuenciados posteriormente: BSg (Tamas et al. 2002) y BBp (van Ham et al. 2003) mostró una conservación extrema del orden génico, con sólo 4 reordenaciones (dos inversiones y dos translocaciones que implicaban a los plásmidos triptófano y leucina) en los genomas de BAp y BSg con respecto a BBp. Estos resultados llevaron a sugerir que B. aphidicola podría haber mantenido el mismo orden génico desde el establecimiento de la simbiosis con pulgones, que se correspondería con el LCSA. De modo que, su genoma podría ser considerado un fósil del orden génico de B. aphidicola. El elevado grado de conservación del orden génico puede explicarse en base a la ausencia de transferencia horizontal en B. aphidicola y a la escasa frecuencia de recombinación (Silva et al. 2003). Respecto a los cambios en el tamaño genómico, un estudio sobre diversas cepas de B. aphidicola mediante electroforesis de campo pulsante, mostró un tamaño cromosómico estable alrededor de 630-643 Kb (Wernegreen et al. 2002). Este resultado, adicionalmente apoyado por los tamaños genómicos similares de BAp y BSg, llevó a postular que B. aphidicola había alcanzado una estasis no sólo en cuanto al orden génico, sino también respecto a la variación del tamaño genómico. Estas 83 ...........................................................................................................................................Capítulo 4 conclusiones llevaron a postular que la tasa de erosión del actual genoma de B. aphidicola era tan baja como 1 nt cada 10.000 años (Mira et al. 2002). La secuenciación posterior de BBp, con un tamaño genómico menor (615 Kb) (van Ham et al. 2003) y un estudio paralelo (Gil et al. 2002) mediante electroforesis de campo pulsante con nuevas cepas de B. aphidicola, revelaron un rango de tamaños cromosómicos más amplio (~ 450-670 Kb), siendo el tamaño de B. aphidicola de C. cedri (422 Kb) el mínimo encontrado hasta ahora para una especie bacteriana. Estos resultados indican por tanto, que la tasa de pérdida en B. aphidicola tras la divergencia del LCSA puede ser superior a lo que inicialmente se pensaba. B. aphidicola es un modelo adecuado para el estudio de la reducción genómica por numerosas razones: su genoma drásticamente reducido, su proximidad a bacterias de vida libre ampliamente conocidas como E. coli, lo que permite comparar las consecuencias de ambos estilos de vida; el hecho de que existan diversos genomas de distintas cepas completamente secuenciados, lo que permite llevar a cabo estudios comparativos y finalmente por su coevolución con el hospedador, que hace que los tiempos de divergencia estimados para éste sean aplicables a la bacteria. En concreto, la disponibilidad de tres genomas de B. aphidicola completamente secuenciados cuyos tiempos de divergencia son conocidos, proporciona una oportunidad única para conocer el ritmo de reducción genómica en esta bacteria durante la evolución de estos linajes. 84 ………………………………………………...............................................…………….Objetivos 4.2 OBJETIVOS El objetivo de este capítulo es caracterizar el proceso de reducción genómica en los últimos 150 m.a. de evolución de B. aphidicola, mediante la reconstrucción del genoma ancestral y el análisis comparativo de cada uno de los genomas secuenciados de esta bacteria. Con este objetivo pretendemos responder a las siguientes cuestiones: - ¿Qué genes se han perdido? - ¿En qué estado de degradación están los genes perdidos? - ¿Cuántos nucleótidos han perdido los genes inactivados? - ¿Cómo ha variado la composición nucleotídica de los genes perdidos? - ¿La reducción génica y la disminución en GC de los genes perdidos son procesos correlacionados? - ¿Cuál es la tasa de pérdida de B. aphidicola? - ¿Cuál es la vida media de un pseudogen en esta especie? - ¿La evolución reductiva afecta también a las regiones intergénicas? - ¿Cuál era la función de los genes perdidos? - ¿Existe convergencia de los genes inactivados en los diferentes linajes de B. aphidicola? 85 …………………………………...............................................…………………………Capítulo 4 4.3 RESULTADOS Y DISCUSIÓN 4.3.1 Reconstrucción del ancestro Con el objetivo de analizar los genes perdidos en los genomas de B. aphidicola seleccionados para nuestro estudio, decidimos llevar a cabo la comparación de éstos con el correspondiente genoma ancestral de estas especies. El primer paso para llevar a cabo dicha comparación era por tanto, reconstruir el genoma ancestral al que designamos LCSA (Last Common Symbiont Ancestor). A partir de la comparación de los genomas de BAp, BSg y BBp, se determinó el contenido génico de este LCSA (Anexo 2). El criterio fue el descrito en van Ham et al. (2003), bajo el cual todos los genes presentes en alguna de estas especies se considera que forman parte del genoma ancestral. Este asunción se basa tanto en la extrema estabilidad de estos genomas cuya comparación del contenido y orden génico ha mostrado un número muy escaso de reordenaciones cromosómicas (Tamas et al. 2002; van Ham et al. 2003), como en la ausencia de transferencia horizontal a excepción de un único caso descrito (van Ham et al. 2000). Ambos hechos apoyan la hipótesis de que cada gen presente en una de estas especies de B. aphidicola estaba originalmente en el genoma ancestral. Adicionalmente, el gen yadF detectado en B. aphidicola del pulgón T. caerulescens (BTc) (Sabater-Muñoz et al. 2004) pero ausente en los tres genomas de B. aphidicola con los que trabajamos, también se incorporó al LCSA. Este gen (junto a mrcB) y truA flanquean el cluster leucina en B. aphidicola de T. caerulescens, que en esta especie tiene una localización cromosómica (figura 4.6). T. caerulescens pertenece a la subfamilia Pemphiginae al igual que B. pistaciae, pero a diferente tribu (Eriosomatini) y estudios filogenéticos previos de B. aphidicola de T. caerulescens (Sabater-Muñoz et al. 2004) muestran su agrupación con BBp en un mismo clado separado de aquél que reúne a las especies de la familia Aphidinae (como BAp y BSg). La presencia adyacente de truA y mrcB en los genomas de BAp, BBp y BSg (en éste, mrcB se halla 86 ………………………………........................................…………………...Resultados y discusión en estado de pseudogen), parece indicar que éste era el orden génico ancestral y que el cluster leucina se insertó en la región intergénica de truA y yadF, tras la divergencia de T. caerulescens de B. pistaciae, con la posterior desintegración génica convergente de yadF en los linajes de BBp y Aphidinae. En el caso de la familia Pemphiginae, la pérdida habría tenido lugar tras la divergencia de las tribus Eriosomatini y Fordini. De hecho, la región intergénica más larga en BBp indicaría que el proceso de desintegración empezó recientemente en la tribu Fordini. Mientras que el pequeño tamaño del espaciador intergénico en el caso de BSg y BAp indicaría que la desintegración de yadF empezó en el ancestro de la subfamilia Aphidinae (Sabater-Muñoz et al. 2004). BBp BTc BAp BSg BBp truA BTc truA Subfamilia Tribu Pemphiginae Fordini Pemphiginae Eriosomatini Aphidinae Macrosiphini Aphidinae Rhopalosiphum mrcB leuB leuC leuD mrcB leuA yadF BAp truA mrcB BSg truA mrcB Figura 4.6. Descripción de la región localizada entre los genes truA y mrcB en las especies BBp, BTc, BAp y BSg, junto con su agrupación filogenética. En base a los criterios descritos, el genoma ancestral mínimo de BAp, BSg y BBp está formado por 640 genes (tabla 4.2). La proximidad de las cepas de B. aphidicola con las que trabajamos, junto con su extrema conservación del orden y contenido génico, gracias a la escasez de reordenaciones y a la ausencia de fenómenos de transferencia horizontal, permiten una reconstrucción del ancestro muy precisa. No obstante, hay que tener en cuenta que éste es el contenido mínimo, dado que no podemos 87 …………………………………...............................................…………………………Capítulo 4 incorporar aquellos genes que se han podido perder simultáneamente en las tres cepas, como ha ocurrido con el gen yadF. De hecho, la secuenciación reciente del genoma de BCc ha mostrado, que a pesar de que ha perdido casi 200 genes con respecto al resto de genomas de B. aphidicola completamente secuenciados, posee 5 genes propios (Pérez-Brocal et al. 2006) que estarían por tanto también en el ancestro de esta bacteria. 4.3.2 Identificación de los eventos de pérdida Una vez reconstruido el ancestro, para determinar qué genes se habían perdido y en qué momento, en primer lugar definimos dos periodos de pérdida basándonos en la filogenia conocida de estas especies: un primer periodo comprendido entre la separación de las subfamilias Aphidinae y Pemphiginae y un segundo periodo desde la divergencia de BAp y BSg hasta el momento actual (figura 4.7). A continuación se llevó a cabo la elaboración de una tabla indicando el estado de cada uno de los genes ancestrales en cada uno de los genomas analizados, diferenciando los siguientes estados: gen activo, pseudogen o gen ausente. El resultado se muestra en la tabla 4.2 y en el anexo 2. 88 + + Ψ Ψ Ψ + + Ψ Ψ Ψ - Ψ + + + + + Ψ Ψ Ψ - 89 8 1 C2* bioH yadF ansA, hemD + + + + + Ψ + + - - Ψ BBp NOTA.- Símbolos empleados para describir el estado de los genes: + (gene), ψ (pseudogen), y – (gen/pseudogen ausente). Símbolos empleados para designar las pérdidas convergentes: U (pérdida única), C2 (dos pérdidas convergentes), C3 (tres pérdidas convergentes), y C2* (dos pérdidas convergentes, una en el linaje de BBp y otra previa a la divergencia de los linajes BAp y BSg). El resto de pérdidas convergentes en C2 que implican a los linajes de BAp o BSg tuvieron lugar en el periodo posterior a la divergencia entre BAp y BSg. 2 C3 apbE,cmk,cvpA 1 3 folE, metR, ycfW bcp, ybaX, ygcF, ygcM, yqcD, znuA, 3 6 ycfM cspC, hns 1 2 C2 C2 C2 ycfC cysD, cysG, cysH, cysI, cysN, cysQ, hemC, nlpD 1 bioD, lgt, miaA, mltE, mraY, mrcB, mrsA, murC, murE, murF, phrB, pyrE, rnfC, ung, yba3, yfaE, yhhF, yjeA yebA, ygfA, ygjT, yidD, yjeK ddlB, fabD, fabZ, rnhA bioC, bioF, mutH, norM, pal, uspA, yqgE U 4 U + + 5 7 U + + argA, argB, argC, argD, argE, cysC, cysJ, cysK, dnaT, fis, flgA, flgD, flgE, flgK, flgN, glpF, himA, himD, hpt, ispA, kdtB, lpcA, metK, mltA, mutT, nadE, ompA, ompF, panB, panC, pncB, priA, pyrB, pyrC, pyrD, pyrI, queA, ribF, secB, smg, smpA, speD, speE ,surA ,tgt, thiL, tig, topA, uup, vacB, yacE, yaeT, yb3052, yba4, ybeN, ycbY, ycfU, ycfV, yeeX, yfiO, ygbQ, yggJ, yhiQ 18 63 U BSg BAp LCSA Estado del gen dxr, dxs, gcpE, secG, ychB, yedA, ygbB, ygbP U 8 U U Nº de pérdidas Pérdidas convergentes Nombre del gen Genes perdidos y estado de los genes en los genomas de Bap, BSg y BBp Tabla 4.2 ………………………………........................................…………………...Resultados y discusión …………………………………...............................................…………………………Capítulo 4 Una vez obtenida dicha tabla, un mismo gen ancestral puede hallarse en estado de gen ausente o pseudogen en diferentes cepas. Para determinar en qué periodo se produjo la inactivación de cada gen, establecimos un criterio de parsimonia tal y como se muestra en la figura 4.7. En base a éste, en el caso de los linajes de BAp y BSg cuando un gen funcional está presente en una de estas especies pero ausente o en estado de pseudogen en la otra, asumimos que la pérdida tuvo lugar en el periodo II, tras la divergencia de ambos linajes. Por otro lado, si en ambas especies el gen está ausente, se asume que la inactivación de dicho gen tuvo lugar antes de la divergencia o periodo I. a) BAp BSg BBp I 86-164 II 50-70 164 t (My) b) ANCESTRO BBp Bap BSg Periodo de inactivación + + - - I + - + + I/II + + + - II + + - + II + - + - I/II y II + - - + I/II y II Figura 4.7. Determinación del momento de inactivación de los genes perdidos en las especies de B. aphidicola empleadas en el estudio (+ = gen activo, - = gen o pseudogen ausente). a) Diferenciación de dos periodos de inactivación (I/II) a lo largo de la evolución de los linajes. b) Periodo de inactivación establecido en base al estado de cada gen en cada genoma siguiendo un criterio de máxima parsimonia. 90 ………………………………........................................…………………...Resultados y discusión Con este criterio la inactivación de todos los genes no puede resolverse sin ambigüedades. Por ejemplo, los genes perdidos en el linaje de BBp han podido sufrir su inactivación a lo largo de toda la evolución de dicha especie, desde su divergencia de la subfamilia Pemphiginae, lo que abarca tanto el periodo I como II. Así mismo, las pérdidas convergentes que afectan a BBp y a una de las especies de la subfamilia Aphidinae, al igual que en el caso descrito previamente en BBp, pueden haber tenido lugar tanto a lo largo del periodo I como del II. En el caso de los genes ancestrales que en BAp y BSg se hallan en estado de pseudogen en ambas cepas, o pseudogen en una cepa y gen ausente en la otra, establecimos un criterio basado en la similitud de la secuencia respecto al ortólogo funcional para determinar el periodo de pérdida. Para ello, intentamos determinar el rango de e-values resultantes tras una búsqueda por BLAST (Altschul et al. 1997), para los genes inactivados tras la divergencia de BAp y BSg. Para estar seguro de llevar a cabo la búsqueda exclusivamente con genes perdidos en el periodo II, seleccionamos únicamente los genes que presentaban alguno de los siguientes estados: gen en BAp y pseudogen en BSg, gen en BSg y pseudogen en BAp, gen en BAp y gen ausente en BSg y gen en BSg y gen ausente en BAp. A partir de estos genes y tomando las correspondientes proteínas ortólogas funcionales de E. coli como referencia, llevamos a cabo un tblastn contra los genomas de BAp y BSg, con el objetivo de conocer el e- value obtenido contra la región del genoma de B. aphidicola en la que esperamos localizar los restos remanentes del gen funcional. Los resultados se muestran en la tabla 4.3. 91 + - + ψ ψ + + + BAp BSg BBp ESTADO DEL GEN e-94 e-105 5 x e-85 0 -69 -97 0 e-142 0 -135 -180 cysG cysH cysQ hemC 92 e 9xe e-59 0 -138 -121 0 0 -165 e e-118 -180 murE mltE bioD phrB mrsA lgt pyrE miaA yba3 e e e 0 -52 0 murF yjeA -29 0 mraY -77 -112 -85 e - -101 2xe -87 -87 7xe e -84 -110 e -43 -32 -80 -111 6xe 8xe 7xe -102 e 4xe e-120 e 0 -63 e -89 -36 -11 5xe 5xe - - - - - - - 2xe - -93 -82 5xe e - -82 -83 4xe 3 x e-46 2 x e-52 -76 e e -103 e -123 e -116 -51 6xe -34 e -117 5xe 2xe e 3xe -98 e 8xe -75 2xe -104 3xe -96 e-111 e-118 0 -58 5xe e -14 2xe -70 -34 7 x e-54 murC e 8xe -94 2xe -27 2 x e-74 0 e 9xe 0 0 e mrcB -68 8xe -14 6xe -136 9xe yfaE -87 -40 8xe 4xe 2xe e ung 0 -47 -101 e e e e rnfC yhhF cysI -119 e -130 e -179 cysD -132 -154 0 e cysN ψ ψ - ψ ψ - ψ ψ ψ + + + + + - + - - + + hemD* ansA* bioH* cmK* apbE* cvpA* ybaX ygcM ygcF znuA yqcD bcp ycfW folE metR fabD rnhA fabZ ddlB ygfA yebA ygjT yjeK yidD cspC ESTADO DEL GEN TBLASTN (E.coli) BAp BSg BBp BAp BSg BBp GEN -42 -35 + e e ψ ψ ycfM -27 -27 hns + e 2xe -174 e -115 E.coli nlpD GEN ycfC e e 0 -125 e -149 e e-104 -88 e 0 e -135 -71 3xe -121 e -163 e -168 e -91 6xe e-108 0 -175 e -163 2xe -91 -83 e e -172 -117 0 0 5xe 0 -37 6xe 2xe 7xe -36 5 x e-28 - -73 0.003 - - - - - e-57 - - -55 -27 -12 -85 -33 -29 3xe 0.002 2xe 7xe 4xe - - - - 2xe - 5xe -13 e-100 8 x e-17 - - e -22 6xe e -54 -126 e 6xe 1.2 -80 2xe -11 3xe -61 -47 e -64 6xe -53 8xe -81 e -48 5xe 4 x e-49 3 x e-59 -110 e -53 e -51 -43 4xe e -37 -83 8xe - -57 6xe - 5 x e-36 3 x e-71 4 x e-19 - - - - - - - - -45 2xe - -51 -30 2xe e e -38 -87 4xe 3 x e-77 8 x e-50 2 x e-57 7 x e-64 7 x e-95 2xe - - TBLASTN (E.coli) BAp BSg BBp -7 6xe -36 -48 e -93 e E.coli Tabla 4.3. E-values obtenidos como resultado del TBlastN de las proteínas de E. coli contra los correspondientes ortólogos en cada una de las especies de B. aphidicola empleadas para los genes inactivados en el periodo II. * Genes en estado de pseudogen, o en estado de pseudogen y gen ausente en BAp y BSg. ψ: pseudogen; - : gen ausente. …………………………………...............................................…………………………Capítulo 4 ………………………………........................................…………………...Resultados y discusión Los e-values obtenidos en el caso de los 33 pseudogenes empleados, oscilaban en un rango que abarcaba desde 0 hasta casos en los que no se detectaba señal (e-value > 7), con un valor medio de 2 x 10-74, mientras que en el caso de los 14 genes ausentes, no se detectaba señal de BLAST. De acuerdo con estos resultados, podemos asumir que la tasa de sustitución en B. aphidicola es tan elevada que los pseudogenes formados antes de la divergencia de BAp y BSg, probablemente se hallan en un estado de desintegración elevado y no es posible detectar la similitud de los mismos con el gen original. De modo que, basándonos en los pequeños e-values obtenidos para los genes cvpA, apbE, cmk, bioH, ansA y hemD en las mismas condiciones de la tabla 4.3, podemos asumir que dichos genes eran funcionales en el momento de la divergencia entre BAp y BSg y que han tenido lugar dos inactivaciones convergentes sobre los mismos. Una vez establecido el periodo de inactivación de cada uno de los genes, fue posible determinar el número de genes perdidos durante la evolución de cada uno de los linajes a partir del ancestro (Figura 4.8). 93 …………………………………...............................................…………………………Capítulo 4 BAp 632 608 24 Aphidinae 8 LCSA BSg 596 640 36 BBp 544 Pemphiginae 96 t (My) 86 164 50 70 164 Figura 4.8. Relación filogenética entre las especies de B. aphidicola empleadas en el estudio. Los tiempos de divergencia se muestran debajo. El número mínimo de genes del genoma ancestral LCSA (640) se distribuye entre 629 genes cromosómicos y 11 genes distribuidos en los plásmidos triptófano y leucina. El número de genes perdidos en ramas internas o externas del árbol filogenético se muestra en los recuadros indicados por flechas. Todas estas pérdidas se corresponden con genes que codifican para proteínas. El número de genes de las diferentes especies de B. aphidicola empleadas se muestra a la derecha del nombre de cada cepa. Este número incluye tanto los genes cromosómicos como plasmídicos, pero en BAp y BSg sólo una copia de los genes duplicados en el plásmido triptófano se ha tenido en cuenta, bien porque el número de copias varía entre individuos o bien porque este número no ha sido determinado. De los 640 genes ancestrales, 629 se sitúan en el cromosoma y los restantes 11 se distribuyen en los plásmidos triptófano y leucina. Este genoma ancestral está constituido por 603 genes que codifican para proteínas y 37 genes especificadores de RNAs. Cinco genes anotados previamente como pseudogenes en el genoma de BSg (Tamas et al. 2002) fueron reanotados como genes (Gil et al. 2003). En el caso de los genes lig, mfd y endA, en base a la existencia de una pauta de lectura abierta y en el papel esencial de la proteína. En el caso de infC inicialmente se anotó como pseudogen debido a la ausencia de un codón de inicio (Tamas et al. 2002) y posteriormente se ha descubierto que emplea el codón AUA como tal, al igual que en E. coli y en el caso del gen prfB, porque a pesar de un corrimiento de pauta, éste no impide la traducción dado 94 ………………………………........................................…………………...Resultados y discusión que el ribosoma lleva a cabo un deslizamiento programado (Gurvich et al. 2003). A lo largo de la evolución de los linajes estudiados se han detectado 164 eventos de pérdida. En el linaje de BBp se identificaron 96 eventos de pérdida, dos de los cuales (ibpA y repAC) no se tuvieron en cuenta en los análisis posteriores, dado que se trata de genes plasmídicos en el caso de BBp. Por lo tanto, al menos 94 de los 629 genes cromosómicos ancestrales se han perdido a lo largo de la evolución de BBp. En contraste, los linajes de BAp y BSg han sufrido la pérdida de sólo 32 y 44 genes respectivamente en el mismo periodo de tiempo. Estos 164 eventos, debido a las pérdidas convergentes que se han producido en estos linajes, representan sólo 135 genes diferentes. Estas pérdidas convergentes son: los genes ansA y hemD, que se han perdido tanto en el linaje de BBp como tras la divergencia de BAp y BSg en ambas especies independientemente; el gen yadF, inactivado tanto en BBp como antes de la divergencia entre BAp y BSg; 9 genes perdidos tanto en el linaje de BBp como en BAp, 11 inactivados en BBp y en el linaje de BSg y los genes apbE, cmk, cvpA y bioH que han sufrido perdidas convergentes en los linajes de BAp y BSg (ver tabla 4.2). 4.3.3 Análisis de las pérdidas en los linajes de BAp y BSg La cantidad de DNA perdido en los 135 genes inactivados durante la evolución de cada uno de los linajes estudiados se analizó tal y como se describe en material y métodos (apartado 3.7.2) en base al periodo en el cual tuvo lugar la inactivación de los mismos. Periodo I En primer lugar, analizamos los genes perdidos cuya inactivación tuvo lugar en el periodo comprendido entre la divergencia de las subfamilias Aphidinae y Pemphiginae (hace 86-164 m.a.) y la divergencia entre los linajes de BAp y BSg (hace 50-70 m.a.). Un total de 8 genes (bioC, bioF, 95 …………………………………...............................................…………………………Capítulo 4 mutH, norM, pal, uspA, yqgE y yadF) han iniciado su desintegración en este periodo. De estos 8 genes, 2 (bioC y bioF) eran contiguos y por lo tanto, fueron tratados como un bloque en el análisis de la pérdida de DNA. El cálculo del ratio Ld/Lg para estos 8 genes mostró que 6 habían perdido más del 90% de sus nucleótidos, mientras que en el caso de los otros dos el DNA remanente era sólo ligeramente superior al 10% respecto al tamaño original (figura 4.9 y anexo 3). 16 Nº genes perdidos 14 12 10 8 6 4 2 0 >1.1 1.05 0.95 0.85 0.75 0.65 0.55 0.45 0.35 0.25 0.15 0.05 Ld/Lg Figura 4.9. DNA perdido en B. aphidicola del linaje Aphidinae, cuya inactivación tuvo lugar entre el LCSA y la divergencia de los linajes BAp y BSg. La anchura de cada barra a lo largo del eje de abscisas representa un intervalo de 0,1 excepto para el primer segmento (>1.1). El promedio del ratio para estos 8 genes Ld/Lg fue 0,055, dentro de un rango que oscilaba entre 0 y 0,13. Para cada gen el cálculo de Ld está basado en el promedio entre los tamaños calculados en BAp y BSg. Estas dos longitudes fueron siempre muy similares y en ninguno de los genes analizados la diferencia en el valor del ratio para ambas cepas fue superior a 0,1. Asumiendo que la desintegración de los genes tiene lugar de manera gradual, podemos calcular la tasa de deleción por nucleótido y por millón de años mediante la fórmula de desintegración continua propuesta por Petrov y Hartl (1998) en un estudio previo: 96 ………………………………........................................…………………...Resultados y discusión Ld = L g × e − r × t Donde Ld es la longitud de la región desintegrada a tiempo t, Lg es la longitud del gen activo a tiempo 0, t es el periodo de desintegración y r la tasa de deleción. Para aplicar la fórmula tomamos como valor del ratio Ld/Lg, el promedio obtenido para los genes analizados en este intervalo de tiempo, 0,055 y como tiempo desde la inactivación un valor promedio de 100 m.a. de acuerdo con los límites máximos (86-164 m.a.) y mínimos (50-70 m.a.) de este periodo. En base a estos valores obtenemos una tasa de deleción del 2,9% por millón de años (r = 0,029), lo que significa que el ritmo de pérdida de B. aphidicola es 2,9 x 10 -8 nucleótidos perdidos por sitio y año. Este resultado implica que la degradación gradual en B. aphidicola en este periodo puede definirse en base a la siguiente función (figura 4.10): − 0.029 × t Ld = L g × e Al aplicar dicha fórmula obtenemos que la vida media de un pseudogen, es decir, el tiempo necesario para que un gen inactivado pierda la mitad de sus nucleótidos, es de 23,9 m.a. 1 0,9 0,8 0,7 Ld/Lg 0,6 0,5 0,4 0,3 0,2 Vida media 0,1 0 0 20 40 60 80 100 120 140 Tiempo de desintegración Figura 4.10. Función hipotética de la pérdida de DNA basada en la información disponible para 8 genes cuya inactivación tuvo lugar entre la divergencia de las subfamilias Aphidinae y Pemphiginae y la divergencia entre los linajes de BAp y BSg. La vida media de un pseudogen (periodo de tiempo necesario para que un gen inactivado pierda la mitad de sus nucleótidos) sería de 23.9 m.a. 97 …………………………………...............................................…………………………Capítulo 4 Esta función teórica implicaría que el DNA de un gen que se inactivó durante los primeros estadios de la evolución de B. aphidicola desde el LCSA, en el presente habría perdido prácticamente la totalidad de sus nucleótidos. Sin embargo, el grado de deterioro de genes perdidos tras la divergencia de los linajes de BAp y BSg abarcaría un rango de variación más amplio, con un ratio Ld/Lg que podría oscilar entre valores de 0,13, si la inactivación se hubiera producido en el momento más temprano posible (hace 70 m.a.) y 1 para genes inactivados muy recientemente. En base a este resultado podemos afirmar que la tasa obtenida es lo suficientemente elevada como para producir la completa o casi completa desintegración de genes en un corto periodo de tiempo, lo que explicaría que los genes inactivados durante el periodo I se hayan desintegrado casi por completo. Periodo II En el segundo periodo de pérdida, que comprende desde la divergencia entre BAp y BSg (hace 50-70 m.a.) hasta el presente, un total de 60 genes se han inactivado en ambos linajes (22 en BAp y 34 en BSg). De estas 60 pérdidas analizamos 56. Los cuatro eventos no examinados se corresponden con dos genes: ansA y hemD. Éstos se extrajeron del análisis dado que al no ser genes activos en ninguno de los genomas estudiados no disponemos de ortólogos funcionales con los que comparar los restos génicos. Dentro del grupo analizado, 53 no se situaban contiguos en el genoma ancestral y 4 formaban parte de dos bloques de dos genes cada uno (znuA-yebA y ygcF-ygcM). Tras analizar la pérdida de nucleótidos en estos genes el rango de valores obtenidos fue muy amplio, aunque la mayor parte de los genes habían perdido menos del 20% de sus nucleótidos (figura 4.11 y anexo 4). 98 Nº genes perdidos ………………………………........................................…………………...Resultados y discusión 30 Pérdidas totales 25 Pseudogenes 20 15 10 5 0 >1,1 1,05 0,95 0,85 0.75 0,65 0,55 0,45 0,35 0,25 0,15 0,05 Ld/Lg Figura 4.11. DNA perdido en B. aphidicola del linaje Aphidinae cuya inactivación tuvo lugar tras la divergencia de los linajes BAp y BSg. La anchura de cada barra a lo largo del eje de abscisas representa un intervalo de 0,1 excepto para el primer segmento (>1,1). Los genes se han clasificado en base a la ausencia (pérdidas totales) o presencia de similitud (pseudogenes) respecto al gen ortólogo funcional. La altura total de cada barra representa la suma de estas dos condiciones. Dentro de los 56 genes analizados 44 son pseudogenes y por tanto, probablemente genes inactivados recientemente, lo que explica que aún posean un alto grado de similitud con el gen ortólogo funcional. Sin embargo, los genes perdidos totalmente, cuya similitud con el ortólogo activo ya no puede detectarse, cuando se analizan separadamente de los pseudogenes, 12 de las 14 pérdidas muestran ratios Ld/Lg con un valor igual o inferior a 0,603 y algunos de los mismos presentan una desintegración completa. El alto grado de deterioro de estas pérdidas totales indica que probablemente se inactivaron en el primer millón de años tras la divergencia de los linajes BAp y BSg, en base a la tasa de desintegración gradual (figura 4.10). Dado que no podemos acotar el tiempo de inactivación de los genes en este periodo, que puede oscilar entre millones y cientos de años, calcular la vida media de un pseudogen en este intervalo es difícil. No obstante, nosotros intentamos obtener una estima aproximada, empleando únicamente la longitud de los 14 genes que han sufrido una pérdida total y para los cuales no se detectan restos con similitud reconocible. El promedio del ratio Ld/Lg para estos genes es de 0,426. A partir de este valor, aplicamos la fórmula de desintegración continua para un tiempo máximo de 60 m.a. (tiempo promedio de la divergencia entre BAp y BSg) y un tiempo mínimo de 20 m.a. En base a 99 …………………………………...............................................…………………………Capítulo 4 estos tiempos y el ratio Ld/Lg aplicado, la vida media de un pseudogen debería corresponderse con un valor comprendido dentro de un rango que oscila entre 16,2-48,7 m.a., intervalo que contiene el valor de 23,9 m.a. obtenido a partir de los genes perdidos en el periodo I y que confirma nuestros resultados previos. La desintegración de un gen se caracteriza no sólo por la pérdida de longitud del mismo, sino también por cambios en su composición nucleotídica. En el caso de bacterias asociadas con un hospedador, los genomas se caracterizan por un elevado contenido en AT, que se manifiesta sobre todo en regiones neutras (Wernegreen, 2002; Rocha y Danchin, 2002). Esta observación ha llevado a postular que existe una presión mutacional en los mismos que incrementa su contenido en AT (Moran, 2002). Este sesgo sería el responsable del bajo contenido en GC de los genomas de B. aphidicola, en torno al 25%. De modo que, una vez que un gen se inactiva esperamos que su contenido en GC se reduzca gradualmente, al mismo tiempo que sufre la pérdida de nucleótidos. Para ver por lo tanto si ambos procesos están correlacionados, sobre los genes perdidos en los diferentes linajes de B. aphidicola se llevó a cabo el cálculo del contenido en GC, en los mismos segmentos empleados para las estimas de Ld y Lg, obteniéndose los parámetros GCg y GCd y a partir de éstos el ratio GCd/ GCg. Únicamente los genes ansA y hemD no fueron incluidos en los análisis finales dado que no existe un gen ortólogo funcional de éstos en BBp para determinar su contenido en GC. El resultado se muestra en la figura 4.12. 100 ………………………………........................................…………………...Resultados y discusión 0,4 R= 0,7 0,2 -0,2 -0,4 ln (GCd/GCg) 0 -0,6 -0,8 -1 -1,2 -1,4 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 Ld/Lg Figura 4.12. Relación entre la pérdida de longitud (Ld/Lg) y de contenido en GC (GCd/GCg) de los genes cuya inactivación tuvo lugar tras la divergencia de los linajes de BAp y BSg (periodo II). Se ha llevado a cabo una transformación logarítmica del parámetro que mide el descenso del contenido en GC (GCd/GCg). El coeficiente de correlación obtenido es de 0,765. Tal y como se observa en la figura, existe una disminución paralela de ambos parámetros con un punto de equilibrio para el contenido en GC alrededor de 0,47. Este valor implica que el promedio de la composición final en GC de los genes analizados es el 47% de la composición inicial. En base a este resultado podemos afirmar que el sesgo hacia AT y la pérdida de nucleótidos son procesos que presentan algún grado de correlación, de modo que cuando un gen se inactiva el DNA de dicho gen sufrirá un acortamiento y una pérdida de GC en su composición. Esta correlación positiva entre tamaño y contenido en GC ha sido confirmada también en el caso extremo de B. aphidicola de C. cedri, en base a las dos primeras regiones genómicas obtenidas de esta bacteria (PérezBrocal et al. 2005). 4.3.4 Análisis de las pérdidas en BBp En el caso de los genes inactivados durante la evolución del linaje de BBp, las inactivaciones han podido producirse tanto durante el periodo I como II, pero no disponemos de un criterio para diferenciar ambos tipos de pérdida. 101 …………………………………...............................................…………………………Capítulo 4 De modo que los 94 genes cromosómicos perdidos en esta cepa desde su divergencia del LCSA fueron analizados conjuntamente. De estos genes, 44 eran pérdidas individuales mientras que el resto formaban parte de 13 bloques formados por desde 2 a 8 genes. Debido al amplio rango de desintegración que representan estas pérdidas (desde 0 a 150 m.a.), obtuvimos un rango de variación elevado para el ratio Ld/Lg, aunque un gran número de genes presentaban una desintegración casi completa (figura 4.13). Sólo 23 de los 94 mostraban ratios Ld/Lg superiores a 0,6, y la mayor parte de los pseudogenes formaban parte de este grupo (anexo 5). Nº genes perdidos 30 25 20 Pérdidas totales Pseudogenes 15 10 5 0 >1,1 1.15 0.95 0.85 0.75 0.65 0.55 0.45 0.35 0.25 0.15 0.05 Ld/Lg Figura 4.13. DNA perdido en B. aphidicola del linaje BBp. La anchura de cada barra a lo largo del eje de abscisas representa un intervalo de 0,1 excepto para el primer segmento (>1.1). Los genes se han clasificado en base a la ausencia (pérdidas totales) o presencia de similitud (pseudogenes) respecto del gen ortólogo funcional. La altura total de cada barra representa la suma de estas dos condiciones. En base por tanto a la fórmula de desintegración continua previamente descrita, este resultado implica que sólo unos pocos genes han empezado a sufrir un proceso de desintegración recientemente, mientras que la gran mayoría se inactivaron hace más de 50-60 m.a. Los genes con inapreciables reducciones son principalmente pseudogenes, que probablemente se han inactivado hace poco tiempo. Sin embargo, no hay que descartar que algunos de éstos todavía conserven su funcionalidad. Para diversos genes de E. coli se ha demostrado que la producción de pequeñas 102 ………………………………........................................…………………...Resultados y discusión cantidades de proteína completa y funcional es posible, si dichos genes son transcritos y durante la traducción se producen diversos corrimientos de pauta de lectura ribosomales (Gurvich et al. 2003). En este caso también intentamos calcular la vida media de un pseudogen, empleando únicamente las pérdidas que no son pseudogenes, pero con un largo intervalo que represente el posible momento de inactivación, desde 120 a 20 m.a., dada la imprecisión asociada al momento de la divergencia de este linaje (86-164 m.a.). El ratio Ld/Lg obtenido para estos genes perdidos fue de 0,358. En base a estos valores, la vida media de un pseudogen es un valor que puede oscilar entre 81,1 y 13,5 m.a. y que contiene por tanto al primer resultado obtenido de 23,9 m.a. La ausencia en este caso de una datación para la divergencia de dos o más miembros de la subfamilia Pemphiginae no nos permite determinar si los genes perdidos en estadios tempranos de este linaje se han eliminado completamente, pero es evidente que una larga proporción de genes han perdido un elevado número de sus nucleótidos. En base a esto podemos por tanto asumir que en ambos linajes el DNA de un gen puede haber desaparecido casi por completo tras 40-60 m.a. después de su inactivación. También para los genes perdidos en este linaje estudiamos la posible correlación entre la pérdida de nucleótidos y la disminución en el contenido en GC. Sin embargo, en este caso no se detectó correlación entre ambos. La explicación más probable es que el contenido en GC de un gen que se inactiva va descendiendo hasta un valor de equilibrio a partir del cual la composición no variará. Este valor puede alcanzarse rápidamente, dado que incluso para los genes activos de B. aphidicola el contenido en GC es bajo. De modo que este parámetro probablemente se satura antes que la pérdida de longitud, por lo que para los genes inactivados en periodos muy tempranos, la correlación entre ambos parámetros desaparece. Dado que el linaje de BBp incluye pérdidas que pueden ser muy antiguas, de hecho, la mayoría de los genes perdidos se hallan en un avanzado estado de desintegración, estos 103 …………………………………...............................................…………………………Capítulo 4 genes inactivados tempranamente en este linaje serían responsables de la ausencia de correlación entre la pérdida en GC y la pérdida de nucleótidos. Algunos de los genes analizados en los tres linajes estudiados no sólo presentaban una ausencia de reducción sino que incluso habían sufrido un incremento en el número de nucleótidos tras la inactivación de los mismos. Estos genes probablemente se inactivaron recientemente, y el aumento de longitud que han sufrido posteriormente puede explicarse por diversas razones: 1. Debido a la introducción de nucleótidos a través de eventos de inserción. 2. Por la imprecisión asociada al cálculo de la región de origen ancestral, al tomar como referencia para dicho cálculo la región ortóloga funcional de una cepa de B. aphidicola actual. 3. En base a la posible existencia de restos de genes ancestrales perdidos en las tres cepas de B. aphidicola estudiadas en las regiones analizadas. 4. Debido a una anotación incorrecta del extremo 5’ final de algunos genes. El análisis de las pérdidas en los tres linajes: BAp, BSg y BBp durante los últimos aproximadamente 150 m.a. ha permitido calcular la tasa de pérdida y la vida media de un pseudogen de B. aphidicola durante este periodo, mostrando que el ritmo de pérdida es superior a la tasa de erosión de 1nt cada 10.000 años estimada previamente (Mira et al. 2002). Esta estima estaba basada únicamente en la comparación del tamaño genómico de los genomas de B. aphidicola secuenciados hasta el momento (BAp, BSg y BBp). Sin embargo, nuestro resultado se basa en la comparación de cada una de estas cepas con el genoma ancestral reconstruido y en los tiempos de divergencia asociados a estas especies. 104 ………………………………........................................…………………...Resultados y discusión La vida media de un pseudogen es un parámetro que se ha calculado sobre especies de diversos géneros tanto eucariotas como procariotas: Drosophila, Laupala, Podisma, Ricketttsia, etc (Petrov et al. 1996; Petrov y Hartl, 1998; Bensasson et al. 2001; Andersson y Andersson, 2001). Debido a la ausencia en estos estudios de una estima temporal del momento de la inactivación de los pseudogenes analizados se ha realizado el cálculo de la tasa de deleción en estos organismos respecto al número de sustituciones, de modo que la vida media se obtiene en nucleótidos/ sustituciones y no en unidades de tiempo. Dado que el ritmo de acumulación de sustituciones puede variar entre organismos y regiones analizadas, estos resultados no son comparables. Así en Rickettsia, la vida media de un pseudogen está en torno a 0,06 nucleótidos/sustituciones, pero este valor no puede ser analizado comparativamente con los resultados obtenidos en B. aphidicola. No obstante, en el caso de eucariotas, el valor de la vida media de un pseudogen ha podido obtenerse en unidades de tiempo. En estos trabajos, la existencia de alguna datación que ha permitido calcular la tasa de sustitución nucleotídica respecto al tiempo, junto con el cálculo de la tasa de deleciones respecto al número de sustituciones nucleotídicas, han permitido calcular la vida media de un pseudogen en una escala temporal. Así sabemos, que el valor obtenido de 23,9 m.a. en nuestro estudio está en el rango de los 14,3 m.a. estimados en Drosophila (Petrov y Hartl, 1998), pero es muy inferior al valor de 615 m.a. obtenido para Laupala (Petrov et al. 2000b) o de los 884 m.a. estimados para mamíferos (Petrov y Hartl, 1998). Las tasas obtenidas en mamíferos o Laupala son extremadamente bajas y no explicarían diferencias en el tamaño genómico (Gregory, 2003) entre estos phyla. Sólo en Drosophila se puede decir que son relevantes y permiten explicar diferencias de tamaño genómico entre Drosophila y otras especies. En base a nuestros resultados en B. aphidicola, también en esta especie la tasa de pérdida es lo suficientemente elevada para explicar diferencias de tamaños entre especies, especialmente teniendo en cuenta el tamaño genómico de bacterias respecto a eucariotas. 105 …………………………………...............................................…………………………Capítulo 4 Nuestra estima más precisa se ha llevado a cabo a partir de 8 genes inactivados durante los estadios tempranos de evolución de los linajes de BAp y BSg, dado que éstos son los únicos genes cuyo periodo de inactivación podemos acotar dentro de un intervalo conocido. Pero cuando llevamos a cabo la misma estima, utilizando aquellos genes cuya inactivación sabemos que se ha producido tras la divergencia de BAp y BSg, el valor obtenido es del mismo orden (16,2-48,7 m.a.). Finalmente, el mismo análisis pero llevado a cabo sobre genes que abarcan un amplio periodo, durante el cual se ha podido producir la inactivación de los mismos, da lugar a un rango que oscila entre 13,5 y 81,1 m.a. en el linaje de BBp. En conjunto, estos resultados demuestran que la pérdida de DNA en B. aphidicola, en los últimos periodos de la evolución de estos linajes, está teniendo lugar a una tasa relevante. Es obvio que la tasa de desintegración probablemente sería más elevada en los estadios iniciales de la reducción, dada la presencia de mecanismos que pueden provocar pérdidas más drásticas de nucleótidos (más de 100-200 nucleótidos por evento) y que posteriormente se perdieron en B. aphidicola. De hecho, la estabilidad en el orden génico de estos genomas es probablemente resultado de la pérdida de elementos que permiten reordenaciones, tales como elementos transponibles, fagos, largas repeticiones y un sistema de recombinación (Rocha, 2003). Además, para que dichas deleciones se produzcan es necesaria la presencia contigua de genes cuya pérdida no va a tener efectos significativos en la eficacia y a medida que el proceso de reducción avanza, la presencia de éstos es menor. Igualmente, tal y como ocurre con las deleciones, el impacto de las inserciones de gran tamaño se ha reducido enormemente, debido a la pérdida de la capacidad de adquirir material genético a través de los mecanismos de transferencia horizontal en esta bacteria. Por tanto, en los estadios recientes de la evolución de B. aphidicola, esperamos que los principales eventos que dirigen la evolución del genoma sean de reducido tamaño. Sin embargo, esto no implica necesariamente que el ritmo de pérdida en estas etapas sea insignificante, dado que sólo pueden darse indels pequeños. En primer lugar, 106 ………………………………........................................…………………...Resultados y discusión aunque sólo se dieran deleciones muy pequeñas (1-2 nucleótidos), éstas podrían ser muy frecuentes a lo largo del genoma, teniendo un efecto global considerable, especialmente teniendo en cuenta el reducido tamaño genómico de B. aphidicola. En segundo lugar, no podemos descartar que se produzcan indels de mayor tamaño. Aunque en estas etapas podemos descartar indels que abarquen cientos de loci, como las invocadas para explicar los primeros estadios de la reducción en diversos estudios, por los argumentos previamente citados, no podemos descartar indels de un tamaño menor pero todavía significativo (~ 50-100 nucleótidos). De hecho, los mecanismos que permiten este tipo de eventos aún pueden actuar en el genoma de B. aphidicola. Por ejemplo, la presencia de cortas repeticiones (8-10 nucleótidos) separadas por un espaciador de varios nucleótidos puede dar lugar a indels de más de 100 nucleótidos a través de un mecanismo de recombinación independiente de recA, que puede actuar en esta bacteria (ver capítulo 5). Además, estos eventos tendrían un impacto mucho mayor en el genoma que los indels de 1-2 nucleótidos, aún cuando el ritmo de aparición de los mismos fuera muy inferior. La tasa de pérdida obtenida en este estudio demuestra que la pérdida de DNA en las ultimas etapas de la evolución de B. aphidicola aún es considerable, pero esta tasa puede ser resultado de un gran número de eventos de muy reducido tamaño (1-2 nucleótidos) que se producen a un ritmo elevado, o de la combinación de éstos a un ritmo inferior con eventos de mayor tamaño (más de 100 nucleótidos). Para caracterizar el tamaño de los eventos que explican el ritmo de pérdida obtenido, será necesaria la caracterización de las inserciones y deleciones en las secuencias donde éstas se han producido (ver capítulo 5). Estos indels que se producen son la materia prima sobre la que las fuerzas evolutivas actúan para dirigir la evolución del tamaño genómico. Así, varios autores han propuesto que en los genomas bacterianos existe un sesgo hacia las deleciones versus inserciones, debido a un mayor número de eventos y/o un mayor tamaño de los mismos (Andersson y Andersson, 2001; Lawrence et al. 2001; Mira et al. 2001; Gregory, 2004). Si este sesgo existe 107 …………………………………...............................................…………………………Capítulo 4 realmente, la deriva genética podría contribuir a la fijación de las deleciones frente a las inserciones. Este efecto de deriva sería además muy importante en B. aphidicola, dado el pequeño tamaño poblacional efectivo asociado a este organismo y su transmisión vertical a través de drásticos cuellos de botella en cada generación (Mira y Moran, 2002). Alternativa o simultáneamente, la selección natural puede ser responsable parcial o totalmente de la reducción. La ventaja selectiva de un genoma de menor tamaño puede ser no gastar energía en replicar y transcribir DNA no codificante, un control de la expresión génica más eficaz y una replicación más rápida. Así por ejemplo, se ha observado una correlación negativa entre el contenido de DNA y la tasa de división de algunos ciliados (Wickham y Lynn, 1990). Sin embargo, aunque esta hipótesis ha sido propuesta diversas veces para explicar la redución del tamaño genómico de bacterias endosimbiontes obligadas y genomas mitocondriales, (Selosse et al. 2001; Silva et al. 2001) hay pocos ejemplos que la apoyen. De hecho, no existe una correlación entre los tiempos de replicación bacteriana y el tamaño de los genomas en condiciones de laboratorio para diversas especies (Mira et al. 2001), ni tampoco entre diversas cepas de E. coli con tamaños genómicos cuya variación era de hasta un 25% (Bergthorsson y Ochman 1998). Si el tamaño más frecuente de indels es de 1-2 nucleótidos, dado el reducido impacto de éstos en el tamaño genómico global, es razonable aceptar que la selección no actuará sobre la fijación o no de dichos eventos. Sin embargo, estudios llevados a cabo en Drosophila han mostrado que deleciones mayores de 400 pb pueden ser ventajosas (Blumenstiel et al. 2002). En el caso de B. aphidicola, el reducido tamaño genómico y la naturaleza poliploide de su genoma incrementarán el impacto de eventos de centenas de nucleótidos. De modo que para conocer la eficacia selectiva asociada a los eventos de indels, es necesario determinar el tamaño y la frecuencia de éstos. 108 ………………………………........................................…………………...Resultados y discusión 4.3.5 Análisis de los espaciadores ancestrales Con el objetivo de conocer si el proceso de reducción afecta no sólo a los genes, sino también a las regiones intergénicas, analizamos la pérdida de longitud de las mismas en comparación con los espaciadores de E. coli. Tal y como se estableció previamente (ver material y métodos, apartado 3.8), en este análisis únicamente se incluyeron los espaciadores ancestrales, dado que el resto pueden haber surgido posteriormente, tras procesos de reordenación, lo que no permitiría considerarlos ortólogos. El Tamaño regiones intergénicas en Buchnera (pb) resultado de la comparación se muestra en la figura 4.14 (anexo 6). 700 600 500 BSg BAp BBp 400 300 200 100 0 0 100 200 300 400 500 600 700 Tamaño regiones intergénicas en E. coli (pb) Figura 4.14. Espaciadores ancestrales ortólogos entre E. coli y B. aphidicola. Relación entre el tamaño de las regiones intergénicas de E. coli y el tamaño de las regiones intergénicas de BAp, BSg y BBp. Los espaciadores ancestrales se definen como aquellos flanqueados por los mismos genes en E. coli y en B. aphidicola (Mira, Ochman y Moran 2001). Sólo se compararon los espaciadores presentes en las tres especies analizadas de B. aphidicola (n = 195). La línea discontinua representa la pendiente 1:1. El tamaño promedio (pb ± desviación estándar) de los espaciadores en cada uno de los linajes de B. aphidicola analizados fue 51,1 ± 70 en el caso de BAp, 47,7 ± 63,6 para BSg y 55,3 ± 76,1 en el caso de BBp. Estos valores son ligeramente inferiores al valor promedio obtenido para E. coli: 67,5 ± 98,2. En primer lugar llevamos a cabo un test de Friedman, para saber si el tamaño de los espaciadores de los linajes de B. aphidicola empleados eran 109 …………………………………...............................................…………………………Capítulo 4 significativamente diferentes entre sí. Tras aplicar dicho test no podemos considerar significativas las diferencias entre las medias de los rangos de tamaños para estos genomas (p = 0,103). El mismo test aplicado para los cuatro genomas mostró que en este caso las diferencias sí que eran significativas (p = 0,017). Por tanto, la distribución del tamaño de los espaciadores intergénicos entre E. coli y B. aphidicola es diferente, de modo que en B. aphidicola éstos han sufrido una reducción ligera pero significativa. Esta reducción de los espaciadores ancestrales indica que existe una compactación general del genoma y que la pérdida no afecta por tanto sólo a los genes. Estudios previos afirman que si existe esta compactación genómica global, puede ser un indicio de que existe selección a favor de un reducido tamaño genómico (Mira et al. 2001), lo que daría lugar a una correlación entre tamaño genómico y tamaño de los espaciadores ancestrales. De hecho, la comparación de los espaciadores ortólogos del genoma de B. aphidicola más pequeño conocido hasta el momento, B. aphidicola de C. cedri, con los espaciadores de BAp, BSg y BBp, ha mostrado también que éstos se han acortado significativamente (Pérez- Brocal et al. 2006). No obstante, estos resultados han de ser tomados con precaución dado que esta diferencia significativa que nosotros detectamos entre los espaciadores de E. coli y B. aphidicola desaparece en BAp, si los espaciadores con regiones reguladoras anotadas en el genoma de E. coli son excluidos (Mira et al. 2001). Además, la interpretación de los resultados ha de ser cuidadosa, dado que este acortamiento de las regiones intergénicas, no tiene que ser necesariamente una prueba sobre fuerzas selectivas a favor de un reducido tamaño genómico. Un elevado sesgo delecional podría conllevar al mismo resultado (Lawrence et al. 2001) y aún en el caso de que la selección favoreciera la reducción genómica, los espaciadores podrían estar próximos a un tamaño límite o la enorme deriva asociada a las poblaciones de B. aphidicola podría reducir la eficacia de la selección, disminuyendo su efecto sobre las regiones intergénicas. 110 ………………………………........................................…………………...Resultados y discusión En cualquier caso, esta contribución de los espaciadores a la reducción cromosómica total es muy inferior a la resultante de la pérdida y desintegración de genes. 4.3.6 Análisis funcional de los genes perdidos El rol funcional de los genes perdidos analizados se determinó en base a la clasificación establecida en los COGs (Clusters of Orthologous Groups of proteins) (Tatusov et al. 1997), en los que los genes se agrupan en categorías que vienen designadas mediante letras. El resultado se muestra en la tabla 4.4. Tabla 4.4. Clasificación de los genes perdidos en base al COG y análisis de las pérdidas convergentes. Nº de Nº total pérdidas de pérdidas convergentes 2 0 1 0 12 3 7 1 4 0 21 6 7 0 6 1 4 2 11 0 18 2 7 0 5 3 6 3 1 0 10 4 b Función Producción y conversión de energía Control del ciclo celular, mitosis y meiosis Transporte y metabolismo de aminoácidos Transporte y metabolismo de nucleótidos Transporte y metabolismo de carbohidratos Transporte y metabolismo de coenzimas Transporte y metabolismo de lípidos Traducción, estructura ribosomal y biogénesis Transcripción Replicación, recombinación y reparación Pared celular/Biogénesis de la membrana Movilidad celular Modificación postranscripcional, rotación de proteínas, chaperonas Transporte y metabolismo de iones Biosíntesis, transporte y catabolismo de metabolitos secundarios Únicamente predicción de la función general (proteína hipotética) Función desconocida Mecanismos de transdución de la señal Tráfico intracelular y secrección a COG C D E F G H I J K L M N O P Q R S T U TOTAL a Clusters of Orthologous Groups. b Excluídos dos genes perdidos localizados en plásmidos. 9 1 1 133 2 0 0 27 En base a los resultados, podemos afirmar que los genes perdidos se distribuyen entre todas las posibles categorías funcionales, aunque la contribución a cada una de ellas es diferente. La mayoría de las pérdidas se han producido en genes implicados en el transporte de coenzimas y en el 111 …………………………………...............................................…………………………Capítulo 4 metabolismo (21 genes perdidos) y en la biogénesis de la membrana y la pared celular (18 genes perdidos). La pérdida de genes relacionados con la síntesis de metabolitos posiblemente es resultado de la habilidad de la bacteria para adquirir éstos desde el citoplasma del hospedador, o consecuencia de cambios en las necesidades metabólicas del mismo. Del mismo modo, la reducida biosíntesis de la envoltura celular ha sido previamente descrita en B. aphidicola (Tamas et al. 2001) y es probablemente el resultado derivado de la protección de dicha bacteria en el interior de vesículas del hospedador, que anulan la necesidad de generar polimorfismo molecular en la envoltura para no ser reconocidas por el sistema de defensa del mismo. Por el contrario, la categoría funcional menos afectada por la pérdida de genes es la relacionada con procesos informativos, tal y como esperamos dado que éstos no son específicos de linaje, sino que se relacionan con procesos universales y presentan por lo general un alto grado de conservación. Este resultado es congruente también con el obtenido para el caso más extremo de reducción, B. aphidicola de C. cedri (Pérez-Brocal et al. 2006). Una observación destacable es el escaso número de pérdidas convergentes en relación con la categoría funcional (27 de 133 genes implican convergencia). Este reducido número de pérdidas convergentes está indicando que las pérdidas, probablemente son específicas de cada hospedador y están relacionadas con su particular dieta o ciclo de vida. En base a este argumento, un ejemplo claro de conservación es el de los genes implicados en las rutas de biosíntesis de aminoácidos, que están conservados en los tres genomas analizados dado el rol nutricional de la simbiosis, en el que la bacteria proporciona aminoácidos esenciales al hospedador que son deficitarios en su dieta (van Ham et al. 2003). Por el contrario, los genes implicados en la ruta de la ornitina se han perdido independientemente en el linaje de BBp y BSg (van Ham et al. 2003). Esta pérdida afecta a genes como argA, B, C, D, E y a otros relacionados con esta ruta, como los genes pyr y 112 ………………………………........................................…………………...Resultados y discusión spe, lo que indica que una vez se inactiva un gen que participa junto con otros en alguna ruta metabólica o proceso en el que éste es necesario, este hecho probablemente desencadenará la inactivación del resto de genes implicados en dicha ruta o proceso. De hecho, el factor principal que determina el tamaño del genoma de B. aphidicola es la importancia, o esencialidad de la función de las diferentes secuencias de DNA que lo conforman, bien sean genes o regiones intergénicas con alguna clase de función. Una vez que dichos segmentos pierden su función, el proceso de pérdida gradual conlleva a una pérdida de longitud de los mismos. Cambios en el estilo de vida del hospedador o en la relación hospedador-simbionte debida a la interacción con otras bacterias, inducirán cambios del repertorio génico esencial que darán lugar a la nueva materia prima sobre la que actuará la evolución reductiva que sufren estos genomas. Por esta razón, el tamaño de B. aphidicola puede continuar reduciéndose y el límite a esta reducción estará asociado al mínimo número de genes requeridos para la vida de la bacteria y por la contribución simbiótica al hospedador. De hecho, se ha demostrado como los genomas completamente secuenciados de cinco bacterias endosimbiontes de insectos sólo comparten 313 genes, 277 de los cuales codifican para proteínas (Gil et al. 2003). En base a estos datos, el genoma mínimo de estas bacterias estaría formado por aproximadamente 300 Kb y una tercera parte de sus genes no serían esenciales para la bacteria pero sí necesarios para la supervivencia del hospedador. Estos datos no incluyen el genoma de BCc recientemente secuenciado (Pérez- Brocal et al. 2006). 113 114 5. Las últimas etapas de la reducción genómica en B. aphidicola y en B. floridanus 115 116 ..........................................................................................Introducción 5. 1 INTRODUCCIÓN 5.1.1 Las últimas etapas de la evolución reductiva Las bacterias que mantienen una relación íntima y obligada con un hospedador poseen genomas de tamaño reducido como consecuencia de la adaptación a un estilo de vida intracelular. Los patógenos de géneros como Rickettsia (Andersson et al. 1998; Ogata et al. 2001) y Mycoplasma (Fraser et al. 1995; Himmelreich et al. 1996; Chambaud et al. 2001) y las bacterias endosimbiontes de géneros como Buchnera (Shigenobu et al. 2000; Tamas et al. 2002; van Ham et al. 2003), Blochmannia (Gil et al. 2003) o Wigglesworthia (Akman et al. 2003) son sólo algunos ejemplos. En los estados más avanzados del proceso de reducción, la progresiva pérdida de la mayor parte de información innecesaria o redundante con el hospedador da lugar a genomas altamente reducidos, más estables y con escasos pseudogenes. Además, esta pérdida acaba afectando a elementos repetidos y genes implicados en recombinación y reparación (Frank et al. 2002), lo que ha llevado a postular que la velocidad del proceso es reducida en las últimas etapas y queda relegada a eventos de muy pequeño tamaño (Tamas et al. 2002). Además, se piensa que en los últimos estadios de la reducción el proceso tiene lugar muy lentamente, a través de indels de tan pequeño tamaño que la influencia de los mismos sobre la eficacia no se considera significativa (Petrov y Hartl, 2000), de modo que las fuerzas selectivas jugarían un papel escaso o nulo en estadios finales. La comparación de las tasas y modelos de degradación génica en bacterias intracelulares de diferentes grupos filogenéticos es necesaria para entender los factores evolutivos responsables de la transformación de los genomas de gran tamaño de bacterias de vida libre en genomas reducidos. Para ello, las tasas y modelos de mutaciones puntuales, deleciones, así como otros mecanismos que conducen a la degradación del genoma tienen que ser cuantificados. La cuantificación de los mismos en genomas altamente 117 ...........................................................................................................................................Capítulo 5 reducidos y estrechamente emparentados es lo que nos permitirá caracterizar el proceso de pérdida en sus últimas etapas. 5.1.2 Tasas de inserción/deleción La cuantificación de la pérdida de DNA se puede llevar a cabo a través del cálculo de las tasas de inserción y deleción, que nos permiten conocer el balance final entre la entrada y salida de material genético. Dado que la mayoría de cambios en regiones no codificantes del DNA se suponen neutros (Kimura, 1983), las estimas evolutivas en estas regiones se pueden considerar equivalentes a las tasas de mutación espontánea de inserción y deleción. De este modo, salvo en el caso de que exista una presión selectiva sobre el tamaño genómico, las regiones carentes de restricciones funcionales son una representación fiel del proceso mutacional de inserciones/deleciones (indels). En base a esto se han llevado a cabo estudios de las tasas de inserción/deleción mediante dos aproximaciones principales (Comeron, 2001): a) Estudio de indels en secuencias con equivalentes funcionales: Generalmente se trata de estudios llevados a cabo sobre pseudogenes, lo que permite la comparación con el homólogo funcional. La ventaja de esta comparación es que el gen proporciona una guía para el alineamiento, a menudo difícil en el caso de regiones neutras, así como un criterio para la polarización de indels y su diferenciación por tanto en inserciones/deleciones. Así se ha caracterizado el sesgo hacia la pérdida en mamíferos, homínidos o bacterias como Rickettsia (Graur et al. 1989; Ophir y Graur, 1997; Andersson et al. 1998). El problema es que los pseudogenes no siempre son abundantes en todas las especies. Es por ello que en ausencia de los mismos, se han empleado secuencias que equivalen a éstos, como por ejemplo los elementos DOA, secuencias resultantes de una transposición truncada de elementos transponibles 118 no-LTR, que dan lugar a ..............……………………………………………………………………………….Introducción elementos no funcionales como los pseudogenes, y que han permitido determinar las tasas de pérdida en el caso de Drosophila (Petrov, 1996). Otro ejemplo son las secuencias “Numts”, pseudogenes nucleares de origen mitocondrial, empleados para estudiar tasas de indels en Podisma (Bensasson et al. 2001). b) Estudio de indels polimórficos en regiones no codificantes: Se basan en regiones no codificantes entre taxones muy próximos, lo que permite dar un modelo muy cercano a las tendencias mutacionales. De este modo se sabe por ejemplo, que en Drosophila las deleciones superan a las inserciones en regiones no codificantes (Comeron y Kreitman, 2000). Esta aproximación es especialmente adecuada en organismos como las bacterias, donde los pseudogenes son en general escasos, especialmente en aquéllas en avanzado estado de desintegración, donde éstos prácticamente han desaparecido. En general, todos estos trabajos que calculan tasas de indels, han puesto de manifiesto la existencia de un sesgo a favor de las deleciones tanto en organismos eucariotas -Drosophila, Laupala (Petrov y Hartl, 1998; Bensasson et al. 2001), etc- como en procariotas -Rickettsia, Buchnera y otras- (Andersson y Andersson, 1999; Mira et al. 2001; Wernegreen, 2002). Estos resultados han de ser no obstante tomados con precaución, dado que el tamaño muestral sobre el que se basan no es significativo. Además, las tasas de ganancia y pérdida de DNA pueden variar en diferentes microorganismos, lo cual proporcionaría una explicación a la variación de tamaños genómicos. La respuesta a esta cuestión sólo puede obtenerse a través de la comparación de secuencias de cepas y especies muy relacionadas. Las tasas de indels nos permitirán, por tanto, conocer si existe un sesgo mutacional que sólo por deriva ya conllevaría a la pérdida y si este sesgo es igual o diferente al de bacterias de vida libre. El análisis adicional de las regiones flanqueantes a los sucesos de indels puede dar pistas acerca del mecanismo molecular subyacente a dichos eventos. 119 ………………………………………………………………………………………….Capítulo 5 5.1.3 Mecanismos implicados en la generación de indels El tamaño de los genomas bacterianos es el resultado del balance entre la entrada y la salida de DNA de los mismos. La principal vía de entrada de DNA en los genomas procariotas es la transferencia horizontal (Ochman et al. 2000). Dentro de las bacterias intracelulares obligadas existe evidencia de transferencia horizontal entre patógenos intracelulares incluso muy alejados (Wolf et al. 1999). Sin embargo, en endosimbiontes la ausencia de dicho proceso es al parecer total, a excepción de un único caso descrito para un gen plasmídico de B. aphidicola (van Ham et al. 2000). El principal mecanismo molecular que permite la aparición de indels es la recombinación entre repeticiones del genoma (Krawiec y Riley, 1990). Dentro de ésta, diferenciamos dos tipos principales de recombinación intracromosómica (Bzymek y Lovett, 2001). a) Recombinación homóloga (dependiente de RecA) La principal característica de este tipo de recombinación es que no puede producirse en ausencia de RecA. La proteína RecA es la que durante el proceso de recombinación recubre la zona de cadena sencilla desplazada del DNA dador, de modo que esta cadena adopta una configuración helicoidal extendida. De este modo, RecA facilita así el encuentro de ésta con la parte de doble hélice complementaria del receptor, dando lugar a la formación de una triple hélice. La recombinación homóloga requiere repeticiones largas (de más de 200 pb), con una elevada homología entre las mismas (entre 95 y 100%) y que pueden estar muy alejadas. b) Recombinación no homóloga (independiente de RecA) Se caracteriza principalmente porque no depende de RecA ni tampoco de otras proteínas o sistemas como RecBCD, RuvAV, RuvC, etc. A diferencia de la recombinación homóloga, se da normalmente entre repeticiones cortas (menos de 200 pb) y sobretodo bastante cercanas (no más alejadas de unas cuantas kilobases). De hecho, se ha observado un 120 ..............……………………………………………………………………………….Introducción decrecimiento exponencial de la tasa de deleción a medida que la distancia entre las homologías se incrementa (Lovett et al. 1994; Bi y Liu, 1994). Esta dependencia de la distancia y el hecho de que no sea necesaria la intervención de RecA son indicios acerca de que la recombinación ilegítima se da en el contexto de la horquilla de replicación. De hecho, la naturaleza de cadena simple del DNA y el hecho de que las secuencias estén muy próximas, explicarían que RecA no fuera necesaria, y puesto que en E. coli la media de un fragmento de Okazaki es de 1-2 kb, varias kb sería pues el límite máximo de distancia para la recombinación independiente de RecA. La recombinación no homóloga puede darse a través de diversos mecanismos. Los principales, descritos hasta ahora son: 1. Slippage o deslizamiento de la polimerasa: es el mecanismo más conocido y consiste en la desnaturalización local y desplazamiento de las hebras de un DNA dúplex, seguido por un mal alineamiento de las bases complementarias en el lugar de una corta repetición en tándem (Levinson y Gutman, 1987). Cuando este apareamiento incorrecto no es reparado es cuando puede dar lugar tanto a inserciones como a deleciones (Strand et al. 1993; Modrich y Lahue, 1996). Si el apareamiento incorrecto se ha dado a partir de un bucle en la hebra naciente el resultado será la inserción de la secuencia repetida mientras que si el bucle se forma en la hebra molde, el resultado es la deleción del motivo repetido (ver figura 5.1). 121 ………………………………………………………………………………………….Capítulo 5 Figura 5.1. Modelo para el deslizamiento de la polimerasa. Un deslizamiento de la hebra naciente respecto a la hebra parental puede generar deleción o expansión de una repetición directa y de cualquier segmento implicado (Figura tomada de Bzymek y Lovett 2001). 2. Sister chromosome exchange-associated slippage: está asociado con la dimerización del replicón. Implica el alineamiento incorrecto de las dos hebras nacientes, en la horquilla de replicación, en segmentos con repeticiones, o también puede darse por entrecruzamiento desigual entre repeticiones directas de moléculas circulares. 3. Single-strand annealing: se da a partir de una rotura de la doble hélice, que desencadena una degradación exonucleolítica de las regiones terminales de las dos hebras. Esto permite la unión de las dos hebras complementarias expuestas y la ligación que conducirá a la deleción de la secuencia (Michel, 1999). Contribuye principalmente a deleciones asociadas con secuencias palíndromes. 5.1.4 Secuencias que permiten actuar a los mecanismos de pérdida Los mecanismos de pérdida pueden actuar gracias a la presencia de repeticiones en el genoma. Dentro de éstas se han definido diversos tipos en relación con la recombinación no homóloga (Rocha, 2003): a) CRs (close repeats): repeticiones cortas (>8-10nt) separadas por varios nucleótidos. 122 ..............……………………………………………………………………………….Introducción b) SPIDRS (spaced interspersed direct repeats): se trata de CRs en multicopia. c) SSRs (simple sequence repeats) o microsatélites: son repeticiones en tándem de 1 a 5 nucleótidos. d) VNTRs (variable number of tandem repeats): repeticiones en tándem de más de 5 nucleótidos. SSRs, VNTRs y especialmente SPIDRS son las que tienen un mayor potencial de recombinación, mientras que CRs son las de un menor potencial de recombinación pero destacan por ser las más abundantes en los genomas. Las repeticiones en tándem están formadas por la repetición sucesiva de unidades que van desde un simple par de bases hasta 200 pares de bases (Ellegren, 2004). Cuando las repeticiones están formadas por mono, di y tetranucleótidos, incluso por 5 nucleótidos, se habla de microsatélites o SSRs. Las repeticiones formadas por un mayor número de unidades, constituyen los minisatélites o VNTRs y en el caso extremo, el DNA satélite. Pese a estas definiciones frecuentemente empleadas, el número mínimo de pares de bases y de repeticiones que permite designar a un microsatélite como tal no está determinado. Tampoco el grado de imperfección que puede darse en las repeticiones. De modo que en la práctica, los umbrales que definen a un microsatélite son definidos por el autor en cada nueva descripción de un grupo de datos genómicos (Ellegren, 2004). En nuestro caso, hablamos de microsatélites en el caso de secuencias repetidas que se ajusten al patron (X)n, siendo 1≤ X ≥ 5 y n ≥ 2. En el caso de que X sea superior a 5 entonces hablamos de minisatélites. En los procariotas los microsatélites son muy poco abundantes (Ellegren, 2004), especialmente los formados por largas repeticiones. La única excepción son los loci de contingencia, repeticiones funcionales localizadas dentro o cerca de genes relacionados con la patogenicidad, cuyas mutaciones dan lugar a cambios en regiones reguladoras que conducen a variaciones en los patrones de expresión de estos genes (Moxon et al. 1994). 123 ………………………………………………………………………………………….Capítulo 5 No obstante, pese a su escasa frecuencia en comparación con su presencia en genomas eucariotas, el hallazgo de microsatélites en genomas procariotas ha aumentado a medida que se ha obtenido la secuencia completa de diversos genomas (Field y Wills, 1998). Además, incluso los cortos microsatélites de procariotas están sometidos a variaciones de su longitud (Metzgar et al. 2001). El deslizamiento de la polimerasa se postula como el principal mecanismo que genera esta variación en el número de copias de un microsatélite (Ellegren, 2004). 5.1.5 Genomas en estadios finales del proceso de reducción Aunque tanto patógenos intracelulares como endosimbiontes sufren reducción genómica, los patógenos a menudo invaden a nuevos hospedadores o adquieren nuevas maneras de explotar a su hospedador, proporcionando un contexto selectivo para la incorporación de nuevos genes (Moran, 2003). Igualmente, tanto patógenos como mutualistas facultativos se mueven horizontalmente entre hospedadores, por lo que a menudo retienen un largo número de transportadores y rutas de invasión, incluso aún cuando su genoma haya sufrido una importante reducción (Wernegreen, 2002). A diferencia de estos patógenos y mutalistas facultativos, los endosimbiontes primarios de insectos no se mueven horizontalmente entre hospedadores y han coevolucionado con éstos durante millones de años. Dentro de los endosimbiontes destaca el grupo de las gamma proteobacterias, que contienen genomas de menos de 1 Mb así como especies de vida libre de entre 4 y 8 Mb. Este grupo proporciona la mejor oportunidad para estudiar el proceso de reducción genómica (Moran, 2003). En primer lugar, están filogenéticamente próximos a organismos con genomas de mayor tamaño, de modo que la homología aún puede detectarse en muchos casos y por tanto, pueden localizarse eventos de pérdida específicos. Además, este grupo incluye enterobacterias bien caracterizadas como S. enterica o E. coli, por lo que permiten comparar la evolución genómica intracelular versus la de bacterias de vida libre. Por otro lado, como ya indicamos en anteriores 124 ..............……………………………………………………………………………….Introducción apartados, existen ya genomas completamente secuenciados de diferentes cepas o especies muy próximas, como los 4 genomas del endosimbionte de pulgones B. aphidicola que oscilan entre 0,42-0,64 Mb (Shigenobu et al. 2000; Tamas et al. 2002, van Ham et al. 2003; Pérez-Brocal et al. 2006) o los 2 de la bacteria endosimbionte de hormigas Blochmannia (Gil et al. 2003; Degnan et al. 2005) que abarcan un rango de entre 0,71-0,79 Mb. Concretamente, los genomas de estas dos especies bacterianas están altamente reducidos, poseen una elevada estabilidad del orden génico, como ha puesto de manifiesto la comparación de los genomas ya secuenciados dentro de cada grupo y tienen un escaso número de pseudogenes, rasgos que se asocian con los estados más avanzados de la reducción. Por otro lado tienen la ventaja ya argumentada previamente de ser endosimbiontes del grupo de las gamma proteobacterias, y además pertenecen a hospedadores para los cuales existen datos de algunos registros fósiles asociados. Este último hecho es importante porque puede permitirnos datar eventos de divergencia y a partir de éstos, inferir nuevos datos bajo la hipótesis de un reloj molecular. En este caso, podríamos en última instancia calcular tasas respecto al tiempo transcurrido y conocer de este modo el ritmo de los eventos de indels. Si queremos estudiar las últimas etapas de la reducción, los genomas de Buchnera y Blochmannia son por lo tanto modelos adecuados. 5.1.6 El género de pulgones Rhopalosiphum y R. padi Tal y como hemos argumentado previamente, B. aphidicola es un organismo adecuado para el estudio de la degradación en estadios finales. Cómo ya vimos en el capítulo previo, esta bacteria es el endosimbionte primario de los pulgones. Los pulgones constituyen un grupo de amplia distribución mundial (Blackman y Eastop, 1994). Aunque no muy numerosos, algunos fósiles de pulgones han sido hallados en ámbar canadiense (aprox. 75-80 m.a.), ámbar báltico del Eoceno (35-45 m.a.) y en arcilla y otros sedimentos que abarcan 125 ………………………………………………………………………………………….Capítulo 5 del Triásico al Pleistoceno (von Doblen, 2000). Gracias a éstos se ha podido establecer el tiempo de divergencia entre diferentes grupos de pulgones y así sabemos por ejemplo, que A. pisum y S. graminum han divergido hace unos 50-70 m.a. en base al registro fósil. Dada la coevolución de B. aphidicola con su hospedador, estos tiempos pueden aplicarse a la bacteria para calcular en este microorganismo tasas respecto al tiempo transcurrido. Rhopalosiphum es un género de pulgones que incluye aproximadamente 13 especies ampliamente distribuidas a nivel mundial y con un origen presumiblemente americano (Halbert y Voegtlin 1998). Algunas de éstas se muestran la figura 5.2 y forman parte de nuestro estudio. R. padi R. maidis R. nymphaeae R. insertum Figura 5.2. Morfología de diversas especies de pulgones del género Rhopalosiphum empleadas en nuestro estudio. R. padi es una especie de pulgón perteneciente a la subfamilia Aphidinae, tribu Aphidini, que ha sido objeto de numerosos estudios ecológicos y genéticos (Simon et al. 1991; Martínez et al. 1992; Simon et al. 1995; Simon et al. 1996) y que constituye una importante plaga de cereales. Se trata de una especie que en base a su ciclo biológico, presenta linajes tanto holocíclicos como anholocíclicos, los cuales en algunos casos se ha demostrado que pueden coexistir en una misma zona geográfica al mismo tiempo (Simon et al. 1991). Los linajes holocíclicos son aquellos que se reproducen por partenogénesis cíclica, mientras que los anholocíclicos son 126 ..............……………………………………………………………………………….Introducción partenogenéticos obligados. En el caso de los linajes holocíclicos, el ciclo se inicia con el huevo de invierno, depositado sobre hospedadores primarios del género Prunus, que da lugar a una línea partenogenética. A partir de esta línea partenogenética, tras una o varias generaciones sobre el huésped primario, surgen formas emigrantes (aladas) que colonizan al huésped secundario, que comprende un gran número de especies de gramíneas. En éste se dan una serie de generaciones partenogenéticas hasta que al final del verano nacen las ginóparas, formas aladas que retornan al huésped primario, donde dan lugar a hembras sexuadas (ovíparas). Éstas últimas se aparean con machos alados que provienen de las mismas hembras que dieron lugar a las ginóparas, dando de nuevo lugar al huevo de invierno. Mientras sólo los linajes holocíclicos pueden dar lugar a hembras sexuadas, tanto holo como anholocíclicos pueden generar machos sexuados (Blackman, 1971; Simon et al. 1991). En el laboratorio se puede inducir de forma experimental, mediante la simulación de condiciones de invierno, la aparición de formas sexuales y determinar por tanto el tipo de ciclo vital que presenta un determinado clon (Simon et al. 1991). Los estudios con secuencias de DNA mitocondrial (mtDNA) sobre esta especie han revelado una escasa variabilidad, con sólo tres haplotipos mitocondriales (Martinez-Torres et al. 1996, 1997; Simon et al. 1996). La ventaja es que estos haplotipos detectados han podido relacionarse con los ciclos de vida (Simon et al. 1996), dado que todos los holocíclicos son de haplotipo II o III, mientras que el 94% de los anholocíclicos son de haplotipo I (el 6% son de haplotipo II o III). Así mismo, se han desarrollado marcadores nucleares, SCAR (Sequence-Characterized Amplified Region) que muestran una mayor cosegregación con partenogenéticos cíclicos y obligados (Simon et al. 1999), aunque tampoco en este caso es completa. Adicionalmente, se ha demostrado una covariación entre la diversidad a nivel del mtDNA y el plásmido leucina de B. aphidicola (Simon et al. 1996). Igualmente, mediante el uso de marcadores nucleares y el mtDNA, se ha demostrado el origen polifilético del linaje asexual, con al menos tres 127 ………………………………………………………………………………………….Capítulo 5 orígenes independientes para la asexualidad en R. padi (Simon et al. 1999; Delmotte et al. 2001). Estos datos demuestran que existe diferenciación genética entre poblaciones holocíclicas y anholocíclicas y sugieren un largo tiempo de divergencia entre ambos linajes y un origen antiguo de los linajes asexuales (Martinez-Torres et al. 1996; Simon et al. 1996). De hecho, estimas iniciales llevadas a cabo mediante el análisis de los sitios de restricción del mtDNA indican que estos dos linajes mitocondriales han podido divergir separadamente desde hace 0,4-1,4 m.a. (Martinez-Torres et al. 1996). Posteriormente mediante un estudio con marcadores moleculares, tanto mitocondriales como nucleares, se ha demostrado como la divergencia entre linajes sexuales y asexuales es debida a repetidos y recientes eventos de hibridación entre R. padi y especies relacionadas desconocidas (Delmotte et al. 2003). Al estudiar regiones intergénicas es conveniente trabajar en un nivel intraespecífico, dada la dificultad posterior de los alineamientos si la divergencia es muy elevada. Pero por otro lado es necesario que entre los clones empleados haya transcurrido un tiempo suficiente para generar variabilidad y poder detectar polimorfismos. Los clones de B. aphidicola de R. padi con diferentes ciclos de vida cumplen este requisito, de modo que son un modelo adecuado para este estudio. Así mismo, cepas de B. aphidicola de especies próximas de Rhopalosiphum, pueden ser útiles para extender el estudio a una escala interespecífica. 5.1.7 “Candidatus Blochmannia” Otra de las especies adecuadas para la caracterización del proceso de reducción genómica en sus últimas etapas, por las razones previamente argumentadas, es el endosimbionte de hormigas Blochmannia. Cuando una especie es descrita de acuerdo al Bacteriological Code, además de la información genómica como son las secuencias que permitirán determinar su posición filogenética, toda la información (incluyendo hechos estructurales, metabólicos y reproductivos) ha de incluirse en la descripción, 128 ..............……………………………………………………………………………….Introducción junto con el ambiente natural en el cual el organismo puede ser identificado mediante hibridación in situ u otras técnicas de identificación celular. Según el ICSP (International Committee on Systematics of Prokaryotes), el término Candidatus ha de ser empleado para describir entidades procariotas, para las que existe más de una secuencia disponible pero para las cuales todas las características requeridas para la descripción en el Bacteriological Code todavía no están disponibles. De modo que los microbiólogos a menudo emplean este término para aquellas especies bien caracterizadas, pero que todavía no han podido ser cultivadas. En base a estos argumentos, el modo correcto para hacer referencia al endosimbionte primario de hormigas es “Candidatus Blochmannia”, pero con el fin de simplificar la nomenclatura empleada en nuestro estudio designamos el género como Blochmannia y a continuación el término específico de la especie a la que hacemos referencia. En 1887, Blochmann describió la asociación entre una bacteria, Blochmannia, y los tejidos del intestino medio y los ovarios en las especies de hormiga Camponotus ligniperdus y Formica fusca, ambas pertenecientes a la subfamilia Formicinae (Blochmann, 1887). Se trata de una bacteria gram negativa, de forma bacilar, perteneciente a la subclase gamma de las proteobacterias, que se halla en el citoplasma de células especializadas denominadas bacteriocitos, intercaladas entre las células epiteliales del intestino medio en hormigas de la familia Formicinae (Dasch et al. 1984; Schröder et al. 1996; Sauer et al. 2000, 2002). Al contrario de lo que ocurre en B. aphidicola, se encuentra libre en el citoplasma de los bacteriocitos y no en el interior de vacuolas especializadas. También se ha encontrado en el citoplasma de oocitos de reinas y obreras, lo que sugiere una transmisión transovarial (Schröder et al. 1996). La bacteria se ha detectado sólo dentro de la subfamilia Formicinae, pero no en especies de las subfamilias ancestrales Nothomyrmeciinae, Myrmeciinae y Ponerinae. Hasta ahora los genomas secuenciados de Blochmannia son B. floridanus (Gil et al. 2003) y B. pennsylvanicus (Degnan et al. 2005). Las principales características de ambos genomas se resumen en la tabla 5.1. 129 ………………………………………………………………………………………….Capítulo 5 Tabla 5.1. Comparación de los hechos generales del genoma de B. pennsylvanicus y B. floridanus. Cromosoma, pb %GC Nº genes CDS rRNAs tRNAs RNAs Pseudogenes % Regiones codificantes Longitud promedio CDS, pb B. pennsylvanicus 791.654 29,6 658 610 3 39 2 4 76,7 995 B. floridanus 705.557 27,4 636 590 3 37 2 4 83,8 1.002 Ambas especies muestran una completa conservación del orden y de la orientación de los genes compartidos. Las 86 Kb de diferencia entre ambas, refleja la perdida diferencial de genes en ambos linajes, siendo B. floridanus la que ha sufrido una mayor pérdida génica (Degnan et al. 2005). En cualquier caso, ambas han sufrido una importante reducción genómica, poseen un bajo contenido en GC y no poseen el mecanismo de inicio de la replicación dependiente de la proteína codificada por el gen dnaA. Al igual que otros endosimbiontes, Blochmannia presenta tasas de evolución aceleradas en comparación con E. coli y S. typhimurium. Mientras que esta aceleración es 10 veces superior en Buchnera que en las bacterias entéricas, en Blochamnnia las tasas son hasta 50 veces mayores para los cambios aminoacídicos. En concreto, B. floridanus posee una tasa superior a B. pennsylvanicus, lo que puede reflejar elevadas tasas de mutación, coeficientes de selección reducidos o un menor tamaño poblacional efectivo del hospedador o del simbionte, lo que conllevaría a un incremento de la deriva genética. 5.1.8 Las hormigas del género Camponotus Las hormigas carpinteras constituyen el género de hormigas Camponotus, perteneciente a la familia Formicinae (Sauer et al. 2002) (figura 5.3). Formicinae es una de las 16 subfamilias de la familia Formicidae, formada por unas 3.000 especies descritas hasta el momento (Grimaldi y Agosti, 130 ..............……………………………………………………………………………….Introducción 2000). Se trata del mayor y más ampliamente distribuido género de hormigas, formado aproximadamente por 1.000 especies, distribuidas por todo el mundo (Bolton, 1995). La aparente monofilia del grupo en base a diversos estudios (Astruc et al. 2004) no está clara, dado que se ha demostrado que ciertos subgéneros no son monofiléticos de Camponotus (Brady et al. 2002; Degnan et al. 2004), sino que se agrupan junto con especies de otros géneros relacionados. C. floridanus C. rufipeps C. pennsylvanicus Figuras 5.3. Morfología de diversas especies de hormigas del género Camponotus. C. floridanus es una especie que habita en la mayor parte de la península de Florida, así como en la mayoría de las islas de la parte sur de esta región (Deyrup y Tragger, 1986; Deyrup et al. 1988). Diversos estudios filogenéticos ponen de manifiesto como esta especie y la especie Camponotus rufipes forman parte de un mismo grupo filogenético separado de Camponotus pennsilvanicus (Sauer et al. 2000; Degnan et al. 2004). Esta distribución filogenética se haya apoyada tanto por secuencias procedentes de Blochmannia, como por secuencias procedentes de Camponotus. Sin 131 ………………………………………………………………………………………….Capítulo 5 embargo, la distribución geográfica no está completamente reflejada en estas filogenias. Así por ejemplo, C. floridanus que habita en Florida, está más estrechamente emparentada con C. rufipes, aislada de América del Sur, que de otras especies residentes en Florida como C. castaneus, o C. pennsilvanicus. Esto indica que las grandes migraciones de hormigas han tenido lugar en el pasado y desde entonces no ha habido transmisión horizontal de simbiontes, a pesar del solapamiento geográfico o la estrecha vecindad de diferentes especies (Sauer et al. 2002). Un estudio sobre la estructura poblacional de C. floridanus de la península y las poblaciones de las islas (Gadau et al. 1996) muestra que ambas están genéticamente aisladas. Además de esta subestructuración, este estudio revela una mayor distancia genética entre poblaciones de islas y continente, que entre poblaciones de islas, pese a que la distancia en Km que separa a ambas poblaciones en ambos grupos es similar. Esto indica, que las diferencias genéticas entre las poblaciones de C. floridanus no se deben sólo a la distancia geográfica. De hecho, la subestructuración hallada en esta especie es esperable por diversas razones tales como el aislamiento geográfico, el pequeño tamaño poblacional y la endogamia en las poblaciones de las islas. Esta diferenciación genética entre poblaciones de C. floridanus las convierte en sujetos apropiados para el estudio de la variación intrapoblacional de los sucesos de indels en la bacteria asociada, B. floridanus y para el cálculo de tasas a nivel intraespecífico. Además, las hormigas poseen un extenso registro fósil, con más de 60 especies aún existentes y 100 géneros extintos. En base a evidencias fósiles tales como el hallazgo de hormigas en fragmentos de ámbar que datan del Cretácico y el Terciario, se ha podido establecer la edad de diferentes grupos (Grimaldi y Agosti, 2000). Así, la edad del clado Formicinae se ha establecido en torno a 91-101,4 m.a. (Moreau et al. 2006). En el caso concreto de Camponotus, no existe un registro fósil detallado. Sin embargo, a partir de la divergencia entre las subfamilias Formicinae y Myrmicinae estimada en 90-110 m.a. en base a la evidencia fósil (Grimaldi y Agosti, 132 ..............……………………………………………………………………………….Introducción 2000), se ha inferido la edad del nodo basal de todas las especies de hormigas asociadas con Blochmannia (29,3-35,9 m.a.) y del ancestro de numerosas especies del género Camponotus (16,2-19,9 m.a.) (Degnan et al. 2004). La estabilidad de la relación de simbiosis entre Blochmannia y el género de hormigas Camponotus está apoyada por la congruencia de filogenias de ambas especies en numerosos estudios filogenéticos (Schröder et al. 1996; Sameshima et al. 1999; Sauer et al. 2000 y Degnan et al. 2004). Además, el hecho de que los géneros de hormigas Camponotus, Polyrhachis y Colobopsis formen un grupo monofilético y que la bacteria esté presente en todos ellos, también es un apoyo a la coevolución de ambas especies. Aunque el rol de la simbiosis no está claro, debido a la compleja dieta del hospedador, la secuenciación del genoma parece mostrar una base nutricional (Gil et al. 2003), dado que la bacteria contiene genes para la biosíntesis de varios aminoácidos esenciales para el hospedador y también genes para el reciclado del nitrógeno. Además, Blochmannia depende del hospedador para la obtención de la mayoría de aminoácidos no esenciales, vitaminas y cofactores. No obstante, se han sugeridos otros posibles roles del endosimbionte, como la producción de feromonas empleadas para el reclutamiento de alimento (Sauer et al. 2000). Otra cuestión sin resolver es si Blochmannia es esencial para el hospedador, ya que ha sido eliminada de hormigas de laboratorio sin aparente detrimento (Sauer et al. 2002). Además, los bacteriocitos del intestino de hormigas reinas se van degenerando con el tiempo, mientras que aquellos situados en los ovarios no sufren este deterioro (Sauer et al. 2002). Es posible por tanto, que el supuesto rol nutricional sea importante durante las fases de metamorfosis y fundación de la colonia del hospedador, cuando las demandas metabólicas exceden al alimento disponible (Wheeler y Martinez, 1995; Wernegreen et al. 2003). De hecho, un estudio posterior (Wolschin et al. 2004) ha mostrado que Blochmannia prolifera durante la pupación, estado de la metamorfosis en el que el hospedador tiene que construir todos los componentes del mapa corporal sin entrada de alimento (Wheeler y Martinez, 133 ………………………………………………………………………………………….Capítulo 5 1995). De modo que, aunque no está claro si la bacteria es indispensable para el hospedador durante todo su ciclo vital, la presencia en todas las especies de los géneros Camponotus, Polyrhachis y Colobopsis (Dasch et al. 1984, Sameshima et al. 1999), la coevolución por transmisión vertical, el aparente rol nutricional, su localización en bacteriocitos, su bajo contenido en GC (Dasch, 1975; Gil et al. 2003) y su genoma altamente reducido, permiten considerarla un endosimbionte primario del género Camponotus. De hecho, la congruencia filogenética entre las filogenias de hospedador y simbionte, sugiere que la asociación es evolutivamente estable y tan antigua como el género hospedador, 20 m.a. (Wilson, 1985) o incluso más. 5.1.9 El reloj molecular Para entender el proceso evolutivo que dirige la reducción del genoma es necesario conocer no sólo el tamaño y el contenido génico de las deleciones, sino también el momento en el que se producen estos eventos en la historia evolutiva de los endosimbiontes (Wernegreen, 2002). La datación de los mismos permite calcular tasas respecto al tiempo, revelando el ritmo de los sucesos. Esta datación es posible a partir de estimas de divergencia y bajo la hipótesis del reloj molecular. La hipótesis de reloj molecular afirma que la tasa de sustitución aminoacídica o nucleotídica es aproximadamente constante a lo largo del tiempo. Bajo esta hipótesis, es por tanto posible predecir el tiempo de divergencia entre especies a partir de las diferencias nucleotídicas o aminoacídicas, siempre y cuando tengamos un punto de calibración que normalmente es provisto por el registro fósil. El reloj molecular fue empleado por primera vez en 1962 por Zuckerkandl y Pauling, quienes a partir del tiempo de divergencia entre humano y caballo, basado en el registro fósil y de las diferencias observadas para las respectivas secuencias de la α-hemoglobina, calibraron un reloj molecular que permitió establecer el tiempo de divergencia entre otras especies. 134 ..............……………………………………………………………………………….Introducción La idea del reloj molecular, ha estado sujeta a numerosas controversias a lo largo del tiempo. Hoy en día está claro que la idea de un reloj molecular universal no es posible, dado que numerosos factores como las diferencias en el tiempo de generación, en el tamaño poblacional efectivo, la selección natural, las diferencias específicas de especie en las polimerasas, los cambios en la función de una proteína a lo largo de tiempo, etc. impiden que la tasa de cambio sea proporcional al tiempo (Ayala, 1999). Sin embargo, el reloj molecular no necesita ser universal, ya que aún cuando sólo funcione para un grupo limitado de organismos, sigue siendo muy útil para estudiar las relaciones evolutivas o los tiempos de divergencia entre dichos organismos. De hecho, el creciente impacto del reloj molecular se refleja en el incremento exponencial del número de publicaciones que han empleado este método entre 1980 y el presente a medida que se ha incrementado el número de secuencias disponibles (Kumar, 2005). El test del reloj molecular El primer test de reloj molecular, fue el test de tasas relativas propuesto por Fitch (1976), que permite examinar la hipótesis nula según la cual la cantidad de cambio evolutivo acumulado en dos linajes es igual. Para poder llevarlo a cabo necesitamos una tercera especie que pueda ser empleada como grupo externo del par de especies inicial (figura 5.4). a O A b B c C Figura 5.4. Diagrama que representa la evolución de dos especies “A” y “B” desde un ancestro común “O” y su relación con un grupo externo designado como “C”. 135 ………………………………………………………………………………………….Capítulo 5 Atendiendo a la figura 5.4, si la hipótesis del reloj es correcta, dAO (número de sustituciones entre el taxón A y el ancestro común a A y B) y dBO (número de sustituciones entre el taxón B y el ancestro O) serán iguales y por tanto dAO – dBO será igual a 0. Puesto que dAO y dBO no se conocen, se estiman a partir de dAC y dBC. No obstante, dAC y dBC están sujetos a errores estadísticos, por ello el test de tasas relativas lo que hace es evaluar si dAC-dBC es significativamente diferente de 0. Este método asume que la filogenia es conocida y el grupo externo se emplea en sustitución del ancestro “O”. Por ello, el grupo externo escogido no ha de estar muy alejado del par de especies estudiado, dado que a medida que éste sea más distante tendrá muy poco impacto en el cálculo de dAC-dBC y además la estima de las distancias será muy imprecisa. Se ha llevado a cabo el desarrollo de diversos test de tasas relativas, uno de ellos es el test de Tajima (Tajima, 1993), un test no paramétrico, válido tanto para secuencias de aminoácidos como de nucleótidos. Sin embargo, posteriormente se han desarrollado test más poderosos, como el LRT (Likelihood Ratio Test), que puede emplearse para más de dos especies y evalúa si éstas evolucionan o no a una misma tasa. Este test parte de una filogenia, sobre la que se estima la longitud de las ramas por máxima verosimilitud con el modelo escogido, bajo dos escenarios: sin forzar reloj y forzándolo. Cuando el árbol no está forzado a cumplir reloj, carece de raíz, a menos que se introduzca un grupo externo para enraizarlo, de modo que todas las longitudes de rama (2n-3 para n taxones) han de ser inferidas. Mientras que cuando el árbol ha de ajustarse al reloj, es enraizado en la rama más larga, que representa el linaje más antiguo y sólo necesitan estimarse n-1 longitudes de rama, dado que cada vez que dos taxones compartan un ancestro común, sólo la longitud de uno de ellos al ancestro ha de calcularse, puesto que la otra es equivalente. De modo que el test LTR puede compararse a una distribución chi-cuadrado con (2n-3)-(n-1) = n-2 grados de libertad, puesto que la única diferencia en el cálculo de los parámetros es el número de ramas que necesita ser estimado. 136 ..............……………………………………………………………………………….Introducción Por último, se han desarrollado test más sofisticados que permiten relajar la hipótesis del reloj, como son los “relojes locales”, que asumen una tasa constante dentro de un clado particular, pero que puede ser diferente entre distintos clados (Yoder y Yang, 2000), o “relojes relajados” que permiten que las tasas varíen de un linaje a otro dentro de una filogenia (Sanderson, 1997). 137 ………………………………………………………………………………………….Capítulo 5 5.2 OBJETIVOS El principal objetivo del presente capítulo es la cuantificación empírica del proceso de degradación génica en las últimas etapas de la reducción genómica, mediante el análisis de indels en regiones neutras de cepas filogenéticamente muy próximas. Los genomas empleados para llevar a cabo este estudio son: B. aphidicola, de diferentes linajes del pulgón R. padi y de diferente especies del género Rhopalosiphum y B. floridanus de diferentes colonias de la hormiga C. floridanus. A través de este análisis pretendemos responder a las siguientes cuestiones: - ¿Se dan inserciones y deleciones con la misma frecuencia? - ¿La cantidad de nucleótidos implicados en eventos de inserción y deleción es la misma? - ¿Cuál es el tamaño más frecuente de inserciones y deleciones? - ¿A qué ritmo se suceden los eventos de ganancia y pérdida de DNA? - ¿Existe un sesgo hacia la pérdida de DNA? - ¿Qué mecanismos pueden estar implicados en la generación de indels en estos genomas? - ¿Cómo varía la composición nucleotídica de regiones que sufren degradación génica? - ¿Cuál es la tasa neutra de sustitución? - ¿Puede haber fuerzas selectivas actuando en la reducción en etapas finales del proceso? 138 ……………………………………………………………………………...Resultados y discusión 5.3 RESULTADOS Y DISCUSIÓN B. aphidicola 5.3.1 Reconstrucción filogenética A partir de las regiones neutras escogidas para el estudio de la degradación génica en B. aphidicola, una región intergénica y un pseudogen, se llevó a cabo la reconstrucción filogenética de las especies empleadas. La neutralidad de las regiones intergénicas únicamente puede verse afectada por la posible existencia de elementos reguladores, pero dado que la mayor parte de éstos se han perdido en el genoma actual de B. aphidicola (Shigenobu et al. 2000; Tamas et al. 2002; van Ham et al. 2003), asumimos el carácter neutral de dichas regiones. Sin embargo, en el caso del pseudogen cmk, partimos de información previa para poder asumir el carácter neutral del mismo en las especies empleadas. En primer lugar, en base a un trabajo anterior sabemos que cmk es un gen no esencial en E. coli, cuya eliminación produce una disminución de la tasa de replicación (Fricke et al. 1995). Además, nosotros sabíamos previamente que cmk es un gen en BBp y un pseudogen en BAp, BSg y BRp (datos no mostrados sobre el tamaño de este gen en BRp fueron obtenidos previamente). Los pulgones de R. padi, S. graminum y A. pisum pertenecen a la subfamilia Aphidinae, pero a diferentes tribus (figura 5.5). R. padi y S. graminum son miembros de la tribu Aphidini y A. pisum pertenece a la tribu Macrosiphini. Dado que el pseudogen cmk en BAp posee un tamaño y un contenido en GC similar al gen activo, postulamos que la pseudogenización en esta especie es reciente. Por otro lado, el bajo contenido en GC y el pequeño tamaño del pseudogen cmk en BSg y BRp indicarían que la pseudogenización comenzó tempranamente en el linaje Aphidini. 139 ………………………………………………………………………………………….Capítulo 5 Subfamilia Pemphiginae Tribu Especie Fordini BBp Macrosiphini Aphidinae Gen activo 840 (24,9%) BAp BSg Aphidini 929 (24,7%) 823 (16,7%) BRp 524 BRm Ps reciente Ps antiguo Figura 5.5. Clasificación y relación filogenética de BBp, BAp, BSg, BRp y BRm. Los valores que aparecen sobre cada una de las ramas muestran la longitud y el contenido en GC del gen/pseudogen cmk, para cada una de estas especies. En base a estos valores podemos inferir el momento de la pseudogenización en cada linaje. El pseudogen cmk fue la primera región escogida con el fin de poder utilizar la secuencia del gen activo, como referencia para facilitar el alineamiento posterior de las secuencias. Además, era necesario escoger un pseudogen que llevara inactivo el tiempo suficiente como para poder estar seguros de que era una región realmente neutra y no un gen fragmentado, que todavía puede dar lugar a pequeñas cantidades de producto funcional (Gurvich et al. 2003). La segunda región escogida fue un espaciador intergénico (IGR), el único criterio tomado a la hora de seleccionarla fue escoger una región neutra con un tamaño tal que pudiera ser secuenciada directamente. En primer lugar obtuvimos la secuencia de cmk para los diferentes clones de BRp. El resultado fueron 36 secuencias de una misma longitud: 597 pares de bases, con total ausencia de indels. Los únicos polimorfismos entre las secuencias son debidos a 6 sustituciones. La reconstrucción agrupaba a las secuencias en dos grandes grupos, correspondientes a los dos haplotipos mitocondriales empleados (figura 5.6). 140 ......................................................................................................................Resultados y discusión 62 BRp27 BRp22 BRp33 BRp20 BRp21 BRp17 BRp36 BRp24 BRp23 BRp30 BRp31 BRp35 BRp25 BRp32 BRp26 BRp18 BRp28 BRp19 BRp37 Haplotipo mt II BRp29 BRp34 98 BRp5 BRp8 BRp10 BRp7 BRp16 BRp4 BRp12 BRp11 BRp14 BRp6 BRp3 BRp13 BRp15 BRp2 BRp1 Haplotipo mt I 0.001 Figura 5.6. Reconstrucción filogenética de los diferentes genotipos de BRp, a partir de la secuencia del pseudogen cmk. Junto a cada nodo se indican los valores de bootstrap obtenidos. Todos los genotipos con mtDNA de haplotipo I mostraron exactamente la misma secuencia, mientras que los genotipos de haplotipo II formaron tres grupos: BRp37, una muestra de las remotas islas de Kerguelen, BRp29 y BRp34 de la misma región francesa (Rennes), y el resto de genotipos. La región intergénica IGR fue amplificada en un número más restringido de genotipos de BRp que cmk, dada la escasa variabilidad obtenida en el caso del pseudogen para los genotipos con un mismo haplotipo 141 ………………………………………………………………………………………….Capítulo 5 mitocondrial. En el caso de la región intergénica IGR se obtuvo igualmente una secuencia de longitud única, 477pb, para todas las secuencias amplificadas de las diferentes muestras de BRp y tres sustituciones como únicos polimorfismos. La reconstrucción filogenética mostró la misma separación entre los dos haplotipos mitocondriales que habíamos obtenido a partir de las secuencias del pseudogen cmk y alguna variación dentro del grupo con haplotipo mtII, que separaba BRp37 y BRp29 del resto de las muestras (figura 5.7). BRp23 BRp25 65 BRp26 BRp20 31 Haplotipo mt II BRp27 BRp28 BRp37 BRp29 BRp10 BRp14 BRp7 BRp8 86 BRp9 BRp1 Haplotipo mt I BRp6 BRp11 0.0005 Figura 5.7. Reconstrucción filogenética de los diferentes genotipos de BRp, en base a la secuencia IGR. Los valores que aparecen junto a cada nodo son los valores de bootstrap obtenidos. Dada la diferenciación genética descrita para ambos haplotipos mitocondriales en diversos estudios mediante el uso de marcadores moleculares (Simon et al. 1996; 1999), a priori esperamos encontrar, aunque moderadamente, divergencia en regiones neutras entre ambos linajes, pese a tratarse de individuos pertenecientes a una misma especie. Sin embargo, la variabilidad obtenida fue muy escasa y con total ausencia de indels. Esta reducida divergencia detectada a nivel intraespecífico entre los diferentes linajes de BRp es congruente con la escasa y/o nula variabilidad detectada a nivel intraespecífico en estudios previos llevados a cabo sobre secuencias de mtDNA en diversas especies de pulgones (Powers et al. 1989; Simon et al. 142 ......................................................................................................................Resultados y discusión 1995; Barrette et al. 1994; Bulman et al. 2005). Además, nuestros resultados confirman, tal y como se demostró recientemente, que la divergencia entre linajes sexuales y asexuales no es debida a un origen antiguo como inicialmente se sugirió, sino a repetidos y recientes eventos de hibridación entre R. padi y especies relacionadas desconocidas (Delmotte et al. 2003). La escasa variabilidad obtenida a nivel intraespecífico, incluso para genotipos geográficamente muy alejados y la ausencia de indels, nos obligó a alejarnos más en la escala temporal y a estudiar la variabilidad a nivel interespecífico entre B. aphidicola de diferentes especies del género Rhopalosiphum. En este caso, sólo trabajamos con las cuatro secuencias de BRp que habían mostrado algún polimorfismo en los análisis previos (por ejemplo BRp 11, 26, 29 y 37). El rango de tamaños de las secuencias obtenidas oscilaba entre 597-841 pb para cmk y entre 463-499 pb para la región IGR. En el caso de cmk, los alineamientos revelaron un gran indel hacia el final de esta región. Esta zona fue eliminada del alineamiento, para su análisis posterior, con el objetivo de estudiar independientemente el efecto de indels de pequeño tamaño (<100 pb). De modo que continuamos el análisis con la primera región de cmk, de forma que el rango de tamaños de las secuencias modificadas oscilaba entre 548-552 pb. El elevado nivel de polimorfismo entre las secuencias nos obligó a un estudio de los parámetros del alineamiento (ver material y métodos, apartado 3.3.1), especialmente en relación con los valores de penalización por abrir un hueco en el alineamiento (GOP) y por extenderlo (GEP). En base a este estudio, finalmente se llevaron a cabo cuatro alineamientos para cada región, cada uno de ellos con una combinación diferente de valores de GOP y GEP (anexos 7 y 8). A la hora de llevar a cabo las reconstrucciones filogenéticas de estos cuatro alineamientos, se escogieron dos, el más y el menos restrictivo respecto a la penalización asociada a la apertura de un hueco en el alineamiento, con un GEP de 6 y 12 respectivamente. En el caso de cmk, el modelo evolutivo que mejor se ajustaba a los datos de acuerdo con el programa MODELTEST v.3.7 (Posada y Crandall, 1998), era el mismo 143 ………………………………………………………………………………………….Capítulo 5 para ambos alineamientos: K81+uf (frecuencias desiguales). La reconstrucción filogenética obtenida siempre fue la misma con ambos alineamientos, independientemente del método utilizado para la construcción del árbol: distancias, parsimonia o máxima verosimilitud (figura 5.8). La especie más próxima a BRp fue BRi, seguida de BRm y finalmente BRn como la especie más alejada. En el caso de IGR, el modelo evolutivo seleccionado para las secuencias varió en función del alineamiento, TVM+I para el alineamiento con un GEP de 6 y K81+uf para el alineamiento con un GEP de 12, pero la reconstrucción filogenética siempre fue la misma independientemente del método empleado y similar a la obtenida con cmk (figura 5.8). 70,0,0 a) cmk 59,73-75,69 100,100,100 100,100,100 BRp29 BRp37 mtDNA (II) BRp26 BRp11 BRp1 mtDNA (I) BRi BRm BRn b) IGR -84 88,63 -86,51-84 0.02 99,92 -97,10 -97,100 --100 100,100,100 BRp26 BRp29 BRp11 mt DNA (II) mt DNA (I) BRi BRm BRn 0.02 Figura 5.8. Árbol filogenético de las diferentes especies de B. aphidicola de pulgones del género Rhopalosiphum. Los valores que aparecen junto a cada nodo corresponden a los valores de bootstrap obtenidos a partir del árbol reconstruido por distancias, verosimilitud y parsimonia, en cada caso con los alineamientos menos y más restrictivos para los valores de GOP y GEP. a) Reconstrucción filogenética a partir de la secuencia del pseudogen cmk. b) Reconstrucción filogenética a partir de la secuencia de IGR. El problema de las regiones neutras es que al no estar sometidas a restricciones selectivas pueden acumular un elevado número de mutaciones 144 ......................................................................................................................Resultados y discusión rápidamente, lo que puede dar lugar a fenómenos de homoplasia que pueden destruir la señal filogenética. Sin embargo, la obtención de una misma topología única para ambas regiones con cualquiera de los alineamientos, indica que estas secuencias contienen todavía información filogenética válida, pese a la divergencia acumulada entre las mismas. La reconstrucción obtenida es además congruente con estudios filogenéticos previos (Bulman, 2005). 5.3.2 Análisis de las sustituciones nucleotídicas Una vez conocida la topología de las cepas y especies empleadas, así como los cambios nucleotídicos de las secuencias, es posible situar dichas mutaciones en la filogenia siguiendo un criterio de parsimonia. No obstante, dada la divergencia entre las especies, algunas sustituciones tenían más de una solución igualmente parsimónica, de modo que no pudieron ser localizadas en el árbol. Además, según el alineamiento analizado, el número y tipo de sustituciones nucleotídicas podían estar sujetos a variación. De este modo decidimos localizar en la filogenia todas aquellas sustituciones que eran compartidas por los cuatro alineamientos llevados a cabo para cada región y que tenían una única solución más parsimónica. En el caso de cmk, sólo 8 sustituciones no eran compartidas por los cuatro alineamientos y de las 89 posiciones variables compartidas, 86 tenían una única solución más parsimónica. Sin embargo, en el caso de IGR la ambigüedad fue mayor, 13 sustituciones no eran compartidas por los cuatro alineamientos y de las 50 comunes a éstos, 15 tenían más de una solución igualmente parsimónica, por lo que no pudieron resolverse (figura 5.9). 145 ………………………………………………………………………………………….Capítulo 5 BRp29 70 1v BRp37 v 1 1s 1v a) cmk 8s 4v 8 v 100 20s 4v 20 7s 4 4v 7 59 mt DNA (II) BRp26 100 2s BRp11 mt DNA (I) BRi 27s 6 6v BRm BRn 0.02 b) IGR v 6s 1v 10s 33v 11s BRp11 100 1s 1 1 1v BRp26 1s 1v 75 1 mt DNA (II) BRp29 100 mt DNA (I) BRi BRm BRn 0.02 Figura 5.9. Localización en el árbol de los sucesos de transición (s) y transversión (v), en cada una de las regiones analizadas en B. aphidicola de pulgones de diferentes especies del género Rhopalosiphum. Tal y como se espera al trabajar con una secuencia neutra, las ramas más largas del árbol son aquellas que acumulan un mayor número de cambios, debido a un tiempo más largo de evolución en todos los linajes empleados. Igualmente, el número total de transiciones fue superior al número de transversiones, tal y como se espera cuando se trabaja con secuencias relativamente cercanas, en nuestro caso con un tiempo de divergencia inferior a los 50 m.a. A continuación, estudiamos la posible existencia de algún sesgo en los cambios nucleotídicos. Para ello, es necesario corregir las sustituciones detectadas en base a la composición inicial de las secuencias. En primer lugar, estimamos el número de cambios nucleotídicos direccionales en cada región y dividimos cada valor por la frecuencia en la secuencia estudiada del nucleótido original de cada cambio. De este modo, obtenemos la frecuencia relativa de cada clase de sustitución nucleotídica (fij) (Tamura y Nei, 1993). A continuación, agrupamos los cambios que no podían ser distinguidos (fAG = 146 ......................................................................................................................Resultados y discusión fTC; fAT = fTA; fAC = fTG; fCA = fGT; fGC = fCG; fGA = fCT) dado que no podemos diferenciar la hebra mutante y la complementaria (ver tabla 5.2). Tabla 5.2. Porcentaje de cada tipo de sustitución nucleotídica en las dos regiones analizadas en B. aphidicola de diferentes especies de Rhopalosiphum. Cambio nucleotídico cmk IGR A→G = T→C 17,74 35,5 A→T = T→A 5,28 4,44 A→C = T→G 1,42 3,07 C→A = G→T 10,83 8,99 C→G = G→C 2,06 0 G→A = C→T 62,67 48 CG → AT 73,5 57 AT →GC 19,6 38,6 El número de cambios que incrementan el contenido en AT es mucho mayor al número de cambios que aumentan la proporción de GC en las secuencias, lo que es congruente con el bajo contenido en GC de los genomas de B. aphidicola (en torno al 28%) y el sesgo hacia AT, previamente descrito en esta especie, que es más fuerte en la tercera posición de los codones y en regiones neutras (Moran, 1996). La mayor frecuencia de transiciones frente a transversiones y el sesgo hacia AT, se ha descrito en diversos organismos tanto procariotas como eucariotas: Rickettsia, Drosophila, o mamíferos (Li et al. 1984; Petrov y Hartl, 1999; Andersson y Andersson, 1999). No obstante, el sesgo hacia AT es especialmente notable en bacterias obligadas intracelulares que se caracterizan casi siempre por un bajo contenido en GC (menos del 35% en la mayoría de los casos) (Wernegreen, 2002b; Rocha y Danchin, 2002). La hipótesis más aceptada para explicar este aumento de AT es el incremento del dominio del sesgo mutacional, frente a la selección a favor de una elevada eficacia durante la traducción y de la preservación de la función génica 147 ………………………………………………………………………………………….Capítulo 5 (Clark et al. 1999; Shigenobu et al. 2001; Palacios y Wernegreen, 2002). El dominio de este sesgo mutacional frente a la selección se explicaría por la deriva asociada a genomas de mutualistas y patógenos obligados, como consecuencia de su escaso tamaño poblacional. El efecto de este sesgo mutacional es el aumento del contenido en AT en estos organismos, debido a la pérdida de elementos implicados en reparación (Ochman y Moran, 2001). Así, la explicación más probable a este sesgo en B. aphidicola es la pérdida de los genes que codifican enzimas de reparación del DNA y/o la pérdida de eficacia de estos enzimas como previamente se ha mostrado en otros trabajos (Wernegreen, 2005). En particular, la incorporación de uracilo en el DNA, bien debido a un error durante la replicación o bien debido a desaminación de C a U, si no es impedida o corregida, da como resultado una presión mutacional hacia AT (Beletskii y Bhagwat, 1996; Glass et al. 2006). Sin embargo, ha sido propuesta una explicación alternativa (Rocha y Danchin, 2002) según la cual el sesgo hacia AT podría ser resultado de selección. Según esta segunda hipótesis, la mayor disponibilidad de AT y el mayor coste asociado al incremento en GC, explicarían que en un contexto de pocas fuentes y limitadas capacidades metabólicas, como es el caso de bacterias intracelulares, el sesgo hacia AT sería ventajoso dado que permitiría explotar mejor las fuentes disponibles. En nuestro caso, este sesgo hacia AT obtenido en las regiones de B. aphidicola analizadas es más elevado en cmk que en IGR (73,5% de los cambios de G o C a A o T en cmk versus 57% de los cambios en IGR). Una primera explicación es que el mayor número de sustituciones no resueltas en IGR puede introducir un sesgo en los resultados. Sin embargo, dado que la mayoría de los cambios se resuelven y los resultados, mayor número de transiciones frente a transversiones y sesgo hacia AT, son congruentes con lo esperado, suponemos que las sustituciones resueltas son suficientemente representativas de los cambios en esta región intergénica. Para encontrar una explicación a esta diferencia analizamos los sitios nucleotídicos que contenían guanina o citosina, con el fin de ver si alguno de ellos podía tener 148 ......................................................................................................................Resultados y discusión algún tipo de restricción funcional en IGR. De hecho, encontramos 3 citosinas, que podrían corresponder a la secuencia Shine-Dalgarno del gen hupA y 10 guaninas/citosinas, que podrían estar implicadas en la formación de una horquilla de terminación del gen rpoC (figura 5.10). SD a) BRp26 BRp29 BRp11 BRi BRm BRn 1 TATTTTCCCT TATTTTCCCT TATTTTCCCT TATTTTCCCT TATTTTCCCT TATTTTCCCT TTTT.ACTTA TTTT.ACTTA TTTT.ACTTA TTTTTACTTA TTTTTACTTA TTTTGACTTG T A A T T G T-A C-G b) BRp26 BRp29 BRp11 Bri BRm BRn T.TTG..GCT T.TTG..GCT T.TTG..GCT T.TTG..GCT C.TTG..GCT TATTACAGCT 510 GCTTTTAAGA GCAGCCATAG GCTTTTAAGA GCAGCCATAG GCTTTTAAGA GCAGCCATAG GCTTTTAAGA GCAGCCATAG GCTTTTAAGA GCAGCCATAA GCTTTGAAGA GCAGCCATAA G-C T-A C-G G-C G-C T-A Figura 5.10. Localización de secuencias reguladoras en la región IGR. a) Posiciones nucleotídicas implicadas en una secuencia Shine-Dalgarno b) Posiciones nucleotídicas implicadas en la formación de una horquilla de terminación. Estos nucleótidos invariantes representan el 20% del total de GC de esta región intergénica, de modo que el débil sesgo hacia AT en IGR podría ser explicado por la presencia de estos motivos ricos en GC. Estos resultados apoyan las conclusiones de Clark et al. (1999), en base a los cuales el contenido en AT no es sólo resultado de equilibrio mutacional, sino de un equilibrio entre mutación y restricciones selectivas. Por otro lado, también esperamos que el sesgo hacia AT sea inferior en la IGR respecto al pseudogen, dado que a medida que pasa el tiempo, la cantidad de GC que puede mutar en una región neutra se reduce y el pseudogen es una región neutra más reciente. Además, los valores hallados para cmk se hallan más próximos a los valores encontrados en pseudogenes de Rickettsia (70,4 versus 22,9) (Andersson y Andersson, 1999), por lo tanto consideramos que son más 149 ………………………………………………………………………………………….Capítulo 5 representativos de los cambios en regiones neutras. De hecho, aunque cmk sea un pseudogen reciente en las especies estudiadas, se ha demostrado que el sesgo hacia AT típico de regiones neutras de B. aphidicola se puede alcanzar rápidamente desde secuencias con una composición intermedia (Clark et al. 1999). 5.3.3 Análisis de los indels Una vez conocida la topología del árbol filogenético de las especies estudiadas, los indels pueden diferenciarse como sucesos de inserción o deleción, al posicionarlos sobre la misma siguiendo un criterio de máxima parsimonia, tal y como se describe en la tabla 5.3. Tabla 5.3. Escenarios posibles (desde la A a la N) para los eventos de indels detectados: “x” indica la presencia de nucleótido/s, y “.” la ausencia de nucleótido/s. Cada caso es resuelto siguiendo un criterio de máxima parsimonia (D, deleción; I, inserción; ?, caso no resuelto). BRp BRi BRm BRn A . x x x D B x . x x D C x x . x D D x x x . ? E . . x x D F . x . x ? G . x x . ? H x . . x ? I x . x . ? J x x . . I K . . . x ? L x . . . I M . x . . I N . . x . I Siguiendo este criterio, aunque la posición y el tamaño de algunos indels variaban ligeramente según los parámetros del alineamiento empleados, independientemente del alineamiento escogido, el número de deleciones detectado fue siempre superior al número de inserciones. De igual modo, el número total de nucleótidos perdidos fue siempre superior al número de nucleótidos incorporados por eventos de inserción. Dadas las ligeras variaciones de tamaño y posición de los indels según los parámetros de GOP y GEP escogidos, para los análisis posteriores decidimos trabajar únicamente con aquellos nucleótidos implicados en cada indel, que fueran compartidos por todos los alineamientos escogidos. La dificultad de alinear regiones no codificantes ha sido puesta de manifiesto en 150 ......................................................................................................................Resultados y discusión estudios previos (Morton, 1995; Lee, 2001). De hecho, las regiones más variables de un alineamiento suelen ser eliminadas debido a la dificultad a la hora de alinearlas. Sin embargo, estas regiones son normalmente las que más rápidamente evolucionan y por lo tanto, pueden ser las más efectivas para resolver la relación entre especies muy cercanas y contribuir a las estima de longitud de ramas, tasas evolutivas y tiempos de divergencia. Además, la eliminación de porciones del alineamiento puede sesgar los resultados. Debido a esto, se han desarrollado diversos métodos que intentan incorporar estas secuencias en los análisis evolutivos, en lugar de ignorarlas. Entre los más ampliamente empleados, aunque no han sido formalmente denominados, están los que se engloban bajo el nombre de “Métodos de análisis múltiple” (Lee, 2001). Estos métodos, lo que hacen es variar los parámetros del alineamiento para obtener todos los alineamientos posibles, tomando finalmente sólo los resultados comunes a todos ellos. Esta es la estrategia que nosotros hemos seguido, a la hora de alinear las secuencias de B. aphidicola de diferentes pulgones del género Rhopalosiphum (ver material y métodos, apartado 3.3.1), dado el elevado nivel de divergencia entre las secuencias y la consecuente dificultad de alinearlas. El problema de estos métodos es, que dado que los parámetros pueden combinarse de manera infinita, esto puede dar lugar a resultados interminables. Pero en primer lugar hay restricciones obvias, por ejemplo, a partir de un valor máximo para la penalización de un hueco que se determina empíricamente el alineamiento ya no varía (Gatesy et al. 1993) y existe un mínimo para el coste de un hueco, que es la mitad del coste de una sustitución (Wheeler, 1995). Aún así, es posible que la restante combinación de parámetros a explorar sea excesiva, pero el valor de los parámetros puede acotarse también en base a información previa, por ejemplo la razón de transiciones y transversiones pueden determinarse empíricamente, cómo ha sido nuestro caso. En cualquier caso, los parámetros más importantes de un alineamiento son el GOP y el GEP (Tyson, 1992), Vingron y Waterman, 151 ………………………………………………………………………………………….Capítulo 5 1994; Wheeler, 1995), que sólo pueden ser determinados empíricamente (Vingron y Waterman, 1994). De hecho, los valores por defecto de dichos parámetros que dan los programas únicamente se han elegido porque proporcionan resultados “biológicamente interesantes”. El valor de estos parámetros determinará el número de huecos en el alineamiento y el objetivo es que estos huecos representen indels, es decir eventos mutacionales (Olsen, 1988). Nosotros hemos acotado el espacio a explorar de combinaciones entre ambos parámetros en base a diversos criterios. Por un lado, con criterios de estrategia de búsqueda: en base a estudios previos se han determinado las combinaciones mínimas para encontrar todas las combinaciones ortogonales de ambos (Morrison y Ellis, 1997) y saber cuántas de éstas son suficientes para detectar la fuerza de la señal filogenética (Sanchis et al. 2001). Por otro lado, con criterios empíricos: dado que conocemos el valor del ratio transiciones/transversiones esperado y que los indels más frecuentes, en bacterias obligadas intracelulares, son de pequeño tamaño (Andersson y Andersson 1999; Tamas et al. 2002; van Ham et al. 2003). Con todos estos criterios hemos reducido las combinaciones de parámetros a explorar y finalmente, hemos tomado los resultados comunes de todas aquellas combinaciones no descartadas. La congruencia filogenética y el elevado número de eventos mutacionales comunes, desde las diferentes regiones resultantes de las distintas combinaciones de parámetros escogidas, son un apoyo favorable de la estrategia empleada. Además de tomar los eventos comunes, aquellos localizados en la rama de BRn no se tuvieron en cuenta, dado que esta especie se utiliza como grupo externo. De este modo, los indels fueron localizados sobre el árbol filogenético tal y como se muestra en la figura 5.11. 152 ......................................................................................................................Resultados y discusión BRp29 70 a) cmk 1D 2II 59 BRp37 mt DNA (II) BRp26 100 1I 6D BRp11 mt DNA (I) 100 2I 1 1D BRi 1 1I 2D BRm BRn b) IGR 0.02 1I 1D 22I 55D 100 75 BRp26 mt DNA (II) BRp29 100 BRp11 tmt DNA (I) BRi 33I 44D BRm BRn 0.02 Figura 5.11. Localización en el árbol de los diferentes eventos de inserción/deleción (I/D) detectados siguiendo un criterio de máxima parsimonia. En base a este criterio, al igual que ocurría para cada uno de los alineamientos para los indels comunes a ambas regiones, el número de deleciones fue mayor al número de inserciones, tanto en cuanto al número de eventos (20 y 12 respectivamente), como en cuanto al número de nucleótidos implicados (235 y 18, respectivamente) (figura 5.12). 250 cmk 200 30 25 Número de eventos Número de nucleótidos 150 IGR Número de eventos Número de nucleótidos 20 15 100 10 50 5 0 0 Deleciones Inserciones Deleciones Inserciones Figura 5.12. Número de eventos de inserción/deleción y número total de nucleótidos implicados en dichos eventos. 153 ………………………………………………………………………………………….Capítulo 5 Estos resultados confirman la predominancia de las deleciones sobre las inserciones y el sesgo hacia la pérdida de DNA, previamente descrito en otros organismos, tanto eucariotas como procariotas (Mira et al. 2001; Comeron, 2001). En el caso de bacterias obligadas intracelulares, sólo en el patógeno intracelular Rickettsia se ha llevado a cabo un análisis detallado de los eventos de indels entre diversas especies próximas de un mismo género (Andersson, 2000; Andersson y Andersson, 1999). Nuestro estudio en B. aphidicola a nivel intraespecífico, confirma los resultados obtenidos en Rickettsia, la existencia de un sesgo hacia la pérdida de DNA. El elevado número de nucleótidos implicados en las deleciones de cmk se debe principalmente a la gran deleción hallada de aproximadamente 200 nucleótidos. Sin embargo, aún sin tener en cuenta dicha deleción, el número de nucleótidos delecionados es superior al número de nucleótidos insertados, tanto en cmk como en IGR. La distribución de frecuencias del tamaño de los eventos de inserción/deleción se muestra en la figura 5.13. 154 ......................................................................................................................Resultados y discusión 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 Tamaño de deleciones 8 9 0 1 2 3 4 5 6 7 8 11 10 9 8 7 6 5 4 3 2 1 0 10 9 10 Tamaño de inserciones 0 1 2 3 4 5 6 7 8 9 10 200 Tamaño de deleciones Número de inserciones 0 Número de inserciones b) cmk Número de deleciones Número de deleciones a) IGR 11 10 9 8 7 6 5 4 3 2 1 0 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 Tamaño de inserciones Figura 5.13. Distribución del número de deleciones e inserciones en base al número de nucleótidos implicados en dichos eventos. En el caso de cmk, el tamaño de las deleciones e inserciones detectadas fue siempre de 1 nucleótido, excepto para la gran deleción hallada de aproximadamente 200 nucleótidos. Al igual que en el caso de Rickettsia, la mayor proporción de nucleótidos delecionados frente a los insertados, es debida a eventos escasos de mayor tamaño (Andersson y Andersson, 2001), en nuestro caso a esta gran deleción hallada en cmk. En el caso de IGR, hallamos eventos de un tamaño superior a 1 nucleótido, pero nunca mayor de 10 nucleótidos. Además, es importante destacar que los indels de un tamaño superior a 1 nucleótido, se detectaron siempre en ramas internas del árbol y pueden ser por tanto, el resultado de la confluencia con el tiempo de sucesos adyacentes que implicaban únicamente 1 nucleótido. Estos resultados son congruentes con la prevalencia mayoritaria de sucesos de inserción/deleción de pequeño tamaño (entre 1-5 nucleótidos) descrita tanto para procariotas como eucariotas (Saitou y Ueda, 1994; Petrov y Hartl, 1998; Bensasson et al. 2001; Andersson y Andersson, 2001). 155 ………………………………………………………………………………………….Capítulo 5 Aproximadamente una tercera parte de los eventos de 1nt (34%) de ambas regiones formaban parte de una cola de mononucleótidos. Respecto a la gran deleción hallada en cmk, el análisis de esta secuencia reveló tres repeticiones directas en torno a esta región (figura 5.14). BRp BRi BRm TTTTTAAAAA ATTTGT TTTT TTTGAA .... .......... .......... TTTTTAAAAA .....T TTTT TTTGAA .... .......... .......... TTTTTGAAGA .....T TTTT TTTAAA TTTA TTAACTCTT T TTTTTTGAA A BRp BRi BRm .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... AAAAATCTAA ATTTTTTAAA AAAGGAATGA TTTTTTCTTC TAAAATAGGA BRp BRi BRm .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ATATTTAATA TAAAAAATAC TATCAATCGA TATATTTTAC TAGATTCTAA BRp BRi BRm .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... AAGAGACCAA TTTAATTTTT GAGCTATGAT TTTAAATAAA GAACTTTTAC BRp BRi BRm .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... TTACACCACT GCGTCTATTA ATTACAAATA AGAGGAGTTT TATTTTTCAT BRp BRi BRm .......... .AGA....A. AAAAATTTAA ATTAAAATAG ATAACATCAT .......... .AGA....AG AAAAATTTAA ATTAAAATAG ATAAAATCAT ATTTTTTTCA AAAAATTAAA AAAAACTTCA ATTAAAATAC ATATAATTAT Figura 5.14. Repeticiones directas localizadas en las regiones flanqueantes e internas a la gran deleción localizada en BRp y BRi para la secuencia del gen cmk. Estas repeticiones eran imperfectas, debido probablemente a la acumulación de mutaciones por el tiempo transcurrido. Dos de ellas se hallan flanqueando la gran deleción detectada, estando una de las copias ausente en las especies que han sufrido la deleción, lo que sugiere que un mecanismo de recombinación ilegítima ha sido probablemente responsable de este evento mutacional, dada la ausencia de un gen, recA, en B. aphidicola. Puesto que el deslizamiento de la polimerasa generalmente no da lugar a eventos del orden de 100 nucleótidos o más (Gregory, 2003), otro mecanismo de recombinación independiente de recA, como el entrecruzamiento desigual, es probablemente el responsable de la aparición de esta deleción a partir de las repeticiones flanqueantes. 156 ......................................................................................................................Resultados y discusión 5.3.4 Calibrado del reloj molecular Para estimar tiempos de divergencia entre un conjunto de especies dado es necesario al menos un punto de calibración, es decir, tener al menos una estima del momento de la divergencia entre dos de las especies o de los grupos de especies empleados, a partir del cual se infiere el resto. Estos puntos de calibrado se obtienen, normalmente, a partir del registro fósil, o a través de métodos indirectos, como grandes eventos ya datados que pueden asociarse a la divergencia entre especies o grupos. En el caso de las bacterias, la carencia de un registro fósil obliga a obtener puntos de calibrado mediante otras aproximaciones. Como ya se ha indicado, una ventaja de las bacterias que coevolucionan con su hospedador es, que si se conocen los tiempos de divergencia entre los hospedadores, para los cuales es más probable que exista una datación fósil, éstos son aplicables a la bacteria asociada. Así, en el caso de B. aphidicola, hay diversas estimas de divergencia entre diferentes linajes de pulgones, basadas en el registro fósil o en la datación de eventos ecológicos, que pueden asociarse a eventos de especiación (Munson et al. 1991; Moran et al. 1993) y que pueden aplicarse a la bacteria. En nuestro caso, empleamos la estima del tiempo de divergencia entre las tribus Rhopalosiphini y Macrosiphini dentro de la subfamilia Aphidinae, establecida en 50-70 m.a. de acuerdo con el registro fósil (Clark et al.1999), tal y como se explicó en el capítulo previo. En concreto, empleamos una especie de cada una de las subtribus citadas, S. graminum de la tribu Rhopalosiphini y A. pisum perteneciente a la tribu Macrosiphini. Este punto de calibrado, a priori, es útil para nuestro estudio, dado que S. graminum pertenece a la misma tribu que los pulgones del género Rhopalosiphum empleados, la tribu Rhopalosiphini de la subfamilia Aphidinae. Para calibrar el reloj molecular empleamos la secuencia del gen plasmídico repA2, un marcador filogenético adecuado dentro de la subfamilia Aphidinae, puesto que predice la separación de las cepas de B. aphidicola dentro de las tribus Macrosiphini y Aphidini, tal y como se ha demostrado en 157 ………………………………………………………………………………………….Capítulo 5 un estudio previo (Silva et al. 1998). Además, para este gen estaban disponibles las secuencias para algunas de las especies empleadas en nuestro estudio. En concreto, las secuencias de BRc y BSg, que pertenecen a la misma tribu (Rhophalosiphini) pero a diferente género y la secuencia de BAp, de la tribu Macrosiphini, fueron obtenidas desde la base de datos. De modo que obtuvimos la secuencia de repA2 de los clones de BRp (uno de cada haplotipo mitocondrial), BRi y BRm (anexo 9). La secuencia de BRn no fue necesaria, dado que no podemos diferenciar en inserciones y deleciones los indels de esta especie. La reconstrucción filogenética se llevó a cabo empleando únicamente la segunda posición de los codones, para disminuir el efecto de posibles eventos de homoplasia, dado el nivel de divergencia asociado a las especies utilizadas. El método de reconstrucción por máxima verosimilitud, daba lugar a tres topologías diferentes, una de las cuales era la misma obtenida por distancias. Mientras que máxima parsimonia daba lugar a cuatro posibles topologías, una de las cuales era común a la obtenida por distancias y máxima verosimilitud. Las principales incongruencias entre las filogenias eran: por un lado la posición de BSg, que en ocasiones se agrupaba con BRm y en otros casos, se agrupaba con BRm y con el resto de especies de Rhopalosiphum formando un nodo trifurcado; y por otro lado, la relación entre BRp, BRi y BRc, que en algunas topologías no quedaba resuelta. La reconstrucción filogenética era por tanto ambigua dependiendo del método de reconstrucción empleado. Nosotros elegimos la topología común a los tres métodos de reconstrucción como la correcta (figura 5.15). 158 ......................................................................................................................Resultados y discusión 65 64 68 52 BRp23 BRp3 BRp29 BRi BRc BRm BSg BAp 0.01 Figura 5.15. Reconstrucción filogenética por neighbor-joining de las especies empleadas en base a la secuencia de repA2. Los valores que aparecen junto a cada nodo son los valores de bootstrap obtenidos por distancia tras 1.000 réplicas de bootstrap. Para ello nos basamos en varios datos: las reconstrucciones filogenéticas previamente obtenidas en este trabajo con las regiones neutras empleadas y que resolvían sin ambigüedad la relación entre las diferentes especies de Rhopalosiphum utilizadas; estudios previos llevados a cabo con diferentes especies de pulgones de la familia Aphididae (Bulman 2005; Silva et al. 1998) y datos morfológicos, en base a los cuales sabemos que R. maidis pertenece al género Rhopalosiphum y por tanto, esperamos que se agrupe con las especies de su mismo género, antes que con S. graminum. Además, la ambigüedad asociada a la posición de BRm respecto a otras especies de su mismo género es un problema recurrente como se ha demostrado en un estudio previo (Rouhbakhsh et al. 1996), incluso aunque se hayan empleado genes diferentes (del hospedador, del cromosoma bacteriano y de plásmidos bacterianos) para resolver las relaciones filogenéticas, pese a lo cual siempre se ve más apoyada una mayor proximidad entre R. maidis y S. graminum que entre R. padi y S. graminum. De modo que, en base a los argumentos citados, podemos asumir que la agrupación BSg y BRm no es real y que probablemente es resultado de un fenómeno de atracción de ramas largas. No obstante, dado que el tiempo de separación entre las especies empleadas comprende un rango amplio, desde hace 50-70 m.a, llevamos a cabo diferentes estudios para descartar cualquier posible efecto de saturación de las secuencias. En primer lugar, dibujamos la distancia genética no corregida frente a la corregida para cada par de secuencias (K2P y otros modelos), de 159 ………………………………………………………………………………………….Capítulo 5 modo que las desviaciones de las líneas isométricas se tomaron como una medida cualitativa del grado de saturación (Zamudio et al. 1997). Sin embargo, con este análisis no detectamos ningún indicio de saturación. Así mismo, llevamos a cabo un test de Xia, una medida del grado de saturación basado en entropía (Xia et al., 2003) implementada en el programa DAMBE v4.2.13 (Xia y Xie, 2001). Este método se basa en la observación empírica de que en la mayoría de conjuntos de datos, las transiciones son más frecuentes que las transversiones (Salemi y Vandamme 2003). Esto es porque sólo por azar hay 8 posibles transversiones, pero sólo 4 transiciones. De modo que, dibujando el número de transiciones y transversiones estimadas contra la distancia genética para cada par de secuencias, transiciones y transversiones crecerán linealmente con la distancia, estando las primeras siempre por encima de las transversiones. Sin embargo, a medida que la distancia se haga mayor puede alcanzarse la saturación y entonces las transversiones superan a las transiciones. Este test puso de manifiesto un ligero efecto de saturación. Con el fin de confirmar este efecto llevamos a cabo una representación de las distancias corregidas frente a transiciones y transversiones. Este análisis mostró que la ligera saturación detectada con el test de Xia era debida únicamente a la secuencia de BAp y se localizaba sólo en la tercera posición de los codones. Adicionalmente, llevamos a cabo un test de Shimodaira y Hasegawa (Shimodaira y Hasegawa 1999), para descartar que alguna de las topologías obtenidas fuera significativamente mejor que el resto. Sin embargo, no encontramos diferencias significativas entre las topologías, de modo que en base a los datos previamente citados fijamos la topología de la figura 5.15 para testar la hipótesis del reloj molecular. Los valores de verosimilitud sin forzar y forzando reloj fueron –ln L = 1937.56494 y –ln L = 1939.96251 respectivamente. En base a estos datos, la hipótesis del reloj molecular no podía ser rechazada. Además, llevamos a cabo test de tasas relativas para todas las comparaciones posibles entre las especies. En el caso de BRp escogimos dos 160 ......................................................................................................................Resultados y discusión secuencias, una como representante del primer clado (hII) y otra como representante del segundo clado (hI). Sólo uno de los 30 tests llevados a cabo, el correspondiente a la comparación entre BRm, BSg y BAp, fue significativo (p = 0.027). Finalmente, los datos de repA2 fueron por tanto empleados para estimar tiempos de divergencia mediante el empleo del programa BEAST, asumiendo tasas constantes. Beast es un programa basado en estadística bayesiana. La esencia de la inferencia bayesiana es que no hace una distinción lógica entre los parámetros del modelo y los datos. Ambos son considerados variables al azar, con una distribución de probabilidad conjunta. La distribución conjunta es producto de la “verosimilitud” y la “prior”. La “prior” es la distribución de probabilidades de los parámetros antes de los datos observados y la “verosimilitud” es la probabilidad de los datos observados dado cualquier valor particular de los parámetros (Beaumont y Rannala, 2004). El objetivo de la inferencia bayesiana es calcular la distribución posterior de los parámetros, que es la distribución condicional de los parámetros dados los datos. A diferencia de ésta, la máxima verosimilitud no incorpora la información de la “prior” y elige aquellas estimas de los parámetros que maximizan la probabilidad de los datos, dados los parámetros. Además Beast, utiliza el algoritmo MCMC (Markov chain Monte Carlo) para construir una cadena de Markov con una distribución estacionaria, que es la distribución de probabilidades de interés y muestrea entonces desde la misma para hacer inferencias. La ventaja de este programa es que los eventos de divergencia pueden datarse probabilísticamente dentro de un rango, lo cual es una aproximación más realista al verdadero resultado, especialmente cuando trabajamos con tiempos de divergencia elevados. Los resultados obtenidos (figura 5.16) indican que los eventos evolutivos estudiados abarcan un intervalo de tiempo que oscila entre los 600.000 años hasta menos de 20 m.a. El valor de ESS es el tamaño efectivo de un parámetro muestreado desde una MCMC y representa el número de muestras independientes desde la distribución posterior a las que equivale la cadena de 161 ………………………………………………………………………………………….Capítulo 5 Markov. Los elevados valores de “ESS” obtenidos apoyan una adecuada estima de la distribución posterior, dado que valores muy bajos (<100) indican que la estima de la distribución posterior del parámetro en cuestión es pobre. repA2 F E D BRp (mt DNAI) BRp (mt DNAII) BRi C BRc B BRm A BSg BAp Nodo A B C D E F Tiempo promedio (m.a) 59,42 19,51 14,88 11,21 4,77 0,62 Límite inferior (m.a) 50,01 12,41 8,57 6,39 2,27 0,07 Límite superior (m.a) 68,08 27,64 21,54 16,64 7,41 1,39 ESS 8085,454 5456,37 5427,05 6057,6 6411,72 8623,91 Figura 5.16. Datación de los eventos de divergencia entre las especies empleadas en base a la secuencia del gen repA2. Para cada nodo se muestra la estima del tiempo medio obtenida, así como el rango desde el valor mínimo al máximo posible para cada nodo. El ESS (tamaño efectivo de la muestra) de una cadena de Markov Monte Carlo (MCMC) es una estima del número de muestras independientes que la MCMC representa. El tiempo de divergencia obtenido entre los linajes holo y anholocíclicos de BRp implica un rango de divergencia más temprano a la inicialmente propuesta en base a secuencias del mtDNA de pulgón según la cual ambos linajes podían haber divergido entre hace 0,4-1,4 m.a.(MartínezTorres, 1996). Una divergencia más temprana es congruente con la escasa variabilidad detectada entre ambos hablotipos mitocondriales en las regiones neutras analizadas. Estos resultados confirman además, que la diferenciación genética asociada a ambos linajes no es consecuencia, por lo tanto, de un largo periodo de divergencia entre ambos como tempranamente se había propuesto (Martínez-Torres et al. 1996; Simon et al. 1996), sino resultado de 162 ......................................................................................................................Resultados y discusión repetidos y recientes eventos de hibridación tal y como se ha demostrado en un estudio posterior (Delmotte et al. 2003). 5.3.5 Tasas de indels y de sustitución nucleotídica Una vez conocido el tiempo de divergencia entre los linajes estudiados, a partir de los eventos localizados en las ramas del árbol, es posible calcular el ritmo al que se suceden los eventos mutacionales y calcular tasas de sustituciones y de indels respecto al tiempo transcurrido. a) Sustituciones Dado el amplio rango temporal que abarcan las secuencias empleadas, la localización en el árbol de las sustituciones nucleotídicas siguiendo un criterio de máxima parsimonia no ha sido posible para todos los eventos detectados tal y como vimos previamente, dado que en algunos casos más de una única solución igualmente parsimónica se ajustaba a los datos observados. Además, en el tiempo asociado a los datos bajo estudio es muy probable que se hayan producido sustituciones recurrentes que no podemos detectar. De modo que para conocer las sustituciones acumuladas en nuestras secuencias durante el tiempo de evolución contemplado decidimos aplicar un modelo evolutivo en lugar de basarnos en los eventos mutacionales observados. De este modo calculamos el número de sustituciones por sitio en cada rama aplicando el modelo de Kimura 2 parámetros con la opción pairwise deletion y con el árbol construido por neighbor-joining. Una vez obtenidos estos valores los dividimos por el tiempo total teniendo en cuenta la suma de los tiempos asociados a cada una de las ramas del árbol, y tomando para cada rama el tiempo medio entre las estimas inferior y superior. El resultado obtenido fue de 4,3 y 6,7 x 10-9 sustituciones por sitio y año para IGR y cmk respectivamente. Esta tasa de sustitución se halla en concordancia con estima previas (Ochman et al. 1999; Brynnel et al. 1998), según las cuales la tasa de sustitución neutra de B. aphidicola es 8,2 x 10-9 y 3,9 x 10-9 8 x 10-9 sustituciones por sitio y año en cada uno de los estudios, respectivamente. Estas estimas previas se basaban en los tiempos de 163 ………………………………………………………………………………………….Capítulo 5 divergencia conocidos para diferentes especies de pulgones y estaban calculadas sobre sitios sinónimos. El hecho de que nuestras estimas, llevada a cabo sobre los tiempos de divergencia mucho más próximos inferidos a partir del reloj molecular y en regiones neutras, sean congruentes con los resultados de trabajos previos, es un apoyo a favor de nuestros cálculos y un refuerzo a las estimas llevadas a cabo en los mismos. Las tasas obtenidas son mayores que las calculadas para bacterias de vida libre en sitios sinónimos. Esta diferencia puede explicarse por el sesgo hacia el uso de codones preferentes, que sufren las bacterias de vida libre en sitios sinónimos (Sharp, 1991) y que no se da en B. aphidicola, debido a la relajación de la selección purificadora por el incremento de la deriva (Moran, 1996). También se ha propuesto que esta diferencia puede ser debida a que la tasa de mutación intrínseca de endosimbiontes está incrementada debido a la pérdida de genes implicados en la reparación del DNA (Moran y Wernegreen 2000, Itoh et al. 2002). b) Indels En numerosos estudios previos (Ophir y Graur 1997; Petrov 2000; Bensasson 2001), el desconocimiento de los tiempos asociados a los eventos de indels estudiados ha obligado a un cálculo de las tasas de indels relativas a las sustituciones nucleotídicas. El problema de estas tasas es que no permiten conocer si el proceso es lento o rápido (Gregory, 2003). Además, esto dependerá de la tasa de sustitución por unidad de tiempo, la cual variará entre organismos. En nuestro estudio, sin embargo, el calibrado de un reloj molecular nos permite conocer el ritmo de los eventos a escala temporal. Dado que el rango temporal que abarcan las mutaciones estudiadas es amplio, hasta casi 20 m.a., asumimos que el tiempo transcurrido es suficiente para esperar “a priori” un mayor número de eventos mutacionales en las ramas más largas. En el caso de los indels, éste fue el resultado obtenido en todos los casos, excepto para la rama correspondiente a BRm de cmk (figura 5.16), donde el número de indels fue inferior a lo esperado, en base al tiempo de divergencia asociado a esta especie. Una posible explicación es que cmk no fuera un pseudogen durante la mayor parte de la 164 ......................................................................................................................Resultados y discusión evolución de este linaje. Para compobrar esta hipótesis, analizamos las posibles pautas abiertas de lectura que presentaba la secuencia de cmk en las diferentes especies de Rhopalosiphum. Las secuencias de BRp y BRi presentaban pautas abiertas de lectura muy cortas y ninguna de éstas daba un resultado positivo en una búsqueda por blastp. En el caso de BRn, detectamos una pauta de 51 aminoácidos con una ligera similitud con cmk de B. floridanus (e-value = 0,068). Sin embargo, en el caso de BRm detectamos dos pautas abiertas de lectura de 81 y 63 aminoácidos respectivamente y ambas mostraban una similitud significativa en las búsquedas por blastp con parte de los dominios putativos de la proteína codificada por el gen activo de cmk. Además, la composición en GC de BRm en esta región fue del 21%, mientras que en el resto de las especies oscilaba entre 16-17%. Por tanto, en base a esto resultados son posibles dos escenarios. Primero, que las dos pautas abiertas de lecturas detectadas en BRm sean todavía codificantes pese a su pequeño tamaño, debido a algún mecanismo que permita al ribosoma leer las dos pautas como una única por un cambio de pauta (Weiss y Gallant, 1983). De hecho, en el genoma de R. conorii, se han hallado numerosas ORFs interrumpidas, a pesar de lo cual son al menos transcritas (Ogata et al. 2001). Segundo, que cmk sea una región neutra en BRm, pero que se ha inactivado más recientemente que en el resto de especies. Este último escenario es el que consideramos más probable, ya que fenómenos de inactivaciones múltiples del mismo gen ya han sido previamente descritos en otros casos (Gómez-Valero et al. 2004a). Debido por tanto, a las incertidumbres sobre la naturaleza del pseudogen en BRm, decidimos extraer esta secuencia para el cálculo de las tasas de inserción/deleción. El método utilizado para calcular las tasas de indels fue el de Saitou (1992). En base a este método, el número total de indels se divide por la longitud total de las ramas del árbol filogenético analizado y por la longitud de las secuencias comparadas. Para el cálculo de los tiempos empleamos siempre el tiempo promedio obtenido para cada nodo. Los resultados obtenidos se muestran en la tabla 5.4. 165 Tabla 5.4 Tasas de indels, inserciones y deleciones en base al tiempo. * En el caso de cmk no se tuvieron en cuenta los datos de BRm ni la gran deleción hallada al final de dicha región. Deleciones/sitio/año Region Indels Inserciones Deleciones Longitud (pb) Tiempo (m.a) Indels/sitio/año Inserciones/sitio/año 13 5 8 7,2 x 10-10 4,5 x 10-10 cmk* 479,3 35,2 1,2 x 10-9 16 6 10 IGR 550,3 20,3 1,0 x 10-10 3,6 x 10-10 5,9 x 10-10 ………………………………………………………………………………………….Capítulo 5 166 ......................................................................................................................Resultados y discusión Una vez conocido el ritmo al que se suceden los eventos, a partir del tamaño medio de los eventos producidos, obtenemos un sesgo hacia la pérdida de DNA con valor de 7,7 x 10-10 y 2,7 x 10-10 nucleótidos perdidos por sitio y año en IGR y cmk, respectivamente. En el cálculo de estas estimas no tuvimos en cuenta la gran deleción detectada en cmk. Esta deleción, de aproximadamente 200 nucleótidos, es una deleción que ha ocurrido en el ancestro de BRp y BRi y que por tanto, se ha producido hace 4,8-14,9 m.a. Nosotros no conocemos la frecuencia de estos indels de mayor tamaño a lo largo del genoma y el tiempo, pero si tenemos en cuenta esta deleción en el cálculo de la tasa de pérdida de DNA, el resultado es una tasa de pérdida dos órdenes de magnitud mayor (1,3 x 10-8 nucleótidos perdidos por sitio y año) dado que entonces el tamaño medio de los eventos es de aproximadamente 20 nucleótidos. Los resultados obtenidos, tanto si tenemos en cuenta la gran deleción como si la excluimos del análisis, confirman un sesgo hacia las deleciones como previamente se ha descrito en otros trabajos (Mira et al. 2001; Comeron, 2001; Gregory, 2003). Sin embargo, si no tenemos en cuenta la gran deleción hallada en cmk, la tasa de pérdida obtenida (2,7 x 10-10) es demasiado reducida para explicar la pérdida de DNA que B. aphidicola ha sufrido en el último periodo de su evolución. De hecho, esta tasa es muy inferior a la obtenida en el capítulo previo de esta tesis de 3-5 x 10-8 nucleótidos perdidos por sitio y año para el periodo de tiempo transcurrido tras la divergencia de las tribus Aphidini y Macrosiphini (Gómez-Valero et al. 2004a). La primera explicación a esta diferencia de tasas es el diferente rango de tiempo analizado en ambos casos. Mientras en el capítulo previo estudiamos la pérdida de DNA acontecida en un intervalo de 164-86 m.a., en el presente estudio analizamos la pérdida entre secuencias que han divergido tan sólo durante los últimos 20 m.a. como máximo. Probablemente la tasa de pérdida es inferior en periodos más recientes, dado que la degradación del genoma se haya en un estado más avanzado. Sin embargo, tal y como hemos visto previamente, en periodos recientes aún es posible la emergencia de 167 ………………………………………………………………………………………….Capítulo 5 indels de tamaño considerable. De modo que si tenemos en cuenta la gran deleción detectada, la tasa de pérdida es 10 veces mayor y próxima a los resultados obtenidos en el primer capítulo. Tener en cuenta el tamaño de los eventos, especialmente en el caso de eventos de un tamaño considerable, es un factor muy importante tal y como se ha demostrado en otros organismos para los cuales se ha visto como la diferencia de tasas entre los mismos es resultado del tamaño diferente de los eventos detectados, antes que del número de los mismos. De este modo se explica por ejemplo, la diferencia entre las tasas de pérdida de los géneros de saltamontes Podisma e Italopodisma (Bensasson, 2001). Aunque no conocemos el ritmo al que pueden surgir indels de mayor tamaño, es necesaria una tasa mayor a la obtenida sin tener en cuenta la gran deleción, para poder explicar la reducción del genoma de B. aphidicola, especialmente drástica en algunos como en B. aphidicola del pulgón C. cedri de tan sólo 420 kb. Sin embargo, no podemos descartar que por los mismos mecanismos surjan inserciones de un tamaño considerable (más de 100 nucleótidos) que compensen las deleciones de tamaños similares, de modo que la tasa global de pérdida no sea tan elevada. Nosotros pensamos que la selección podría favorecer a estas deleciones frente a las inserciones. De hecho, diversos autores han propuesto una explicación selectiva de la reducción de los genomas procariotas, dado que un genoma más pequeño podría asociarse a una tasa de replicación mayor (Andersson y Kurland, 1995, 1998; Maniloff 1996; Selosse et al. 2001). Aunque generalmente esta explicación no ha sido aceptada, principalmente por dos razones: en primer lugar se ha observado que la tasa de replicación de las bacterias depende principalmente de la eficacia de los ribosomas durante la traducción y de la abundancia de tRNAs (Kurland y Ehrenberg, 1987; Emilsson y Kurland, 1990; Mikkola y Kurland, 1991) antes que del tamaño genómico. De hecho, no se ha detectado una correlación positiva entre tamaño del genoma y tiempos de duplicación (Mira et al. 2001). En segundo lugar, hasta el momento, las deleciones descritas en procariotas implican 1 o muy pocos nucleótidos de modo que producen 168 ......................................................................................................................Resultados y discusión cambios minúsculos en el tamaño genómico y por tanto, difícilmente pueden afectar a la eficacia selectiva (Mira et al. 2001). Sin embargo, nosotros hemos demostrado que en periodos relativamente recientes (menos de 20 m.a.) pueden aparecer indels de un tamaño considerable para tener un efecto sobre la eficacia, especialmente si tenemos en cuenta el pequeño tamaño genómico de B. aphidicola. Además, es importante señalar que el genoma de B. aphidicola es poliploide (Komaki y Ishikawa, 1999) (aproximadamente 200 moléculas por célula) y necesariamente el tamaño de estos genomas ha de correlacionarse con el tiempo y/o energía para completar su replicación. De modo que es razonable pensar que si entre estas moléculas existen algunas de tamaño inferior debido a deleciones, la replicación de las mismas finalizará antes respecto al resto y por tanto, las moléculas más pequeñas acabaran siendo mayoritarias en la célula. Aunque la replicación de la célula depende de la maquinaria transcripcional, la replicación del genoma necesariamente depende del tamaño de éste. De hecho, se ha sugerido que existe competencia entre genomas citoplasmáticos (Cosmides y Tooby, 1981). En base a esto, diversos autores han propuesto que existe selección a favor de las deleciones en orgánulos (Selosse et al. 2001). Un apoyo a esta idea ha sido la descripción de la acumulación de mitocondrias con deleciones en tejidos animales (Cortopassi et al. 1992; Simonetti et al. 1992; Wallace, 1999) y la acumulación in vitro de plásmidos de plantas con deleciones (Day y Ellis, 1984), así como la acumulación de plástidos con deleciones en el alga unicelular Euglena (Eximan, 1982). En estos casos, el DNA delecionado se comporta, por tanto, como un elemento egoísta incrementando su número a expensas de la célula u organismo. Además, si efectivamente existiera una selección a favor de un reducido tamaño genómico, ésta es una fuerza global que actúa sobre todo el genoma, de modo que el sesgo hacia la pérdida no se correspondería entonces con el sesgo mutacional, sino que es el resultado de las fuerzas selectivas, a pesar de que el estudio se lleve a cabo sobre regiones a priori neutras. 169 ………………………………………………………………………………………….Capítulo 5 De modo que si los elementos necesarios para que aparezcan indels de tamaño considerable en B. aphidicola, están presentes tal y como se ha mostrado; si efectivamente las deleciones tienen una ventaja selectiva, la única restricción para la fijación de las mismas es que el fragmento implicado en éstas no sea esencial. La condición de esencial o no está completamente sujeta a las condiciones ambientales. En el caso de B. aphidicola, el ambiente depende principalmente del hospedador, dado que cualquier cambio en el estilo de vida del hospedador cambiará sus necesidades y quizás los requerimientos de la bacteria. Por otro lado, la existencia de otras bacterias como los endosimbiontes secundarios puede cambiar el repertorio esencial del endosimbionte primario. Mientras varios autores han propuesto que el genoma actual de B. aphidicola sólo puede sufrir indels de muy pequeño tamaño, con un sesgo hacia la pérdida que daría lugar a una muy lenta degradación génica en las últimas etapas (Wernegreen, 2000; Mira et al. 2001), e incluso a una tasa tan escasa como 1 nucleótido cada 10.000 años (Mira et al. 2001), nuestros resultados no apoyan estos datos. Estas primeras hipótesis se hicieron en base a la estabilidad del tamaño genómico de los primeros genomas de B. aphidicola secuenciados, antes de la aparición del genoma de BCc, que muestra que una reducción importante aún es posible tal, y como demuestran nuestros resultados. La dinámica de la reducción es mucho más importante en estadios recientes de lo previamente supuesto. Un ejemplo de ello es el pseudogen cmk. Este pseudogen fue inicialmente descrito como un pseudogen muy antiguo y la detección de una deleción de 16 pb idéntica compartida en este pseudogen en BAp y BSg que divergieron hace 50 m.a. (Mira et al. 2001) fue empleada como un argumento a favor del muy reducido ritmo de la degradación en los últimos m.a. de evolución en B. aphidicola. Sin embargo, nosotros mostramos que cmk es sujeto de pseudogenizaciones convergentes, por lo que es más reciente de lo inicialmente postulado y además la gran variación en el patrón de indels 170 ......................................................................................................................Resultados y discusión sobre el mismo en las distintas especies de Rhopalosiphum demuestra como la dinámica de la reducción es muy superior a lo previamente propuesto. De modo que, aunque es evidente que la velocidad de la reducción en las etapas tempranas será mayor por la mayor cantidad de información que puede perderse y la mayor presencia de elementos repetidos, en los últimos estadios de la evolución de B. aphidicola la tasa de reducción continúa siendo relevante tal y como hemos comprobado empíricamente. Nosotros proponemos por tanto, un nuevo escenario evolutivo escalonado en el que junto con una degradación gradual muy lenta (deleciones de 1-2 nucleótidos), puntualmente pueden emerger deleciones de tamaño considerable (más de 50-100 nucleótidos) que darían lugar a cambios mayores del tamaño genómico con efectos en la eficacia selectiva. Probablemente, estos saltos en la evolución del genoma estarían precedidos por cambios en la información esencial de B. aphidicola, que pueden estar asociados a diversos eventos tales como: cambios en la dieta del hospedador, eventos de especiación, invasión del hospedador por nuevas bacterias, etc. Estos cambios darían paso a un conjunto de información génica susceptible de perderse y a partir de este momento, dicha información puede ser sujeto de indels de considerable tamaño (>50 nucleótidos) como el detectado en cmk. 5.4 B. floridanus 5.4.1 Reconstrucción filogenética Para llevar a cabo la reconstrucción filogenética se emplearon tres conjuntos de datos diferentes, con el fin de conocer cuál de ellos resolvía mejor la relación entre B. floridanus de las diferentes colonias de hormigas: todas las regiones intergénicas concatenadas, todos los fragmentos de regiones codificantes concatenados y un concatenado de todos las regiones amplificadas, incluyendo tanto regiones intergénicas como codificantes. La longitud final de los alineamientos concatenados fue de 5678 nucleótidos en el caso de las regiones intergénicas, 2204 nucleótidos en el caso de las 171 ………………………………………………………………………………………….Capítulo 5 regiones codificantes y 7882 en el caso de regiones intergénicas y codificanes conjuntamente (ver anexo 10). La mejor resolución de las relaciones filogenéticas entre las especies utilizadas en el estudio se obtuvo con el alineamiento que concatena tanto las regiones intergénicas como los segmentos parciales de las regiones codificantes flanqueantes. Aunque las regiones codificantes e intergénicas evolucionan de modo diferente, dado que la mayor parte de cambios nucleotídicos entre las cepas de B. floridanus se localizaban en las regiones intergénicas (80 sustituciones en intergénicas frente a 20 en regiones codificantes) y que comprobamos que la mayor parte de los cambios en regiones codificantes se localizaban en terceras posiciones (14 de 20), asumimos que la mayor parte de cambios son neutros y que por tanto, podemos aplicar un modelo evolutivo común a todo el alineamiento. Tanto con distancias, como con parsimonia y verosimilitud se resolvieron los principales clados, quedando únicamente dos politomías sin resolver (figura 5.17). 172 ......................................................................................................................Resultados y discusión CFloC1 CFloC316 CFloC10 CFloC3 CFloC51 CFloC2 CFloC96 CFloC236 CFloC308 CRufA a) 0.02 b) 100,100,99 CFloC236 CFloC96 Grupo C CFloC308 CFloC2 94,97,73 CFloC51 85,90,97 97,98,99 76,72,65 CFloC10 CFloC3 Grupo I CFloC316 CFloC1 0.001 Figura 5.17. Reconstrucción filogenética de las especies y cepas empleadas de Blochmannia. a) Reconstrucción por máxima verosimilitud de las diferentes cepas de B. floridanus y B. rufipes b) Relación filogenética entre las diferentes cepas de B. floridanus. Los valores que aparecen al lado de cada nodo corresponden a los valores de bootstrap obtenidos por distancias, parsimonia y máxima verosimilitud respectivamente tras 1000 réplicas en el caso de distancias y parsimonia, y 300 en el caso de máxima verosimilitud. Los resultados obtenidos muestran como las poblaciones de B. floridanus, se dividen en dos clados principales con una distribución norte-sur que nosotros denominamos “C” e “I”, dado que en el primero están las colonias pertenecientes al continente y a una isla próxima a éste, mientras que el segundo está formado sólo por colonias pertenecientes a diferentes islas de Florida. Estos resultados se ajustan con total precisión a la distribución geográfica de hormigas empleadas. La colonia CFloC308 (Tarpon Spring), que pertenece a la península de Florida, se agrupa con las colonias CFloC96 y CFloC236, ambas 173 ………………………………………………………………………………………….Capítulo 5 pertenecientes a la isla de Orchid situada al noreste de la península y muy próxima a ésta (figura 5.18). Todas éstas constituirían el grupo de colonias pertenecientes al continente, pues aunque Orchid es una isla, se halla aproximadamente a tan sólo 3 Km de la península. Tarpon Springs (CFloC236) Grupo C Isla Orchid (CFloC308, CFloC96) Isla Sansibel (CFloC2) Isla Key Largo (CFloC51) Islas del sur (CFloC10, CFloC3, CFloC1,CFlo316) Grupo I Figura 5.18. Localización geográfica de las colonias pertenecientes a la península de Florida y a las diversas islas del archipiélago. La isla de Orchid se agrupa con la región peninsular de Tarpon Spring dada su elevada proximidad al continente. El resto de colonias no pertenecientes a la isla de Orchid ni a la región de Tarpon Spring, constituiría el grupo de las islas. La especie más externa de este clado es CFlo2, que es justamente la que pertenece a la isla más alejada del resto de las islas del sur de Florida y al mismo tiempo la más cercana al continente. La segunda especie más externa pertenece a Key Largo, la isla más próxima al continente de la cadena de islas situada al sur de la península (ver figura 5.18). A continuación de éstas se agruparían en un mismo clado el resto de colonias que son justamente las pertenecientes a islas situadas al sur del archipiélago y muy próximas entre sí (figura 5.19). 174 ......................................................................................................................Resultados y discusión Isla Summerland(CFloC1) Isla Key Largo (CFloC51) Isla Saddlebunch (CFloC3) Isla Sugarloaf (CFloC10,CFloC316) Figura 5.19. Localización geográfica de las colonias de hormigas pertenecientes al archipiélago de islas situado al sur de la península. Estos resultados confirman las subestructuración poblacional entre colonias pertenecientes a las islas y las colonias pertenecientes al continente previamente descritas (Gadau et al. 1996). Al igual que en este trabajo, nosotros encontramos mayor distancia genética entre las poblaciones de islas y las poblaciones de continente, que entre las propias poblaciones de islas; aunque la distancia geográfica sea similar o incluso superior en el caso de poblaciones de islas. Así por ejemplo, CFloC2 está más alejada de CFloC236, CFloC96 y CFloC308, que de CFloC51, pese a que la distancia geográfica en ambos casos sea similar. 5.4.2 Análisis de las sustituciones nucleotídicas Conocida la filogenia de las cepas y especies empleadas, así como los cambios nucleotídicos de las secuencias, es posible localizar dichas 175 ………………………………………………………………………………………….Capítulo 5 mutaciones en el árbol filogenético siguiendo un criterio de parsimonia al igual que hicimos en el caso de B. aphidicola. En el caso de las secuencias de B. floridanus existen 81 posiciones que muestran cambios nucleotídicos. Dada la elevada proximidad de las secuencias nucleotídicas, casi todos los cambios nucleotídicos (72) han podido resolverse sin ambigüedades con una única solución más parsimónica (figura 5.20). 6s 2v 6s 9v CFloC236 2s 0v 2s 0v CFloC96 CFloC308 7s 1v 6s 1v 1s 3v CFloC2 CFloC51 4s 6v 1s 4v 1s 2v 5s 1v CFloC10 CFloC3 1s 0v CFloC316 0.001 1s 0v CFloC1 Figura 5.20. Localización en el árbol filogenético de las transiciones (s) y transversiones (v) detectadas entre las secuencias de 16 regiones intergénicas concatenadas de B. floridanus. Al igual que en el caso de las regiones analizadas en B. aphidicola, las ramas más largas del árbol son aquellas que acumulan un mayor número de cambios, lo que es esperable cuando todas las regiones son neutras en todos los linajes analizados, si ha transcurrido el tiempo suficiente. Igualmente, el número total de transiciones fue superior al número de transversiones, tal y como se espera cuando se trabaja con linajes próximos. A continuación, estudiamos la posible existencia de algún sesgo en los cambios nucleotídicos siguiendo el mismo procedimiento empleado en el caso de B. aphidicola. Todas las regiones fueron analizadas conjuntamente, dado que todas son regiones intergénicas y por lo tanto no esperamos a priori diferencias entre las mismas. El resultado se muestra en la tabla 5.5. 176 ......................................................................................................................Resultados y discusión Tabla 5.5. Porcentaje de cada tipo de sustitución nucleotídica para las regiones intergénicas de B. floridanus analizadas. Cambios nucleotídicos 16 Regiones intergénicas A→G = T→C 9,94 A→T = T→A 5,44 A→C = T→G 5,96 C→A = G→T 17,35 C→G = G→C 0 G→A = C→T 61,32 GC→AT 78,67 AT→GC 15,9 Al igual que en las regiones analizadas de B. aphidicola, los resultados muestran un sesgo hacia las transiciones y hacia los cambios que incrementan el contenido en AT de las secuencias. En comparación con los datos de las dos regiones analizadas en B. aphidicola, la proporción de cambios de GC a AT es más similar a la obtenida para la región cmk (73,5%) que para IGR (57%). Esto confirma que el sesgo en cmk es más representativo de los cambios en regiones neutras de B. aphidicola, dado que este valor es más similar al de otros microorganismos intracelulares obligados como Rickettsia (Andersson y Andersson, 1999). Además, la presencia de nucleótidos invariantes en IGR sesgan los resultados en esta región. Los valores de B. floridanus, más próximos a los de cmk que a los de IGR, son un apoyo adicional de nuestras conclusiones. 5.4.3 Análisis de indels De 16 regiones intergénicas analizadas en B. floridanus, 13 mostraron eventos de indels a nivel intraespecífico. Aquellas regiones que no mostraron ningún indel fueron las intergénicas situadas entre los genes: cysH-cysG, infC-rpmL y lplA-pheT. Para poder diferenciar entre inserciones y deleciones y poder mapear en el árbol los diferentes eventos evolutivos, seguimos un criterio de máxima parsimonia. En base a éste, a partir de la filogenia conocida, inferimos siempre el estado ancestral a partir de la situación mayoritaria dentro de los 177 ………………………………………………………………………………………….Capítulo 5 linajes de un mismo clado y determinamos la dirección del cambio (inserción o deleción), comparando cada secuencia con el estado inmediatamente ancestral. Puesto que las cepas de B. floridanus se agrupan en dos clados principales, cuando ambos clados muestran un estado diferente, el estado ancestral se infiere a partir del grupo externo, B. rufipes. Cuando la solución es ambigua, escogemos siempre aquélla que requiere un menor número de cambios. Si es posible más de una solución con el mismo número de cambios, los cambios en ramas más largas se asume que tienen una mayor probabilidad de ocurrir. Dada la proximidad de las secuencias empleadas, puesto que trabajamos a un nivel intraespecífico, fue posible establecer el tipo de evento mutacional y posición en el árbol, en todos los casos, excepto en el caso de la región intergénica entre los genes manX y manY. Esta región fue por tanto eliminada de los análisis posteriores. Un total de 45 indels fueron caracterizados, 36 de ellos tenían una única solución más parsimónica y 8 tenían soluciones ambiguas. El bajo número de ambigüedades confirma el escaso nivel de homoplasia asociado a las secuencias dada su proximidad. Para estos 8 casos se tomó el criterio de longitud de rama para decidir la posición del cambio. La posición final de los cambios en la filogenia se muestra en la figura 5.21. 178 ......................................................................................................................Resultados y discusión 2D 1I 5D 6I 1D 1I 4D 0I CFloC308 1D 3I CFloC2 2D 3I 2D 1I CFloC236 CFloC96 CFloC51 1D 1I 0D 0I 0D 2I 0D 0I CFloC10 CFloC3 0D 1I CFloC316 0.001 0D 1I 3D 4I CFloC1 Figura 5.21. Localización en el árbol de los diferentes eventos de inserción/deleción (I/D) detectados siguiendo un criterio de máxima parsimonia. Dado que trabajamos con regiones neutras, esperamos que las ramas más largas acumulen un mayor número de eventos mutacionales que las ramas más cortas, al igual que observamos en el caso de B. aphidicola. Sin embargo, en el caso de los eventos de inserción/deleción, tal y como observamos en la figura, esto no siempre ocurre, lo que probablemente es resultado del azar asociado al escaso tiempo de divergencia transcurrido entre las colonias y también a la rápida evolución asociada a las repeticiones en tándem como las detectadas. En este caso, el número de deleciones e inserciones fue similar (21 frente a 24), pero no así el número de nucleótidos implicados en estos eventos (figura 5.22). 179 ………………………………………………………………………………………….Capítulo 5 140 120 Número de eventos 100 Número de nucleótidos 80 60 40 20 0 Deleciones Inserciones Figura 5.22. Número de eventos de inserción/deleción y número total de nucleótidos implicados en dichos eventos. La cantidad de nucleótidos implicados en eventos de deleción fue por tanto muy superior a los introducidos por inserción. Sin embargo, esta diferencia fue debida mayoritariamente a una única deleción de 68 nucleótidos (figura 5.23), dado que como se observa en la figura el tamaño mayoritario de los eventos fue de 1 nucleótido, tanto en el caso de inserciones como de deleciones. Este resultado confirma los datos obtenidos en el estudio previo que hemos llevado a cabo en B. aphidicola y los resultados obtenidos para Rickettsia (Andersson y Andersson, 2001), en los que se observa que la mayor diferencia entre la entrada y salida de DNA es debida a unos pocos sucesos de un tamaño muy superior al resto. 180 ......................................................................................................................Resultados y discusión 16 Número de deleciones 14 12 10 8 6 4 2 0 012 8 o Tamaño deleciones 35 Número de inserciones 68 17 30 25 20 15 10 5 0 0 1 2 3 6 10 Tamaño inserciones Figura 5.23. Distribución del número de deleciones e inserciones en base al número de nucleótidos implicados en dichos eventos. Los eventos de mayor tamaño eran deleciones de 68, 17 y 8 nucleótidos respectivamente. En los tres casos encontramos que la deleción se hallaba flanqueada por repeticiones directas, una de las cuales perduraba en la secuencia con la deleción mientras que la otra formaba parte de la zona delecionada, pero presente en el resto de especies en las que la deleción no había tenido lugar (figuras 5.24 y 5.25). Este resultado podría ser consecuencia de un evento de recombinación homóloga o independiente de recA. El pequeño tamaño de las repeticiones implicadas, así como la ausencia de recA en el genoma de B. floridanus señalan a los mecanismos de recombinación independiente de recA, como principales responsables de la generación de estas deleciones, al igual que ocurre en B. aphidicola. 181 ………………………………………………………………………………………….Capítulo 5 El tipo de repetición flanqueando estas deleciones encaja con las CRs, es decir repeticiones no en tándem, sino alejadas varios nucleótidos. Este tipo de repetición, como ya vimos en el caso de B. aphidicola, se ha demostrado que juega un importante papel en la reducción genómica (Rocha 2003). Nuestros resultados confirman de hecho que las deleciones de mayor tamaño encontradas se asocian a CRs. En cuanto al mecanismo, aunque el deslizamiento de la polimerasa puede ser responsable de los mismos, éste generalmente se asocia con indels de muy pequeño tamaño (1-5 nucleótidos) (Gregory, 2003), por lo que otro mecanismo de recombinación ilegítima puede ser más apropiado para explicar estos indels. Aunque no podemos descartar el deslizamiento como mecanismo responsable, dado que en ocasiones este puede producirse entre secuencias repetidas alejadas, gracias a la presencia de secuencias palíndromes que promueven el acercamiento de las mismas a través de la formación de estructuras secundarias (Bzymek y Lovett, 2001). 182 ......................................................................................................................Resultados y discusión 201 250 CFloC1 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CFloC2 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CFloC3 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CFloC10 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CFloC51 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CFloC96 ATGTA..TAA TATTTATATA T......... .......... .......... CFloC236 ATGTA..TAA TATATCTATA T......... .......... .......... CFloC308 ATGTA..TAA TATTTATATA T......... .......... .......... CFloC316 ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT CRufA ATATAATTAA CATTTTAATA TTAAATATAC ATT....... ..TAATATGT CFloC1 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT .ATATATATA 251 300 CFloC2 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA CFloC3 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA CFloC10 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA CFloC51 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT .....ATATA CFloC96 .......... .......... .......... .......... .......... CFloC236 .......... .......... .......... .......... .......... CFloC308 .......... .......... .......... .......... .......... CFloC316 TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA CRufA TTTGATATTT AA..GGTATA ATATCTATTG GATTTTATTA GATATGTATA CFloC1 TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA CFloC2 TGTTGTTATA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA 301 350 CFloC3 TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA CFloC10 TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA CFloC51 TGTTGTTATA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA CFloC96 .GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA CFloC236 .GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA CFloC308 .GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA CFloC316 TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA CRufA TGTTGTTGTA TTATGTGAAT TTATGTCGTT ATTATAGTTA GTAATTTTT. Figura 5.24. Delección de 68 nucleótidos en la región intergénica entre los genes metF y tRNAAla, flanqueada por una repetición directa de 8 nucleótidos (TTATATAT). 183 ………………………………………………………………………………………….Capítulo 5 a) 3001 CFloC1 CFloC2 CFloC3 CFloC10 CFloC51 CFloC96 CFloC236 CFloC308 CFloC316 CRufA CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT CTATTTATAT AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA AGCATATAAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TTAGTAATAA TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT TGGAATTAAT b) 5401 CFloC1 CFloC2 CFloC3 CFloC10 CFloC51 CFloC96 CFloC236 CFloC308 CFloC316 CRufA TATGA...... TATGAAGAACA TATGAAGAACA TATGAAGAACA TATGAAGAACA TATGAAGAACA TATGAAGAACA TATGAAGAACA TATGAAGAACA TATATTTAATA .......... CATAAA.... CATAAA.... CATAAA.... CATAAA.... CATAAA.... CATAAA.... CATAAA.... CATAAA.... TTTAAAATTG .........T ....TATGAT ....TATGAT ....TATGAT ....TATGAT ....TATGAT ....TATGAT ....TATGAT ....TATGAT TGATTATATC 3050 GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT ........GAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT GTAATAATGAATAATAATTT 5450 TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGATAATAAA CAGTATTTAT TGGTTATAAA CAGTGTTTAT Figura 5.25. Deleciones flanqueadas por repeticiones directas. a) Deleción de 8 nucleótidos en la región intergénica entre los genes serS-lolA flanqueada por una repetición directa de 4 nucleótidos (TAAT). b) Deleción de 17 nucleótidos en la región intergénica situada entre los genes Bfl040-yidZ, flanqueada por una repetición directa de 5 nucleótidos. En cuanto a los indels más abundantes, de 1 nt, la mayoría formaban parte de colas de mononucleótidos (25 de 33). El resto de indels de más de 1 nucleótido, a excepción de un indel de 2 nucleótidos localizado en la región intergénica entre tonB-cls, formaban parte de microsatélites cuyo motivo de repetición era más de 1 nucleótido. Concretamente se detectaron tres microsatélites con una unidad de repetición superior a 1 nucleótido. Además de éstos, hallamos también un minisatélite en la región intergénica entre los genes manX-manY que no se incluyó en los análisis dado que los estados del mismo en las diferentes cepas se ajustaban a más de una solución igualmente parsimónica. La descripción detallada de estos mini y microsatélites se muestra en la tabla 5.6. 184 ......................................................................................................................Resultados y discusión Tabla 5.6. Descripción de las repeticiones en tándem halladas en las regiones intergénicas analizadas. El número de copias hace referencia al mínimo y máximo número de copias halladas entre las diferentes cepas estudiadas. Región Clase Motivo Copias metF-tRNAla microsatélite AT 1-2 metF-tRNAla microsatélite AT 1-5 metF-tRNAla microsatélite T 6-7 cspC-zwf microsatélite T 4-5 cspC-zwf microsatélite A 9-10 cspC-zwf microsatélite T 3-4 cspC-zwf microsatélite T 3-4 cspC-zwf microsatélite A 6-7 trpA-tonB microsatélite ATT 0-3 trpA-tonB microsatélite A 4-5 trpA-tonB microsatélite A 6-7 tonB-cls microsatélite A 6-7 tonB-cls microsatélite A 7-9 fba-rpiA microsatélite A 5-7 manX-manY minisatélite TAACAAA 2-5 El hallazgo de micro y minisatélites es importante por varias razones. En primer lugar, son potenciales fuentes de recombinación ilegítima (Rocha, 2003). En segundo lugar, han sido escasamente descritos en procariotas, aunque a medida que se han secuenciado más genomas, el número detectado de los mismos ha ido incrementando (Field y Wills, 1998; Field y Wills, 1996; Gur-Arie et al. 2000). En nuestro caso, llevamos a cabo una búsqueda de repeticiones en tándem en los genomas de B. aphidicola, B. floridanus y E. coli en la base de datos GPMS (Genomes Polymorphism and Minisatellites), que mostró una densidad de repeticiones en tándem de hasta 10 nucleótidos muy similar en B. floridanus y B. aphidicola (0,12) y superior a la de E. coli (0,046). El sesgo composicional hacia AT probablemente incrementa la probabilidad de aparición de estas pequeñas repeticiones en 185 ………………………………………………………………………………………….Capítulo 5 tándem sólo por azar, lo que es congruente con su mayor abundancia en los endosimbiontes intracelulares. Respecto a la variabilidad asociada a estas repeticiones, dos estudios acerca de los microsatélites en 8 regiones no codificantes analizadas en diversas cepas de E. coli mostraban que sólo existían polimorfismos intrapoblacionales para los microsatélites formados por colas de mononucleótidos, pero no para otros microsatélites de orden superior (GurArie et al. 2000; Metzgar et al. 2001). La explicación que proporciona este estudio es que las poblaciones de E. coli son capaces de estabilizar las colas de motivos superiores a 1nt, gracias a un eficiente sistema de reparación. Este límite a la expansión estaría dirigido por selección contra un incremento en la variabilidad, la repetibilidad o el aumento del tamaño genómico. Sin embargo, nosotros encontramos polimorfismo entre cepas no sólo para colas de mononucleótidos, sino también para di, trinucleótidos, e incluso para el minisatélite hallado. Además, estos trabajos no detectan colas de mononucleótidos superiores a los 9 nucleótidos en la región analizada y nosotros llegamos a detectar una cola de hasta 10 adeninas. De modo que la variabilidad intrapoblacional asociada a estas repeticiones es mayor en B. floridanus que en E. coli. Los principales genes implicados en la reparación de las bases mal alineadas son algunos de los que constituyen el sistema mutSHL. Este sistema está ausente en B. floridanus y en B. aphidicola, aunque intacto en BBp, está degradado en BAp y BSg dada la pérdida de la nucleasa MutH. El polimorfismo asociado a los microsatélites de B. floridanus de diferentes colonias de hormigas podría reflejar por tanto deficiencias en los sistemas de reparación asociados con la replicación en B. floridanus. De hecho, se ha comprobado que el sistema de reparación de pares de bases mal alineadas es crucial para la estabilidad de los microsatélites, de modo que las tasas de mutación en microsatélites en procariotas y eucariotas con deficiencias en los sistemas de reparación se incrementan en varios órdenes de magnitud (Levinson y Gutman, 1987; Strand et al. 1993; Sia et al. 1997). Este hecho 186 ......................................................................................................................Resultados y discusión explicaría también la mayor abundancia de pequeñas repeticiones en tándem en los genomas de estos endosimbiontes respecto a E. coli. Por otro lado, nuestros resultados confirman, al igual que se ha mostrado previamente en E. coli (Gur-Arie et al. 2000), que existe un sesgo en la composición de microsatélites hacia AT. Esto es debido a que el deslizamiento es más probable en colas de A y T, dado que la separación de hebras de A y T es más fácil que la de colas de G y C. Por la misma razón, el deslizamiento de la polimerasa es más probable en colas de mononucleótidos que en otras repeticiones de orden superior, lo que explicaría que sean los microsatélites más abundantes. Dado que el contenido en AT asociado a los genomas endosimbiontes analizados incrementa seguramente la probabilidad de aparición de colas de mononucleótidos de adenina y timina, éstas promueven el deslizamiento, la frecuencia y polimorfismo asociado a las repeticiones en tándem, que es por tanto, superior en B. aphidicola y en B. floridanus. Respecto al mecanismo responsable de los indels en microsatélites, estudios previos llevados a cabo en E. coli muestran que la variación en el número de copias de repeticiones en tándem poco o nada tiene que ver con RecA (Lovett et al. 1994). Nuestro estudio confirma este hallazgo, dado que B. floridanus carece de recA, y sin embargo hemos detectado numerosos microsatélites en su genoma. De hecho, es el deslizamiento de la polimerasa el principal mecanismo implicado en la variación en el número de copias de un microsatélite (Ellegren, 2004). De modo que podemos afirmar que este mecanismo juega un importante papel en la generación de indels en B. floridanus, dada la abundancia de repeticiones en tándem halladas. Otro argumento a favor del deslizamiento de la polimerasa como principal mecanismo en estos casos es el hecho de que los microsatélites a menudo evolucionan por mutaciones que implican cambios de más de una unidad de repetición, lo cual es compatible con este mecanismo y no con otros. De hecho, en la muestra de datos que nosotros analizamos hemos detectado 187 ………………………………………………………………………………………….Capítulo 5 varios indels que se han generado por aumento o disminución de varias unidades de repetición simultáneamente. En cuanto al minisatélite detectado, pensamos que el origen del mismo está más relacionado con la recombinación (Berg et al. 2003), a diferencia de lo que ocurre con los microsatélites. Luego la presencia del mismo es un indicador de que otros mecanismos, además del deslizamiento de la polimerasa, actúan en la generación de indels en B. floridanus, al igual que ocurre en B. aphidicola. Éstos han de ser mecanismos de recombinación ilegítima, que pueden ser a su vez los responsables de las deleciones de mayor tamaño halladas, como hemos postulado previamente. Respecto al sesgo en las mutaciones producidas en secuencias microsatélites, en principio se espera que la tasa de mutación de microsatélites esté sesgada hacia las inserciones por dos razones: en primer lugar, los bucles desplazados son más fácilmente introducidos en la hebra recién sintetizada (Ellegren, 2004) y los bucles en dicha hebra dan lugar a inserciones; y en segundo lugar, la reparación es más eficiente en la hebra molde que en la naciente (Sia et al. 1997). Esto sería congruente con nuestros datos, dado que en nuestro caso si sólo tenemos en cuenta los microsatélites, las inserciones son más abundantes que las deleciones (19 frente a 12) incluso cuando no tenemos en cuenta los casos ambigüos (15 frente a 10 en este caso), aunque el tamaño muestral no es significativo. Mientras en eucariotas los estudios indican sesgo hacia las inserciones o ausencia de sesgo en la evolución de los microsatélites (Jones et al. 1999; Kaiser et al. 2000; Ellegren 2000; Xu et al. 2000; Hard y Schlotterer, 2000), en procariotas, sin embargo, predomina el sesgo hacia las deleciones (Morel et al. 1998; De Bolle et al. 2000; Metzgar et al. 2002), aunque hasta ahora los estudios sólo se han llevado a cabo sobre tres especies bacterianas. En uno de estos estudios (Metzgar et al. 2002), analizan las mutaciones en microsatélites en ausencia de selección natural en un microsatélite de Mycoplasma gallisepticum perteneciente a un locus de contingencia. El resultado es un sesgo hacia la deleción, que confirma 188 ......................................................................................................................Resultados y discusión similares resultados obtenidos en E. coli y en H. influenzae. Los autores además, confirman que se trata de un sesgo mutacional y no resultado de selección. No obstante, argumentan que este sesgo puede ser el resultado de una selección de segundo orden. De acuerdo con ésta, selección recurrente actuando diferencialmente sobre los productos resultantes de mecanismos mutacionales puede dar lugar a presión selectiva sobre los propios mecanismos, puesto que los genes que regulan a éstos están unidos a los genes directamente seleccionados sobre los que ellos actúan (Weber, 1996); (Metzgar y Wills, 2000). La selección de segundo orden puede actuar efectivamente en organismos asexuales como bacterias, ya que la asexualidad permite el mantenimiento a largo plazo de la unión entre los productos directamente seleccionados de la mutación y los mecanismos mutacionales que son responsables de su existencia (Metzgar et al. 2002). De modo que, en linajes clonales bajo selección a favor de una disminución en la longitud de los microsatélites, se espera que la selección de segundo orden actúe a favor de un sesgo delecional o a favor de bajas tasas de mutación. Esto explicaría la ausencia de los mismos en genomas procariotas, dado que tienden a la extinción. Este sesgo además, no está al parecer relacionado con los sistemas de reparación dado que la especie implicada en el estudio descrito, Mycoplasma gallispeticum, carece del mismo. Sin embargo, nuestros resultados no confirman este sesgo en el caso de los indels generados desde repeticiones en tándem, ni en cuanto al número de eventos ni en cuanto al tamaño de los mismos. Una primera explicación a este hecho es haber direccionado mal los cambios asociados a microsatélites, dado que la alta tasa de variabilidad asociada a los mismos los hace hipermutables y por tanto muy susceptibles de homoplasia. Su valor filogenético es por tanto escaso, a menos que trabajemos con cepas estrechamente emparentadas. En nuestro caso, la proximidad de las cepas, y el hecho de que la mayor parte de microsatélites se resuelvan sin ambigüedades siguiendo un criterio de parsimonia permite descartar un elevado nivel de homoplasia para el nivel de divergencia en el que trabajamos. 189 ………………………………………………………………………………………….Capítulo 5 Si la tendencia a la deleción en los microsatélites procariotas es consecuencia de selección contra la expansión de los mismos, tal y como afirma Metzgar (Metzgar et al. 2002), la ausencia de este sesgo en B. floridanus podría reflejar la baja eficiencia de la selección asociada a endosimbiontes. De hecho, la selección actuando contra la expansión de los microsatélites tendría un coste considerable, dado que los sitios con repeticiones son numerosos y sus tasas de mutación elevadas (Metzgar et al. 2001) y además actuaría contra incrementos del tamaño genómico muy pequeños, la mayor parte de los cuales tendrán un escaso efecto fenotípico. En el caso de endosimbiontes, la fuerza de la selección está reducida, debido al escaso tamaño poblacional y los sucesivos cuellos de botella a los que se ve sometida la población, por lo que es difícil pensar que la selección pueda ser eficaz actuando sobre cambios tan pequeños. Sin embargo, la fuerza de la selección no necesita ser tan elevada a medida que el tamaño de los indels sea superior y generen cambios más notables en el tamaño genómico. Nosotros argumentamos por tanto, que en el caso de los endosimbiontes, si existe una selección a favor de un reducido tamaño genómico, ésta actúa eficazmente sólo sobre indels de un tamaño considerable, al menos superior al tamaño asociado a los microsatélites (1-5 nucleótidos). Ello explicaría que los indels de mayor tamaño detectados siempre sean deleciones, dado que los mecanismos que pueden dar lugar a éstos, en principio pueden dar lugar tanto a una deleción como a una inserción. Sin embargo, en las bacterias de vida libre, la selección sí puede probablemente actuar más eficazmente contra la expansión de microsatélites. Esta falta de eficacia selectiva en B. floridanus impediría la estabilización de microsatélites, que es esperable tiendan a la expansión, tal y como ocurre en eucariotas, únicamente por la termodinámica asociada al proceso. En cualquier caso, si existe un sesgo hacia la deleción, al menos para deleciones de mayor tamaño (superiores a 50 nucleótidos), éstas acabarán afectando a elementos repetidos, incluidos los microsatélites, especialmente a los de mayor tamaño, que por lo tanto acabarán 190 ......................................................................................................................Resultados y discusión desapareciendo del genoma. No obstante, tampoco podemos descartar que el sesgo asociado a los microsatélites varíe entre especies, o que las muestras estudiadas sean escasas para determinar inequívocamente la dirección del sesgo direccional. Por ejemplo en el estudio de Metzgar y colaboradores (2002) es analizado un único microsatélite, mientras que en nuestro caso el número de microsatélites es superior, pero la cantidad de cepas estudiadas es menor. 5.4.4 Calibrado del reloj molecular La elevada proximidad entre las secuencias de B. floridanus escogidas, en comparación con las secuencias de B. rufipes, impide que las estimas de divergencia entre C. floridanus - C. rufipes y entre las diferentes colonias de C. floridanus, puedan llevarse a cabo a partir de la misma secuencia nucleotídica. El diferente grado de variabilidad hallado a nivel intra e interespecífico, asociado a tiempos de divergencia muy diferentes, hace necesario el empleo de secuencias con tasas de evolución distintas para cada caso. En este caso, tal y como se describe en Hedges y Kumar (2004), tras calibrar los tiempos de divergencia de una filogenia en base a uno o más nodos datados por registro fósil u otras aproximaciones, cualquier punto del árbol puede emplearse entonces como punto secundario de calibrado. La estima por tanto de los tiempos de separación entre las diferentes cepas de C. floridanus requiere un proceso en dos pasos, en el que tras obtener la estima entre C. floridanus y C. rufipes, ésta se emplea como punto de calibrado secundario para inferir el momento de la divergencia entre las cepas de C. floridanus. El empleo de puntos de calibrado secundario es más recomendable que llevar a cabo largas extrapolaciones desde secuencias con muy diferentes rangos de divergencia, dado que entonces puede amplificarse cualquier sesgo existente en los tiempos asociados. De hecho, se ha mostrado en diversos estudios (Kumar y Hedges, 1998; Wang et al. 1999; Hedges y Kumar, 2004) como el uso de puntos de calibrado secundarios mejora la precisión de las estimas. 191 ………………………………………………………………………………………….Capítulo 5 a) Estima de la divergencia entre C. floridanus y C. rufipes En el caso de Blochmannia, aunque también muestra coevolución con su hospedador, hormigas del género Camponotus, no existe un registro fósil asociado al mismo y que pueda por tanto aplicarse a la bacteria. La única datación sobre el género ha sido inferida a partir de la divergencia entre las subfamilias Formicinae y Myrmicinae, estimada en 90-110 m.a. de acuerdo con el registro fósil (Grimaldi y Agosti, 2000). A partir de esta fecha, Degnan y colaboradores (Degnan et al. 2004) estimaron que el ancestro de numerosas especies del género Camponotus tiene una edad comprendida entre los 16,2 y los 19,9 m.a. Para realizar este cálculo, los autores trabajaron con las secuencias mitocondriales de Camponotus que codifican la subunidad I de la citocromo oxidasa (COI). Este gen es ampliamente empleado, dado que sus propiedades evolutivas y estructurales son bien conocidas (Lunt et al. 1996) y porque es útil para estudios similares en otros insectos (Caterino y Sperling, 1999). Entre las secuencias utilizadas en el estudio de Degnan et al. (2004) se hallan las de Camponotus rufipes y pennsylvanicus, ambas pertenecientes a dos clados diferentes que divergen a partir del ancestro cuya edad estimada es 16,2-19,9 m.a. (figura 5.26). 192 ......................................................................................................................Resultados y discusión Figura 5.26. Filogenia basada en las secuencias de COI para estimar tasas absolutas de evolución de las secuencias y tiempos de divergencia dentro de Formicinae (Degnan et al. 2004). Los cálculos fueron llevados a cabo mediante el empleo del programa r8s (Sanderson, 2003). Basándose en esta constricción se han datado los nodos correspondientes al ancestro común de todas las hormigas asociadas con “Candidatus Blochmannia” y el nodo basal de todas las especies de Camponotus muestreadas. Diversos taxones no pertenecientes al grupo Formicinae fueron incluidos en el análisis para enraizar el árbol: Leptothorax recedens (AF096117), Crematogaster recedens (AF096117), Crematogaster borneensis (AB030558), Myzinum sp. (AF142546/af142535), Dasymutilla sp. (AF142541/AF142531) y Polistes tenebricosus (AF142550/AF142539). Aprovechando por tanto las secuencias obtenidas por Degnan y colaboradores, y su estima del tiempo de separación entre C. rufipes y C. pennsylvanicus, en primer lugar llevamos a cabo una estimación de la divergencia entre C. rufipes y C. floridanus. Para ello obtuvimos las secuencias mitocondriales de las subunidades COI y COII de C. rufipes. La subunidad II era amplificada en el trabajo de Degnan et al. (2004) en las especies con las que trabajaban, aunque no se utilizaba para las estimas posteriores. Nosotros decidimos, por tanto, obtener ambas subunidades en C. rufipes con el fin de calibrar el reloj a partir de ambos grupos de secuencias, 193 ………………………………………………………………………………………….Capítulo 5 para ver si se obtenía un resultado similar, lo que daría un mayor apoyo a los resultados. En el caso de COII se obtuvo la secuencia completa de dicho gen en C. rufipes, mientras que en el caso de COI parte del inicio de la secuencia fue eliminada debido a indeterminaciones no resueltas. En ambos casos las secuencia de nucleótidos de C. rufipes, C. floridanus y C. pennsylvanicus (las secuencias de estas dos últimas especies obtenidas a partir del trabajo citado) fueron alineadas en base a la secuencia de aminoácidos. La longitud final de los alineamientos de COI y COII fue de 1101 y 549 nucleótidos, respectivamente. La filogenia de las especies obtenida se muestra en la figura 5.27. a) CFloCOI CRufACOI CPennCOI 0.02 b) CFloCOII CRufACOII CPennCOII 0.02 Figura 5.27. Árbol filogenético de las especies Camponotus floridanus, C. rufipes y C. pennsylvaniccus. a) Empleando la secuencia de las subunidad I de la citocromo oxidasa (COI) del género Camponotus. b) Empleando la subunidad II (COII) de la citocromo oxidasa. Tal y como esperamos, C. floridanus y C. rufipes se hallan más próximas entre sí que con C. pennsylvanicus. Estos resultados están en concordancia con estudios previos (Sauer et al., 2000; Degnan et al. 2004), en base a los cuales los árboles fueron enraizados en C. pennsylvanicus. Una vez conocida la topología se calculó la verosimilitud del árbol forzando y sin forzar reloj. Los resultados para COI fueron –ln L = 2477,01065 (sin forzar reloj) y –ln L = 2478,64792 (forzando reloj), de modo que la hipótesis del reloj no puede ser rechazada. En el caso de COII los 194 ......................................................................................................................Resultados y discusión valores obtenidos fueron –ln L = 1283,10578 (sin forzar reloj) y –ln L = 1285,64908 (forzando reloj), de modo que la hipótesis del reloj era rechazada. En base por tanto a los resultados obtenidos, únicamente COI podía ser empleada para estimar tiempos de divergencia asumiendo una tasa constante de cambio. Por tanto, dado que podemos asumir que la secuencia de COI evoluciona con una tasa constante en las especies empleadas, procedimos a la datación de dichas especies asumiendo reloj. El programa empleado para la datación en este caso fue el mismo utilizado por Degnan et al. (2004): r8s (Sanderson, 2003). Este programa implementa diversos métodos para el cálculo de tiempos de divergencia a partir de, al menos un punto de calibrado. Estos métodos abarcan desde los más ampliamente conocidos de máxima verosimilitud, tanto para relojes globales como locales, hasta métodos más experimentales semiparamétricos y no paramétricos que relajan la asunción del reloj. En nuestro caso, dado que las secuencias empleadas cumplen reloj aplicamos un método paramétrico, el método de Langley-Fitch (Langley y Fitch, 1974) que utiliza máxima verosimilitud para obtener los tiempos de divergencia bajo la asunción del reloj molecular. Este método estima una tasa de sustitución para el árbol completo y un grupo de tiempos de divergencia para todos los nodos no fijados. El criterio de optimización es la verosimilitud de la longitud de ramas. Este programa requiere como entrada el árbol de las especies con la longitud de ramas del mismo. Este árbol ha de estar enraizado, de no ser así, el árbol posee una tricotomía basal que refleja la ambigüedad asociada al hecho de que no exista un grupo más distante. Si el programa detecta esta tricotomía basal, asume que es una “tricotomía dura” (por ejemplo, un nodo trifurcado resultante de un triple evento de especiación) y actúa acorde con ello. El problema es que si intentamos convertir la tricotomía basal en una dicotomía, algunos programas como PAUP crean un nuevo nodo raíz, a partir del cual hay que decidir como dividir la última rama. Si dejamos al programa que lo haga, PAUP decide arbitrariamente darle toda la longitud a la rama 195 ………………………………………………………………………………………….Capítulo 5 que conduce del nodo basal al grupo externo, y al resto le da una longitud cero. Esta solución no es por tanto recomendable, de modo que hay dos opciones más: enraizar arbitrariamente o emplear la información de un grupo externo adicional. Esta última solución es la metodología recomendada en el manual del programa. De modo que para poder tener un criterio que permita a PAUP enraizar de manera no arbitraria, se incorporó la secuencia de COI de un grupo externo adicional. La especie escogida fue Formica fusca, cuya secuencia se haya disponible en el trabajo mencionado. Una vez incorporada la secuencia de F. fusca se llevó a cabo la reconstrucción filogenética por likelihood, con los mismos resultados previamente obtenidos. A partir de este árbol con la correspondiente longitud de las ramas, se estimó el tiempo de divergencia entre C. rufipes y C. floridanus en 8,76-10,77 m.a. (ver figura 5.28). Aunque en nuestro caso las secuencias cumplían reloj, llevamos a cabo también la estima de los tiempos permitiendo que las tasas variaran entre linajes. En este caso, la edad asociada al mismo nodo oscilaba entre 9,5711,71, rango que solapa con nuestro resultado y que muestra que aún reduciendo las astringencias asociadas a la estimación de los tiempos, los resultados siguen siendo similares. En el caso de las secuencias de COII el reloj era rechazado de modo que no pudimos emplear estos datos para calibrar. b) Estima del tiempo de divergencia entre las diferentes cepas de C. floridanus Dada la elevada proximidad de las diferentes cepas de C. floridanus, las secuencias mitocondriales de la citocromo oxidasa no pueden emplearse para calibrar la divergencia entre la mismas, debido a su elevado grado de conservación. De igual modo, las regiones codificantes tendrán una variabilidad escasa o nula para servir como fuente de información que permita inferir los tiempos de separación a partir de las mutaciones. Sin embargo, el concatenado resultante de todas las regiones intergénicas obtenidas con el fin de detectar indels muestra un grado de variabilidad que permite un alineamiento fiable, al mismo tiempo que proporciona un número 196 ......................................................................................................................Resultados y discusión suficiente de cambios para inferir los tiempos de separación. Además, cuando las divergencias no son demasiado grandes, los sitios neutrales se espera que evolucionen a la misma tasa, constante entre linajes a lo largo del tiempo y entre regiones del genoma. Esto es porque las tasas absolutas de sustitución neutras sólo se ven afectadas por la tasa de mutación y el tiempo de generación y no por variación en el tamaño poblacional o por restricciones selectivas específicas de sitio (Kimura, 1968). A partir de la topología obtenida previamente y de todas las regiones intergénicas concatenadas, llevamos a cabo el cálculo de la verosimilitud forzando y sin forzar reloj. Los resultados fueron –ln L (sin forzar reloj) = 10340,86698 y -ln L (forzando reloj) = 10352,49858. Con estos valores la hipótesis del reloj era rechazada. Los test de tasas relativas mostraron una ligera aceleración en la rama que conduce a la cepa CFloC10. Eliminando ésta, el reloj no podía ser rechazado y los valores obtenidos eran –lnL (sin forzar reloj) = 10258,25696 y –lnL (forzando reloj) = 10264,92475. La datación de las especies se hizo, por tanto, sin incluir a CFloC10, también mediante el programa r8s. La carencia en este caso de un grupo externo adicional que permitiera enraizar a C. rufipes objetivamente, nos obligó a decidir el modo de enraizar. Dado que las secuencias de CFlo y CRufA evolucionan a tasas constantes para las secuencias de COI y que en este caso trabajamos con secuencias neutras, asumimos que podemos situar la raíz de CRuf en un punto medio. Los resultados de la datación, en este caso partiendo de las estimas de divergencia obtenidas para la separación entre CRuf y el clado CFlo (8,76-10,77), se muestran en la figura 5.28. 197 ………………………………………………………………………………………….Capítulo 5 CRufA . CFloC96 . A C CFloC236 . CFloC308 . B CFloC2 . D CFloC51 . E CFloC3 . CFloC10 . F G CFloC1 . CFloC316 . Nodo Tiempo promedio (m.a) A 9,77 B 0,21 C 0,055 0,12 D E 0,06 F 0,02 G 0,01 Límite inferior (m.a) 8,76 0,19 0,05 0,11 0,05 0,02 0,01 Límite superior (m.a) 10,77 0,23 0,06 0,13 0,07 0,02 0,01 Figura 5.28. Datación de los eventos de divergencia entre las especies empleadas en base a las secuencias de la subunidad I de la citocromo oxidasa y en base a las regiones intergénicas estudiadas concatenadas. Independientemente del empleo del límite inferior o superior asociado al nodo B, la escasa divergencia asociada a las secuencias más recientes de CFlo da lugar a una misma datación (límite inferior = límite superior) en los nodos más recientes. 5.4.5 Tasas de indels y de sustitución nucleotídica Al igual que en el caso de B. aphidicola, una vez conocidos los tiempos asignados a cada rama del árbol filogenético y los eventos localizados en éstas, es posible estimar tasas respecto al tiempo transcurrido. a) Sustituciones 198 ......................................................................................................................Resultados y discusión Para calcular la tasa de sustitución, únicamente necesitamos conocer el número de sustituciones que se han dado en las regiones intergénicas, la longitud de la secuencia contemplada y el tiempo en el que se han dado dichos sucesos. En nuestro caso, las 16 regiones intergénicas concatenadas implicaban un alineamiento total de 5678 nucleótidos, que contenía un total de 81 sustituciones nucleotídicas acumuladas en un intervalo medio de tiempo de 740.000 años. De estas 81 hemos podido localizar sobre la filogenia 72 cambios, por lo que no es necesario aplicar un modelo para el cálculo de las sustituciones por sitio como hicimos para B. aphidicola. No obstante, nosotros calculamos la tasa de sustitución nucleotídica directamente con las sustituciones que habíamos podido localizar e, indirectamente, aplicando un modelo de evolución (K2P) para conocer las sustituciones por sitio en cada rama. La rama de CFloC10 no se tuvo en cuenta en ningún caso, dado que está sujeta a aceleración y el tiempo de divergencia de la misma no pudo ser estimado. La tasa de sustituciones obtenida en ambos casos fue muy similar, entre 1,5 x 10-8 y 1,8 x 10-8 sustituciones por sitio y año. Esta tasa es congruente con estimas previas basadas en sitios sinónimos de diversos genes según las cuales la tasa de sustitución sinónima en Blochmannia oscila entre 1,3 x 10-7 y 8,5 x 10-8 sustituciones por sitio y año (Degnan et al. 2004). Al igual que ocurría con las estimas obtenidas en el trabajo de Degnan y colaboradores, la tasa que nosotros obtenemos es superior a la obtenida para B. aphidicola, lo que es congruente con la mayor tasa descrita también para el 16S rDNA en Blochmannia en comparación con bacterias entéricas y también con B. aphidicola (Degnan et al. 2004). Estos resultados han llevado a sugerir que B. floridanus aparentemente posee tasas absolutas superiores no sólo a E. coli sino también a B. aphidicola (Degnan 2004), lo que es congruente con los resultados que nosotros obtenemos. Estas mayores tasas de sustitución, descritas también para otros endosimbiontes, se asocian con la mayor deriva a la que están sometidos estos organismos, dada su estructura poblacional, así como con la pérdida de elementos implicados en la 199 ………………………………………………………………………………………….Capítulo 5 reparación del DNA, que también ha sido descrita en Blochmannia (Gil et al. 2003; Degnan et al. 2005). b) Indels En el caso de los indels, calculamos la tasa aplicando el método de Saitou (Saitou y Ueda, 1994), descrito previamente. En este caso, la longitud del alineamiento considerada fue de 5.254,3 nucleótidos dado que la región intergénica entre manX-manY no se tuvo en cuenta, puesto que los indels de dicha región no podían resolverse. Tampoco en este caso la rama de CFlo10 se incluyó en los cálculos. Las tasas obtenidas de deleciones e inserciones por sitio y año fueron: 5,1 x 10-9 y 5,9 x 10-9, respectivamente. Una vez conocido el ritmo al que se suceden los eventos mutacionales que introducen o extraen DNA del genoma, considerando la cantidad de nucleótidos contenida en estos eventos, podemos calcular las tasas de pérdida y ganancia de DNA. En nuestro caso la tasa de pérdida es de 3,1 x 10-8 nucleótidos perdidos por sitio y año frente a una tasa de ganancia de 8,8 x 10-9 nucleótidos ganados por sitio y año. Puesto que la tasa de pérdida de DNA es superior a la tasa de ganancia, el balance de ambos eventos da como resultado una tasa global de pérdida de DNA con valor de 2,2 x 10-8 nucleótidos perdidos por sitio y por año. Al igual que vimos en B. aphidicola este sesgo es consecuencia, no de un mayor número de eventos de deleción, dado que el ritmo al que se suceden inserciones y deleciones es muy similar, sino al tamaño superior de los eventos de deleción frente a los eventos de inserción tal y como se ha descrito para otros organismos (Bensasson et al. 2001); (Andersson y Andersson, 2001). Esta diferencia de tamaño es además consecuencia de escasos eventos de deleción de un tamaño superior a la media. La tasa de pérdida obtenida es del orden de la calculada en B. aphidicola cuando tenemos en cuenta la gran deleción, pese a que los eventos evolutivos estudiados en B. floridanus son aún más recientes. Además, la tasa de B. floridanus es casi el doble que la de B. aphidicola, de modo que la mayor aceleración de tasas en B. floridanus descrita respecto a las 200 ......................................................................................................................Resultados y discusión sustituciones es posible que se dé también respecto a los eventos de inserción/deleción. Además, Blochmannia se haya probablemente en un estadio ligeramente más temprano de degradación que B. aphidicola, dada su más temprana coespeciación con el hospedador y su genoma de mayor tamaño (706-809 Kb), (Gil et al. 2003; Degnan et al. 2005), lo que puede explicar una tasa de pérdida mayor. Al igual que en el caso de Buchnera, las tasas descritas se corresponden con las tasas mutacionales, a menos que exista una selección a favor de un tamaño genómico reducido. Blochmannia no ha sido descrita como poliploide, por lo que en este caso no podemos hablar de una competencia genómica intracelular, en la que los genomas aún ligeramente más pequeños podrían tener una ventaja selectiva dada su mayor velocidad de replicación, aunque tampoco podemos descartarla. Nuestros resultados confirman el sesgo hacia las deleciones, descrito previamente para otros organismos, tanto procariotas como ecuariotas (Andersson y Andersson, 1999, 2001; Moran y Mira, 2001; Wernegreen, 2002; Ophir y Graur, 1997; Petrov y Hartl, 1998). La diferencia de nuestro estudio respecto a otros es que permite calcular tasas respecto al tiempo y no respecto a las sustituciones nucleotídicas y por lo tanto, conocer el ritmo rápido o lento al que se suceden los eventos evolutivos y llevar a cabo la comparación entre especies. Hasta el momento, dentro de las bacterias intracelulares, sólo en el patógeno Rickettsia se había llevado a cabo un estudio detallado de las inserciones/deleciones, que puso de manifiesto un sesgo hacia la deleción. Nuestro trabajo amplia el conocimiento del proceso de degradación génica con dos simbiontes: B. aphidicola y B. floridanus. A diferencia de éstos, Rickettsia se haya en un estado más temprano de degradación dado su mayor tamaño genómico, cantidad de pseudogenes, proporción de DNA no codificante, presencia de recA y repeticiones, etc. (Andersson, 1998). Nuestro estudio se centra por tanto, en el estudio de los estadios más avanzados de la reducción, a fin de conocer el ritmo de pérdida en las últimas etapas, mostrando que aún en un avanzado estado de desintegración la tasa de 201 ………………………………………………………………………………………….Capítulo 5 pérdida continúa siendo relevante y puede estar conducida por fuerzas selectivas. Además, la detección de abundantes repeticiones en tándem, debido al sesgo en la composición de estos genomas y a la ausencia de sistemas de reparación, que impiden la aparición o expansión de las mismas, proporciona las potenciales fuentes de los mecanismos de recombinación ilegítima que dirigen la reducción en esta etapa y aumentan su dinámica a pequeña escala. 202 6. Las etapas iniciales de la evolución reductiva en M. leprae 203 204 ……………………………………………………………………………….Introducción 6.1 INTRODUCCIÓN 6.1.1 Las primeras etapas de la evolución reductiva Los patógenos intracelulares obligados y los endosimbiontes poseen frecuentemente genomas de pequeño tamaño. El reducido tamaño de los mismos es consecuencia del paso de un estadio de vida libre a un ambiente intracelular, que conlleva a la pérdida masiva de genes. Al tener lugar esta transición, la redundancia de genes con el hospedador y el ambiente intracelular estable llevan a una disminución de la presión de selección sobre numerosos genes, que a partir de ese momento pueden perderse. En este primer estadio, tiene por tanto lugar la acumulación de pseudogenes. A partir de este momento, estos pseudogenes se ven sometidos a un proceso de degradación y pérdida, que tiene como resultado final una drástica reducción del tamaño genómico. Aunque estas características generales de la reducción en fases tempranas son claramente bien conocidas, numerosas cuestiones acerca de las fuerzas y la dinámica que dirigen el proceso en las primeras etapas están aún por resolver. Es sabido que la reducción genómica que se da en estas bacterias es el resultado de un sesgo hacia las deleciones (Andersson y Andersson, 1999, 2001; Petrov et al. 2000; Wernegreen, 2000; Mira et al. 2001). Sin embargo, existe controversia acerca de la naturaleza de estas deleciones. Inicialmente se postuló que la rápida acumulación temprana de pseudogenes permitiría grandes deleciones en estadios iniciales (Moran y Mira, 2001), que se extenderían decenas de loci. Pero poco a poco la cantidad de material que puede perderse sería menor. Además, la pérdida de material acabaría afectando a elementos implicados en recombinación o secuencias repetidas (Frank et al. 2002), que son precisamente los que permiten actuar a los mecanismos de pérdida. De modo que el proceso acabaría quedando relegado a eventos de muy pequeño tamaño. En concordancia con estas hipótesis está el hallazgo de grandes zonas delecionadas en genomas secuenciados de patógenos intracelulares cuando se comparan con especies filogenéticamente 205 …………………………………………………………...............................................…Capítulo 6 muy cercanas. Por ejemplo, la comparación de diferentes clones de M. tuberculosis ha permitido detectar variabilidad a nivel de deleciones que en algunos casos superan las 10.000 pares de bases y comprenden hasta 16 pautas abiertas de lectura (Kato-Maeda et al. 2001). No obstante, este tipo de hallazgos sólo ponen de manifiesto una pérdida sustancial de nucleótidos a la que puede llegarse tanto a través de eventos de gran tamaño, como a través de la acumulación de numerosas deleciones de pocos nucleótidos. Un trabajo posterior (Nilsson et al. 2005), en el que se analiza la reducción del genoma en S. enterica mediante una serie de pases experimentales, sí demuestra que en breves periodos de tiempo pueden llegar a producirse deleciones de gran tamaño (de hasta 202 Kb). Puesto que en el genoma de esta bacteria están todos los genes que se hallan presentes en genomas altamente reducidos como son los de Blochmannia, Buchnera o Wigglesworthia, se postula que es similar al genoma ancestral de estas especies y que por tanto, puede reflejar los eventos acontecidos durante las fases iniciales de la degradación génica de estos endosimbiontes (Ochman, 2005). Frente a los estudios que postulan grandes deleciones en estadios iniciales, diversos trabajos han demostrado la pérdida gradual de genes por eventos de pequeño tamaño (Andersson et al. 1998; Andersson y Andersson 1999) y cómo la pérdida gen a gen ha podido jugar un papel crucial en las primeras etapas de la evolución reductiva (Silva et al. 2001; Dagan et al. 2006). A favor de esta postura está el hallazgo de abundantes pseudogenes esparcidos por todo el genoma en numerosos patógenos recientemente secuenciados (Cole et al. 2001; Parkhill et al. 2001; Jin et al. 2002; Lerat y Ochman, 2004, 2005). El proceso de pérdida gen a gen y el proceso de pérdida a través de grandes deleciones no tienen por qué ser excluyentes, pero es posible que uno de los dos sea el que principalmente dirija la reducción drástica de los 206 ……………………………………………………………………………….Introducción genomas en las etapas iniciales. Aunque la importancia relativa de estos procesos puede también estar sujeta a variación según linajes. 6.1.2 El potencial de pérdida El primer paso de la degradación de un genoma es la pérdida de funciones génicas, que puede darse a través de sustituciones o inserciones/deleciones. Esta pérdida es debida a que a partir del momento en el que se establece una relación con el hospedador, la redundancia de información genética con éste y el ambiente relativamente estable convierten a muchos genes de la bacteria en genes no esenciales. El grupo de genes que pasa a formar parte del potencial repertorio de pérdida depende en gran medida de los requerimientos en el nuevo ambiente intracelular. Los genes que se inactivan inicialmente pueden además definir el contenido final, dado que pueden imponer restricciones a las pérdidas posteriores. El proceso por tanto puede ser la consecuencia de la inactivación inicial al azar de unos pocos genes. Este proceso puede tener lugar al azar, aunque también se ha sugerido la idea de un efecto de arrastre o cascada en el proceso de pérdida de genes. En este principio se basa la denominada “teoría del efecto dominó” según la cuál, cuando un gen que interacciona con otros en sus funciones se inactiva, produce un efecto de arrastre que lleva a la inactivación del resto de genes relacionados (Dagan et al. 2006). Este proceso en cascada ha sido propuesto por Babu (2003) para explicar la aparición de pseudogenes en M. leprae. De acuerdo con el trabajo de Babu, la pérdida de factores sigma puede ser la responsable de esta acumulación de pseudogenes. Los factores sigma son proteínas que se unen al promotor de la RNA polimerasa confiriéndole especificidad, de modo que cada factor sigma controla la expresión de un conjunto discreto de genes en respuesta a varios estímulos fisiológicos y ambientales (Lewin, 1998). Babu propone un modelo en dos pasos, según el cual la inactivación de los factores SigH y SigJ en diferentes momentos ha dado lugar al surgimiento de numerosos pseudogenes que están 207 …………………………………………………………...............................................…Capítulo 6 bajo el control de dichos factores. Las diferencias esperadas en la edad de ambos grupos de pseudogenes se calculan a través de la distinta densidad de codones de paro acumulados en los mismos y concuerda a su vez con la densidad hallada en los genes de los factores sigma citados. Según este modelo, la pérdida de factores sigma desencadena la formación de pseudogenes, lo que a su vez conlleva a una restricción de las condiciones ambientales y de estrés bajo las que el patógeno puede sobrevivir. Otro ejemplo de este efecto dominó propuesto para M. leprae está relacionado con la pérdida de los genes devR y devS, que están implicados en la respuesta a la hipoxia (Saini et al. 2004), pues casi el 70% de los genes implicados en esta respuesta son pseudogenes o se han perdido completamente. De hecho, en este artículo proponen que esta pérdida está a su vez relacionada con la pérdida de factores sigma, aunque no es posible determinar si ésta precede a la primera o viceversa. El efecto dominó puede verse también reflejado en la degradación completa de todos los genes que se agrupan en un mismo operón. Esta agrupación obedece a una regulación común dado que dichos genes participan en una misma ruta metabólica. La pérdida de operones completos, como el operón de la NADH oxidasa en Mycobacterium leprae es otro de los argumentos a favor de una pérdida en cascada (Wixon, 2001). Para caracterizar la pérdida de genes en estadios tempranos es necesario trabajar con genomas que se encuentren en fases iniciales del proceso de reducción y que posean especies filogenéticamente emparentadas, cuya secuencia genómica esté disponible. 6.1.3 Genomas en estadios iniciales del proceso de reducción Aunque tanto patógenos como endosimbiontes muestran un claro paralelismo en la respuesta genética que tiene lugar al establecer la relación con su correspondiente hospedador, también existen diferencias. Así, mientras en los 208 ……………………………………………………………………………….Introducción endosimbiontes parte de la información genética que albergan es más beneficiosa para el hospedador que para la propia bacteria, los patógenos poseen numerosos genes cuya función es intervenir en las interacciones celulares y en los mecanismos antigénicos (Ochman y Moran, 2001). Los patógenos facultativos o recientes, representan la fase inicial del proceso de reducción (Ochman y Davalos, 2006). Poseen un tamaño poblacional efectivo inferior al de las bacterias de vida libre, pero no tan pequeño como en el caso de patógenos o endosimbiontes obligados. Así mismo, poseen una serie de hechos que no están presentes ni en las bacterias de vida libre ni en aquéllas que se hallan en un avanzado estado de reducción genómica: numerosos pseudogenes, elementos genéticos egoístas y una organización genómica inestable. Ejemplos de patógenos que se encuentran en este estadio inicial de degradación son Borrelia burgdorferi con un 24% de su genoma formado por genes inactivos (Fraser et al. 1997), Rickettsia prowazekii, con más de un 24% de su genoma compuesto por pseudogenes (Andersson et al. 1998), Neisseria meningitidis Z2491 con un 22.6% (Parkhill et al. 2000), Salmonella typhi, que posee unos 204 pseudogenes (Parkhill et al. 2001) , Shigella flexneri, con aproximadamente 254 genes que han dejado de ser funcionales (Wei et al. 2003) y Bordetella pertussis y B. parapertussis con 358 y 220 pseudogenes, respectivamente (Parkhill et al. 2003). Sin embargo, el caso más dramático es el de M. leprae, el organismo con la mayor proporción de DNA no codificante de todos los genomas bacterianos completamente secuenciados hasta el momento (Cole et al. 2001). El tamaño de su genoma en comparación con especies muy próximas como M. tuberculosis, el elevado número de pseudogenes (más de 1.000) y su sesgo hacia una composición baja en GC, han permitido postular que la evolución reductiva de M. leprae es reciente y que quizás está unida a su transformación en un patógeno obligado hace pocos m.a. (Andersson y Andersson 1999; Cole et al. 2001; Moran, 2002). 209 …………………………………………………………...............................................…Capítulo 6 6.1.4 El género Mycobacterium Las Micobacterias son bacterias gram positivas pertenecientes al género Mycobacterium, género único dentro de la familia Mycobacteriaceae en el orden Actinomycetales (Rastogi et al. 2001). Las Actinomycetales incluyen diversos microorganismos, pero las micobacterias se diferencian por su capacidad de sintetizar ácidos micólicos. Se trata de ácidos grasos de cadena larga que forman parte de la pared celular (Besra et al. 1994), responsables en gran medida de la impermeabilidad de la misma y que también están presentes en los géneros Nocardia y Corynebacterium. El género Mycobacterium incluye varios agentes de enfermedades infecciosas importantes en humanos y ganado. Estas infecciones a menudo tienen un largo periodo de latencia, durante el cual la bacteria vive dentro de macrófagos del hospedador. La primera clasificación útil del género (Runyon et al. 1959) se basaba en la velocidad de crecimiento (rápido o lento, según sea inferior o superior a una semana), la presencia de pigmento y la importancia clínica. Dentro del género también se diferencia entre especies parasíticas o ambientales, en base a su epidemiología y hábitat (Wayne y Sramek, 1992), aunque esta distinción no siempre es absoluta, dado que hay especies que muestran ambas características. Todas las especies de Mycobacterium empleadas en nuestro estudio son patógenos intracelulares de crecimiento lento. M. avium subsp. paratuberculosis cepa K-10 (Mav) es el agente responsable de la enfermedad de Johne en ganado y otros rumiantes, aunque también ha sido relacionada con la enfermedad de Crohn en humanos (Li et al. 2005). M. tuberculosis cepa H37Rv (Mtc (I)) y M. tuberculosis cepa CDC1551 (Mtc (II)), son responsables de la tuberculosis en humanos (Cole et al. 1998; Fleischmann et al. 2002). M. bovis cepa AF2122/97 (Mbo) causa la tuberculosis en ganado y otros animales (Garnier et al. 2003) y M. leprae TN (Mle) es responsable de la lepra o enfermedad de Hansen en humanos (Cole et al. 2001). 210 ……………………………………………………………………………….Introducción Mtu(I), Mtu(II) y Mbo son miembros del complejo Mycobacterium tuberculosis (MTBC). Las cepas de este complejo se caracterizan por una elevada conservación a nivel de secuencias de DNA (Kapur et al. 1994; Frothingham et al. 1994), pese a que muestran una amplia variedad respecto al rango de hospedadores, la virulencia y otros fenotipos (Wayne, 1982). El genoma de todas estas bacterias ha sido completamente secuenciado. Los principales hechos genómicos de los mismos se muestran en la tabla 6.1. Tabla 6.1. Comparación de los principales hechos genómicos de los genomas de Mycobacterium cuyo genoma ha sido completamente secuenciado. Tamaño genoma (pb) GC(%) Número de genes RNAs estructurales Pseudogenes Regiones codificantes (%) Mav 4829781 69 4398 48 0 91 Mbo 4345492 65 4003 50 33 90 Mle 3268203 57 2770 50 1133 49 Mtu (I) 4411532 65 4048 50 8 90 Mtu (II) 4403837 65 4293 48 56 90 A partir de la comparación de estos genomas se observa como M. leprae es el que ha sufrido una mayor reducción del tamaño y el que presenta un mayor número de indicios de degradación, tales como un elevado número de pseudogenes o un contenido en GC inferior al resto. 6.1.5 Mycobacterium leprae M. leprae, el agente de la enfermedad de Hansen, fue identificada en 1874 por Gerhard Henrik Armauer Hansen (Hansen, 1874). La bacteria se acumula principalmente en las extremidades del cuerpo, donde reside dentro de macrófagos e infecta a las células de Schwann del sistema nervioso periférico (figura 6.1). Estas células infectadas son incapaces de producir mielina y son destruidas por reacciones inmunes del hospedador, lo que conlleva a daños en la piel, el tracto respiratorio, los nervios periféricos y también los ojos (Sasaki et al. 2001). Aunque la incidencia de la enfermedad ha sido altamente reducida desde la aparición de terapias multidroga y vacunas con BCG 211 …………………………………………………………...............................................…Capítulo 6 (Karonga, 1996), continúa siendo un problema preocupante con más de 690.000 nuevos casos por año (Cole et al. 2001). Figura 6.1. M. leprae presentes en el citoplasma de células de Schawnn (microscopía electrónica x 10.000) (Ciudad et al. 2002). M. leprae presenta una serie de rasgos característicos que la diferencian del resto de especies del mismo género utilizadas en nuestro estudio, entre los que destacan su incapacidad para ser cultivada in vitro, su reducido tamaño genómico (3.268.203 nucleótidos) y un elevado número de pseudogenes (más de 1.000) (Cole et al. 2001). Este último rasgo es consecuencia de la evolución reductiva a la que está sometida esta especie. De hecho, se ha propuesto que su incapacidad para ser cultivada in vitro puede ser debida a la pérdida de ciertas rutas biosintéticas (Cole et al. 2001). Al igual que otras bacterias endosimbiontes intracelulares, M. leprae no puede ser cultivada en medios artificiales. Así mismo, su velocidad de crecimiento es extraordinariamente lenta, con un tiempo de duplicación de aproximadamente 14 días. Aunque se desconoce el mecanismo que ha dado lugar al elevado número de pseudogenes en esta especie, se postula que la pérdida de dnaQ, que media la actividad correctora de la DNA polimerasa III, puede haber contribuido a la formación de éstos (Mizrahi et al. 2000). Posteriormente se ha propuesto que la pérdida de factores sigma puede ser responsable de la inactivación de numerosos genes en M. leprae (Babu, 2003). 212 ……………………………………………………………………………….Introducción En el caso de los pseudogenes, la comparación con el ortólogo funcional aún es posible. Si el proceso de degradación de la secuencia original es gradual, a medida que pasa el tiempo, su similitud con el gen original será menor. Este proceso progresivo nos permite por lo tanto conocer la edad relativa de un pseudogen, si somos capaces de medir el grado de deterioro del mismo. Se han llevado a cabo diversos intentos de calcular la edad de los pseudogenes en M. leprae. En el estudio de Babu (2003) previamente citado, la edad de los pseudogenes se estima partiendo de la premisa de que la acumulación de codones de paro en los mismos se incrementará con el tiempo. De modo que cuanto mayor sea el número de codones de paro acumulados, mayor será la edad del pseudogen. Otras estimas de la edad se han llevado a cabo calculando el número de corrimientos de pauta debidos a indels, o a sustituciones en los pseudogenes (Liu et al. 2004), o mediante el cálculo de distancias respecto a ortólogos funcionales (Dagan et al. 2005). Determinar la edad de los pseudogenes y analizar las pérdidas génicas requiere por tanto, la comparación con ortólogos funcionales. M. leprae es uno de los genomas reducidos en los que esta comparación puede llevarse a cabo, dado que no sólo su genoma ha sido completamente secuenciado, sino también el de diversas especies del mismo género estrechamente emparentadas. Esta comparación nos permitirá además, la reconstrucción de un genoma ancestral a partir del cual conocer la degradación que ha sufrido esta especie desde la divergencia con su ancestro. Dado que los hechos genómicos de esta especie indican que se halla en fases iniciales de la reducción, este estudio nos permitirá caracterizar las etapas iniciales de la evolución reductiva. 213 ...........................................................................................................................................Capítulo 6 6.2 OBJETIVOS El principal objetivo del presente capítulo es la caracterización del proceso de degradación génica en las primeras etapas de la reducción genómica, mediante el análisis de los genes perdidos en el genoma de M. leprae. A través de este análisis pretendemos responder a las siguientes cuestiones: - ¿Cuántos genes ha perdido M. leprae desde su divergencia del ancestro común a M. leprae y el complejo de M. tuberculosis? - ¿En qué estado de degradación se encuentran los genes perdidos en M. leprae? - El proceso de pérdida en las primeras etapas, ¿está dominado por pérdidas graduales o por grandes eventos de deleción? - ¿Cuál es la edad de los pseudogenes de M. leprae? - ¿Existe un “efecto dominó” en el proceso de inactivación y pérdida de genes? - ¿Qué porcentaje de nucleótidos se han perdido a partir de los genes inactivados en M. leprae? 214 …………………………………………………………………………....Resultados y discusión 6.3 RESULTADOS Y DISCUSIÓN 6.3.1 Reconstrucción filogenética Con el fin de poder llevar a cabo la reconstrucción del supuesto genoma ancestral de M. leprae, para poder realizar un estudio riguroso de los pseudogenes y los genes perdidos, procedimos en primer lugar a la obtención de una topología robusta de las especies empleadas. Los genomas de Mycobacterium escogidos para esta reconstrucción fueron los genomas de Mav, Mtc (I), Mtc (II), Mbo y Mle, descritos en material y métodos. Adicionalmente se utilizaron otras especies de los géneros Nocardia y Corynebacterium como grupos externos: Cgl, Cdi, Cef y Nfa (ver material y métodos, apartado 3.1.3). A partir de la base de datos TIGR (The Institute for Genomic Research) se seleccionaron las proteínas con un elevado valor de homología (más de un 70%) entre las especies Mle y Mtu(II). De éstas se escogieron 12 implicadas en procesos informativos: AlaS, DnaE, GyrA, IleS, InfB, LeuS, PheT, PolA, TopA, UvrD, ValS y RpoC. Se utilizaron secuencias de aminoácidos para que la reconstrucción filogenética no se viera afectada por el sesgo en la composición nucleotídica. El modelo evolutivo aplicado fue JTT, optimizando gamma y estimando la proporción de sitios invariables. La topología obtenida con el alineamiento de 12 proteínas concatenadas se representa en la figura 6.2. 215 ……………………………………………………………………...................................Capítulo 6 100 100 100 Mtu(II) Mbo Mtu(I) Mle 100 Mav Nfa Cgl 100 Cef Cdi 0.1 Figura 6.2. Reconstrucción filogenética por máxima verosimilitud de las especies de Mycobacterium empleadas en este estudio, a partir de la secuencia de aminoácidos de 12 proteínas. El número que aparece en la parte superior de cada nodo es el valor de bootstrap. Los elevados valores de bootstrap obtenidos indican un alto grado de apoyo de los nodos en base a nuestros datos. Como ya se ha mostrado en estudios previos del género Mycobacterium (Devulder et al. 2005), el empleo de diferentes genes concatenados permite un incremento significativo del poder de discriminación y de la robustez del árbol filogenético. Mtu(I), Mtu(II) y Mbo, dada la alta similitud de sus secuencias, forman un grupo monofilético separado de las otras especies, al que nos referiremos a partir de ahora como el complejo M. tuberculosis. Mav es el grupo externo del resto de especies de Mycobacterium y Mle muestra una visible aceleración en la longitud de su rama. De acuerdo con estudios anteriores, Mtu(I), Mtu(II) y Mbo comparten un ancestro común (Fleischmann et al. 2002). Las relaciones filogenéticas entre dichas especies no se resuelven debido a la alta similitud entre las secuencias de las mismas. De hecho, el complejo de M. tuberculosis se caracteriza por una similitud del 99,9% a nivel nucleotídico y por poseer secuencias idénticas del 16SrDNA (Brosch et al. 2002). Sin embargo, en estudios posteriores que comparan genomas completamente secuenciados se demuestra que la variabilidad entre cepas del complejo M. tuberculosis es mucho más elevada de lo que se pensaba inicialmente (Fleishcmann et al. 216 ………………………………………………………………………...........Resultados y discusión 2000; Hughes et al. 2002). La explicación a esta aparente contradicción es que la variabilidad no se distribuye uniformemente a lo largo de estos genomas, sino que mientras el 80,5% de los loci no muestra diferencias sinónimas o no sinónimas, en otros el nivel de polimorfismo es elevado (Sreevatsan et al. 1997; Hughes 2002; Musser et al. 2000). Por tanto, para resolver las relaciones entre las especies del complejo M. tuberculosis, es necesario el empleo de estas secuencias de alta variabilidad, que no permitirían, dado su elevado nivel de polimorfismo resolver la filogenia entre especies más alejadas como las de nuestro estudio. Finalmente la posición de Nfa nos indica que puede ser utilizada como un grupo externo apropiado para las especies de Mycobacterium empleadas en nuestro trabajo. 6.3.2 Reconstrucción del genoma ancestral Para la reconstrucción del hipotético genoma ancestral de M. leprae y el grupo de M. tuberculosis, a partir de la base de datos MBGD (Microbial Genome Database) obtuvimos una tabla de genes ortólogos de los genomas de Mycobaterium empleados y de Nfa. Las secuencias de inserción fueron eliminadas de la tabla, dada la dificultad de asignar la ortología de las mismas. Los pseudogenes fueron identificados según la anotación de la versión de Agosto del 2005 de la base de datos NCBI (National Center for Biotechnology Information). En el caso del genoma de M. leprae se incorporaron pseudogenes adicionales detectados tras una reanotación del genoma y disponibles en la base de datos Leproma. La tabla fue ordenada escogiendo arbitrariamente uno de los genomas de Mycobacterium. A continuación, se comprobó cuál era la situación de cada uno de los genes de cada genoma que no estaban presentes en dicha tabla. En primer lugar, la probabilidad de no haber detectado algún ortólogo real para dichos genes se redujo utilizando una segunda base de datos de ortólogos: GFIT (Gene Function Identification Tool). Una vez comprobado que no existen genes ortólogos descritos en otros genomas para 217 ……………………………………………………………………...................................Capítulo 6 estos genes, es posible que dichos genes sean ortólogos de pseudogenes o de restos de genes en un avanzado estado de desintegración génica. Dado que las bases de datos empleadas únicamente asignan ortología a los genes, estamos perdiendo estos ortólogos. Para evitar esta pérdida, en primer lugar llevamos a cabo un blastx de todos los pseudogenes empleados contra las proteínas del resto de Mycobacterium del estudio. En segundo lugar, realizamos un tblastn de las proteínas de cada genoma de Mycobacterium utilizado contra las regiones intergénicas del resto de genomas de Mycobacterium incorporados en la tabla. El e-value de los tblastn se limitó a 0,05, y las regiones intergénicas de menos de 30 nucleótidos no se tuvieron en cuenta, dado que éstas pueden dar señal de BLAST únicamente por azar. De este modo, los pseudogenes fueron incorporados a la tabla, y cada vez que para un gen no se detectaban genes ortólogos se comprobó que no existía ningún resto ortólogo del mismo en cualquiera de los otros genomas. Para algunos genes, la probabilidad de detectar una secuencia similar de los mismos en las regiones no codificantes de otros Mycobacterium es muy elevada, dada la alta frecuencia en estos genomas de familias multigénicas, y genes duplicados (Cole et al. 1998, 2001; Fleischmann et al. 2002; Garnier et al. 2003, Li et al. 2005). De modo que en el caso de detectar una señal positiva para estos genes contra la región intergénica de otro de los genomas, sólo se incorporó a la tabla de ortólogos si la región intergénica contra la que se obtenía señal mostraba sintenia. Es decir, si esta región se localizaba entre el gen ortólogo anterior y el posterior, siempre y cuando éstos fueran consecutivos o se hallaran en el área inmediatamente cercana. En el caso de que esto ocurra en una zona de rotura del orden génico, las regiones adyacentes al bloque previo y posterior serán candidatas a ser regiones donde a priori se puede esperar obtener una señal positiva del tblastn. Este criterio se toma en base a que la probabilidad de encontrar un ortólogo real aislado, fuera de la posición esperada, es baja. Sin embargo, a medida que el número de ortólogos encontrados fuera de la posición esperada, pero contiguos entre sí, aumenta, la probabilidad de que se 218 ………………………………………………………………………...........Resultados y discusión trate de una ortología real es mayor. Para establecer por tanto un límite que se ajuste a todos los casos posibles, calculamos con el programa “R” (v.2.2.1) la probabilidad de que genes consecutivos aparezcan adyacentes, tras barajar al azar un genoma de 3.000 genes (este número se tomó como una aproximación al número de genes que llegaría a tener finalmente el genoma ancestral reconstruido, dado que el criterio se establece previamente). Esta probabilidad es mayor de 0,1 para dos genes, y sólo a partir de tres es inferior a 0,002. En base a esto, sólo cuando tres o más genes contiguos muestran una señal positiva en el tblastn, se incorporan como ortólogos en la tabla, aunque no se localicen en la región situada entre los genes ortólogos anterior y posterior. De modo que, en nuestro estudio la descripción de pseudogenes no detectados previamente se basa en la identificación de ortólogos y la ortología viene definida tanto por similitud como por sintenia. Así, aunque es posible perder algún resto ortólogo real que ha sufrido translocación y no se localiza en la región esperada, la probabilidad de que esto ocurra es baja y la fiabilidad de los restos ortólogos que incorporamos en la tabla es elevada. Además, para algunos casos en los que la asignación de la ortología era especialmente complicada, se llevaron a cabo análisis adicionales tales como la reconstrucción filogenética de los genes homólogos. A los restos de genes ortólogos incorporados a la tabla se les asignó el nombre del gen anterior junto con una letra. De modo que si por ejemplo, en la región intergénica situada entre los genes de Mle: ML0789 y ML0790 hallamos algún resto del gen que esperamos encontrar en esa zona al comparar con los genes de los otros Mycobacterium, éste se denominará ML0789a. La filogenia previamente obtenida (figura 6.2) permite diferenciar tres linajes: uno formado por Mav, otro formado por Mle y un tercer grupo formado por los genomas de Mtu(I), Mtu(II) y Mbo que constituyen lo que hemos denominado el complejo de M. tuberculosis. En base a esto establecimos que un gen es ancestral si está presente en al menos dos de estos tres linajes, como gen activo, pseudogen o resto génico. Este criterio nos 219 ……………………………………………………………………...................................Capítulo 6 permite detectar restos ortólogos presentes sólo en el grupo de tuberculosis o en Mle, gracias a la comparación con Mav, e incorporarlos al ancestro. En el caso de duplicaciones en tándem, para establecer la situación ancestral, se tomaron los siguientes criterios: a) Si los genes implicados están presentes en los tres linajes de Mycobacterium, se toma como situación ancestral la mayoritaria. Por ejemplo, si hay dos genes consecutivos en los genomas del complejo M. tuberculosis, que muestran ortología con un único gen en el resto de genomas, se considera que se trata de una duplicación en el grupo de M. tuberculosis y por lo tanto el gen ortólogo ancestral es sólo uno. En el caso del genoma que presenta los genes duplicados, sólo dejamos en la tabla aquél que tenga una mayor homología con sus ortólogos. b) Si los genes implicados están sólo en dos de los tres linajes, se toma como referencia adicional el genoma de Nfa y la situación compartida por éste y uno de los dos linajes Mycobacterium que tenemos, será la que se tome por ancestral. Pero si el gen no está presente en Nfa no podemos conocer cuál era la situación ancestral. En este caso, decidimos escoger siempre el resultado que incrementa el número de genes ancestrales. De este modo, si estamos ante un gen que se ha perdido completamente en Mle y que es adyacente a otras pérdidas totales estamos incrementando el tamaño del bloque de pérdida. Esto favorece a las grandes deleciones frente a la pérdida gen a gen, lo cual nos parece un criterio más conservador, dado que el gran número de pseudogenes presentes en M. leprae favorece a priori la hipótesis de pérdida gradual. No obstante, la influencia de esta decisión en el resultado final es inapreciable, dado que sólo en uno de los bloques de pérdida se dio esta situación. En el caso de fisiones y fusiones génicas se toman exactamente los mismos criterios para establecer la situación ancestral. Cuando una fisión no sea ancestral, el ortólogo para ese gen en el genoma que presente dicha fusión y que vendrá en la tabla serán los dos genes fisionados. 220 ………………………………………………………………………...........Resultados y discusión El genoma ancestral finalmente obtenido estaba compuesto por 2.977 genes (anexo 12). Una vez construido el genoma ancestral, se determinó el orden génico del mismo en base a los siguientes criterios: a) Si uno de los tres linajes de Mycobacterium tiene una reordenación pero ésta no afecta a los otros dos genomas, el orden ancestral será el compartido por dos de los tres (figura 6.3. a)). 221 ……………………………………………………………………...................................Capítulo 6 a) GENOMA ANCESTRAL B01_0710 B01_0711 B01_0712 B01_0713 B01_0714 B01_0715 B01_0716 B01_0717 B01_0718 B01_0719 B01_0720 B01_0721 B01_0722 B01_0723 B01_0724 B01_0725 B01_0726 B01_0727 B01_0728 b) GENOMA ANCESTRAL B01_2062 B01_2063 B01_2064 B01_2065 B01_2066 B01_2067 B01_2068 B01_2069 B01_2070 B01_2071 B01_2072 B01_2073 B01_2074 B01_2075 B01_2076 B01_2077 B01_2078 B01_2079 B01_2080 Mav mpa:MAP0595C mpa:MAP0594C mpa:MAP0593C mpa:MAP0592 mpa:MAP0591 mpa:MAP0590 mpa:MAP0582 Orden Mav 377 376 375 374 373 372 Orden Mle Mle:ML2237 Mle:ML2238 Mle:ML2239 Mle:ML2240 Mle:ML2240 Mle:ML2241 2100 2101 2102 2103 2104 2105 Mle:ML2246 Mle:ML2247 Mle:ML2248 Mle:ML2250 Mle:ML2251 Mle:ML2253a Mle:ML2254 Mle:ML2255 2106 2107 2108 2109 2110 2111 2112 2113 Mle mle:ML0132 mle:ML0133 mle:ML0134 mle:ML0135 mle:ML0136 mle:ML0137 mle:ML0138 mle:ML0139 mle:ML2349 mle:ML2350 mle:ML2351 mle:ML2352 mle:ML2353 mle:ML2354 mle:ML2355 mle:ML2356 mle:ML2357 mle:ML2358 mle:ML2359 Orden Mle 125 126 127 128 129 130 131 132 2200 2201 2202 2203 2204 2205 2206 2207 2208 2209 2210 371 mpa:MAP0579C mpa:MAP0578 mpa:MAP0577 mpa:MAP0576 370 369 368 367 mpa:MAP0573C mpa:MAP0572C mpa:MAP0571 mpa:MAP0570 366 365 364 363 Mav Orden Mav Punto rotura orden génico Mle Pseudogen Orden Mma mtu:RV3489 mtu:RV3490 mtu:RV3491 mtu:RV3492C mtu:RV3493C Orden Mtu(I) 600 599 598 597 596 595 594 593 2608 2609 2610 2611 2612 2613 2614 2615 2616 2617 2618 Mtu(I) mtu:RV2950C mtu:RV2949C mtu:RV2948C mtu:RV2946C mtu:RV2945C mtu:RV2942 mtu:RV2941 mtu:RV2940 mtu:RV2939 mtu:RV2938 mtu:RV2937 mtu:RV2936 mtu:RV2935 mtu:RV2934 mtu:RV2933 mtu:RV2932 mtu:RV2931 mtu:RV2930 mtu:RV2928 Orden Mtu(I) 2228 2227 2226 2225 2224 2223 2222 2221 2220 2219 2218 2217 2216 2215 2214 2213 2212 2211 2210 Orden Mma MM1759 MM1000 MM1761 MM1762 MM1763 MM1764 MM1765 MM1767 MM1768 MM1769 MM1770 MM1771 MM1772 MM1773 MM1774 MM1775 MM1776 MM1777 MM1778 Mtu(I) mtu:RV0761C mtu:RV0760C mtu:RV0759C mtu:RV0758 mtu:RV0757 mtu:RV0756C mtu:RV3473C mtu:RV3482C mtu:RV3484 mtu:RV3485C Gen perdido Figura 6.3. Tabla de ortólogos ancestrales de los genomas de Mav, Mle, Mtu(I) y Mma. Junto a cada columna que contiene los genes de cada genoma aparece otra columna que muestra el número correspondiente a ese gen cuando la tabla se ordena por ese genoma en concreto. El caso a) muestra un punto de rotura del orden génico exclusivo de Mtu(I) que no es compartido por Mav ni Mlep y que por tanto, no se considera ancestral. El caso b) muestra una zona de la tabla en la que no existen ortólogos para Mav y dado que Mle y Mtu(I) no comparten el orden génico, hay que recurrir al genoma de Mma para saber cuál era el orden ancestral. En este caso el orden ancestral es el compartido por Mma y Mtu(I). 222 ………………………………………………………………………...........Resultados y discusión b) Si a partir de un punto dado, cada uno de los tres linajes continúa con un orden génico diferente, o en el caso de zonas con genes presentes sólo en dos de los grupos de Mycobacterium y con ordenaciones diferentes, se consulta el orden de los genes ortólogos de otro genoma de Mycobacterium que pueda servir como grupo externo de Mle y el complejo Mtu. El orden ancestral será el compartido por la mayor parte de los genomas (figura 6.3. b). Además de los genomas de Mycobacterium empleados en el estudio, los genomas de M. marinum, M. microti y M. smegmatis estaban parcialmente secuenciados y anotados cuando finalizamos la reconstrucción del genoma ancestral. M. microti pertenece al complejo de M. tuberculosis, por lo que no puede ser utilizado como grupo externo de las especies utilizadas. M. smegmatis es una micobacteria de crecimiento rápido, mientras que M. marinum es de crecimiento lento, al igual que el resto de especies empleadas en nuestro estudio. De modo que, dada su mayor proximidad al resto de especies utilizadas, si M. marinum puede ser empleada como grupo externo, es más adecuada que M. smegmatis. Para saber su posición filogenética respecto a las especies con las que hemos trabajado nos basamos en el alineamiento de las 12 proteínas concatenadas, empleadas en la filogenia inicial (apartado 6.3.1), al que incorporamos las mismas proteínas de M. marinum (figura 6.4). El resultado mostró que M. marinum podía ser empleado como grupo externo a la hora de reconstruir el orden ancestral. 223 ……………………………………………………………………...................................Capítulo 6 Cgl Cef Cdi Nfa Mav 100 Mma 100 Mle 78 98 Mtu (I) 100 0.1 Mtu (II) Figura 6.4. Reconstrucción filogenética por máxima verosimilitud de las especies de Mycobacterium empleadas en este estudio y M. marinum, a partir de la secuencia de aminoácidos de 12 proteínas. El número que aparece en la parte superior de cada nodo es el valor de bootstrap obtenido. De este modo, fue posible reconstruir el genoma ancestral como un bloque único, a excepción de dos genes que quedan excluidos de este bloque dado que no es posible conocer el orden ancestral de los mismos en base al criterio empleado (figura 6.5). Estos dos genes en el genoma de Mav son MAP2046 y MAP2048. Se corresponden con ortólogos consecutivos en los genomas del complejo M. tuberculosis, pero en orden inverso respecto a los genes flanqueantes, no existen ortólogos de los mismos en el genoma de M. leprae y Mma no proporciona información suficiente para conocer el verdadero orden ancestral. Una vez ordenada la tabla por el genoma ancestral, se determinó el número de roturas de cada uno de los genomas de Mycobacterium respecto del ancestral. Se detectaron 20 y 19 puntos de roturas en Mav y Mtu(I) respectivamente, y 109 en el caso de M. leprae. 224 ………………………………………………………………………...........Resultados y discusión a) b) 19 109 20 Mtu(I) Mle Mav Figura 6.5. Reordenaciones en los genomas de Mycobacterium empleados en el estudio desde la divergencia del genoma ancestral. a) Número de puntos de rotura detectados desde el genoma ancestral reconstruido hasta cada una de las especies del estudio. b) Representación gráfica de las reordenaciones desde el genoma ancestral (círculo exterior) hasta los genomas de Mav, Mtu(II) y Mle (desde fuera hacia dentro, respectivamente). Los espacios en blanco representan genes ausentes en el genoma correspondiente. La línea negra situada en la parte superior de los genomas ancestral, de Mav y del complejo M. tuberculosis, representa dos genes que no forman parte del resto del bloque ancestral (MAP2046 y MAP2048). La presencia de reordenaciones en estos genomas es una consecuencia de la gran cantidad de elementos repetidos en los mismos que permiten actuar a los mecanismos de recombinación. El elevado número de reordenaciones que encontramos en el linaje que conduce a Mle es congruente con la amplia evidencia previamente hallada (Cole et al. 2001), de la presencia de reordenaciones de larga escala y deleciones originadas desde eventos de recombinación homóloga. 6.3.3 Análisis de las pérdidas en M. leprae La comparación de ortólogos entre el genoma ancestral y el genoma de Mle permitió detectar los genes ancestrales perdidos. De los 2.977 genes ancestrales, 1.537 se habían perdido en Mle (figura 6.6). Éstos se clasificaron en dos grupos: a) Pseudogenes: de los 1133 pseudogenes descritos para Mle, 952 estaban presentes en la tabla y fueron por tanto genes ancestrales. 225 ……………………………………………………………………...................................Capítulo 6 Además de éstos, nosotros detectamos 177 nuevos pseudogenes no descritos previamente, dado que en general se hayan en un avanzado estado de degradación génica, pero para los cuales aún es posible detectar homología con el correspondiente gen ortólogo de otro de los genomas de Mycobacterium. La identificación de nuevos pseudogenes depende en gran medida de la disponibilidad de la secuencia de genes ortólogos en especies cercanas. Es por ello que el número de pseudogenes identificados en los genomas bacterianos ha ido incrementando a medida que el número de genomas completamente secuenciados ha aumentado (Lerat y Ochman, 2004). La mayor parte de los pseudogenes hallados en este estudio y no identificados hasta el momento poseían un ortólogo en el genoma de Mav pero no mostraban ortología con el resto de genomas de Mycobacterium. El genoma de Mav ha sido el último de los genomas de Mycobacterium utilizados en este estudio, cuya secuencia completa ha sido publicada. Este hecho pone de manifiesto como el orden temporal de aparición de la secuencia completa del genoma de las especies de Mycobacterium ha influido en la detección de pseudogenes en el genoma de Mle. El incremento de pseudogenes descritos para una especie dada a medida que aumenta el número de genomas secuenciados disponibles, se ha puesto de manifiesto en otros estudios previos (Homma et al. 2002; Ochman y Davalos 2005). b) Pérdidas completas: genes que estaban en el genoma ancestral y de los cuales no se detecta ningún resto en el genoma de Mle. Se detectaron 408 genes ancestrales que se habían perdido completamente en Mle. Éstos a su vez se clasificaron en dos tipos: 1. Pérdidas individuales: se trata de genes completamente perdidos, pero no adyacentes a otras pérdidas completas, en base al orden del genoma ancestral. De los 1.537 genes perdidos en Mle, 105 son pérdidas completas individuales. 226 ………………………………………………………………………...........Resultados y discusión 2. Pérdidas en bloque: son genes para los cuales no se detecta ningún resto y que son contiguos a una o más pérdidas del mismo tipo. Aunque en este caso puede tratarse también de genes que se perdieron de manera individual, pero que se situaban consecutivamente en el genoma. De los 1537 genes perdidos en Mle, 303 son pérdidas completas agrupadas en bloques. 952 Ps 303 Nuevos ps Pérdidas completas individuales 177 105 Pérdidas completas en bloque Figura 6.6. Distribución de los genes perdidos en Mle en pseudogenes, nuevos pseudogenes detectados y genes para los que no se detecta ningún resto génico. Estos últimos se dividen en pérdidas individuales aisladas y en pérdidas en bloques. Se han detectado un total de 62 bloques de pérdidas completas formados por un número variable de genes que oscila entre 2 y 37. La mayor parte de los bloques están formados por un pequeño número de genes, siendo los bloques de dos genes los más abundantes. Sólo hay cuatro bloques formados por más de 10 genes, que poseen 12, 14, 17 y 37 genes cada uno de ellos (figura 6.7). 227 ……………………………………………………………………...................................Capítulo 6 120 Número de bloques 100 Número de genes perdidos 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 Número de genes por bloque Figura 6.7. Distribución de las pérdidas completas en Mle. Los genes ancestrales perdidos en Mle, para los cuales no se detecta ningún resto homólogo, se dividen en pérdidas individuales (no se tratarían por tanto de bloques, pero los designamos como bloques formados por un único gen en la figura a fin de simplificar la representación) y pérdidas en bloque que están formadas por un número variable de genes. De modo que, aunque la mayor parte de genes perdidos totalmente son pérdidas en bloque, observamos que la mayor parte de bloques están formados por un pequeño número de genes. El bloque más grande detectado es de 37 genes. Si, además, tenemos en cuenta que la gran mayoría de los genes perdidos en Mle son pseudogenes o nuevos pseudogenes y por tanto, pérdidas individuales, observamos que la mayor parte de la pérdida de genes en Mle se ha producido gen a gen. Estos resultados apoyan por tanto el modelo de pérdida gradual continua propuesto por Silva et al. (2001). Además, de acuerdo con este modelo, hay que considerar la posibilidad de que las pérdidas en bloque sean el resultado de pérdidas individuales adyacentes, cuyo resultado final son “desiertos génicos” que pueden interpretarse como el resultado de una gran deleción y podrían explicar los bloques de pérdida (Figura 6.8). 228 ………………………………………………………………………...........Resultados y discusión a) b) Deleción Figura 6.8. El proceso de degradación gen a gen, frente a la pérdida a través de grandes deleciones. a) Pérdida gradual de 8 genes contiguos mediante un proceso de desintegración génica gen a gen. b) Pérdida de 8 genes contiguos mediante un evento único de deleción. Nuestro estudio no abarca todas las pérdidas de Mle dado que nos basamos únicamente en bloques ancestrales. Estudiando la distribución de todas las pérdidas en Mle posiblemente pueden detectarse bloques de pérdidas completas de mayor tamaño, pero no puede asumirse la ancestralidad de las mismas y por tanto, tampoco puede asumirse que la pérdida ha sido conjunta dado que el orden actual puede ser el resultado de reordenaciones posteriores. Por tanto, es posible que genes esparcidos por el genoma que se inactivaron de manera individual terminen contiguos tras diversas translocaciones. No obstante, no podemos descartar la posibilidad de que se den puntualmente grandes deleciones. Nilsson et al. (2005), de hecho, muestran en su elegante experimento con S. enterica que éstas pueden tener lugar y nosotros detectamos bloques de pérdidas completas de hasta 37 genes. Sin embargo, la frecuencia de éstas ha de ser limitada, dado que requiere la agrupación contigua de numerosos genes no esenciales. La abundancia de estos tramos en el genoma ha de ser restringida y por tanto, una vez desaparezcan, el proceso de degradación estará dominado por pérdidas graduales. De hecho, Nilsson y colaboradores sólo detectan una gran deleción en cada uno de los mutantes con los que trabajan, y ninguna se localizaba en aproximadamente 3 Mb alrededor del origen de replicación donde suelen localizarse los genes esenciales. Obviamente, al inicio de la reducción genómica es cuando existe un mayor potencial de pérdida, que progresivamente va desapareciendo. La 229 ……………………………………………………………………...................................Capítulo 6 velocidad del proceso puede por tanto ser mayor en etapas tempranas, pero ello no implica necesariamente grandes deleciones que se extiendan a lo largo de cientos de genes, especialmente si no hay evidencia de presión de selección hacia un reducido tamaño genómico. Es posible que el proceso se dé principalmente a través de pérdidas graduales, que poco a poco tienen una menor probabilidad de fijarse, dado que cada vez la cantidad de información que puede perderse es menor. Nuestros resultados no descartan las grandes deleciones como mecanismo de pérdida inicial. Éste puede participar en estadios tempranos de la reducción, junto con una degradación gen a gen. Sin embargo, los datos obtenidos ponen de manifiesto que la degradación génica gradual juega un importante papel en el proceso de reducción genómica, incluso en las primeras etapas del mismo. 6.3.4 Análisis de la desintegración génica de los pseudogenes de M. leprae Los genes y pseudogenes de Mle fueron alineados tal y como se describe en material y métodos (apartado 3.3.2). Para los pseudogenes de Mle que tenían un correspondiente ortólogo en Mav y en Mtu(II), se llevó a cabo el cálculo de los siguientes parámetros relacionados con la pseudogenización y desintegración de genes: a) ΔL: porcentaje de longitud perdido en la secuencia de Mle, tomando como longitud original del gen el promedio de las longitudes de los correspondientes ortólogos en Mav y en Mtu(II). Los valores negativos de ΔL indican ganancia: ⎛ ⎞ ⎜ ⎟ LMle × 100 ⎟ ⎜ ΔL = 100 − ⎜ ⎛ L + LMtu ( II ) ⎞ ⎟ ⎜ ⎜⎜ Mav ⎟⎟ ⎟⎟ ⎜ 2 ⎠⎠ ⎝⎝ 230 ………………………………………………………………………...........Resultados y discusión Donde LMle es la longitud del pseudogen en Mle, LMav es la longitud del gen en Mav y LMtu(II) es la longitud del gen en Mtu(II). b) ΔGC: porcentaje de pérdida de GC en la composición nucleotídica de la secuencia de Mle, tomando como composición original del gen el promedio de porcentaje en GC entre el gen ortólogo de Mav y el de Mtu(II). Valores negativos de ΔGC indican ganancia: ⎛ ⎞ ⎜ ⎟ %GCMle × 100 ⎜ ⎟ ΔGC = 100 − ⎜ ⎛ %GCMav + %GCMtu ( II ) ⎞ ⎟ ⎜ ⎜⎜ ⎟⎟ ⎟⎟ ⎜ 2 ⎝ ⎠⎠ ⎝ Donde %GCMle es el porcentaje de GC en el pseudogen de Mle, %GCMav es el porcentaje de GC en el gen de Mav, y %GCMtu(II) es el porcentaje de GC en el gen de Mtu(II). c) ΔI: pérdida de la identidad tras la inactivación de un gen en Mle respecto de la secuencia original del gen. Para el cálculo de este parámetro hemos tomado como medida de identidad original, la frecuencia de nucleótidos idénticos entre Mav y Mtu(II) para ese gen y como porcentaje de pérdida el promedio de la pérdida entre el pseudogen en Mle y el gen en Mav, y la pérdida entre el ps en Mle y el gen en Mtu(II): ⎡ ⎛ I Mle− Mav + I Mle− Mtu( II ) ⎞ ⎤ ⎟⎟ × 100 ⎥ ⎢ ⎜⎜ 2 ⎝ ⎠ ⎥ ΔI = 100 − ⎢ ⎢ ⎥ I Mav− Mtu( II ) ⎢ ⎥ ⎣ ⎦ 231 ……………………………………………………………………...................................Capítulo 6 Donde IMle-Mav es el porcentaje de identidad entre el ps de Mle y el ortólogo en Mav, IMle-Mtu(II) es el porcentaje de identidad entre el ps de Mle y el ortólogo de Mtu(II), y IMav-Mtu(II) es el porcentaje de identidad entre el gen en Mav y en Mtu(II). d) Dcp: densidad de codones de paro a partir de los pseudogenes alineados con GeneWise. Este programa contempla los posibles corrimientos en la pauta de lectura. Además, el programa comienza el alineamiento desde la primera posición del pseudogen que es posible alinear con el correspondiente gen ortólogo. Ello hace que la salida de Genewise pueda variar según se alinea el pseudogen con el correspondiente ortólogo de Mav o de Mtu(II). Estos alineamientos que no son idénticos, pueden dar un número de codones de paro distinto para el mismo pseudogen. En nuestro caso, para el recuento del número de codones de paro del pseudogen, tomamos siempre el alineamiento que implicaba una mayor longitud de la secuencia del pseudogen, bien sea con Mav o con Mtu(II). La fórmula aplicada fue la siguiente: Dcp = N º codones de paro LMle Todos los parámetros descritos se calcularon sobre los alineamientos efectuados en base al algoritmo de Neddleman-Wusch, salvo el cálculo de la densidad de codones de paro, que se llevó a cabo sobre los alineamientos efectuados con Genewise. En el cálculo de todos ellos no se tuvieron en cuenta aquellos pseudogenes que habían incrementado su longitud en más de un 5%, dado que ello puede ser debido a la introducción en el mismo de una secuencia de inserción, ni tampoco los pseudogenes formados por menos de 232 ………………………………………………………………………...........Resultados y discusión 50 codones. Para tomar este criterio llevamos a cabo una reordenación al azar del genoma de E. coli, con el fin de calcular la probabilidad de obtener por azar una pauta abierta de lectura. Esta probabilidad es elevada para pequeñas secuencias y sólo empieza a ser baja para secuencias de más de 150 nucleótidos. A partir de estos datos, se llevaron a cabo todos los posibles análisis de correlación entre estos parámetros, con el objetivo de estudiar la posible variación conjunta de los mismos. Los valores para ΔGC e ΔI, mostraron una distribución normal. En el caso del ΔL y Dcp la distribución no se ajustaba a una curva normal. En caso de cumplirse tanto la normalidad de los datos como la condición de relación lineal entre las variables a comparar, se aplicó un test paramétrico: el test de correlación de Pearson. En el caso de no cumplirse la normalidad de los datos se aplicó un test no paramétrico: el test de Spearman. Los parámetros que mostraron una mayor correlación fueron la pérdida de GC y la pérdida de identidad (figura 6.9). R =0,372 ΔGC (%) Sig . 0,01 Δ I (%) Figura 6.9. Correlación entre la pérdida de GC (%) y la pérdida de identidad (%) de los pseudogenes de Mle. Una vez que se produce la inactivación de un gen, por un lado la falta de presión selectiva sobre el mismo permitirá que se acumulen mutaciones a lo largo del tiempo que irán incrementando la pérdida de 233 ……………………………………………………………………...................................Capítulo 6 identidad. Por otro lado, el sesgo hacia adenina y timina que muestran en su genoma la mayor parte de patógenos obligados (Moran, 2002) se manifiesta principalmente en regiones neutras. Por tanto, una vez se inactiva un gen se espera que ambos procesos muestren una correlación, dado que aumentan gradualmente a lo largo del tiempo. Se espera por tanto, que pseudogenes más antiguos muestren valores de ambos parámetros más grandes que pseudogenes más recientes. La pérdida de GC (%) y la pérdida de identidad (%) mostraron también correlación con la densidad de codones de paro, con una significación del 0,01 (datos no mostrados). Sin embargo, el grado de correlación es muy bajo en estos casos (R = 0,23-0,26 para la densidad de codones con la pérdida de identidad y de GC, respectivamente). La densidad de codones de paro se espera que incremente a lo largo del tiempo. No sólo por la falta de presión de selección que actuaría contra la aparición de los mismos, sino también porque al ser ricos en adenina y timina (por ejemplo: TAG, TAA y TGA), a medida que aumenta la frecuencia de AT en una secuencia, aumenta la frecuencia de codones de paro en la misma (Charles e Ishikawa, 1999). La escasa correlación de la densidad de codones de paro con otros parámetros se debe, entre otros factores, a que un elevado número de pseudogenes pese a que poseen alguna mutación que los hace inactivos, no han acumulado durante el tiempo que son pseudogenes codones de paro en su secuencia. La pérdida de longitud sólo mostró correlación con la densidad de codones de paro y con un bajo coeficiente (datos no mostrados). La ausencia de correlación con procesos como la pérdida de identidad o de GC puede reflejar el ritmo diferente al que se suceden ambos eventos mutacionales. Sin embargo, hay que indicar que el parámetro pérdida de longitud, toma como longitud del pseudogen la establecida por los resultados de BLAST y que por tanto, no hay que descartar que se halle sujeta a un elevado porcentaje de error. 234 ………………………………………………………………………...........Resultados y discusión 6.3.5 Estima de la edad de los pseudogenes Hasta ahora se han llevado a cabo principalmente tres aproximaciones para calcular la edad de los pseudogenes de M. leprae: midiendo la acumulación de codones de paro en la secuencia del pseudogen (Babu, 2003), midiendo el número de corrimientos de pauta generados por indels o codones de paro (Liu et al. 2004) y calculando la distancia genética entre el pseudogen y el ortólogo correspondiente (Dagan et al. 2006). El primer parámetro, como hemos visto, evoluciona a un ritmo demasiado lento, por lo que no muestra una resolución suficiente para discernir la edad de pseudogenes recientes. El resto de parámetros que hemos calculado y que se relacionan con el tiempo de pseudogenización de una secuencia presentan también problemas. La pérdida de longitud es un parámetro que dará lugar a error a la hora de estimar la edad de un pseudogen en el caso de que se den inserciones/deleciones de tamaños diversos. Por ejemplo, un pseudogen que haya perdido 10 nucleótidos a partir de 10 sucesos de deleción mostrará una edad equivalente a la de otro pseudogen que sólo haya sufrido un único evento de deleción que implique 10 nucleótidos, de modo que la evolución de este parámetro no será gradual. La pérdida de porcentaje en GC de la secuencia, es una medida que también presenta una resolución insuficiente, dado que en principio el genoma de Mle ya posee, aún para genes activos, un contenido en GC aproximadamente un 10% inferior al resto de Mycobacterium. Además, aún cuando este contenido comenzara a reducirse a partir de la inactivación de una secuencia, llegado a un determinado punto la cantidad de GC no disminuirá. Respecto a la pérdida de identidad, es un parámetro que evoluciona más lentamente que otros de los previamente descritos y que, por tanto, tardará más en llegar a saturarse. Sin embargo, la secuencia de nucleótidos de un pseudogen a medida que transcurra el tiempo y acumule cambios llegará a presentar una elevada proporción de posiciones saturadas, que incrementan el error de esta medida. Lo mismo ocurre si medimos la edad de un pseudogen a partir de las distancias genéticas, aunque 235 ……………………………………………………………………...................................Capítulo 6 en este caso la aplicación de modelos puede corregir el efecto de las mutaciones recurrentes. Para mejorar la estima de la edad de los pseudogenes hemos desarrollado un método basado en el número de sustituciones no sinónimas. Cada gen evoluciona a un ritmo de sustituciones no sinónimas diferente, dependiendo de las restricciones funcionales de la molécula proteica codificada. Podemos por tanto asumir que existirá una correlación entre el número de sustituciones no sinónimas entre los linajes Mtu y Mav y el número de sustituciones no sinónimas entre los linajes de Mtu y Mle, de modo que para cada gen se podría inferir el segundo valor a partir del primero. Así, podemos estimar el número de sustituciones no sinónimas que hubieran ocurrido en los pseudogenes de Mle si no se hubieran inactivado y hubieran evolucionado como un gen hasta el presente. Sin embargo, una vez inactivado un gen en Mle, el ritmo de acumulación de sustituciones en los sitios previamente no sinónimos habrá aumentado considerablemente. El método que hemos empleado intenta deducir el tiempo de evolución como pseudogen, a partir de la comparación del número de sustituciones no sinónimas observado entre un gen del complejo Mtu y el pseudogen en Mle y el valor esperado si hubiera evolucionado como un gen en Mle hasta el presente. El tiempo de evolución como pseudogen equivale a la edad relativa del mismo y es el parámetro que queremos calcular y al que designamos como p. Para el cálculo de p, en primer lugar, a cada uno de los tres linajes principales de Mycobacterium definidos previamente lo designamos por una letra: el formado por Mav a, el formado por Mtc(I), Mbo y Mtu(II) t y el formado por Mle l, todos ellos divergentes desde un nodo común al que designamos como intercepto i, y que sería el ancestro común a l y el grupo t. Dentro de la rama de Mle diferenciamos un periodo de evolución como gen y otro como pseudogen (figura 6.10). 236 ………………………………………………………………………...........Resultados y discusión dN it i Mtu (I) Mtu (II)) Mbo dN ilps ps g Mle gy t pz Mav l a Figura 6.10. Árbol filogenético de las especies de Mycobacterium empleadas en el estudio. Las especies Mtu(I), Mtu(II) y Mbo forman un grupo al que designamos con la letra t. A las especies Mle y Mav les asignamos las letras l y a, respectivamente. La letra i hace referencia al ancestro común a t y l. En la rama que conduce a Mle diferenciamos un primer periodo como gen y un segundo periodo a partir de la inactivación del gen que conduce al pseudogen. El tiempo de evolución como pseudogen se designa como p. El resto de parámetros se definen como: y, número de sustituciones no sinónimas por sitio nucleotídico si el gen hubiera evolucionado hasta el presente como gen, desde la divergencia con el linaje de M. tuberculosis; z, número de sustituciones no sinónimas por sitio nucleotídico si el gen hubiera evolucionado como pseudogen desde el inicio de la divergencia con el linaje de M. tuberculosis, dNit, número de sustituciones no sinónimas entre el intercepto y el linaje de M. tuberculosis y dNilps número de sustituciones no sinónimas entre el intercepto y el ps en Mle. Siguiendo la nomenclatura de la figura 6.10, cualquier estimación entre cualquier par de secuencias será definida por este código de letras de modo que por ejemplo, dNia hace referencia a la estima del número de sustituciones no sinónimas producidas en la rama que conduce desde el intercepto hasta la secuencia actual en el genoma de Mav. En el caso de Mle, diferenciamos entre los genes, a los que nos referiremos con la letra l y los pseudogenes a los que hacemos referencia con las letras lps. Por ejemplo, dNtlps se referirá a la estima del número de sustituciones no sinónimas entre un gen del grupo t y su correspondiente pseudogen ortólogo en Mle. Así, para cada gen es posible estimar el número de sustituciones no sinónimas desde el intercepto, como se muestra en el siguiente ejemplo para t: 237 ……………………………………………………………………...................................Capítulo 6 dN it = (dN tlps + dN ta − dN alps ) 2 (1) En el caso de los pseudogenes de Mle, hay que tener en cuenta que desde el intercepto hasta l ha habido un primer periodo de evolución como gen, seguido de un segundo periodo de evolución como pseudogen. El método que hemos desarrollado tiene por tanto que predecir el número de sustituciones no sinónimas que habrían ocurrido para cada gen entre i y Mle, tanto si la pseudogenización hubiera ocurrido tras el nodo i (p = 1) como si ésta no hubiera ocurrido y por tanto, la evolución hubiera sido siempre como gen (p = 0). Conociendo ambos valores para cada gen podemos estimar cualquier valor intermedio de p en base a la siguiente fórmula: dN ilps = g × y + p × z (2) Sustituyendo g por (1-p): dN ilps = (1 − p) × y + p × z (3) Despejando p de esta fórmula: dN ilps − y = p × ( z − y ) p= dN ilps − y z−y (4) (5) En base al diagrama de la figura 6.10 sabemos que: dN ilps = dN tlps − dN it 238 (6) ………………………………………………………………………...........Resultados y discusión Dado que dNilps se puede calcular para cada pseudogen tal y como se ha descrito previamente, desarrollamos un método que nos permitiera calcular tanto y como z basándonos en los valores de dN y dS. Para estimar el número de sustituciones que ocurren en el linaje de Mle si sigue una evolución como gen (y), se analizaron todos aquellos genes ancestrales que siguen siendo funcionales en los tres linajes. Para estos 1281 genes ancestrales se calcularon dN y dS para cada una de las tres comparaciones posibles: Mav-Mle, Mav-Mtu(II) y Mle-Mtu(II). Para el cálculo de estos parámetros se aplicó el método aproximativo de Yang & Nielsen (2000), implementado en el programa yn00 dentro del paquete de programas PAML (Yang y Nielsen, 2000), tal y como se ha descrito previamente en material y métodos. El problema hasta ahora de los métodos aproximativos es que implican “tratamientos” ad hoc que no pueden ser rigurosamente justificados. Frente a estos métodos, el método de máxima verosimilitud desarrollado por Goldman y Yang (1994) no implica estas aproximaciones ad hoc y además tiene en cuenta el sesgo de transiciones/transversiones, el sesgo en el uso de codones, e incluso diferencias químicas entre aminoácidos, lo que no ocurre en el caso de métodos aproximativos (Smith y Eyre-Walker, 2001). Sin embargo, implica un elevado tiempo de computación. La ventaja del método de Yang & Nielsen (2000) es que a pesar de ser un método aproximativo, tiene en cuenta el sesgo en el uso de codones y el ratio transición/transversión. De modo que aunque el método ML es el que consigue mejores estimas de dN y dS, salvo en el caso de secuencias muy cortas, el método de Yang & Nielsen (2000) es útil cuando el número de secuencias a analizar es muy elevado y su computación por ML requiere grandes cantidades de tiempo. Además, se ha demostrado por simulaciones que las estimas obtenidas por este método están menos sesgadas que las resultantes desde otros métodos aproximativos, y que son muy similares a las obtenidas con ML (Yang y Nielsen 2000). A continuación se obtuvo la distribución de frecuencias de los tres parámetros. El cálculo se llevó a cabo tras la eliminación de 3 valores 239 ……………………………………………………………………...................................Capítulo 6 extremos. En todos los casos los valores tanto dN como dS se ajustan a una distribución normal. La media obtenida para estos parámetros fue la siguiente (tabla 6.2). Tabla 6.2. Media (desviación típica) de la estima del número de sustituciones sinónimas dS y no sinónimas dN entre Mav, Mle y Mtu(II). Mav-Mle dN dS Mav-Mtu(II) ) Mtu(II)-Mle )- 0,11 (0,06) 0,09 (0,05) 0,11 (0,06) 2,2 (0,8) 2,01 (0,81) 1,54 (0,8) Teniendo en cuenta el diagrama de la figura 6.10 sabemos que: dS ai + dSil = 2,2 dN ai + dN il = 0,11 dS ai + dSit = 2,01 dN ai + dN it = 0,09 dSli + dSit = 1,54 dN li + dN it = 0,11 Despejando desde ambos sistemas de ecuaciones obtenemos los valores medios de dN y dS desde el intercepto y a partir de éstos el cálculo del ratio dN/dS, cuyos valores podemos ver en figura 6.11. a) dN i 0,045 i t 0,065 0,045 c) dN //dS b) dS l a 0,72 i t 0,82 l 1,38 a 0,0625 t 0,079 0,033 l a Figura 6.11. Media del número de sustituciones no sinónimas (dN), sinónimas (dS) y del cociente dN/dS desde el intercepto hasta cada una de las especies empleadas, a partir de los genes ancestrales comunes a Mav, Mtu(II) y Mle. Los modelos de sustituciones sinónimas y no sinónimas pueden revelar información sobre mutaciones y presiones selectivas en genes, como 240 ………………………………………………………………………...........Resultados y discusión también información sobre la estructura poblacional y la recombinación. Los valores obtenidos muestran un ratio dN/dS menor desde el intercepto hasta Mav que desde el intercepto hasta Mle o Mtu(II). Este valor más inferior en Mav, se debe a una tasa de sustituciones no sinónimas en Mav inferior a lo esperado. Dado que el tiempo transcurrido entre el intercepto y Mav es superior al transcurrido entre el intercepto y Mtu, a priori esperaríamos un mayor número de sustituciones no sinónimas en Mav. Estos datos están en concordancia con los bajos ratios dN/dS hallados en Mav en comparación con Mtu(II) en estudios previos (Li et al. 2005) y que indican que la mayor parte de genes de Mav están sometidos a mayores restricciones funcionales. De hecho el ratio dN/dS puede ser un indicador de selección purificadora actuando contra la acumulación de cambios no sinónimos, lo que llevaría a una relativa acumulación de mutaciones sinónimas versus no sinónimas a lo largo del tiempo. Esta selección purificadora puede estar relacionada con la mayor capacidad de Mav para sobrevivir en un amplio rango de condiciones ambientales, frente a Mle o las especies del complejo tuberculosis (Li et al. 2005). Estos resultados revelan la importancia de calcular la edad de los pseudogenes, mediante un parámetro que contemple la evolución diferente para cada una de las ramas que diverge desde el intercepto. Si la tasa de sustitución no sinónima fuera la misma en el linaje de Mtu y de Mle, entonces dNit sería equivalente a dNil y por tanto, podríamos calcular y como dNit para cada gen. Este término se calcula empleando el cálculo de sustituciones no sinónimas entre el intercepto y los genes de Mtu(II), puesto que no disponemos de la secuencia de los genes que ahora son pseudogenes, tal y como era ésta antes de la pseudogenización. Sin embargo, a partir de los resultados de la figura 6.11 observamos que desde la divergencia del intercepto, Mle ha acumulado un mayor número de sustituciones no sinónimas. Dado que la evolución de los genes en Mtu(II) y Mle no tiene por qué ser igual, es necesario corregir para esta diferencia. Para ello intentamos ver la función que mejor se ajustaba a la relación entre dNit y dNil, para los genes ancestrales que son genes en Mle y en Mtu(II) y tienen un 241 ……………………………………………………………………...................................Capítulo 6 correspondiente gen ortólogo en Mav. Haciendo una transformación logarítmica de los datos y eliminando algunos outliers se obtiene un buen ajuste (figura 6.12). 0,4 dN il = 0.420 × (dN it ) 0 .617 0,35 0,3 dNil 0,25 R 2 = 0.48 0,2 0,15 0,1 0,05 0 0 0,05 0,1 0,15 0,2 0,25 dNit Figura 6.12. Relación y desarrollo de la función que mejor se ajusta a la relación entre el número de sustituciones no sinónimas entre el intercepto y Mle (dNil) y el número de sustituciones no sinónimas entre el intercepto y Mtu(II) (dNit). Ambos parámetros están calculados para aquellos genes ancestrales que son genes activos tanto en Mav, como en Mle y en Mtu(II). La función obtenida para la que vamos a utilizar el término f(dNit), es una función de dNit , que permite obtener el valor de dNil en el caso de que no se haya producido un evento de pseudogenización. Es decir, es una estima del número de sustituciones no sinónimas en el caso de que un pseudogen concreto de l hubiera evolucionado hasta el presente como un gen activo y por tanto, y = f(dNit). Únicamente para valores de dNit mayores que 0,1 el ajuste de la función no es tan preciso. Para mejorarlo probamos el efecto de eliminar alguno de estos puntos, lo cual no incrementó el ajuste puesto que se trata de pocos puntos y su distribución es dispersa. Finalmente, estimamos que sólo alrededor del 10% de los pseudogenes producen un valor de dNit superior a 0,1 y por tanto, consideramos apropiado mantener esta función pese a que el 242 ………………………………………………………………………...........Resultados y discusión ajuste para valores de dNit elevados no sea correcto. Por tanto, el término y de nuestra fórmula equivale a la función: f (dN it ) = 0,420 × ( dN it ) 0, 617 (7) Para el cálculo de z es necesario conocer el número de sustituciones no sinónimas que se hubieran producido en el gen, en el caso de que la secuencia en Mle hubiera sido un pseudogen desde el intercepto. Puesto que no es cierto que todos los pseudogenes de Mle hayan sido pseudogenes desde el intercepto, para obtener este valor nos basamos en las sustituciones sinónimas, dado que éstas son bastante similares a las sustituciones en secuencias neutras. No obstante, hay genes que están sujetos a selección en posiciones sinónimas y es posible que algunos de estos genes pertenezcan al actual grupo de pseudogenes de Mle. Para disminuir al mínimo el error que cometeríamos al estimar la tasa de sustituciones no sinónimas neutras desde estos pseudogenes, no calculamos este valor para cada pseudogen, sino que utilizamos el promedio de este valor para todos los pseudogenes de nuestra muestra. De modo que en primer lugar calculamos dSilps para cada pseudogen con la siguiente fórmula: dSilps = (dStl + dSal − dSta ) 2 (8) A continuación, calculamos el promedio de este valor obteniendo dSilps = 0,94 y lo aplicamos como una constante en el cálculo de p para cada pseudogen. De modo que z = 0,94. Finalmente, sustituyendo y y z en la fórmula (5) tenemos que el cálculo de p puede expresarse según la fórmula: p= dN ilps − f (dN it ) dS ilps − f (dN it ) 243 (9) ……………………………………………………………………...................................Capítulo 6 Dada la fórmula, este parámetro p sólo puede calcularse para aquellos pseudogenes que tienen un correspondiente ortólogo tanto en Mav como en Mle. De los pseudogenes de la tabla, sólo 714 cumplen este requisito. Además, se eliminaron del cálculo aquéllos cuya puntuación en los alineamientos previos llevados a cabo en base al algoritmo de NeddlemanWusch fue inferior a 65. Por lo que al final, la fórmula se aplicó para 611 pseudogenes. Los alineamientos se llevaron a cabo con el programa GeneWise, que tiene en cuenta los posibles cambios en la pauta de lectura. Para el cálculo tanto de dN como de dS, se aplicó el método de Yang & Nielsen (2000), implementado en el programa yn00 dentro del paquete de programas PAML (Yang y Nielsen, 2000). La distribución de los valores de p obtenida, una vez eliminados algunos puntos extremos, se puede observar en la figura 6.13. 100 p = 0,13 ± 0,08 80 60 40 20 0 -0,1 0 0,1 0,2 0,3 0,4 p Figura 6.13. Distribución de frecuencias de la edad de los pseudogenes de Mle p. El cálculo de p se ha efectuado únicamente para aquellos pseudogenes ancestrales que poseen un ortólogo tanto en Mav como en Mle. 244 ………………………………………………………………………...........Resultados y discusión La distribución normal (prueba de Kolmogorov-Smirnov; p = 0.373) está indicando que la mayor parte de los pseudogenes tienen una edad similar y que por tanto, ha habido un gran evento de pseudogenización en un rango temporal relativamente estrecho, lo que ha dado origen a un gran número de pseudogenes en Mle. Estos resultados concuerdan con los obtenidos por Dagan (2006) en el estudio llevado a cabo sobre los genomas de Mle, S. flexneri y S. typhi, en el que se concluye que los eventos de inactivación han ocurrido en cortos periodos de tiempo durante la evolución de los linajes. No obstante, a diferencia de la distribución obtenida en el trabajo de Dagan, nuestra distribución no está sesgada hacia la derecha, lo que indicaría que existe una pequeña proporción de pseudogenes más antiguos que el resto. La primera explicación a esta diferencia es que no trabajamos con la misma muestra de pseudogenes, dado que en el trabajo de Dagan emplean únicamente la señal de BLAST para detectar ortología, sin tener en cuenta el contexto genómico. De este modo, detectan 556 pseudogenes que consideran ortólogos entre Mle y Mtu(II), algunos de los cuales podría ser por tanto parálogos. Además, Dagan estima la edad de los pseudogenes de Mle mediante el cálculo de distancias genéticas, mientras que en nuestro caso para calcular la edad de los pseudogenes nos basamos en los sitios no sinónimos de la secuencia, evitando en mayor medida los errores debidos a sustituciones recurrentes en una misma posición nucleotídica, que podrían llegar a saturarla. Esto es especialmente apropiado en el caso de Mle, dado que se ha postulado una elevada tasa de mutación en los pseudogenes (Liu et al. 2004). La pérdida de dnaQ, que media la actividad correctora en la DNA polimerasa III (Cole et al. 2001) podría contribuir a esta mayor tasa. La distribución de p obtenida, no apoya los hallazgos de Babu (2003) según los cuales en los pseudogenes de Mle diferenciamos dos grupos cuya pseudogenización ha ocurrido en momentos diferentes, de acuerdo con la inactivación en periodos distintos de los factores sigma que controlaban dichos pseudogenes. En primer lugar, hay que indicar que en el estudio de Babu la edad de los pseudogenes se estima mediante la acumulación de 245 ……………………………………………………………………...................................Capítulo 6 codones de paro en las secuencias, basándose en alineamientos que no tienen en cuenta posibles corrimientos de pauta en los mismos debido a indels. Ello puede llevar a una sobreestimación del número de codones de paro acumulados. Para conocer el alcance de dicha sobreestimación llevamos a cabo una simulación del ritmo de acumulación de codones de paro bajo tres escenarios: que sólo se introdujeran codones de paro por sustituciones nucleotídicas, que sólo aparecieran codones de paro por indels y que ambos procesos puedan dar lugar al surgimiento de codones de paro. La simulación se llevó a cabo tomando como tasa de sustituciones 4,3 – 6,7 x 10 -9 sustituciones por sitio y año y de inserciones/deleciones 1,1 x 10-9 indels por sitio y año (capítulo 5). Indels Número de codones de paro Sustituciones 16000 Indels + sustituciones 14000 12000 10000 8000 6000 4000 2000 0 0 50 100 150 200 Número de generaciones Figura 6.14. Evolución de la acumulación de codones de paro bajo tres escenarios evolutivos: a) que sólo se introduzcan codones de paro mediante inserciones y deleciones, b) que sólo las sustituciones den lugar al origen de codones de paro y c) que se introduzcan codones de paro mediante ambos procesos mutacionales. Tal y como se observa en la figura 6.14, si incorporamos los indels como mutaciones que generan codones de paro, el ritmo de acumulación de los mismos incrementa notablemente, llegando en pocas generaciones a saturarse. Esto es porque un único evento de inserción/deleción puede introducir simultáneamente diversos codones de paro en el alineamiento, si 246 ………………………………………………………………………...........Resultados y discusión no se tienen en cuenta los posibles corrimientos en la pauta de lectura. Esta simulación pone por tanto de manifiesto el error que puede cometerse al calcular este parámetro a partir de este tipo de alineamientos. Sin embargo, es posible que la incongruencia de nuestros resultados y los de Babu sea debida al hecho de que nuestra estima de p sólo podamos llevarla a cabo sobre un número limitado de pseudogenes, dado que es necesario que tengan un ortólogo activo tanto en Mav como en Mtu(II). Por tanto, es posible que los pseudogenes que quedan por analizar pertenezcan justamente a otro de esos eventos de pseudogenización descritos por Babu. Este autor diferencia dos grupos de pseudogenes de edades diferentes con una media de densidades de codones de paro de 1/83 y 1/123, respectivamente. Con el fin de confirmar los resultados de Babu, estudiando sólo los pseudogenes con los que nosotros trabajamos, podemos diferenciar estos dos grupos con distintas densidades. Esto siempre y cuando al igual que Babu, estimemos el número de codones de paro a partir de alineamientos que no corrigen para posibles corrimientos de pauta. Pero nosotros no encontramos indicios de que estos dos grupos de pseudogenes pertenezcan a grupos de edades diferentes, dado que no presentan diferencias respecto a factores que a priori esperamos que estén relacionados con la edad del pseudogen, tales como la pérdida de identidad o de GC (figura 6.15). 247 ……………………………………………………………………...................................Capítulo 6 1,00 2,00 30,00 ΔGC (%) 20,00 10,00 0,00 -10,00 0,00 10,00 20,00 30,00 ΔI (%) Figura 6.15. Relación entre la pérdida de GC (%) y la pérdida de identidad (%) para pseudogenes con diferentes edades según la estima propuesta por Babu. El grupo 1 contiene pseudogenes que pertenecen a un conjunto con una densidad media de codones de paro de (1/83) mientras que es de (1/123) para los pseudogenes del grupo 2. Tampoco encontramos diferencias en cuanto a la estima de p para estos dos grupos (figura 6.16, apartado b)). a) A A A A AAAA S b) A AAA A A A A AA A A 0 0,01 0,02 Densidad de codones de paro -0,1 0 0,1 p 0,2 0,3 0,4 Figura 6.16. Los pseudogenes de Mle pueden dividirse en dos grupos de edades diferentes, en base a la estima de codones de paro calculada a partir de alineamientos que no tienen en cuenta posibles cambios en la pauta de lectura (a). La diferencia entre estos dos grupos desaparece cuando la edad de ambos grupos se mide mediante el parámetro p (b). 248 ………………………………………………………………………...........Resultados y discusión Además, cuando para estos mismos pseudogenes medimos la densidad de codones de paro a partir de los alineamientos extraídos de GeneWise, que sí contemplan estos posibles cambios debidos a indels, los valores de densidad de codones de paro son muy inferiores a los obtenidos por Babu, dado que sólo uno de estos pseudogenes posee una densidad cercana a 1/123, mientras que el resto poseen densidades cercanas o inferiores a 1/83. Nuestros resultados no apoyan, por tanto, los eventos de pseudogenización propuestos por Babu. Sin embargo, no podemos descartar que se haya producido más de un gran evento de pseudogenización, dado que nuestro análisis no permite llegar a estimar la edad de todos los pseudogenes de M. leprae. Si efectivamente el parámetro p refleja la edad de los pseudogenes, debería existir una correlación entre p y el resto de parámetros afectados por la degradación génica. De hecho p muestra correlación (figuras 6.17 y 6.18) con el resto de parámetros relacionados con la desintegración génica, excepto con la pérdida de longitud, al igual que ocurría con el resto de variables. No obstante, esta correlación es limitada, dado que está restringida al reducido intervalo temporal en el cual se dio la inactivación de la mayor parte de los pseudogenes de M. leprae. 249 ……………………………………………………………………...................................Capítulo 6 R = 0,329 ΔGC (%) Sig . 0,01 p Figura 6.17. Relación entre la pérdida de GC (%) y la edad de los pseudogenes según el parámetro p. R=0,545 ΔI (%) sig. 0,01 p Figura 6.18. Relación entre la pérdida de identidad (%) y la edad de los pseudogenes según el parámetro. La correlación de p con la densidad de codones de paro, basada en los alineamientos de Genewise, (R = 0,091 con α = 0,05) aunque significativa, era muy baja (datos no mostrados). Una vez conocida la edad relativa de los pseudogenes podemos intentar convertir este parámetro en una medida temporal. Establecer los tiempos de divergencia entre especies bacterianas resulta difícil, debido a la 250 ………………………………………………………………………...........Resultados y discusión escasez de fósiles asociados. Es por ello, que para poder datar la separación entre linajes bacterianos se recurre a otras aproximaciones, tales como extrapolar desde tasas calculadas para organismos en los que la divergencia ha podido ser bien establecida, a través de un registro fósil adecuado, o bien mediante otras aproximaciones (Ochman et al. 1999). Siguiendo este procedimiento se ha establecido por ejemplo, la edad del ancestro de las cepas del complejo M. tuberculosis (Hughes et al. 2002b), basándose en este caso en la divergencia entre E. coli y S. typhimurium. Ambas especies se asume que se separaron hace 100 m.a., cuando tuvo lugar la diversificación de los mamíferos (Doolittle et al. 1996) y la dS entre ambas, calculada por ML, es de 1.36 (Smith y Walter, 2001). Basándonos también en estos mismos datos, hemos estimado la divergencia entre los linajes empleados en este estudio con el fin de obtener un valor de p en escala temporal, aunque es preciso señalar que se trata de una aproximación muy imprecisa con un elevado error asociado (figura 6.19). Mtc(I) Mle Mav m.a 154,41 105,88 Figura 6.19 Tiempo transcurrido en millones de años (m.a.) desde el ancestro a cada una de las especies empleadas en el estudio. El cálculo se basa en los tiempos de divergencia entre E. coli y S. typhimurium. Hasta ahora, las únicas estimas de tiempo para la divergencia entre especies del género Mycobacterium se han llevado a cabo sobre el complejo de M. tuberculosis. La estima del ancestro del complejo M. tuberculosis ha 251 ……………………………………………………………………...................................Capítulo 6 ido variando desde 15.000 años (Kapur et al. 1994) a 35.000 años en un estudio posterior (Hughes et al. 2002), hasta la última estima de aproximadamente 3 m.a. (Gutierrez et al. 2005). Inicialmente se tendió a infraestimar el origen de estas especies debido a la alta similitud entre sus secuencias resultante de expansiones clonales a partir de cuellos de botella. Si tomamos como tiempo transcurrido desde el intercepto, el obtenido para Mtu(II), dado que Mle está sujeto a aceleración, podemos asumir que han transcurrido aproximadamente 100 m.a. desde la divergencia entre Mle y Mtu(II). Si la media de p para los pseudogenes en los que ha podido aplicarse el cálculo de este parámetro es de 0,13, entonces podemos tomar 13 ± 8 m.a. como la edad aproximada de gran parte de los pseudogenes de Mle. La alta fracción de pseudogenes en algunas especies patógenas se ha sugerido previamente que es resultado de un cambio rápido de nicho ambiental, que implica la pérdida de rutas metabólicas y respiratorias (Cole et al. 2001). Por tanto, este gran evento de pseudogenización puede estar asociado a un cambio importante en las condiciones de vida de Mle, acontecido entre el presente y hace unos 20 m.a. Este cambio podría corresponderse con la adaptación de Mle a la vida en células muy especializadas como las células de Schawnn (Youn y Robertson, 2001). Por otro lado, también se ha sugerido que la revolución neolítica, hace aproximadamente 10.000 años, es el momento en el cual numerosos patógenos humanos se especializaron en este hospedador (Mira et al. 2006). El surgimiento de la agricultura y la domesticación animal proporcionaron una mayor y más constante fuente de alimento, que derivó en un incremento de las poblaciones humanas. Con este aumento poblacional, los humanos se transformaron en hospedadores atractivos para muchas bacterias. M. leprae es uno de los patógenos humanos que podría por tanto haber sufrido una importante transformación durante esta etapa del Neolítico, que implicaría la especialización, inactivación de numerosos genes e inicio de un proceso de reducción genómica. 252 ………………………………………………………………………...........Resultados y discusión Por último, indicar que la aparición de un pequeño conjunto de valores negativos de p se debe al error asociado al cálculo de este parámetro, mayor para pseudogenes de origen muy reciente, como es nuestro caso. 6.3.6 Relación entre los genes perdidos y su distribución en operones Para conocer la distribución en operones de los genes perdidos en Mle, nos basamos en la distribución en operones de otro genoma de Mycobacterium: Mtu(II), dado que éste es el más cercano a Mle y por tanto, podemos asumir que compartían una distribución en operones similar. La disrupción de un operón rompe la corregulación de los genes contenidos en el mismo, por lo tanto los operones deben estar sujetos a selección purificadora (Jacob y Monod, 1961). De hecho, muchas agrupaciones de genes pueden encontrarse conservadas dentro de todas las mayores divisiones de los procariotas (Overbeek et al. 1999; Huynen et al. 2000) y la mayoría de estos grupos conservados se corresponden con operones (Ermolaeva et al. 2001; Price et al. 2006). Asumimos por tanto, que podemos basarnos en la distribución de los genes en operones de Mtu(II) para obtener una aproximación de esta distribución en Mle. La información acerca de qué operones encontramos en el genoma de Mtu(II) y qué genes se distribuyen en los mismos fue extraída de la base de datos MicrobesOnline (Alm et al. 2005) y se trata de una predicción basada en la comparación de genomas (Price, 2005) con un alto porcentaje de precisión (82%). El resultado fue el obtenido en la figura 6.20. 253 ……………………………………………………………………...................................Capítulo 6 3000 Número de operones 2500 Número de genes 2000 1500 1000 500 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Unidades de transcripción clasificadas en base al número de genes que contienen Figura 6.20. Distribución de frecuencias del número de unidades de transcripción de cada tipo y del número de genes contenido en cada una de ellas. Las unidades de transcripción se clasifican en base al número de genes que las conforman. La mayor parte de genes de Mtu(II) no se agrupan en operones y aquellos genes que se agrupan en operones lo hacen mayoritariamente en operones de pocos genes. Esta distribución coincide con la distribución de la longitud de los operones predicha para E. coli (Zheng et al. 2002). Diversos modelos han sido propuestos hasta el momento para explicar la agrupación de genes cuyos productos codifican para proteínas implicadas en una misma función. La “teoría del operón egoísta” afirma que la proximidad física de los genes puede ser considerada una propiedad egoísta del operón, dado que este hecho aumenta la probabilidad de una expansión con éxito de los mismos por transferencia horizontal, pese a que puede no proporcionar un beneficio fisiológico al hospedador (Lawrence y Roth, 1996). Sin embargo, en estudios posteriores (Price et al. 2006) se afirma que la transferencia horizontal no explica el origen de los operones, el cual se explica mejor porque es una manera de reducir la cantidad de información reguladora necesaria para patrones de expresión óptimo. No obstante, en este trabajo se concluye que, aunque la transferencia horizontal no explica el origen del operón, sí explica el mantenimiento de los mismos. 254 ………………………………………………………………………...........Resultados y discusión A continuación, analizamos la misma distribución de frecuencias únicamente para los operones de Mtu(II) que contienen genes que se han perdido en Mle (figura 6.21). 800 Número de operones Número de genes 600 400 200 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Operones clasificados en base al número de genes que contienen Figura 6.21. Distribución de frecuencias del número de genes en cada tipo de operón para los genes ancestrales de Mtu(II) que se han perdido en Mle. Los operones se clasifican en base al número de genes que forman el mismo. La distribución de frecuencias de los genes perdidos de Mle en los distintos tipos de operón muestra que mayoritariamente se han perdido genes que no forman parte de ningún operón, sino que son unidades transcripcionales individuales. Ello puede ser debido a que son éstos precisamente los más abundantes, como vimos en la figura previa, o es posible que exista una mayor probabilidad de pérdida para los genes que no se agrupan en operones. Para saber si, efectivamente los genes individuales tienen más probabilidad de perderse, llevamos a cabo un test chi-cuadrado a partir de los datos mostrados en la tabla 6.3. Tabla 6.3. Número de genes agrupados en unidades transcripcionales de uno y más genes, para todos los genes de Mtu (II) y para los genes perdidos. Entre paréntesis el valor esperado si la distribución en ambos casos fuera la misma. OPERONES De 1 gen De Mt(II) 2386(2333,4) De Mt (II) que contienen genes perdidos en Mle 735(787,6) 3121 TOTAL 255 De 2 o más genes 636(688,6) TOTAL 3022 285(232,4) 921 1020 4042 ……………………………………………………………………...................................Capítulo 6 A partir de los resultados obtenidos χ2 = 20,59 podemos por tanto rechazar la hipótesis nula y afirmar que la distribución en ambos casos es diferente y que se pierden menos unidades transcripcionales individuales en Mle de lo esperado por azar. Ello puede deberse al hecho de que la pérdida de un gen perteneciente a un operón desencadenará, en muchos casos, la pérdida del resto de genes pertenecientes a la misma agrupación, mientras que la pérdida de unidades transcripcionales individuales no posee este efecto de arrastre. Según la teoría del operón egoísta, son los genes débilmente seleccionados los que tienden a agruparse en operones. De este modo, disminuyen sus probabilidades de extinción, dado que tienen más probabilidad de ser transferidos lateralmente a un nuevo genoma receptor, donde su función tenga una mayor ventaja selectiva y puedan por tanto, prolongar su existencia en una nueva cepa o especie. De hecho, los genes esenciales no suelen encontrarse agrupados (Lawrence y Roth, 1996) y en los casos excepcionales en los que ocurre, se asume que son genes ancestrales. En base a esto esperaríamos que los genes agrupados en operones fueran más susceptibles de perderse. Aunque en trabajos posteriores se ha visto que los genes esenciales también se agrupan frecuentemente en operones y que además, se trata en muchos casos de operones recientes (Price et al. 2006). Puesto que los genes contenidos en un operón codifican para proteínas implicadas en una misma ruta metabólica, a priori esperamos que la pérdida de un gen que interviene en esa ruta y sea necesario para la misma, implique la pérdida del resto de genes que forman parte de esa agrupación. Esto es porque esperamos que la pérdida afecte a la función en la que pueden intervenir conjuntamente los genes que pertenecen a una misma unidad transcripcional. De modo que la inactivación de un gen que participa en una ruta metabólica concreta tendrá un efecto de arrastre sobre el resto de genes que codifican proteínas implicadas en ese proceso. Es lo que se conoce como “la teoría del efecto dominó” (Dagan et al. 2006). Podríamos esperar por tanto, que la mayor parte de operones que contienen genes perdidos, han 256 ………………………………………………………………………...........Resultados y discusión perdido todos o la mayor parte de los genes que los componen. Para comprobar esta hipótesis, estudiamos cuántos operones habían perdido todos sus genes, es decir cuántos operones habían sufrido lo que denominamos “pérdida completa”, y cuántos sólo habían perdido parte de sus genes, lo que denominamos una “pérdida parcial” (figura 6.22): 100 Operones que han perdido todos sus genes 80 Operones que han perdido parte de sus genes 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Operones clasificados en base al número de genes que contienen Figura 6.22. Distribución de frecuencias en operones que han perdido todos sus genes y operones que han perdido parte de sus genes, para cada tipo de operón (clasificados por el número de genes que los componen). Los resultados obtenidos muestran que, aunque un gran número de operones han perdido todos sus genes, existe también un porcentaje elevado de operones que sólo han perdido parte de sus genes. Excepto para los operones formados por dos genes así como para los de mayor tamaño -de 10 y 14 genes, respectivamente- el resto sufren mayoritariamente pérdidas parciales. La presencia de pérdidas incompletas puede reflejar el hecho de que no ha transcurrido tiempo suficiente para la inactivación del resto de genes implicados en esa ruta. De otra manera, la transcripción y traducción de éstos está implicando un gasto celular desventajoso para el organismo, salvo que la proteína en cuestión pueda participar en otros procesos 257 ……………………………………………………………………...................................Capítulo 6 adicionales a aquél por el que se agrupaba con otros genes en una misma unidad. Si efectivamente lo que ocurre en algunos casos es que no ha transcurrido el tiempo suficiente para la inactivación de todos los genes del operón, esperamos al menos que el estado de desintegración de genes inactivos de un mismo operón sea similar. Cuando analizamos más en detalle los resultados observamos que todos los genes contenidos en el operón de 14 genes son genes perdidos en Mle, para los que no se detecta de hecho ningún resto génico. Es decir, que este operón que ha sufrido la inactivación de todos sus genes, está formado por genes perdidos en Mle en un estado de desintegración muy avanzado. Por lo tanto, en este caso podemos asumir que ha transcurrido el tiempo necesario para la inactivación de todos los genes de un mismo operón. Aunque no podemos descartar la posibilidad de que una gran deleción eliminara en un único evento todos los genes de esta unidad transcripcional. De igual modo ocurre en el operón de 10 genes, donde 9 son pérdidas completas en Mle y sólo 1 gen mantiene el estatus de pseudogen. En el caso de los operones de 8 genes, que hasta el momento sólo han sufrido la inactivación de alguno de sus genes en Mle, los genes inactivos en Mle casi todos están en estado de pseudogen, y por tanto pueden considerarse inactivados más recientemente que en el caso de genes para los que no detectamos ningún resto génico. Esta observación concuerda con la idea de que la presencia de pérdidas parciales probablemente sólo refleja el hecho de que no ha transcurrido tiempo suficiente para la pérdida del resto de genes implicados en una misma ruta. Si efectivamente, cuando un gen pierde su función ello conlleva a la inactivación del resto de genes de la misma unidad, esperamos que la edad de pseudogenes de un mismo operón sea más similar, que la de aquéllos que pertenecen a operones diferentes. Para comprobar esta hipótesis comparamos la diferencia de edad entre parejas de pseudogenes en Mle que pertenecen a un mismo operón, frente a esa misma diferencia para parejas de pseudogenes que pertenecen a operones diferentes. Dado que la distribución de esa diferencia no es normal, aplicamos un test no paramétrico, el test de Mann- 258 ………………………………………………………………………...........Resultados y discusión Whitney. Aunque la media de esta diferencia era mayor para genes de operones diferentes que para genes que pertenecen a un mismo operón (0,09 frente a 0,07), el resultado del test indica que esta diferencia no es significativa (p = 0,08). Por lo tanto, no podemos afirmar que la edad de los pseudogenes que pertenecen a un mismo operón sea más similar que la de aquéllos que pertenecen a operones distintos. Es posible sin embargo, que este resultado sea debido a que todos los pseudogenes que analizamos se han inactivado en un margen de tiempo tan estrecho (como hemos obtenido previamente) que no es posible detectar diferencias entre aquéllos que forman parte o no, de una misma unidad transcripcional. El hecho de que pseudogenes de un mismo operón tengan edades más próximas que aquéllos que no están en una misma agrupación génica sería otra prueba a favor de que la pérdida de un gen perteneciente a un operón tenga probablemente un efecto de arrastre. En estudios previos (Dagan, 2006) no se ha hallado esta relación entre edad de lo pseudogenes de Mle y función. Sin embargo, en dicho estudio no trabajan con genes pertenecientes a un mismo operón, sino con genes pertenecientes a la misma o a diferente categoría funcional, lo cual no indica que necesariamente esos genes estén implicados en una misma ruta metabólica. 6.3.7 Pérdida de nucleótidos en los genes perdidos En el caso de un proceso de pérdida gradual, si el proceso de degradación y pérdida no ha concluido, podemos detectar los nucleótidos que formaban parte del gen original y que aún perduran en el genoma. Con el fin de ver si es posible encontrar estos restos, llevamos a cabo el análisis de la pérdida de nucleótidos sobre los pseudogenes y sobre las pérdidas totales (anexo 13). Siguiendo el procedimiento descrito en material y métodos (apartado 3.7.2), pudimos calcular el % de DNA perdido en 262 pseudogenes y en 48 genes perdidos totalmente. La distribución de frecuencias de las pérdidas fue la mostrada en la figuras 6.23 y 6.24. Sin tener en cuenta aquellos casos en los que en lugar de perder DNA se ha ganado más de un 10% respecto del 259 ……………………………………………………………………...................................Capítulo 6 tamaño original, el porcentaje medio de DNA perdido fue de un 11% para los pseudogenes y de un 73% en el caso de las pérdidas totales. Estos valores están ligeramente infravalorados, ya que no se ha tenido en cuenta que tras la pérdida completa de un gen o varios genes adyacentes, quedaría una región remanente de DNA correspondiente a una región intergénica. De este modo, aunque todos los nucleótidos de un gen se hayan perdido, se mantendrá un espacio entre los genes flanqueantes. Nosotros no hemos contemplado el tamaño de este espaciador intergénico en los cálculos dado que como previamente explicamos en material y métodos, el tamaño de las regiones intergénicas en Mycobacterium muestra una alta variabilidad, que impide tomar un tamaño estándar sin cometer un elevado error. 80 Número de pseudogenes 70 N = 262 60 50 40 30 20 10 0 -220 -100 -80 -60 -40 -20 0 20 40 60 80 100 % de DNA perdido en los pseudogenes Figura 6.23. Porcentaje de DNA perdido en los genes ancestrales que son pseudogenes en Mle respecto a la secuencia del gen ortólogo correspondiente. 260 ………………………………………………………………………...........Resultados y discusión 14 N = 48 12 10 Número de pérdidas 8 6 4 2 0 -220 -160 -80 -60-40 -20 0 20 40 60 80 100 % de DNA perdido en las pérdidas totales Figura 6.24. Porcentaje de DNA perdido en los genes ancestrales que han sufrido una pérdida completa en Mle respecto al gen ortólogo correspondiente. La pequeña pérdida de DNA de los pseudogenes se puede asociar al corto tiempo transcurrido desde el inicio del proceso de inactivación. Mientras que la mayor variación en el porcentaje de pérdida de DNA de los genes con pérdida total de similitud indica que estamos ante los restos de procesos de inactivación génica, que han tenido lugar en diferentes momentos de la divergencia con M. tuberculosis. También es posible detectar algunos casos de pseudogenes cuya reducción de la longitud ha sido drástica, pese a que la secuencia remanente de los mismos aún posee una similitud significativa con sus ortólogos en el resto de genomas de Mycobacterium. Estos casos, aunque muy poco frecuentes, podrían ser resultado de deleciones de mayor tamaño que pueden darse puntualmente a lo largo del proceso de degradación. 261 ……………………………………………………………………...................................Capítulo 6 En el caso de las pérdidas totales, también cabe destacar algunos casos en los que la reducción del tamaño ha sido escasa. Esto puede ser resultado del azar en el proceso de pérdida de DNA que actúa sobre todo el genoma. Es razonable pensar que exista una presión de selección contra los pseudogenes, dado que la presencia de un elevado número de los mismos puede implicar un elevado coste para la bacteria portadora. Ello es debido a que muchos pseudogenes pueden seguir transcribiéndose e incluso traduciéndose, lo que supone una inversión de energía en la producción de una proteína que no será funcional. Incluso es posible que la proteína finalmente sintetizada, aunque no sea capaz de llevar a cabo su función original, interaccione con proteínas de otras rutas impidiendo que desarrollen su función correctamente. Se ha observado que un modo de evitar esto es mediante lo que se conoce como el “silenciamiento de los pseudogenes” (Mira y Pushker, 2005), proceso que consiste en la degradación de las secuencias Shine-Dalgarno. En el caso de Mle, éstas están profundamente degradadas en los pseudogenes, lo que explica que el genoma pueda soportar esa elevada carga de pseudogenes. De hecho, es posible incluso que los cambios en las regiones reguladoras de los pseudogenes estén seleccionados positivamente, de modo que se den con una tasa más elevada en estos que en el propio pseudogen. De este modo, ya no harían falta tantas deleciones en los pseudogenes que podrían alargar su vida media (Mira y Pushker, 2005). No obstante, no siempre la degradación de las secuencias Shine-Dalgarno impide el silenciamiento de los pseudogenes. De modo que, quizá la respuesta más razonable al elevado numero de pseudogenes en Mle, especialmente tras conocer que el origen de los mismos es reciente, es que no ha transcurrido el tiempo suficiente para la desaparición de los mismos. Es importante destacar además, que en algunos casos se ha producido un incremento de longitud que incluso dobla el tamaño original, lo que probablemente sea debido a la introducción de secuencias de inserción u otros elementos génicos egoístas tales como transposones o profagos. 262 7. DISCUSIÓN GENERAL 263 264 ………………………………………………………………………………...…Discusión general 7. DISCUSIÓN GENERAL Caracterizar el proceso de reducción genómica requiere cuantificar tanto los eventos de indels (tamaño y número de los mismos) como el ritmo al que éstos se producen, así como adoptar diferentes estrategias de análisis según el rango temporal o el momento de la evolución reductiva cuyo estudio queremos abordar. Los estadios más avanzados de la degradación genómica están representados por genomas de bacterias altamente reducidos, con escasos pseudogenes y numerosos síntomas de desintegración génica, como el genoma de B. aphidicola. La disponibilidad actual de diversos genomas de esta bacteria completamente secuenciados proporciona una oportunidad única de llevar a cabo análisis comparativos para caracterizar las últimas etapas de la reducción. Pero este análisis no ha de llevarse a cabo a través de una comparación directa entre estos genomas. Esta aproximación errónea es la que ha llevado por ejemplo a afirmar que, probablemente el genoma de B. aphidicola había alcanzado una estasis en el tamaño genómico, al compararse directamente el tamaño de los tres primeros genomas de B. aphidicola completamente secuenciados (Wernegreen, 2002), y a sugerir una tasa de pérdida tan escasa como 1 nt cada 10.000 años (Mira et al. 2001). Los genomas actuales estrechamente emparentados, que son sujetos de reducción, son muestras congeladas en el tiempo de procesos paralelos de evolución reductiva, que sólo representan el estado actual de diferentes linajes. La comparación entre los mismos, no aborda el intervalo temporal del proceso de degradación progresivo que ha sufrido cada uno de estos organismos. El análisis correcto requiere la comparación del genoma que está siendo sujeto de evolución reductiva, con su correspondiente genoma ancestral tal y como se ha hecho en otros estudios (Moran y Mira 2001; Silva et al. 2001; Delmotte et al. 2006). Además, en el caso de B. aphidicola, la perfecta conservación del orden génico y la ausencia de transferencia horizontal, permiten una reconstrucción precisa y ajustada del ancestro tal y como hemos descrito en el capítulo 4. La comparación de cada uno de los genomas con el 265 ........................................................................................................................................................... ancestral es lo que nos ha permitido establecer una tasa de pérdida basada en el genoma completo de la bacteria y que es mucho más elevada que la inicialmente propuesta. Adicionalmente, el disponer de los tiempos de divergencia entre las especies estudiadas otorga la posibilidad de obtener una estima en tiempo absoluto de estas tasas. Hasta el momento, en bacterias obligadas intracelulares, esta tasa de pérdida sólo ha sido calculada en Rickettsia (Andersson y Andersson, 1999). Sin embargo, en ésta, al igual que otros organismos, la ausencia de dataciones no permite calcular tasas respecto al tiempo, sino relativas a las sustituciones y por lo tanto no comparable entre organismos. Por el contrario, la tasa de pérdida obtenida en nuestro estudio, de 2,9 x 10-8 nucleótidos perdidos por sitio y año, sí que es una estima basada en tiempo absoluto. Esta tasa ha mostrado que la vida media de un pseudogen en B. aphidicola está en torno a 23,9 m.a. y que por tanto, en las etapas más recientes de la evolución de esta bacteria el ritmo de pérdida de DNA es mucho mayor a lo inicialmente sugerido. De hecho, el posterior descubrimiento de un genoma de B. aphidicola mucho más reducido, el genoma de B. aphidicola de C. cedri (Gil et al. 2002), es congruente con una tasa de pérdida mayor a la propuesta por Mira y colaboradores y descarta la estasis en el tamaño genómico de B. aphidicola previamente sugerido. La comparación con el genoma ancestral nos permite por tanto, saber qué cantidad de DNA se ha perdido o ganado. Sin embargo, esta aproximación es limitada, dado que lo que vemos es el balance global resultante de la acumulación de eventos, tanto de inserción como de deleción a lo largo del tiempo. Si queremos caracterizar estos eventos mutacionales para conocer el tamaño y número de los mismos, es necesario otro tipo de aproximación. Dado que identificar correctamente los indels requiere que las secuencias puedan alinearse, es preciso trabajar con cepas o especies muy estrechamente emparentadas. Es por ello que, para abordar este análisis en B. aphidicola, llevamos a cabo un estudio con bacterias pertenecientes a diferentes clones de una misma especie de pulgón, R. padi. Mediante este estudio pretendíamos obtener secuencias perfectamente alineables y que, al 266 ………………………………………………………………………………...…Discusión general mismo tiempo, presentaran polimorfismos a nivel de indels. Estos polimorfismos eran esperables en base a estudios iniciales, que demuestran que existe diferenciación genética entre poblaciones holocíclicas y anholocíclicas de esta especie de pulgón y que sugerían un largo tiempo de divergencia entre ambos linajes y un origen antiguo de los linajes asexuales (Martinez-Torres et al. 1996; Simon et al. 1996). Sin embargo, nuestros resultados mostraron una ausencia total de indels a nivel intraespecífico, lo que es congruente con un estudio posterior, que muestra que la divergencia entre linajes sexuales y asexuales, no es debida a un origen antiguo como se había postulado previamente, sino a repetidos y recientes eventos de hibridación entre R. padi y especies relacionadas desconocidas (Delmotte et al. 2003). Los resultados obtenidos nos obligaron por tanto a trabajar con secuencias más alejadas y a movernos en un nivel interespecífico con diferentes especies del mismo género, el género de pulgones Rhopalosiphum. A este nivel interespecífico hemos obtenido polimorfismos, tanto de indels como de sustituciones y el análisis de los indels ha mostrado un sesgo hacia las deleciones, en base tanto al número como al tamaño de los eventos. Este resultado confirma el sesgo hacia la pérdida previamente descrito, tanto en organismos procariotas como eucariotas (Ophir y Graur, 1997; Andersson y Andersson, 1999; Mira et al. 2002; Blumenstiel et al. 2002; Petrov, 2002; Witherspoon y Robertson, 2003; Zhang y Gerstein, 2003). La tasa de deleción obtenida mostró, además, ser congruente con la previamente establecida en el estudio llevado a cabo en el capítulo 4. No obstante, la dificultad tanto de alinear las secuencias a nivel interespecífico como de amplificar las regiones de interés en las diferentes especies, nos llevó a buscar un modelo más adecuado. De modo que llevamos a cabo este mismo análisis en otro organismo, B. floridanus. Esta bacteria, al igual que B. aphidicola, se haya en las últimas etapas de la evolución reductiva. Su tamaño genómico es similar al de B. aphidicola y al igual que ésta, presenta un contenido en AT muy bajo, escasos pseudogenes y síntomas de degradación génica como tasas aceleradas, ausencia de recA o pérdida de 267 ........................................................................................................................................................... sistemas de reparación (Gil et al. 2003). Además, las secuencias genómicas completas de dos especies del género Blochmannia, B. floridanus y B. pennsylvanicus, se encuentra actualmente disponibles (Gil et al. 2003; Degnan et al. 2005). Las diferentes colonias de la hormiga C. floridanus son por lo tanto, a priori, un sistema adecuado para estudiar a nivel intraespecífico las últimas etapas de la reducción genómica, al igual que en B. aphidicola. La proximidad filogenética entre éstas posibilita, también en este caso, alineamientos precisos y el aislamiento genético previamente descrito entre las mismas (Gadau et al. 1998), permite esperar de antemano polimorfismos a nivel de indels. Además, la ventaja adicional en este estudio, respecto al análisis de B. aphidicola de R. padi, es que disponemos del genoma íntegro de B. floridanus. El acceso a las secuencia completa permite un diseño más preciso de cebadores y un conocimiento previo de las regiones neutras del genoma. Tal y como esperábamos, las secuencias obtenidas de B. floridanus son fácilmente alineables y presentan polimorfismos a nivel de indels. Además los resultados de este análisis han confirmado los previamente obtenidos en B. aphidicola, pese a que el tamaño muestral del estudio en Buchnera era inferior. Ambos trabajos confirman un sesgo hacia la deleción, cuyo principal responsable es el tamaño de los eventos, y dan como resultado tasas de pérdida del mismo orden de magnitud. Las tasas, al igual que en el capítulo 4, se han calculado en base a estimas temporales y por lo tanto proporcionan una medida absoluta. El cálculo de las mismas ha sido posible gracias al ajuste de relojes moleculares basados en inferencias derivadas del registro fósil, un dato adicional que confirma que B. aphidicola y B. floridanus son modelos adecuados para este tipo de estudio. Adicionalmente, el estudio de las regiones neutras desarrollado en el capítulo 5, tanto en B. aphidicola como en B. floridanus, muestra como el sesgo hacia la pérdida en estas especies es consecuencia principalmente del mayor tamaño de los eventos de deleción frente a las inserciones. De hecho, en ambos análisis, aunque la reducción en estas últimas etapas está 268 ………………………………………………………………………………...…Discusión general protagonizada principalmente por eventos de muy pequeño tamaño (mayoritariamente de 1 nt), hemos detectado eventos que implicaban un mayor número de nucleótidos. Aunque en estas bacterias la recombinación homóloga está impedida por la ausencia de recA y la carencia de largas repeticiones, los mecanismos de recombinación ilegítima pueden actuar y éstos pueden generar indels de tamaño considerable (más de 50 nucleótidos). Un evento de este tamaño es, probablemente, irrelevante en etapas iniciales, donde deleciones mucho más grandes que abarquen diversas pautas de lectura pueden producirse. Sin embargo, en las últimas etapas de la reducción, un evento moderado (entre 50 – 200 nucleótidos) es destacable. En primer lugar, porque en estos últimos estadios las deleciones que abarcan cientos de loci no pueden darse y en segundo lugar, porque el impacto del tamaño de un evento de indel, es tanto mayor a medida que el genoma está más reducido. Por lo tanto, la calificación de grande o pequeño que se asigna a un indel, depende de su tamaño relativo a la etapa de la evolución reductiva que se aborde en un estudio. Es por ello que sería aconsejable que los autores indicaran siempre el tamaño relativo de referencia que emplean, cuando hablan de grandes o pequeños eventos, dado que a menudo se utilizan estos calificativos sin precisar el número de nucleótidos implicados en los mismos, lo que da lugar a aproximaciones subjetivas. El estudio sobre los indels desarrollado en el capítulo 5 ha permitido, además, el análisis de las regiones flanqueantes a los mismos, lo que puede mostrar indicios del mecanismo de pérdida implicado en la generación de éstos. Así, tanto el tamaño de los indels detectados como las repeticiones flanqueantes a los mismos, halladas en la mayoría de los casos, demuestran que la recombinación ilegítima juega un importante papel en las últimas etapas de la evolución reductiva. De hecho, el incremento en AT y la pérdida de sistemas de reparación que sufren los genomas bajo degradación génica, aumenta la frecuencia e inestabilidad de pequeñas repeticiones en tándem, tal y como se ha mostrado en el capítulo 5. Éstas son las que permiten actuar a los mecanismos de recombinación ilegítima, especialmente 269 ........................................................................................................................................................... al deslizamiento de la polimerasa. Así, aunque en las últimas etapas de la evolución reductiva de B. aphidicola y B. floridanus la recombinación homóloga ya no es posible, debido a la ausencia de recA y a la pérdida de grandes repeticiones, la recombinación ilegítima probablemente está intensificada respecto a estadios iniciales. De modo que aunque eventos que cubran decenas de genes ya no se dan en genomas en avanzado estado de reducción, el ritmo de producción de eventos de pequeño tamaño aumenta y el impacto de éstos en las últimas etapas es mayor a medida que el genoma está más reducido. Al igual que en otros trabajos llevados a cabo para calcular tasas de indels en diferentes organismos, las regiones escogidas han sido regiones funcionalmente neutras: pseudogenes y regiones intergénicas. Las razones principales para escoger esta clase de secuencias son dos: en primer lugar, dado que los indels son potencialmente deletéreos en regiones codificantes, la probabilidad de detectar éstos en genes es muy baja, dado que la mayoría no se fijarán. En segundo lugar, las mutaciones en secuencias no codificantes a priori son neutras y representan por tanto el espectro mutacional de indels que queremos obtener. Sin embargo, esta última afirmación no es cierta si existe selección a favor de un tamaño genómico óptimo, dado que en ese caso ninguna región del genoma estaría exenta de efectos en la eficacia selectiva. No obstante, a menudo se asume que el coeficiente de selección asociado a estos eventos es nulo, debido a su escaso tamaño en los estadios finales de la reducción y que por tanto, el sesgo calculado sobre estas regiones es neutro, aunque este argumento se basa en una asumción no comprobada. Además, nosotros hemos mostrado como siguen apareciendo indels de tamaño considerable (>50 nucleótidos), que podrían tener efectos en la eficacia, e inclusive los indels de menor tamaño (1 nucleótido) no podemos descartar que afecten al coeficiente de selección, especialmente si tenemos en cuenta el efecto simultáneo del conjunto de los mismos sobre todo el genoma. Otros trabajos asumen directamente que, independientemente del tamaño de los eventos, no existe selección a favor de un genoma reducido y por lo tanto el 270 ………………………………………………………………………………...…Discusión general sesgo delecional puede calcularse sobre regiones funcionalmente neutras. Sin embargo, no se ha demostrado todavía si es la selección o la deriva quien dirige principalmente el proceso de reducción. Además, la importancia relativa de cada una de estas fuerzas puede variar entre linajes y a lo largo del proceso. Diversos factores, como el tamaño efectivo poblacional, el carácter poliploide o no del genoma, el coeficiente de selección asociado al tamaño de los eventos, el ritmo al que éstos se producen, etc. dictaminarán cuál es la fuerza evolutiva primaria. Estos factores tienen por tanto que ser cuantificados en los diferentes linajes, pero las dificultades asociadas a una medición exacta de los mismos no ha permitido por el momento obtener una estima de todos ellos. Puesto que no sabemos si las regiones carentes de función son neutras respecto a la evolución del tamaño genómico, la aproximación más correcta para determinar las tasas de indels sería la desarrollada en trabajos de evolución experimental, como los llevado a cabo en Caenorhabditis elegans o S. enterica (Denver et al. 2004, Nilsson et al. 2005). Por ejemplo, Nilsson y colaboradores (2005) analizaron el genoma de diversas cepas de S. enterica, tras cientos de pases sucesivos que crecen cada vez a partir de una única colonia escogida al azar, con el fin de permitir a los mutantes de crecimiento lento fijarse en la población. Sin embargo, este tipo de análisis en bacterias que no pueden cultivarse fuera de su hospedador, como las bacterias obligadas intracelulares, no podría llevarse a cabo de manera precisa. En este caso sería necesario cultivar al hospedador y hacer un cálculo indirecto de las generaciones de bacterias que equivalen a cada generación de hospedador. Además, aún llevándolo a cabo, este estudio no permitiría detectar la selección a nivel intracelular de organismos poliploides, como B. aphidicola. De modo que la aproximación intraespecífica llevada a cabo en nuestro estudio, aunque limitada, proporciona al menos una cuantificación absoluta de los sucesos y demuestra que, independientemente de que exista o no selección a favor de un reducido tamaño genómico, las deleciones a pequeña escala, por sí solas, son suficientes para impedir la expansión, dado que el número de nucleótidos implicados en éstas es mayor. 271 ........................................................................................................................................................... El análisis de las regiones neutras en el capítulo 5 ha permitido también el cálculo de tasas neutras de sustitución nucleotídica en estos organismos. Las tasas obtenidas en el caso de B. aphidicola (~4-7 x 10-9 sustituciones por sitio y año) son congruentes con estimas previas (Ochman et al., 1999b; Brynnel et al. 1998). Del mismo modo las tasas obtenidas para B. floridanus (~2 x 10-8 sustituciones por sitio y año) están en concordancia con estudios anteriores (Degnan et al. 2004) y confirman la mayor tasa de sustitución descrita en Blochmannia en comparación con bacterias entéricas y también con B. aphidicola. El estudio de estas regiones también ha confirmado la mayor frecuencia de transiciones frente a transversiones, así como el sesgo hacia AT. Estos fenómenos han sido previamente descritos en organismos tanto eucariotas como procariotas (Li et al. 1984; Petrov y Hartl, 1999; Andersson y Andersson, 1999). Además, hemos mostrado en el capítulo 4 como la disminución de GC en la composición está correlacionada con la pérdida de longitud en las últimas etapas de la evolución de B. aphidicola. No obstante, esta correlación se da sólo en aquellos genes inactivados más recientemente (hace 50-70 m.a.). La ausencia de correlación para genes perdidos más tempranamente se debe, probablemente, a que la pérdida de GC es un parámetro que se satura antes, especialmente en B. aphidicola, donde el contenido en GC es ya muy bajo, incluso en regiones codificantes (Shigenobu et al. 2000; Tamas et al. 2002 y van Ham et al. 2003). La ausencia de correlación entre estos dos parámetros, se da también en el análisis llevado a cabo en el capítulo 6. En este capítulo analizamos la pérdida en etapas tempranas de M. leprae, donde el contenido en GC es más elevado y por tanto, está más lejos del nivel de equilibrio que se alcanza tras la degradación. La falta de correlación en este caso es debida por un lado, a que el parámetro pérdida de longitud varía de manera mucho más abrupta que en B. aphidicola. La explicación más plausible es que en B. aphidicola el rango de indels que pueden producirse es mucho más limitado, dado que se encuentra en etapas tardías de la reducción y por tanto, la disminución de la longitud se da de manera más gradual. Sin embargo, en M. leprae, que se 272 ………………………………………………………………………………...…Discusión general haya en etapas tempranas, la pérdida de longitud no ha mostrado correlación con ninguno de los otros parámetros relacionados con la degradación génica tales como: densidad de codones de paro, pérdida de identidad e incremento en AT. La mayor cantidad de DNA que puede perderse y ganarse, el elevado número de elementos repetidos y una maquinaria de recombinación intacta permiten probablemente un mayor rango en la longitud de indels, lo que produce una variación del tamaño más escalonada. Pero además, la ausencia de correlación es también debida a que todos los pseudogenes de M. leprae tienen una edad similar y por tanto, el rango temporal de inactivación que representan es muy limitado. Las mayores oportunidades para la aparición de indels de mayor tamaño en genomas como el de M. leprae es lo que ha llevado a postular que la etapas iniciales de la reducción estaban dominadas por eventos que abarcaban cientos de loci (Moran 2001; Mira et al. 2001). Sin embargo, nosotros hemos demostrado como, aunque las grandes deleciones pueden darse, la pérdida gen a gen es la principal fuente de degradación génica en M. leprae, aún cuando ésta se halle en estadios iniciales de la reducción. Saber si este hecho es característico de las etapas iniciales de la reducción requiere análisis similares en un mayor número de genomas en estadios tempranos. El resultado que obtenemos en M. leprae puede explicarse porque, aunque en las etapas tempranas existe la maquinaria para que emerjan indels que abarquen cientos de loci y estos genomas presentan cientos de genes que son potencial material de pérdida, la eliminación de los mismos a través de grandes eventos -que implican decenas de pautas abiertas de lectura- es poco probable. Ello se debe a que los genes que pueden perderse no están agrupados y separados de aquéllos cuya pérdida tiene efectos negativos en la eficacia. Por el contrario, los genes que se inactivan se distribuyen aleatoriamente, esparcidos por todo el genoma. Este hecho hace que la probabilidad de que una deleción de ingente tamaño alcance a genes necesarios y sea por tanto deletérea o perjudicial, sea elevada. Una prueba a favor de este argumento es que Nilsson (2005), aunque demuestra que se pueden dar delecciones de hasta más de 200 273 ........................................................................................................................................................... kb, en las cepas donde las detecta sólo encuentra uno de estos vastos eventos por genoma. Nuestro análisis de los bloques de pérdida en M. leprae, al igual que en el estudio que hemos llevado a cabo en el capítulo 4 sobre B. aphidicola, se ha basado también en la reconstrucción previa de un genoma ancestral y no en la comparación directa de especies relacionadas, como se ha hecho en otros casos. Por ejemplo, la comparación directa de diferentes clones de M. tuberculosis, ha permitido detectar variabilidad a nivel de deleciones que comprenden hasta 16 pautas abiertas de lectura (Kato-Maeda, 2001), pero como ya indicamos previamente, esta aproximación es errónea. El estudio correcto requiere la comparación del genoma afectado por la pérdida, con el genoma ancestral. Esta reconstrucción ha de ser lo más precisa posible, dado que diferentes genomas ancestrales no derivarán en los mismos resultados. Por ejemplo, las distintas reconstrucciones del genoma ancestral de B. aphidicola en estadios iniciales, en los trabajos de Silva et al. (2001) y Moran y Mira (2001), desembocan en conclusiones opuestas. Así, mientras en el primer caso se concluía que la pérdida gradual era la principal fuerza de degradación, en el segundo la deleción a grandes pasos era aparentemente la fuerza dirigente de la reducción en las primeras etapas. La correcta reconstrucción del genoma ancestral constituye por tanto un paso crítico en el estudio de la reducción génica. Sin embargo, en el caso de M. leprae la reconstrucción del ancestro no es tan obvia como en el capítulo 4, en el estudio de B. aphidicola. El genoma de M. leprae ha sufrido numerosas reordenaciones respecto al ancestro que reconstruimos y presenta un abundante exogenoma (secuencias de inserción, etc.) y restos génicos. A pesar de ello, el acceso a diversos genomas completamente secuenciados, muy próximos a M. leprae, como los escogidos en nuestro estudio en el capítulo 6, provee la oportunidad de una reconstrucción muy ajustada del ancestro. Ésta requiere la obtención de una filogenia previa, tal y como hemos llevado a cabo y una búsqueda precisa de pseudogenes y restos génicos en los genomas actuales. Dada la importancia de obtener un genoma 274 ………………………………………………………………………………...…Discusión general ancestral próximo al verdadero, hemos llevado a cabo un análisis lo más completo posible, mediante la búsqueda de genes y restos ortólogos de todos y cada uno de los genes de las especies empleadas. De este modo, analizamos únicamente las pérdidas de genes ancestrales y eliminamos aquéllas que provienen de genes que han podido incorporarse al genoma de M. leprae posteriormente a la divergencia del ancestro por transferencia horizontal. Los genomas en etapas tempranas de la degradación genómica, como el de M. leprae, se caracterizan también por poseer abundantes pseudogenes. La presencia de los mismos es otra prueba a favor de una pérdida gradual frente a una pérdida por grandes deleciones. Algunos autores proponen que la abundancia de pseudogenes en esta especie, así como en otras bacterias obligadas intracelulares, demuestra que la fuerza de la selección para reducir el tamaño genómico en estos genomas está reducida (Bentley, 2004), respecto a otros más compactos como el de B. aphidicola. Sin embargo, la fuerza de la selección podría ser igual de intensa en ambos casos y la diferente cantidad de material no codificante puede tan sólo reflejar momentos diferentes en la evolución reductiva. La presencia de un elevado número de pseudogenes se explicaría sólo porque no ha transcurrido el tiempo suficiente para poder eliminarlos. Para conocer realmente si la velocidad del proceso es similar o no en dos linajes, es preciso cuantificar tasas respecto al tiempo transcurrido. Esta abundancia de pseudogenes, que aún son comparables a sus ortólogos activos, permite calcular el grado de degradación de los mismos, a partir del cual podemos inferir el momento de la inactivación. Puesto que para poder calcular la edad de los pseudogenes es necesario trabajar con parámetros relacionados con la desintegración génica, cuyo valor varíe progresivamente a lo largo del tiempo, previamente estudiamos la variación gradual de éstos. El parámetro que mostró una gradación menos abrupta fue la pérdida de identidad. A partir de este dato desarrollamos un método para calcular la edad de un pseudogen a partir de las posiciones más conservadas, los sitios no sinónimos, que tiene en cuenta el distinto ritmo evolutivo de 275 ........................................................................................................................................................... cada linaje. Este análisis ha mostrado que los pseudogenes analizados de M. leprae han surgido a partir de un evento de inactivación único y reciente. Este resultado es por tanto congruente con la idea de que la abundancia de pseudogenes en M. leprae es debida a una inactivación reciente y que por lo tanto, no ha transcurrido tiempo suficiente para la eliminación de los mismos. La ausencia de un registro fósil asociado al género Mycobacterium no permite calcular con precisión la edad de los pseudogenes, en una escala de tiempo absoluto. Mediante una aproximación indirecta hemos llegado a inferir que la masiva inactivación de genes en M. leprae puede haber acontecido dentro de un rango comprendido entre el presente y hace 20 m.a. Este amplio intervalo comprende la revolución neolítica, hace unos 10.000 años, que ha sido sugerida como el momento más probable para que gran parte de las bacterias patógenas iniciaran su especialización en nichos restringidos como el hombre (Mira et al. 2006). Aunque también la especialización en células específicas como las células de Shwann podría ser responsable de esta pérdida masiva. La aparición de un ingente potencial de pérdida sería el resultado de este cambio en el estilo de vida y en las necesidades de la bacteria. Esto es congruente con el resultado que hemos obtenido en el capítulo 4, en el análisis funcional de las pérdidas en B. aphidicola. En este capítulo, la escasez de pérdidas convergentes demuestra como la pérdida es, probablemente, específica de la particular dieta o ciclo de vida del pulgón hospedador, de modo que cambios en estos factores inducirán la pérdida de todos los genes, que a partir de este cambio dejan de ser esenciales. Acorde con esto observamos como, aunque hay una ligera reducción de las regiones intergénicas en la evolución reciente de B. aphidicola, la miniaturización se debe principalmente a la pérdida de genes. Estos resultados se han confirmado tras obtener la secuencia completa del genoma de B. aphidicola de C. cedri (Pérez-Brocal et al. 2006), el más pequeño de los genomas bacterianos descubiertos. Los cambios en el estilo de vida que conllevan a la inactivación génica pueden generar la pérdida no sólo de genes individuales sino de rutas 276 ………………………………………………………………………………...…Discusión general metabólicas completas mediante el denominado “efecto dominó”. De hecho, el análisis de la pérdida en operones de M. leprae en el capítulo 6 ha mostrado indicios de un efecto de arrastre de pérdida de genes implicados en la misma unidad transcripcional. El creciente auge de genomas completamente secuenciados permitirá incrementar el número de estudios comparativos, para calcular el tiempo y modo de la reducción en los distintos linajes y un estudio más completo de las diferentes etapas del proceso, para conocer de manera más precisa la evolución del mismo. A partir de esta muestra mayor será posible inferir los hechos generales que caracterizan la evolución reductiva en sus diferentes estadios. 277 278 8. CONCLUSIONES 279 280 ......................................................................................................................................Conclusiones 8. CONCLUSIONES En los últimos 150 m.a. de evolución de B. aphidicola de los pulgones A.pisum, S. graminum y B. pistaciae: 1. El genoma ancestral reconstruido de BAp, BSg y BBp contiene un mínimo de 640 genes. 2. Se han producido un mínimo de 164 eventos de pérdida independientes. Esos sucesos implican sólo 135 genes distintos inactivados, debido a las pérdidas convergentes que han tenido lugar en estos linajes. 3. La tasa de pérdida de DNA, para los genes inactivados aproximadamente hace 100 m.a. se estima en 2,9 x 10-8 nucleótidos perdidos por sitio y año. Este ritmo de reducción implica que la vida media de un pseudogen en B. aphidicola está en torno a 23,9 m.a. En base a este resultado, podemos afirmar que la tasa obtenida es lo suficientemente elevada como para producir la completa o casi completa desintegración de genes en un corto periodo de tiempo, lo que explicaría que los genes inactivados en los primeros estadios de la evolución de B. aphidicola desde el LCSA, en el presente hayan perdido prácticamente todos sus nucleótidos. 4. El sesgo hacia AT y la pérdida de nucleótidos son procesos que presentan algún grado de correlación, al menos para los genes inactivados recientemente. 5. Los espaciadores de B. aphidicola han sufrido una reducción ligera, pero significativa respecto a los de E. coli, aunque la mayor contribución a la reducción genómica proviene de la pérdida de genes. 6. Los genes perdidos se distribuyen en todas las posibles categorías funcionales, aunque la mayoría son genes implicados en funciones de transporte, metabolismo o biogénesis de membrana. 281 ……………………………………………………………………………………………………... 7. Existe un escaso número de pérdidas convergentes en relación con la categoría funcional, lo que indica que las pérdidas probablemente son específicas de cada hospedador y están relacionadas con su particular dieta o ciclo de vida. En las etapas más recientes de la reducción genómica en los endosimbiontes B. aphidicola y B. floridanus: 8. El tamaño más frecuente de inserciones y deleciones detectadas es de 1 nucleótido. Sin embargo, aún pueden aparecer eventos de tamaño considerable (más de 50 nucleótidos), que pueden estar sujetos a la acción de fuerzas selectivas. 9. Los nucleótidos perdidos por eventos de deleción superan a los ganados por eventos de inserción, principalmente debido al tamaño superior de las deleciones frente a las inserciones. De modo que existe un sesgo hacia la pérdida de DNA. El principal responsable de este sesgo es el elevado tamaño de algunos eventos de deleción, frente al reducido tamaño de las inserciones. 10. Las tasas de pérdida de DNA son de 1,3 x 10-8 y 2,2 x 10-8 nucleótidos perdidos por sitio y año en B. aphidicola y B. floridanus, respectivamente. 11. El análisis de las regiones flanqueantes a los eventos de indels señala a los mecanismos de recombinación ilegítima como los principales responsables de la aparición de los mismos, concretamente al deslizamiento de la polimerasa, dada la abundancia de repeticiones en tándem asociadas a indels. 12. Las regiones neutras muestran un mayor número de sustituciones que incrementan la composición en AT frente aquéllas que aumentan el contenido en GC así como un mayor número de transiciones frente a transversiones. 282 ......................................................................................................................................Conclusiones 13. La abundancia de repeticiones en tándem, asociada al sesgo en la composición nucleotídica con un elevado porcentaje AT y la ausencia de un eficaz sistema de reparación, aumentan la dinámica asociada a los microsatélites. 14. La tasas neutras de sustitución estimadas en B. aphidicola y B. floridanus son 4,3-6,7 x 10-9 y 1,5-1,8 x 10-8 sustituciones por sitio y año, respectivamente. En las etapas iniciales de la evolución reductiva que ha sufrido M. leprae desde su divergencia del grupo de M. tuberculosis: 15. El genoma ancestral reconstruido de M. leprae y M. tuberculosis contiene un mínimo de 2.977 genes. 16. El genoma de M. leprae ha perdido 1.537 genes, de los que constituyen el mínimo del genoma ancestral. De los genes perdidos, 1.129 se hayan en estado de pseudogen y 408 son pérdidas completas, cuya similitud con el ortólogo funcional ya no es detectable. 17. La mayor parte de los genes que se han inactivado desde su divergencia con el genoma ancestral se hayan en estado de pseudogen o son pérdidas individuales completas y las pérdidas en bloque detectadas son mayoritariamente de pocos genes. Así, la pérdida gen a gen es el principal mecanismo de degradación genómica en esta especie. 18. La mayor parte de los pseudogenes de M. leprae poseen una edad similar y son por tanto, resultado de un evento de pseudogenización único, acontecido en algún momento entre el presente y hace aproximadamente unos 20 m.a. 19. Existen indicios de un “efecto de arrastre”, según el cuál la pérdida de un gen perteneciente a un operón puede conllevar a la pérdida 283 ……………………………………………………………………………………………………... del resto de genes que pertenecen a esa misma unidad transcripcional. 20. La mayor parte de pseudogenes han sufrido una escasa pérdida de nucleótidos, lo que se haya en concordancia con su reciente origen. Mientras, las pérdidas totales muestran un rango de estados de desintegración mayor, que en algunos casos es total, lo que indica que la pérdida de estos genes abarca un intervalo de tiempo más amplio. 284 9. REFERENCIAS 285 286 …………………………………………………………………………………………Referencias 9. REFERENCIAS BIBLIOGRÁFICAS Abascal, F., Zardoya, R., y Posada, D. (2005). ProtTest: selection of best-fit models of protein evolution. Bioinformatics 21: 2104-2105. Abbot, P. y Moran, N.A. (2002). Extremely low levels of genetic polymorphism in endosymbionts (Buchnera) of aphids (Pemphigus). Mol Ecol 11: 2649-2660. Akaike, H. (1974). New look at statistical-model identification. Trans Automat Control 19: 716-723. Akhtar, S., van Emden, H.F. (1994). Ultrastructure of the symbiontsandmycetocytes of bird cherry aphid (Rhopalosiphum padi). Tissue & cell 26:44, 513-522. Aksoy, S.(1995). Wigglesworthia gen. nov.andWigglesworthia glossinidia sp. nov., taxa consisting of the mycetocyte-associated, primary endosymbionts of tsetse flies. Int J Syst Bacteriol 45: 848-851. Albert, B., Godelle, B., Atlan, A., De, P.R., y Gouyon, P.H. (1996). Dynamics of plant mitochondrial genome: model of a three-level selection process. Genetics 144: 369-382. Allardet-Servent, A., Michaux-Charachon, S., Jumas-Bilak, E., Karayan, L., y Ramuz, M. (1993). Presence of one linearandone circular chromosome in the Agrobacterium tumefaciens C58 genome. J Bacteriol 175: 7869-7874. Alm, E.J., Huang, K.H., Price, M.N., Koche, R.P., Keller, K., Dubchak, I.L.,y Arkin, A.P. (2005). The MicrobesOnline Web site for comparative genomics. Genome Res 15: 1015-1022. Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. y Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402. Andersson, S.G.E.,y Kurland, C.G. (1995). Genomic evolution drives the evolution of the translation system. Biochem Cell Biol 73: 775-787. Andersson, S.G., Zomorodipour, A., Andersson, J.O., Sicheritz-Ponten,T., Alsmark,U.C., Podowski,R.M. et al. (1998). The genome sequence of Rickettsia prowazekii and the origin of mitochondria. Nature 396: 133-140. Andersson, J.O., y Andersson, S.G. (1999). Genome degradation is an ongoing process in Rickettsia. Mol Biol Evol 16: 1178-1191. 287 ………………………………………………………………………………………………….. Andersson, J.O. (2000). Evolutionary genomics: is Buchnera a bacterium or an organelle? Curr Biol 10: R866-R868. Andersson, J.O. y Andersson, S.G. (2001). Pseudogenes, junk DNA, and the dynamics of Rickettsia genomes. Mol Biol Evol 18: 829-839. Astruc, C., Julien, J.F., Errard, C. y Lenoir, A. (2004). Phylogeny of ants (Formicidae) based on morphology and DNA sequence data. Mol Phylogenet Evol 31: 880893. Ayala, F.J. (1999). Molecular clock mirages. BioEassays 21: 71-75. Babu, M.M. (2003). Did the loss of sigma factors initiate pseudogene accumulation in M. leprae? Trends in Microbiology 11. Barrette, R., Crease, T.J., Hebert, P. y Via, S. (1994). Mitochondrial DNA diversity in the pea aphid, Acyrthosiphon pisum. Genome 37. Baumann, P., Baumann, L., Lai, C.Y., Rouhbakhsh, D., Moran, N.A., y Clark, M.A. (1995). Genetics, physiology, and evolutionary relationships of the genus Buchnera: intracellular symbionts of aphids. Annu Rev Microbiol 49: 55-94. Baumann, P. y Moran, N.A. (1997a). Non-cultivable microorganisms from symbiotic associations of insects and other hosts. Antonie van Leeuwnhock 72:39-48. Baumann, P., Moran, N.A. y Baumann, L. (1997b). The evolution and genetics of aphid endosymbionts. Bioscience 47: 12-20. Baumann, L., Baumann, P., Moran, N.A., Sandstrom, J. y Thao, M.L. (1999). Genetic characterization of plasmids containing genes encoding enzymes of leucine biosynthesis in endosymbionts (Buchnera) of aphids. J Mol Evol 48: 77-85. Baumann, P., Moran, N.A. y Baumann, L. (2000). Bacteriocyte-Associated Endosymbionts of Insects. In The prokaryotes. New York: Springer-Verlan, pp. 1-55. Beaumont, M.A. y Rannala, B. (2004). The Bayesian Revolution in Genetics. Nature Genetics 5: 251-261. Belda, E., Moya, A. y Silva, F.J. (2005). Genome rearrangement distances and gene order phylogeny in gamma-Proteobacteria. Mol Biol Evol 22: 1456-1467. Beletskii, A. y Bhagwat, A.S. (1996). Transcription-induced mutations: increase in C to T mutations in the nontranscribed strand during transcription in Escherichia coli. Proc Natl Acad Sci U S A 93: 13919-13924. 288 …………………………………………………………………………………………Referencias Bennett, M.D. (1972). Nuclear DNA content and minimum generation time in herbaceous plants. Proceedings of the Royal Society of London, Series B 181: 109-135. Bensasson, D., Petrov, D.A., Zhang, D.X., Hartl, D.L. y Hewitt, G.M. (2001). Genomic gigantism: DNA loss is slow in mountain grasshoppers. Mol Biol Evol 18: 246-253. Bentley, S.D. y Parkhill, J. (2004). Comparative genomic structure of prokaryotes. Annu. Rev. Genet. 38: 771-91 Bergthorsson, U. y Ochman, H. (1998). Distribution of chromosome length variation in natural isolates of Escherichia coli. Mol Biol Evol 15: 6-16. Besra, G.S., Sievert, R., Lee, R.E., Slayden, R.A., Brenan, P.J. y Takayama, K. (1994). Identification of the appaent carrier in mycolic acid synthesis. Proc Natl Acad Sci U S A 91: 12735-12739. Bi, X., y Liu, L.F. (1994). recA-independent and recA-dependent intramolecular plasmid recombination. Differential homology requirement and distance effect. J Mol Biol 235: 414-423. Blackman, R.L. y Eastop, V. F. (1984). Aphids on the world’s crops. An identification and information guide. John Wiley and Sons. New York. pp. Blackman, R.L . y Eastop, V.F. (1994). Aphids on the world’s trees. An identification and information guide. CAB International and The Natural History Museum. London. pp 990. Blattner, F.R., Plunkett, G., III, Bloch, C.A., Perna, N.T., Burland, V., Riley, M. et al. (1997). The complete genome sequence of Escherichia coli K-12. SCIENCE 277: 1453-1474. Blochmann, F. (1887). Uber das Vorkommen bakterinahnlicher Gebilde in den Geweben und Eiern verschiedener Insekten. Zentbl Bakteriol 11: 234-240. Blumenstiel, J.P., Hartl, D.L. y Lozovsky, E.R. (2002). Patterns of insertion and deletion in contrasting chromatin domains. Mol Biol Evol 19: 2211-2225. Bolton, B. (1995). A New General Catalogue of the Ants of the World. Cambridge, MA: Harvard University Press. Brady, S.G; Gadau, J. y Ward, P.S. (2000). Systematics of the ant genus Camponotus (Hymenoptera:Formicidae): a preliminary analysis using data from the mitochondrial gene cytochrome oxidase I. In: A.D. Austin y M. Dowton eds; 289 ………………………………………………………………………………………………….. Hymenoptera: Evolution Biodiversity and Biological Control. CSIRO. Pub; Australia. Brosch, R., Gordon, S.V., Marmiesse, M., Brodin, P., Buchrieser, C., Eiglmeier, K. et al. (2002). A new evolutionary scenario for the Mycobacterium tuberculosis complex. Proc Natl Acad Sci U S A 99: 3684-3689. Brynnel, E.U., Kurland, C.G., Moran, N.A. y Andersson, S.G. (1998) Evolutionary rates for tuf genes in endosymbionts of aphids. Mol Biol Evol 15: 574-582. Bulman, S.R., Stufkens, M.A.W., Nichol, D., Harcourz, S.J., Harrex, A.L. y Teulon, D.A.J. (2005) Rhopalosiphum in New Zealand. I RAPD marked reveal limited variability in lineages of Rhopalosiphum padi. New Zealand Journal of Zoology 32. Birney, E; Clamp, M. y Durbin, R.(2004). GeneWise and Genomewise. Genome Research 14:988-95. Bzymek, M. y Lovett, S. (2001). Instability of repetitive DNA sequences: The role of replication in multiple mechanisms. Proc Natl Acad Sci U S A 98: 83198325. Campbell, B.C., Steffen-Campbell, J.D. y Gill, R.J. (1994). Evolutionary origin of whiteflies (Hemiptera: Sternorrhyncha: Aleyrodidae) inferred from 18S rDNA sequences. Insect Mol Biol 3: 73-88. Caterino, M.S., y Sperling, F.A. (1999). Papilio phylogeny based on mitochondrial cytochrome oxidase I and II genes. Mol Phylogenet Evol 11: 122-137. Cavalier-Smith, T. (1978). Nuclear volume control by nucleoskeletal DNA, selection for cell volume and cell growth rate, and the solution of the DNA C-value paradox. J Cell Sci 34: 247-278. Cavalier-Smith, T. (2003). Genomic reduction and evolution of novel genetic membranes and protein-targeting machinery in eukaryote-eukaryote chimaeras (meta-algae). Philos Trans R Soc Lond B Biol Sci 358: 109-133. Cavalier-Smith,T. (2005). Economy, speed and size matter: evolutionary forces driving nuclear genome miniaturization and expansion. Ann Bot (Lond) 95: 147-175. Chambaud, I., Heilig, R., Ferris, S., Barbe, V., Samson, D., Galisson, F. et al. (2001). The complete genome sequence of the murine respiratory pathogen Mycoplasma pulmonis. Nucleic Acids Res 29: 2145-2153. 290 …………………………………………………………………………………………Referencias Charles, H. y Ishikawa, H. (1999). Physical and genetic map of the genome of Buchnera, the primary endosymbiont of the pea aphid Acyrthosiphon pisum. J Mol Evol 48: 142-150. Charles, H; Calevro, F; Vinuelas, J; Fayard, J.M; y Rahbe, Y. (2006). Codon usage bias and tRNA over-expression in Buchnera aphidicola after aromatic amino acid nutritional stress on its host Acyrthosiphon pisum. Nucleic Acid Research 34:4583-4592. Chen, J.L., Blasco, M.A. y Greider, C.W. (2000). Secondary structure of vertebrate telomerase RNA. Cell 100: 503-514. Ciudad, A., Escalante, N.Y., Seminario, N.V., Maita, R., García, R. y Ráez, E. (2002). Identificación de M. leprae en piel y nervio sural de pacientes sometidos a terapia por lepra. Folia Dermatológica Peruana 13. Clark, M.A., Moran, N.A., y Baumann, P. (1999). Sequence evolution in bacterial endosymbionts having extreme base compositions. Mol Biol Evol 16: 15861598. Clark, M.A., Baumann, L., Thao, M.L., Moran, N.A. y Baumann, P. (2001). Degenerative minimalism in the genome of a psyllid endosymbiont. J Bacteriol 183: 1853-1861. Cole, S.T., Brosch, R., Parkhill, J., Garnier, T., Churcher, C., Harris, D. et al. (1998). Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence. Nature 393. Cole, S.T., Eiglmeier, K., Parkhill, J., James, K.D., Thomson, N.R., Wheeler, P.R. et al. (2001). Massive gene decay in the leprosy bacillus. Nature 409: 10071011. Comeron, J.M. y Kreitman, M. (2000). The correlation between intron length and recombination in drosophila. Dynamic equilibrium between mutational and selective forces. Genetics 156: 1175-1190. Comeron, J.M. (2001). What controls the length of noncoding DNA? Curr Opin Genet Dev 11: 652-659. Cortopassi, G.A., Shibata, D., Soong, N.W. y Arnheim, N. (1992). A pattern of accumulation of a somatic deletion of mitochondrial DNA in aging human tissues. Proc Natl Acad Sci U S A 89: 7370-7374. Cosmides, L.M. y Tooby, J. (1981). Cytoplasmic inheritance and intragenomic conflict. J Theor Biol 89: 83-129. 291 ………………………………………………………………………………………………….. Dagan, T., Blekhman, R. y Graur, D. (2006). The "domino theory" of gene death: gradual and mass gene extinction events in three lineages of obligate symbiotic bacterial pathogens. Mol Biol Evol 23: 310-316. Dasch, G., Weiss, E. y Chang, K. (1984). Endosymbionts of insects. In Bergey’s Manual of Systematic Bacteriology , pp. 811-833. Edited by J. Holt & N. Krieg. Baltimore:Williams & Williams Davis, R.E. y Hodgson, S. (1997). Gene linkage and steady state RNAs suggest transsplicing may be associated with a polycistronic transcript in Schistosoma mansoni. Mol Biochem Parasitol 89: 25-39. Day, A. y Ellis, T.H. (1984). Chloroplast DNA deletions associated with wheat plants regenerated from pollen: possible basis for maternal inheritance of chloroplasts. Cell 39: 359-368. De Bolle, X., Bayliss, C.D., Field, D., van de Ven, T., Saunders, N.J., Hood, D.W. y Moxon, E.R. (2000). The length of a tetranucleotide repeat tract in Haemophilus influenzae determines the phase variation rate of a gene with homology to type III DNA methyltransferases. Mol. Microbiol. 35: 211-222 Degnan, P.H., Lazarus, A.B., Brock, C.D. y Wernegreen, J.J. (2004). Host-symbiont stability and fast evolutionary rates in an ant-bacterium association: cospeciation of camponotus species and their endosymbionts, Candidatus Blochmannia. Syst Biol 53: 95-110. Degnan, P.H., Lazarus, A.B. y Wernegreen, J.J. (2005). Genome sequence of Blochmannia pennsylvanicus indicates parallel evolutionary trends among bacterial mutualists of insects. Genome Res 15: 1023-1033. Delmotte, F., Leterme, N., Bonhomme, J., Rispe, C. y Simon, J.C. (2001). Multiple routes to asexuality in an aphid species. Proc Biol Sci 268: 2291-2299. Delmotte, F., Rispe, C., Schaber, J., Silva, F.J. y Moya, A. (2006). Tempo and mode of early gene loss in endosymbiotic bacteria from insects. BMC Evol Biol 6: 56. Delmotte, F., Sabater-Munoz, B., Prunier-Leterme, N., Latorre, A., Sunnucks, P., Rispe, C. y Simon, J.C. (2003). Phylogenetic evidence for hybrid origins of asexual lineages in an aphid species. Evolution Int J Org Evolution 57: 12911303. Denver, D.R., Morris, K., Lynch, M. y Thomas, W.K. (2004). High mutation rate and predomiance of insertions in the Caenorhabditis elegans nuclear genome. Nature 430. 292 …………………………………………………………………………………………Referencias Devulder, G., Perouse de, M.M. y Flandrois, J.P. (2005). A multigene approach to phylogenetic analysis using the genus Mycobacterium as a model. Int J Syst Evol Microbiol 55: 293-302. Deyrup, M. y Tragger, J. (1986). Ants of the Archbold Biology Station, Highlands Country, Florida. Florida Entomol 69: 206-228. Deyrup, M., Tragger, J., Carlin, N. y Umphrey,G. (1988). A review of the ants of the Florida keys. Florida Entomol 71: 163-176. Dixon, A.F.G. (1975). Aphids and translocation. pp. 154-170. In : Encyclopedia of plant physiology. Eds. Zimmermann, M.H; y Milburn, J.A. Vol 1, New Series. Springer-Verlag, Berlín. Dixon, A.F.G., Croghan, P.C., y Gowing, R.P. (1990). The mecahnism by which aphids adhere to smooth surfaces. Journal of Experimental Biology 152: 243253. Dixon, A.F.G. (1990). Ecological interactions of aphids and their host plants. En “Aphid-plant genotype interactions”. Pag. 7-19. Editado por R.K. Campbell and R.D. Eikenbary. Elsevier. Amsterdam Doolittle, R.F., Feng, D.F., Tsang, S., Cho, G. y Little, E. (1996). Determining divergence times of the major kingdoms of living organisms with a protein clock. Science. 271: 470-477. Doolittle, W.F. y Sapienza, C. (1980). Selfish genes, the phenotype paradigm and genome evolution. Nature 284: 601-603. Douglas, A.E., y Dixon, A.F.G. (1987). The mycetocyte symbiosis of aphids: Variation with age and morph in virginoparae of Megoura viciae and Acyrthosiphon pisum. Journal of Insect Physiology 33: 109-133. Douglas, A.E. (1989). Micetocyte symbiosis in insect. Biol Rev 64: 409-434. Douglas, A.E., y Prosser, W.A. (1992). Synthesis of the essential amino acid tryptophan in the pea aphid (Acyrthosiphon pisum) symbiosis. J Insect Physiol 38: 565-568. Douglas, A.E. (1993). The nutritional quality of phloem sap utilized by natural aphid populations. Ecol Entomol 18: 31-38. Douglas, A.E. (1996). “Microorganisms in symbiosis: adaptation and specialization” In Evolution of Microbial Life, eds. D. McL. Roberts, P. Sharp, G. Alderson, y M.A. Collins, pp. 225-241. Cambridge: Cambridge University Press. 293 ………………………………………………………………………………………………….. Douglas, A.E. (1998). Nutritional interactions in insect-microbial symbioses: aphids and their symbiotic bacteria Buchnera. Annu Rev Entomol 43: 17-37. Drummond, A.J., Nicholls, G.K., Rodrigo, A.G. y Solomon, W. (2002). Estimating Mutation Parameters, Population History and Genealogy Simultaneously From Temporally Spaced Sequence Data. Genetics 161: 1307-1320. Dufresne, A., Garczarek, L. y Partensky, F. (2005). Accelerated evolution associated with genome reduction in a free-living prokaryote. Genome Biol 6: R14. Ellegren, H. (2004). Microsatellites: simple sequences with complex evolution. Nature Reviews Genetics 5: 435-445. Emilsson, V. y Kurland, C.G. (1990). Growth rate dependence of transfer RNA abundance in Escherichia coli. EMBO J 9: 4359-4366. Erickson, B.W. y Seller, P.H. (1983). Recognition of patterns in genetic sequences. In :Sankoff, D; Kruskal, J.B. editors. Time warps, string edits, and macromolecules: the theory and practice of sequence comparison: AddisonWesley. pp. 55-91. Ermolaeva, M.D., White, O. y Salzberg, S.L. (2001). Prediction of operons in microbial genomes. Nucleic Acids Res 29: 1216-1221. Fares, M.A., Ruiz-Gonzalez, M.X., Moya, A., Elena, S.F. y Barrio, E. (2002). Endosymbiotic bacteria: groEL buffers against deleterious mutations. Nature 417: 398. Felsenstein, J. (1974). The evolutionary advantage of recombination. Genetics 78: 737-756. Felsenstein, J. (1985). Confidence Limits on Phylogenies: An Approach Using the Bootstrap. Evolution 39: 783-791. Ferdows, M.S., Serwer, P., Griess, G.A., Norris, S.J. y Barbour, A.G. (1996). Conversion of a linear to a circular plasmid in the relapsing fever agent Borrelia hermsii. J Bacteriol 178: 793-800. Ferrari, J., Darby, A.C., Daniell, T.J., Godfray, H.C.J. y Douglas, A.E. (2004). Linking the bacterial community in pea aphids with host-plant use and natural enemy resistance. Ecological Entomology 29: 60-65. Field,D. y Wills,C. (1996) Long, polymorphic microsatellites in simple organisms. Proc Biol Sci 263: 209-215. 294 …………………………………………………………………………………………Referencias Field, D. y Wills, C. (1998). Abundant microsatellite polymorphism in Saccharomyces cerevisiae, and the different distributions of microsatellites in eight prokaryotes and S. cerevisiae, result from strong mutation pressures and a variety of selective forces. Proc Natl Acad Sci U S A 95: 1647-1652. Fitch W. M. (1976). Molecular evolutionary clocks Pp. 160–178 in F. J. Ayala, ed. Molecular evolution. Sinauer, Sunderland, Mass Fleischmann, R.D., Alland, D., Eisen, J.A., Carpenter, L., White, O. y Peterson, J. (2002). Whole-Genome Comparison of Mycobacterium tuberculosis Clinical and Laboratoy Strains. Journal of Bacteriology. Frank A.C., Haleh, A. y Andersson, S.G.E. (2002). Genome deterioration: loss of repeated sequences and accumulation of junk DNA. Genetics 115: 1-12. Fraser, C.M., Gocayne, J.D., White, O., Adams, M.D., Clayton, R.A., Fleischmann, R.D. et al. (1995). The minimal gene complement of Mycoplasma genitalium. Science 270: 397-403. Fraser, C.M., Casjens, S., Huang, W.M., Sutton, G.G., Clayton, R., Lathigra, R. et al. (1997). Genomic sequence of a Lyme disease spirochaete, Borrelia burgdorferi. Nature 390: 580-586. Fricke, J., Neuhard, J., Kelln, R.A. y Pedersen, S. (1995). The cmk gene encoding cytidine monophosphate kinase is located in the rpsA operon and is required for normal replication rate in Escherichia coli. J Bacteriol 177: 517-523. Frothingham, R., Hills, H.G. y Wilson, K.H. (1994). Extensive DNA sequence conservation throughout the Mycobacterium tuberculosis complex. J Clin Microbiol 32: 1639-1643. Fukatsu, T. y Ishikawa, H. (1993). Occurrence of chaperonin 60 and chaperonin 10 in primary and secondary bacterial symbionts of aphids: implications for the evolution of an endosymbiotic system in aphids. J Mol Evol 36: 568-577. Fukatsu, T. (1998). Biological function, evolution and origin of endosymbiotic microorganisms of homopteran insects. Tanpakushitsu Kakusan Koso 43: 1227-1236. Fukatsu, T. (1999). Acetone preservation: a practical technique for molecular analysis. Molecular Ecology. 8 :11. Funk, D.J., Wernegreen, J.J. y Moran, N.A. (2001). Intraspecific variation in symbiont genomes: bottlenecks and the aphid-buchnera association. Genetics 157: 477489. 295 ………………………………………………………………………………………………….. Gadau, J., Heinze, J., Holldobler, B. y Schmid, M. (1996). Population and colony structure of the carpenter ant Camponotus floridanus. Mol Ecol 5: 785-792. Garnier, T., Eiglmeier, K., Camus, J.C., Medina, N., Mansoor, H., Pryor, M. et al. (2003). The complete genome sequence of Mycobacterium bovis. Proc Natl Acad Sci U S A 100: 7877-7882. Gatesy, J., DeSalle, R. y Wheeler, W. (1993). Alignment-ambiguous nucleotide sites and the exclusion of systematic data. Mol Phylogenet Evol 2: 152-157. Gil, R., Sabater-Munoz, B., Latorre, A., Silva, F.J. y Moya, A. (2002). Extreme genome reduction in Buchnera spp.: toward the minimal genome needed for symbiotic life. Proc Natl Acad Sci U S A 99: 4454-4458. Gil, R., Silva, F.J., Zientz, E., Delmotte, F., Gonzalez-Candelas, F., Latorre, A. et al. (2003). The genome sequence of Blochmannia floridanus: comparative analysis of reduced genomes. Proc Natl Acad Sci U S A 100: 9388-9393. Giovannoni, S.J., Tripp, H.J., Givan, S., Podar, M., Vergin, K.L., Baptista, D. et al. (2005. Genome streamlining in a cosmopolitan oceanic bacterium. Science, 309: 1242-1245. Glass, J.I., Assad-García, N., Alperovich, N., Yooseph, S., Lewins, M.R., Maruf, M. et al. (2006). Essential genes of a minimal bacgterium. Proc Natl Acad Sci U S A 103: 425-430. Glover, D.M. y James, B.D. (1996). DNA cloning: A practical approach. 2nd Edition. IRL Press, Oxford University Press. Goldman, N. y Yang, Z. (1994). A codon-based model of nucleotide substitution for protein-coding DNA sequences. Mol Biol Evol 11: 725-736. Gomez-Valero, L; Latorre, A; Silva, F.J. (2004a). The evolutionary fate of nonfunctional DNA in the bacterial endosymbiont Buchnera aphidicola. Mol. Biol. Evol. 21 (11):2172-81. Gomez-Valero, L., Soriano-Navarro, M., Perez-Brocal, V., Heddi, A., Moya, A., Garcia-Verdugo, J.M. y Latorre, A. (2004b). Coexistence of Wolbachia with Buchnera aphidicola and a secondary symbiont in the aphid Cinara cedri. J Bacteriol 186: 6626-6633. Graur, D., Shuali, Y. y Li, W.H. (1989). Deletions in processed pseudogenes accumulate faster in rodents than in humans. J Mol Evol 28: 279-285. Gregory, T.R. y Hebert, P.D. (1999). The modulation of DNA content: proximate causes and ultimate consequences. Genome Res 9: 317-324. 296 …………………………………………………………………………………………Referencias Gregory, T.R. (2003). Is small indel bias a determinant of genome size? Trends Genet 19: 485-488. Gregory, T.R. (2004). Insertion-deletion biases and the evolution of genome size. Gene.324: 15-34. Griffiths, G.W. y S.D. Beck. (1973). Intracelullar symbiotes of the pea aphid, Acyrthosiphon pisum. J. Insect. Physiol.19:75-84 Grimaldi, D. y Agosti, D. (2000). A formicine in New Jersey cretaceous amber (Hymenoptera: formicidae) and early evolution of the ants. Proc Natl Acad Sci U S A 97: 13678-13683. Gross, M., Robinson, C.V., Mayhew, M., Hartl, F.U. y Radford, S.E. (1996). Significant hydrogen exchange protection in GroEL-bound DHFR is maintained during iterative rounds of substrate cycling. Protein Sci 5: 25062513. Guindon, S. y Gascuel, O. (2003). A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol 52: 696-704. Gur-Arie, R., Cohen, C.J., Eitan, Y., Shelef, L., Hallerman, E.M. y Kashi, Y. (2000). Simple sequence repeats in Escherichia coli: abundance, distribution, composition, and polymorphism. Genome Res 10: 62-71. Gurvich, O.L., Baranov, P.V., Zhou, J., Hammer, A.W., Gesteland, R.F. y Atkins, J.F. (2003). Sequences that direct significant levels of frameshifting are frequent in coding regions of Escherichia coli. EMBO J 22: 5941-5950. Gutierrez, M.C., Brisee, S., Brosch, R., Fabre, M., Omais, B., Marmieses, M. et al. (2005). Ancien Origin and Gene Mosaicism of the Progenitor of Mycobacterium tuberculosis. Plos Pathogens 1. Hacker, J., Blum-Oehler, G., Muhldorfer, I. y Tschape, H. (1997). Pathogenicity islands of virulent bacteria: structure, function and impact on microbial evolution. Mol Microbiol 23: 1089-1097. Hacker, J. y Kaper, J.B. (2000). Pathogenicity islands and the evolution of microbes. Annu Rev Microbiol 54: 641-679. Hall, T.A. (1999). BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98NT. Nucl Acids-Symp Ser 41: 95-98. Hansen, G. H. A. (1874). Undersogelser angaende spedalskhedens aasager. Norsk Magazin for Laegervidenskaben 4 (Suppl.), 1-88 297 ………………………………………………………………………………………………….. Hedges, S.B. (1992). The number of replications needed for accurate estimation of the bootstrap P value in phylogenetic studies. Mol Biol Evol 9: 366-369. Hedges, S.B. y Kumar, S. (2004). Precision of molecular time estimates. Trends in Genetics 20. Heidelberg, J.F., Eisen, J.A., Nelson, W.C., Clayton, R.A., Gwinn, M.L., Dodson, R.J. et al. (2000). DNA sequence of both chromosomes of the cholera pathogen Vibrio cholerae. Nature 406: 477-483. Heie, O.E. (1980). The Aphidoidea (Hemiptera) of Fennoscandia and Denmark. Vols I, II, III, IV, V, VS. Heie, O.E. (1987). Evolution. 367-413. In: World Crop Pests. Vol. 2A. Aphids: their biology, natural enemies and control. Eds. Minks, A.K; Harrewijn, P. Elsevier. Cambridge. Heie, O.E. y Wegierek, P. (1998). A list of fossil aphids (Homoptera: Aphidinea) Ann. Upp. Silesian Mus.(Entomol.) 8Ð9: 159Ð192 Heizmann, P. et al. (1982). Modifications of chloroplast DNA during streptomycin induced mutagenesis in Euglena gracilis. Curr. Genet. 5, 9-15. Hillier, L.W., Fulton, R.S., Fulton, L.A., Graves, T.A., Pepin, K.H., WagnerMcPherson, C. et al. (2003). The DNA sequence of human chromosome 7. Nature 424: 157-164. Himmelreich, R., Hilbert, H., Plagens, H., Pirkl, E., Li, B.C., y Herrmann, R. (1996). Complete sequence analysis of the genome of the bacterium Mycoplasma pneumoniae. Nucleic Acids Res 24: 4420-4449. Hogenhout, S.A., van der,W.F., Verbeek, M., Goldbach, R.W. y van den Heuvel, J.F. (1998). Potato leafroll virus binds to the equatorial domain of the aphid endosymbiotic GroEL homolog. J Virol 72: 358-365. Homma, K., Fukuchi, S., Kawabata, T., Ota, M. y Nishikawa, K. (2002). A systematic investigation identifies a significant number of probable pseudogenes in the Escherichia coli genome. Gene 294: 25-33. Houk, E.J. y Griffiths, G.W. (1980). Intracelullar symbiotes of the homoptera. Ann Rev Entomol 25: 161-187. Hughes, A.L., Friedman, R., y Murray, M. (2002). Genomewide Pattern of Synonymous Nucleotide Substitution in Two Complete Genomes of Mycobacterium tuberculosis. Emerging Infectious Diseases 8. 298 …………………………………………………………………………………………Referencias Hurvich, C.M. y Tsai, C.L. (1991). Bias of the corrected AIC criterion for underfitted regression and time series models. Biometrika 78: 499-509. Huynen, M., Snel, B., Lathe, W., III, y Bork, P. (2000). Predicting protein function by genomic context: quantitative evaluation and qualitative inferences. Genome Res 10: 1204-1210. Itoh, T., Martin, W. y Nei, M. (2002). Acceleration of genomic evolution caused by enhanced mutation rate in endocellular symbionts. Proc Natl Acad Sci U S A 99. Jacob, F. y Monod, J. (1961). Genetic regulatory mechanisms in the synthesis of proteins. J Mol Biol 3: 318-356. Jiménez, N; Gonzalez-Candelas, F. y. Silva, F.J. (2000). Prophenate Dehydratase from the aphid endosymbiont (Buchnera) display changes in the regulatory domain that suggest its desensitization to inhibition by phenylalanine. Journal of Bacteriology. 182:2967-2969. Jin, Q., Yuan, Z., Xu, J., Wang, Y., Shen, Y., Lu, W. et al. (2002). Genome sequence of Shigella flexneri 2a: insights into pathogenicity through comparison with genomes of Escherichia coli K12 and O157. Nucleic Acids Res 30: 44324441. Kapur, V., Whittam, T.S. y Musser, J.M. (1994). Is Mycobacterium tuberculosis 15,000 years old? J Infect Dis 170: 1348-1349. Karonga Prevention Trial Group. (1996). Randomised controlled trial of single BCG, repeated BCG, or combined BCG and killed Mycobacterium leprae vaccine for prevention of leprosy and tuberculosis in Malawi. Lancet 348, 17-24 Kato-Maeda, M., Rhee, J.T., Gingeras, T.R., Salamon, H., Drenkow, J., Smittipat, N., y Small, P.M. (2001). Comparing genomes within the species Mycobacterium tuberculosis. Genome Res 11: 547-554. Kimura, M. (1968). Evolutionary rate at the molecular level. Nature 217: 624-626. Kimura, M. (1983). The Neutral Theory of Molecular Evolution.Cambridge: Cambridge University Press. Komaki, K. y Ishikawa, H. (1999). Intracellular bacterial symbionts of aphids possess many genomic copies per bacterium. J Mol Evol 48: 717-722. Komaki, K. y Ishikawa, H. (2000). Genomic copy number of intracellular bacterial symbionts of aphids varies in response to developmental stage and morph of their host. Insect Biochem Mol Biol 30: 253-258. 299 ………………………………………………………………………………………………….. Krawiec, S. y Riley, M. (1990). Organization of the bacterial chromosome. Microbiol Rev 54: 502-539. Kullback, S. y Leibler, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics 22: 79-86. Kumar, S. y Hedges, S.B. (1998). A molecular timescale for vertebrate evolution. Nature 392: 917-920. Kumar, S. (2005). Molecular clocks: four decades of evolution. Nature 6. Kurland, C.G. y Ehrenberg, M. (1987). Growth-optimizing accuracy of gene expression. Annu Rev Biophys Biophys Chem 16: 291-317. Langley, C.H. y Fitch, W. (1974). An estimation of the constancy of the rate of molecular evolution. J Mol Evol 3. Latorre, A; Moya, A. y Ayala, F.J. (1986). Evolution of mitochondrial DNA in Drosophila suboscura. Proc. Natl. Acad. Sci.U.S.A. 83: 8649-8653. Latorre, A; Gil, R; Silva, F.J. y Moya, A. (2005). Chromosomal stasis versus plasmid plasticity in aphid endosymbiont Buchnera aphidicola. 95:339-47. Lawrence, J.G. y Roth, J.R. (1996). Selfish Operons: Horizontal Transfer May Drive the Evolution of Gene Clusters. Genetics 143: 1843-1860. Lawrence, J.G., Hendrix, R.W. y Casjens,S. (2001). Where are the pseudogenes in bacterial genomes? Trends Microbiol 9: 535-540. Lee, M.S.Y. (2001). Unalignable sequences and molecular evolution. Trends in Ecology and Evolution 16. Lerat, E. y Ochman, H. (2004). Exploring the outer limits of bacterial pseudogenes. Genome Research 10.11101. Levinson, G. y Gutman, G.A. (1987). Slipped-strand mispairing: a major mechanism for DNA sequence evolution. Mol Biol Evol 4: 203-221. Lewin, R.A. (1995). Symbiotic algae: definition, quantification and evolution. Symbiosis 19: 31-37. Lewin, B. (1998). Genes VI. Oxford University Press 300 …………………………………………………………………………………………Referencias Li, W.H., Wu, C.I. y Luo, C.C. (1984). Nonrandomness of point mutation as reflected in nucleotide substitutions in pseudogenes and its evolutionary implications. J Mol Evol 21: 58-71. Liu, Y., Harrison, P.M., Kunin, V. y Gerstein, M. (2004). Comprehensive analysis of pseudogenes in prokaryotes: widespread gene decay and failure of putative horizontally transferred genes. Genome Biol 5: R64. Li, L., Bannantine, J.P., Zhang, Q., Amonsin, A., May, B.J., Alt, D. et al. (2005). The complete genome sequence of Mycobacterium avium subspecies paratuberculosis. Proc Natl Acad Sci U S A 102: 12344-12349. Lovett, S.T., Gluckman, T.J., Simon, P.J., Sutera, V.A., Jr. y Drapkin, P.T. (1994). Recombination between repeats in Escherichia coli by a recA-independent, proximity-sensitive mechanism. Mol Gen Genet 245: 294-300. Lunt, D.H., Zhang, D.X., Szymura, J.M. y Hewitt, G.M. (1996). The insect cytochrome oxidase I gene: evolutionary patterns and conserved primers for phylogenetic studies. Insect Mol Biol 5: 153-165. Lynch, M. (2006). Streamlining and Simplification of Microbial Genome Architecture. Annual Review of Microbiology. 60:327-349. Margulis, L. y Fester, R. (1991). Bellagio conference and book. Symbiosis as Source of Evolutionary Innovation: Speciation and Morphogenesis. Conference-June 25-30, 1989, Bellagio Conference Center, Italy. Symbiosis 11: 93-101. Martínez, D., Moya, A., Latorre, A. y Fereres, A. (1992). Mitochondrial DNA variation in Rhopalosiphum padi (Homoptera:Aphididae) population from four Spanish localities. Annals of the Entomological Society of America 85: 241-246. Martinez-Torres, D., Simon, J.C., Fereres, A. y Moya, A. (1996). Genetic variation in natural populations of the aphid Rhopalosiphum padi as revealed by maternally inherited markers. Molecular Ecology 5: 659-670. Martínez-Torres, D., Devonshire, A.L. y Williamson, M.S. (1997). Molecular studies of knockdown resistance to pyrethroids: cloning of domain II sodium channel gene sequences from insects. Pestic Sci 51: 265-270. Martinez-Torres, D., Buades, C., Latorre, A. y Moya, A. (2001). Molecular systematics of aphids and their primary endosymbionts. Mol Phylogenet Evol 20: 437-449. 301 ………………………………………………………………………………………………….. McLean, D.L. y E.J. Houk. (1973). Phase contrast and electron microscopy pf the mycetocytes and symbiotes of the pea aphid, Acyrthosiphon pisum. J. Insect Physiol. 19:625-633. Metzgar, D. y Wills,C. (2000). Evidence for the adaptive evolution of mutation rates. Cell 101: 581-584. Metzgar, D., Thomas, E., Davis, C., Field, D. y Wills, C. (2001). The microsatellites of Escherichia coli: rapidly evolving repetitive DNAs in a non-pathogenic prokaryote. Mol Microbiol 39: 183-190. Metzgar, D., Liu, L., Christian, H., Dybig, K. y Wills, C. (2002). Domain-Level Differences in Microsatellite Distribution and Content Result from Different Relative Rates of Insertion and Deletion Mutations. Genome 12: 408-413. Michel, B. (1999). Illegitimate recombination in bacteria. In Organization of the prokaryotic genome (ed. R.L. Charlebois), pp. 129–150. ASM Press, Washington DC. Michael, J. (2003).r8s: inferring absolute rates of molecular evolution, divergence times in the absence of a molecular clock. Bioinformatics 19(2):301-303 Mikkola, R. y Kurland, C.G. (1991). Is there a unique ribosome phenotype for naturally occurring Escherichia coli? Biochimie 73: 1061-1066. Mira,A., Ochman,H. y Moran,N.A. (2001) Deletional bias and the evolution of bacterial genomes. Trends Genet 17: 589-596. Mira, A., Klasson, L. y Andersson, S.G. (2002). Microbial genome evolution: sources of variability. Curr Opin Microbiol 5: 506-512. Mira, A. y Pushker, R. (2005). The silencing of pseudogenes. Mol Biol Evol 22: 21352138. Mira, A., Pushker, R. y Rodriguez-Valera, F. (2006). The Neolithic revolution of bacterial genomes. Trends Microbiol 14: 200-206. Mizrahi, V., Dawes, S. S. y Rubin, H. in Molecular Genetics of Mycobacteria (eds Hatfull, G. F. y Jacobs, W. R. Jr) 159-172 (ASM, Washington DC, 2000). Mirsky, A.E. y Rys, H. (1951). The DNA content of animal cells and its evolutionary significance. Journal of General Physiology 34: 451-462. Modrich, P. y Lahue, R. (1996). Mismatch repair in replication fidelity, genetic recombination, and cancer biology. Annu Rev Biochem 65: 101-133. 302 …………………………………………………………………………………………Referencias Montllor, C.B., Maxmen, A. y Purcell, A.H. (2002). Facultative bacterial endosymbionts benefit pea aphids. Acyrthosiphon pisum uinder heat stress. Ecol Entomol 27: 189-195. Moran, N.A., Munson, M.A., Baumann, P. y Ishikawa, H. (1993). A molecular clock in endosymbiotic bacteria is calibrated using the insect hosts. Proc R Soc Lond 253: 167-171 Moran, N.A. y Baumann, P. (1994). Phylogenetics of cytoplasmically inherited microorganisms of arthropods. Trends Ecol Evol 9: 15-20. Moran, N.A. (1996). Accelerated evolution and Muller's rachet in endosymbiotic bacteria. Proc Natl Acad Sci U S A 93: 2873-2878. Moran, N.A. y Telang, A. (1998). Bacteriocyte-associated symbionts of insects. Bioscience 48: 295-304. Moran, N.A. y Baumann, P. (2000). Bacterial endosymbionts in animals. Curr Opin Microbiol 3: 270-275. Moran, N.A. y Mira, A. (2001). The process of genome shrinkage in the obligate symbiont Buchnera aphidicola. Genome Biol 2: RESEARCH0054. Moran, N.A. (2002). Microbial minimalism: genome reduction in bacterial pathogens. Cell 108: 583-586. Moran, N.A. (2003). Tracing the evolution of gene loss in obligate bacterial symbionts. Curr Opin Microbiol 6: 512-518. Moran, N.A. y Plague, G.R. (2004). Genomic changes following host restriction in bacteria. Curr Opin Genet Dev 14: 627-633. Moreau, C.S., Bell, C.D., Vila, R., Archibald, S.B. y Pierce, N.E. (2006). Phylogeny of the ants: diversification in the age of angiosperms. Science. 312: 101-104. Morel, P., Reverdy, C., Michel, B., Ehrlich, S.D., y Cassuto, E. (1998). The role of SOS and flap processing in microsatellite instability in Escherichia coli. Proc. Natl. Acad. Sci. 95: 10003-10008 Morrison, D.A. y Ellis, J.T. (1997). Effects of nucleotide sequence alignment on phylogeny estimation: a case study of 18S rDNAs of apicomplexa. Mol Biol Evol 14: 428-441. Morton, B.R. (1995). Neighboring base composition and transversion/transition bias in a comparison of rice and maize chloroplast noncoding regions. Proc Natl Acad Sci U S A 92. 303 ………………………………………………………………………………………………….. Moxon, E.R., Rainey, P.B., Nowak, M.A. y Lenski, R.E. (1994). Adaptive evolution of highly mutable loci in pathogenic bacteria. Curr Biol 4: 24-33. Moya, A; Latorre, A; Sabater-Muñoz, B. y Silva, F.J. (2002). Comparative molecular evolution of primary (Buchnera) and secondary symbionts of aphids based on two protein-coding genes. J. Mol. Evol. 55:125-137. Muller, H.J. (1964). The relation of recombination to mutational advance. Mutat Res 106: 2-9. Munson, M.A., Baumann, P., Clark, M.A., Baumann, L., Moran, N.A., Voegtlin, D.J. y Campbell, B.C. (1991). Evidence for the establishment of aphideubacterium endosymbiosis in an ancestor of four aphid families. J Bacteriol 173: 6321-6324. Musser, J.M., Amin, A. y Ramaswamy, S. (2000). Negligible genetic diversity of Mycobacterium tuberculosis host immune system protein targets: evidence of limited selective pressure. Genetics 155: 7-16. Nakabachi, A. y Ishikawa, H. (1997). Differential display of mRNAs related to amino acid metabolism in the endosymbiotic system of aphids. Insect Biochem Mol Biol 27: 1057-1062. Nakabachi, A. y Ishikawa, H. (1999). Provision of riboflavin to the host aphid, Acyrthosiphon pisum, by endosymbiotic bacteria, Buchnera. J Insect Physiol 45: 1-6. Nakabachi, A; Yamashita, A; Toh, H; Ishikawa, H; Dunbar, H.E; Moran, N.A. y Hattori, M. (2006): The 160-kilobase genome of the bacterial endosymbiont Carsonella.134(5797):267. Nel, A. (2003). Los insectos un éxito de la evolución. Investigación y ciencia. Nicholas, K. y Nicholas, B.JR. (1997). Genedoc: a tool for editing and annotating multiple sequence alignment. v 2.5.000. www. psc.edu/biomed/gened Nilsson, A.I., Koskiniemi, S., Eriksson, S., Kugelberg, E., Hinton, J.C. y Andersson, D.I. (2005). Bacterial genome size reduction by experimental evolution. Proc Natl Acad Sci U S A 102: 12112-12116. Ochman, H., Elwyn, S. y Moran, N.A. (1999). Calibrating bacterial evolution. Proc Natl Acad Sci U S A 96: 12638-12643. Ochman, H., Lawrence, J.G. y Groisman, E.A. (2000). Lateral gene transfer and the nature of bacterial innovation. Nature 405: 299-304. 304 …………………………………………………………………………………………Referencias Ochman, H. y Moran, N.A. (2001). Genes Lost and Genes Found: Evolution of Bacterial Pathogenesis and Symbiosis. Science. 292. Ochman, H. (2005). Genomes on the shrink. Proc Natl Acad Sci U S A 102: 1195911960. Ochman, H. y Davalos, L.M. (2006). The Nature and Dynamics of Bacterial Genomes. Science. 311. Ogata, H., Audic, S., Renesto-Audiffren, P., Fournier, P.E., Barbe, V., Samson, D. et al. (2001). Mechanisms of evolution in Rickettsia conorii and R. prowazekii. Science. 293: 2093-2098. Ohtaka, C., Nakamura, H. y Ishikawa, H. (1992). Structures of chaperonins from an intracellular symbiont and their functional expression in Escherichia coli groE mutants. J Bacteriol 174: 1869-1874. Oliver, K.M., Russell, J.A., Moran, N.A. y Hunter, M.S. (2003). Facultative bacterial symbionts in aphids confer resistance to parasitic wasps. Proc Natl Acad Sci U S A 100: 1803-1807. Olsen,G.J. (1988) Phylogenetic analysis using ribosomal RNA. Methods Enzymol 164. Ohno S. (1972). So much ‘junk’ in our genome. In: Smith HH, ed. Evolution of genetic systems, Brookhaven symposia in biology. New York: Gordon & Breach, 366–370 Ophir, R. y Graur, D. (1997). Patterns and rates of indel evolution in processed pseudogenes from humans and murids. GENE 205: 191-202. Orgel, L.E., Crick, F.H. y Sapienza, C. (1980). Selfish DNA. Nature 288: 645-646. Ortiz-Rivas, B., Moya, A. y Martinez-Torres, D. (2004). Molecular systematics of aphids (Homoptera: Aphididae): new insights from the long-wavelength opsin gene. Mol Phylogenet Evol 30: 24-37. Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G.D. y Maltsev, N. (1999). The use of gene clusters to infer functional coupling. Proc Natl Acad Sci U S A 96: 2896-2901. Palacios, C., y Wernegreen, J.J. (2002). A strong effect of AT mutational bias on amino acid usage in Buchnera is mitigated at high-expression genes. Mol Biol Evol 19: 1575-1584. Palenik, B. (2002). The genomics of symbiosis: hosts keep the baby and the bath water. Proc Natl Acad Sci U S A 99: 11996-11997. 305 ………………………………………………………………………………………………….. Paracer, S. y Ahmadkian, V. (2000). Symbiosis: An introduction to biological associations. 2nd Edition. Oxford University Press. NY. 291pp Parkhill, J., Achtman, M., James, K.D., Bentley, S.D., Churcher, C., Klee, S.R. et al. (2000). Complete DNA sequence of a serogroup A strain of Neisseria meningitidis Z2491. Nature 404: 502-506. Parkhill,J., Wren,B.W., Thomson,N.R., Titball,R.W., Holden,M.T., Prentice,M.B. et al. (2001). Genome sequence of Yersinia pestis, the causative agent of plague. Nature 413: 523-527. Parkhill,J., Sebaihia,M., Preston,A., Murphy,L.D., Thomson,N., Harris,D.E. et al. (2003). Comparative analysis of the genome sequences of Bordetella pertussis, Bordetella parapertussis and Bordetella bronchiseptica. Nat Genet 35: 32-40. Pérez-Brocal,V., Latorre,A., Gil,R. y Moya,A. (2005). Comparative analysis of two genomic regions among four strains of Buchnera aphidicola, primary endosymbiont of aphids. Gene 345: 73-80. Pérez-Brocal, V; Gil, R; Ramos, S; Lamelas, A; Postigo, M; Michelena, J.M; Silva, F.J; Moya, A. y Latorre, A. (2006). A small microbial genome: the end of a long symbiotic relationship? Science 314: 312-313. Petrov, D.A., Lozovskaya, E.R. y Hartl, D.L. (1996). High intrinsic rate of DNA loss in Drosophila. Nature 384: 346-349. Petrov, D.A. y Hartl, D.L. (1998). High rate of DNA loss in the Drosophila melanogaster and Drosophila virilis species groups. Mol Biol Evol 15: 293302. Petrov, D.A. y Hartl, D.L. (1999). Patterns of nucleotide substitution in Drosophila and mammalian genomes. Proc Natl Acad Sci U S A 96: 1475-1479. Petrov, D.A. y Hartl, D.L. (2000). Pseudogene evolution and natural selection for a compact genome. J Hered 91: 221-227. Petrov,D.A., Sangster, T.A., Johnston, J.S., Hartl, D.L. y Shaw, K.L. (2000). Evidence for DNA loss as a determinant of genome size. Science 287: 1060-1062. Petrov, D.A. (2002). DNA loss and evolution of genome size in Drosophila. Genetica 115: 81-91. Posada, D. y Crandall, K.A. (1998). MODELTEST: testing the model of DNA substitution. Bioinformatics 14: 817-818. 306 …………………………………………………………………………………………Referencias Powers,T.O., Jensen, S.G., Kindler, S.D., Stryker, C.J. y Sandall, L.J. (1989). Mitochondrial DNA divergence among greenbug (Homoptera:Aphididae) biotypes. Annals of the Entomological Society of America 82. Price, M.N., Huang, K.H., Parkin, A. y Alm, E.J. (2006). Operon formation is driven by co-regulation and not by horizontal gene transfer. Genome: 809-819. Ranea, J.A., Grant, A., Thornton, J.M. y Orengo, C.A. (2005). Microeconomic principles explain an optimal genome size in bacteria. Trends Genet 21: 2125. Rastogi, N., Legrand, E. y Sola, C. (2001). The mycobacteria: an introduction to nomenclature and pathogenesis. Rev Sci Tech 20: 21-54. Raven, J.A. (1983). Phytophages of xylem and phloem: a comparison of plant sapfeeders. Adv Ecol Res 13: 136-234. Remaudiêre, G. y Remaudiêre, M. (1997). Catalogue des Aphididae du Monde. Homoptera Aphidoidea. INRA, París. Rinsma-Melchert (1993). The expected number of matches in optimal global sequence alignments. New Zealand Journal of Botany 31: 219-230. Rispe, C., Delmotte, F., van Ham, R.C., y Moya, A. (2004). Mutational and selective pressures on codon and amino acid usage in Buchnera, endosymbiotic bacteria of aphids. Genome Res 14: 44-53. Rocha, E.P. y Danchin, A. (2002). Base composition bias might result from competition for metabolic resources. Trends Genet 18: 291-294. Rocha, E.P.C. (2003). An Appraisal of the Potential for Illegitimate Recombination in Bacterial Genomes and Its Consequences: From Duplications to Genome Reduction. Genome. Rogozin, I.B., Spiridonov, A.N., Sorokin, A.V., Wolf, Y.I., Jordan, I.K., Tatusov, R.L. y Koonin, E.V. (2002). Purifying and directional selection in overlapping prokaryotic genes. Trends Genet 18: 228-232. Rouhbakhsh, D., Lai, C.Y., von Dohlen, C.D., Clark, M.A., Baumann, L., Baumann, P. et al. (1996) The tryptophan biosynthetic pathway of aphid endosymbionts (Buchnera): genetics and evolution of plasmid-associated anthranilate synthase (trpEG) within the aphididae. J Mol Evol 42: 414-421. Rozen, S. y Skaletsky, H. (2000). Primer3 on the WWW for general users and for biologist programmers. Methods Mol Biol 132: 365-386. 307 ………………………………………………………………………………………………….. Runyon, E.H., Selin, M.J. y Harris, H.W. (1959). Distinguishing mycobacteria by the niacin test; a modified procedure. Am Rev Tuberc 79: 663-665. Sabater-Muñoz, B., van Ham, R.C.H.J., Moya, A., Silva, F.J. y Latorre, A. (2004). Evolution of the Leucine Gene Cluster in Buchnera aphidicola: Insights from Chromosomal Versions of the Cluster. Journal of Bacteriology 186: 26462654. Saffo, M.B. (1992). Coming to terms with a field: words and concepts in symbiosis. Symbiosis 14: 17-31. Saini, D.K., Malhotra,V., Dey, D., Pant, N., Das, T.K. y Tyagi, J.S. (2004). DevRDevS is a bona fide two-component system of Mycobacterium tuberculosis that is hypoxia-responsive in the absence of the DNA-binding domain of DevR. Microbiology 150: 865-875. Saitou, N. y Ueda, S. (1994). Evolutionary rates of insertion and deletion in noncoding nucleotide sequences of primates. Mol Biol Evol 11: 504-512. Salemi, M. y Vandamme, A.M. (2003). The Phylogenetic Handbook.A Practical Approach to DNA and Protein Phylogeny. Cambridge University Press. Sambrook, J; Fritsch, E.F., Maniatis, T. (1989). Molecular cloning. A laboratory manula. 2nd Edition. Cold Spring Harbor Laboratory Press. Sameshima, S., Sasegawa, E., Kitade, O., Minaka, N. y Matsumoto, T. (1999). Phylogenetic comparison of endosymbionts with their host ants based on molecular evidence. Zool Sci 16: 993-1000. Sanchis, A., Michelena, J.M., Latorre, A., Quicke, D.L., Gardenfors, U. y Belshaw, R. (2001). The phylogenetic analysis of variable-length sequence data: elongation factor-1alpha introns in European populations of the parasitoid wasp genus Pauesia (Hymenoptera: Braconidae: Aphidiinae). Mol Biol Evol 18: 1117-1131. Sanderson, M.J. (1997). A nonparametric approach to estimating divergence times in the absence of rate constancy. Molecular Biology and Evolution 14: 12181231. Sasaki, T., Hayashi, H. y Ishikawa, H. (1991). Growht and reproduction of the symbiont and aposymbiotic pea aphids, Acyrthosiphon pisum maintaned on artificial diets. J Insect Physiol 37: 749-756. Sasaki, S., Takeshita, F., Okuda, K. y Ishii, N. (2001). Mycobacterium leprae and Leprosy: A Compendium. Microbiol Immunol 45: 729-736. 308 …………………………………………………………………………………………Referencias Sauer, C., Stackebrandt, E., Gadau, J., Holldobler, B. y Gross, R. (2000). Systematic relationships and cospeciation of bacterial endosymbionts and their carpenter ant host species: proposal of the new taxon Candidatus Blochmannia gen. nov. Int J Syst Evol Microbiol 50 Pt 5: 1877-1886. Sauer, C., Dudaczek, D., Holldobler, B. y Gross, R. (2002). Tissue localization of the endosymbiotic bacterium "Candidatus Blochmannia floridanus" in adults and larvae of the carpenter ant Camponotus floridanus. Appl Environ Microbiol 68: 4187-4193. Schröder, D., Deppisch, H., Obermayer, M., Krohne, G., Stackebront, E. y Hölldobler, E. (1996). Intracellular endosymbiotic bacteria of Camponotus species (carpenter ants): systematics, evolution and ultrastructural characterization. Mol Microbiol 21: 479-489. Selosse, M., Albert, B. y Godelle, B. (2001). Reducing the genome size of organelles favours gene transfer to the nucleus. Trends Ecol Evol 16: 135-141. Sharp, P.M. (1991). Determinants of DNA sequence divergence between Escherichia coli and Salmonella typhimurium - codon usage, map position and concerted evolution. J Mol Evol 33: 23-33. Shigenobu, S., Watanabe, H., Hattori, M., Sakaki, Y. y Ishikawa, H. (2000). Genome sequence of the endocellular bacterial symbiont of aphids Buchnera sp. APS. Nature 407: 81-86. Sia, E.A., Kokoska, R.J., Dominska, M., Greenwell, P. y Petes, T.D. (1997). Microsatellite instability in yeast: dependence on repeat unit size and DNA mismatch repair genes. Mol Cell Biol 17: 2851-2858. Silva, F.J., van Ham, R.C., Sabater, B. y Latorre, A. (1998). Structure and evolution of the leucine plasmids carried by the endosymbiont (Buchnera aphidicola) from aphids of the family Aphididae. FEMS Microbiol Lett 168: 43-49. Silva, F.J., Latorre, A. y Moya, A. (2001). Genome size reduction through multiple events of gene disintegration in Buchnera APS. Trends Genet 17: 615-618. Silva, F.J; Latorre, A. y Moya, A. (2003). Why are the genomes of endosymbiotic bacteria so stable? Trends in Genetics 19:176-80. Simon, J.C; Blackman, R. Le Gallic, J.F. (1991). Local variability in the life cycle of the bird cheny-oat aphid, Rhopalosiphum padi (Homoptera:Ahididae) in western France. Bulletin of Entomological Research 81:315-22. 309 ………………………………………………………………………………………………….. Simon, J.C., Hebert, P.D.N., Carrillo, C. y de Melo, R. (1995). Lack of clonal variation among Canadian populations of the corn leaf aphid, Rhopalosiphum maidis. The Canadian Entomologist 127. Simon, J.C., Martinez-Torres, D., Latorre, A., Moya,A. y Hebert, P.D. (1996). Molecular characterization of cyclic and obligate parthenogens in the aphid Rhopalosiphum padi (L.). Proc Biol Sci 263: 481-486. Simon, J.C., Leterme, N. y Latorre, A. (1999). Molecular markers linked to breeding system differences in segregating and natural populations of the cereal aphid Rhopalosiphum padi L. Mol Ecol 8: 965-973. Simon, J.C., Carre, S., Boutin, M., Prunier-Leterme, N., Sabater-Mun, B., Latorre, A. y Bournoville, R. (2003). Host-based divergence in populations of the pea aphid: insights from nuclear markers and the prevalence of facultative symbionts. Proc Biol Sci 270: 1703-1712. Simonetti, S., Chen, X., DiMauro, S. y Schon, E.A. (1992). Accumulation of deletions in human mitochondrial DNA during normal aging: analysis by quantitative PCR. Biochim Biophys Acta 1180: 113-122. Smith, N.G., y Eyre-Walker, A. (2001). Nucleotide substitution rate estimation in enterobacteria: approximate and maximum-likelihood methods lead to similar conclusions. Mol Biol Evol 18: 2124-2126. Sreevatsan, S., Pan, X., Stockbauer, K.E., Connell, N.D., Kreiswirth, B.N., Whittam, T.S. y Musser, J.M. (1997). Restricted structural gene polymorphism in the Mycobacterium tuberculosis complex indicates evolutionarily recent global dissemination. Proc Natl Acad Sci U S A 94: 9869-9874. Staden, R., Beal, K.F. y Bonfield, J.K. (2000). The Staden package. Methods Mol Biol 132: 115-130. Strand, M., Prolla, T.A., Liskay, R.M. y Petes, T.D. (1993). Destabilization of tracts of simple repetitive DNA in yeast by mutations affecting DNA mismatch repair. Nature 365: 274-276. Swofford, DL. (1999). PAUP* phylogenetic analysis using parsimony (*and other methods), ver. 4; Sunderland: Sinauer Associates. http://paup.csit.fsu.edu/ Tajima, F. (1993). Simple Methods for Testing the Molecular Evolutionary Clock Hypothesis. Genetics 135: 599-607. Tamas, I., Klasson, L.M., Sandstrom, J.P. y Andersson, S.G. (2001). Mutualists and parasites: how to paint yourself into a (metabolic) corner. FEBS Lett 498: 135-139. 310 …………………………………………………………………………………………Referencias Tamas, I., Klasson, L., Canback, B., Naslund, A.K., Eriksson, A.S., Wernegreen, J.J. et al. (2002). 50 million years of genomic stasis in endosymbiotic bacteria. Science.296: 2376-2379. Tamura, K. y Nei, M. (1993). Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Mol Biol Evol 10: 512-526. Tatusov, R.L., Koonin, E.V. y Lipman, D.J. (1997). A genomic perpective on Protein Families. Science. 278. Thomas, C.A. (1971). The genetic organization of chromosomes. Annual Review of Genetics 5: 237-256. Thompson, J.D., Gibson, T.J., Plewniak, F., Jeanmougin, F. y Higgins, D.G. (1997). The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Res 25: 4876-4882. Tsuchida, T., Koga, R. y Fukatsu, T. (2004). Host plant specialization governed by facultative symbiont. Science. 303: 1989. Tyson, H. (1992). Relationships between amino acid sequences determined through optimum alignments, clustering, and specific distance patterns: application to a group of scorpion toxins. Genome 35: 360-371. van Ham, R.C.H.J; Martinez-Torres, D; Moya, A. y Latorre, A. (1999). Plasmidencoded anthranilate synthase (TrpEG) in Buchnera aphidicola from aphids of the family pemphigidae. Appl. Environ. Microbiol. 65:117-125. van Ham, R.C., Gonzalez-Candelas, F., Silva, F.J., Sabater, B., Moya, A. y Latorre, A. (2000). Postsymbiotic plasmid acquisition and evolution of the repA1replicon in Buchnera aphidicola. Proc Natl Acad Sci U S A 97: 10855-10860. van Ham, R.C., Kamerbeek, J., Palacios, C., Rausell, C., Abascal, F., Bastolla, U. et al. (2003). Reductive genome evolution in Buchnera aphidicola. Proc Natl Acad Sci U S A 100: 581-586. Vingron, M. y Waterman, M.S. (1994). Sequence alignment and penalty choice. Review of concepts, case studies and implications. J Mol Biol 235: 1-12. Vinogradov, A.E. (1998). Buffering: a possible passive-homeostasis role for redundant DNA. J Theor Biol 193: 197-199. von Dohlen, C.D. y Moran, N.A. (1995). Molecular phylogeny of the Homoptera: a paraphyletic taxon. J Mol Evol 41: 211-223. 311 ………………………………………………………………………………………………….. von Dohlen, C.D. y Moran, N.A. (2000). Molecular data support a rapid radiation of aphids in the Cretaceous and multiple origins of host alternation. Biol J Linnean Soc 71: 689-717. von Dohlen, C.D., Kohler, S., Alsop, S.T. y McManus, W.R. (2001). Mealybug betaproteobacterial endosymbionts contain gamma-proteobacterial symbionts. Nature 412: 433-436. Wallace, D.C. (1999). Mitochondrial disease in man and mouses. Science. 283. 14821488 Wang, D.Y., Kumar, S. y Hedges, S.B. (1999). Divergence time estimates for the early history of animal phyla and the origin of plants, animals and funghi. Proc R Soc Lond 266B. Wayne, L.G. (1982). On the relationship of members of the tuberculosis complex to other species of mycobacteria. Indian J Chest Dis Allied Sci 24: 118-126. Wayne, L.G. y Sramek, H.A. (1992). Agents of newly recognized or infrequently encountered mycobacterial diseases. Clin Microbiol Rev 5: 1-25. Weber, M. (1996). Evolutionary plasticity in prokaryotes: A panglossian view. Biol Phil 11: 67-88. Wei, J., Goldberg, M.B., Burland, V., Venkatesan, M.M., Deng, W., Fournier, G. et al. (2003). Complete genome sequence and comparative genomics of Shigella flexneri serotype 2a strain 2457T. Infect Immun 71: 2775-2786. Weiss, R. y Gallant, J. (1983). Mechanism of ribosome frameshifting during translation of the genetic code. Nature 302: 389-393. Wernegreen, J.J. y Moran, N.A. (1999). Evidence for genetic drift in endosymbionts (Buchnera): analyses of protein-coding genes. Mol Biol Evol 16: 83-97. Wernegreen, J.J. (2002a). Genome evolution in bacterial endosymbionts of insects. Nat Rev Genet 3: 850-861. Wernegreen, J.J., Lazarus, A.B. y Degnan, P.H. (2002b). Small genome of Candidatus Blochmannia, the bacterial endosymbiont of Camponotus, implies irreversible specialization to an intracellular lifestyle. Microbiology 148: 2551-2556 Wernegreen, J.J., Degnan, P.H., Lazarus, A.B., Palacios, C., y Bordenstein, S.R. (2003). Genome evolution in an insect cell: distinct features of an antbacterial partnership. Biol Bull 204: 221-231. 312 …………………………………………………………………………………………Referencias Wernegreen, J.J. (2005). For better or worse: genomic consequences of intracellular mutualism and parasitism. Curr Opin Genet Dev 15: 572-583. Wheeler, D.E. y Martinez, T. (1995). Storage proteins in ants (Hymenoptera:Formicidae). Comp Biochem Physiol B Biochem Mol Biol 112: 15-19. Wheeler, W.C. (1995). Sequence, alignment, parameter, sensitivity, and the phylogenetic analysis of molecular data. Syst Biol 44: 321-331. Wickham, S.A. y Lynn, D.H. (1990). Relation between growth rate, cell-size an DNA content in colpodean ciliates (Ciliophora, Colpodea). Eur J Protistol 25: 345352. Wilkinson, T.L. y Ishikawa, H. (1999). The assimilation and allocation of nutrients by symbiotic an aposymbiotic pea aphids, Acyrthosiphon pisum. Entomol Exp App 91: 195-201. Wilson, E.O. (1985). Invasion and extinction in the West Indian ant fauna:evidence from the Dominican amber. Science. 229: 265-267. Witherspoon, D.J. y Robertson, H.M. (2003). Neutral evolution of ten types of mariner transposons in the genomes of Caenorhabditis elegans and Caenorhabditis briggsae. J Mol Evol 56: 751-769. Wixon, J. (2001). Featured Organism:Reductive Evolution in Bacteria:Buchnera sp; Rickettsia prowazeki and Mycobacterium leprae. Comparative and Functional Genomics 2: 44-48. Woese, C.R. (1987). Bacterial evolution. Microbiol Rev 51: 221-271. Wojciechowski, W. (1992). Studies on the systematic system of aphids (Homoptera, Aphidinea). 1-74. Katowice: U. Slaski. Wolf, Y.I., Aravind, L. y Koonin, E.V. (1999). Rickettsiae and Chlamydiae: evidence of horizontal gene transfer and gene exchange. Trends Genet 15: 173-175. Wolschin, F., Holldobler, B., Gross, R. y Zientz, E. (2004). Replication of the endosymbiotic bacterium Blochmannia floridanus is correlated with the developmental and reproductive stages of its ant host. Appl Environ Microbiol 70: 4096-4102. Xia,X., y Xie,Z. (2001). DAMBE: software package for data analysis in molecular biology and evolution. J Hered 92: 371-373. 313 ………………………………………………………………………………………………….. Xia, X., Xie, Z., Salemi, M., Chen, L. y Wang, Yo. (2003). An index of substitution saturation and its application. Molecular Phylogenetics and Evolution 26: 17. Yang, Z. y Nielsen, R. (2000). Estimating Synonymous and Nonsynonymous Substitution Rates Under Realistic Evolutionary Models. Mol Biol Evol 0737: 32-43. Yoder, A.D. y Yang, Z. (2000). Estimation of Primate Speciation Dates Using Local Molecular Clocks. Mol Biol Evol 17: 1081-1090. Young, D. y Robertson, B. (2001). A degenerative disease of the genome. Curr Biol. 15:R381-83 Zamudio, K.R., Jones, K.B. y Word, R.H. (1997). Molecular systematics of shorhorned lizards: Biogeography and taxonomy of a widespread species complex. Syst Biol 46: 284-305. Zhang, Z. y Gerstein, M. (2003). Patterns of nucleotide substitution, insertion and deletion in the human genome inferred from pseudogenes. Nucleic Acids Res 31: 5338-5348. Zharkikh, A. y Li, W.H. (1992). Statistical properties of bootstrap estimation of phylogenetic variability from nucleotide sequences: II. Four taxa without a molecular clock. J Mol Evol 35: 356-366. Zheng, Y., Szustakowski, J.D., Fortnow, L., Roberts, R.J. y Kasif, S. (2002). Computational identification of operons in microbial genomes. Genome Res 12: 1221-1230. 314