Download ¿Dónde está la sabiduría que hemos perdido en conocimiento

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

Document related concepts

Genómica comparativa wikipedia , lookup

Genoma humano wikipedia , lookup

Cósmido wikipedia , lookup

Genómica funcional wikipedia , lookup

Biblioteca genómica wikipedia , lookup

Transcript

¿Dónde está la sabiduría que hemos perdido en conocimiento?
¿Dónde el conocimiento que hemos perdido en información?
Thomas S. Eliot
1
2
INSTITUT CAVANILLES DE BIODIVERSITAT I
BIOLOGIA EVOLUTIVA
“Evolución reductiva del tamaño del genoma
en bacterias intracelulares”
Tesis doctoral
Laura Gómez Valero
Valencia, 2006
3
4
Dª. LAURA GÓMEZ VALERO, licenciada en Biología por la
Universitat de València, presenta la memoria del trabajo de
investigación titulado “Evolución reductiva del tamaño del
genoma en bacterias intracelulares”, para optar al grado de
Doctora en Biología por la Universitat de València.
Fdo. Laura Gómez Valero
Este trabajo ha sido dirigido por D. Francisco J. Silva Moreno,
Doctor en Ciencias Biológicas y Profesor Titular del
Departamento de Genética de la Universitat de València, y Dª
Amparo Latorre Castillo, Doctora en Ciencias Biológicas y
Profesora Titular del Departamento de Genética de la
Universitat de València.
Fdo. Dr. Francisco J. Silva
Fdo. Dra. Amparo Latorre
5
6
Gracias…
Me parece increíble que haya pasado tanto tiempo, nada más y
nada menos que ocho años desde que entré a colaborar en el
departamento de Genética. Un tiempo durante el cual recibí la
ayuda de mucha gente que directa o indirectamente me permitió
avanzar por esta carrera de obstáculos que es la investigación. Así
que por si no os lo dije en su momento, os lo dijo ahora: muchas
gracias y perdonarme si olvido algún nombre, ya sabéis lo
despistada que soy.
En primer lugar, gracias a mis directores de tesis: Francisco
J. Silva y Amparo Latorre, por confiar en mí para llevar a cabo este
trabajo, por su ayuda y por su paciencia en mis peores momentos de
más estrés.
Gracias a la Consellería d’Empresa, Universitat y Ciència
por concederme la beca predoctoral que ha permitido financiar este
trabajo.
Gracias a todos los profesores del grupo que siempre se
mostraron dispuestos a ofrecer su ayuda ante cualquier duda o
consulta: Andrés, Fernando, Ana, Eladio, David, Sari...
Gracias Bea, por enseñarme tanto y tan bien en los
primeros años aún a costa de robarte tanto tiempo.
Gracias Eduardo, Jurgen y Roy por acogerme como a una
más en el laboratorio y ofrecerme vuestra ayuda.
Gracias Daniel, Antonieta, Florian, Rupert, Doroteh, Karl,
Cyril, Nicolás, Elvira, Heike, Alfonso y Yacine, por hacerme sentir
como en casa cuando estaba muy lejos de ésta.
Si en algo me considero afortunada es en los compañeros,
amigos, con los que me ha tocado compartir el día a día durante
todos estos años, que han hecho tan divertidas y entrañables las
comidas, los almuerzos y todos los ratos compartidos, que han
estado siempre dispuestos a prestar ayuda y a los que sin duda he
de echar muchísimo de menos: Vicente Sentandreu (gracias por
hacernos reir tanto), Vicente Pérez (nuestro Vin), Eugeni,
MariaJosé, Benja (gracias por esas clases particulares de inglés que
tanto me ayudan a mi y tan poco a tí), Mireia, Teresa, Silvia (a la
que eche tanto de menos en estos últimos meses), Iñaki (nuestro
bioinformático personal dispuesto siempre a ayudarnos a todos con
los problemillas de los programas), Alicia, Jose, Vicky, Nuria,
7
Alma, Pepa, Alex, Loreto, Araceli, Pedro, Ana, Yolima..... Esto
incluye también a los que ya se fueron pero cuyo recuerdo
permanece: Paula (gracias por empujarme a dar nuevos pasos),
Mario (gracias por aconsejarme perseverar siempre), Rosabel, Jorg
(gracias por animarme tanto a salir fuera), Borys, Francois, Olga,
Ana, Manoli, Marisa...
Además tuve la suerte de interaccionar con otros grupos en
el Cavanilles. Especialmente gracias al grupo de Ecología Evolutiva,
que me han acogido siempre como a una más: gracias Maria José,
gracias Manuel (también por enseñarnos que más allá de las
bancadas y de las paredes de este edificio, existen las montañas…),
gracias Edu y Pau y gracias a mi gran amigo Sergi por una lista
interminable de motivos, pero sobretodo por estar siempre ahí,
especialmente cuando más lo necesitaba.
Igualente gracias al dpto. de Biología Celular, por
permitirme colaborar con ellos y enseñarme el mundo de la
microscopía: gracias a J. Manuel García Verdugo, gracias a Mario
(dudo que se pueda tener un profesor mejor en técnicas
microscópicas) y gracias a Vite, “el mejor copiloto de los tiempos”,
por hacerme reir tanto y compartir tantas mañanas, teorías y
momentos inolvidables.
Gracias a los amigos y familia ajenos a este mundillo, que
aún sin acabar de entender a qué me dedico exactamente y por qué,
me han apoyado siempre de manera incondicional, y se han
preocupado y alegrado conmigo a lo largo del camino: gracias
Marta, Pauli, Pili, Neus, Vir, Chusi, Amparo, Vir, Samu, Boni,
Mariajesús, Paqui, Jose, Marise, Vicente, Luis, Nacho, Kiko...
Y sobretodo, gracias mamá y papá por animarme siempre a
hacer en la vida aquello que más me gustaba, por respetar mis
decisiones, por ser un apoyo constante, por invertir tanto en mi
educación, por tener tanta paciencia y por quererme tanto.
8
A mis padres: Andrés y Pilar
9
10
INDICE
INTRODUCCIÓN GENERAL
1.1.
1.2.
1.3.
1.4.
1.5.
3
El tamaño de los genomas
El genoma de bacterias
Evolución reductiva
Simbiosis en bacterias obligadas intracelulares
El análisis de las pérdidas
3
7
10
16
20
2.
OBJETIVOS GENERALES
25
3.
MATERIAL Y MÉTODOS
29
3.1 Especies empleadas
31
3.1.1 Capítulo 4
3.1.2 Capítulo 5
3.1.3 Capítulo 6
31
33
36
3.2 Obtención de las secuencias
3.2.1 Extracción de DNA
3.2.2 Regiones neutras estudiadas
3.2.3 Regiones empleadas para calibrar el reloj molecular
3.2.4 Amplificación por PCR
3.2.5 Purificación de productos de PCR
3.2.6 Clonación
3.2.7 Secuenciación
3.3 Alineamiento y editado de las secuencias
3.3.1 Capítulo 5
3.3.2 Capítulo 6
39
39
41
42
43
49
50
51
51
51
55
3.4 Reconstrucciones filogenéticas
56
3.5 Test de reloj molecular y test de tasas relativas
58
3.6 Estima de los tiempos de divergencia
58
3.7 Análisis de la pérdida de nucleótidos
59
3.7.1 Capítulo 4
3.7.2 Capítulo 6
60
62
11
4.
3.8 Análisis de las regiones intergénicas
64
3.9 Estima del número de sustituciones sinónimas
y no sinónimas
65
3.10 Análisis estadísticos
65
Reducción genómica en Buchnera aphidicola
67
4.1 Introducción
4.1.1 Simbiosis en insectos
4.1.2 Los pulgones
4.1.3 Buchnera aphidicola
69
70
74
4.2 Objetivos
85
4.3 Resultados y discusión
86
4.3.1 Reconstrucción del ancestro
4.3.2 Identificación de los eventos de pérdida
4.3.3 Análisis de las pérdidas en los linajes de BAp y BSg
4.3.4 Análisis de las pérdidas en BBp
4.3.5 Análisis de los espaciadores ancestrales
4.3.6 Análisis funcional de los genes perdidos
5.
86
88
95
101
109
111
Las últimas etapas de la reducción genómica
en B. aphidicola y en B. floridanus
115
5.1 Introducción
117
5.1.1 Las últimas etapas de la evolución reductiva
5.1.2 Tasas de inserción/deleción
5.1.3 Mecanismos implicados en la generación de indels
5.1.4 Secuencias que permiten actuar a los mecanismos de
pérdida
5.1.5 Genomas en estadios finales del proceso de reducción
5.1.6 El género de pulgones Rhopalosiphum y R. padi
5.1.7 “Candidatus Blochmannia”
5.1.8 Las hormigas del género Camponotus
5.1.9 El reloj molecular
117
118
120
122
124
125
128
130
134
5.2 Objetivos
138
5.3 Resultados y discusión en B. aphidicola
139
12
5.3.1 Reconstrucción filogenética
5.3.2 Análisis de las sustituciones nucleotídicas
5.3.3 Análisis de los indels
5.3.4 Calibrado del reloj molecular
5.3.5 Tasas de indels y de sustituciones nucleotídicas
5.4 Resultados y discusión en B. floridanus
5.4.1 Reconstrucción filogenética
5.4.2 Análisis de las sustituciones nucleotídicas
5.4.3 Análisis de indels
5.4.4 Calibrado del reloj molecular
5.4.5 Tasas de indels y de sustituciones nucleotídicas
6. Las etapas iniciales de la evolución reductiva en M. leprae
6.1 Introducción
139
145
150
157
163
171
171
175
177
191
198
203
205
6.1.1 Las primeras etapas de la evolución reductiva
6.1.2 El potencial de pérdida
6.1.3 Genomas en estadios iniciales del proceso de
reducción
6.1.4 El género Mycobacterium
6.1.5 Mycobaterium leprae
205
207
208
210
211
6.2 Objetivos
214
6.3 Resultados y discusión
215
6.3.1 Reconstrucción filogenética
6.3.2 Reconstrucción del genoma ancestral
6.3.3 Análisis de las pérdidas en M. leprae
6.3.4 Análisis de la desintegración génica de los
pseudogenes de M. leprae
6.3.5 Estima de la edad de los pseudogenes
6.3.6 Relación entre los genes perdidos y su
distribución en operones
6.3.7 Pérdida de nucleótidos en los genes perdidos
215
217
225
230
235
253
259
7. DISCUSIÓN GENERAL
263
8. CONCLUSIONES
279
9. REFERENCIAS
285
13
14
1. INTRODUCCIÓN GENERAL
2
2
..........................................................................................................................Introducción general
1. INTRODUCCIÓN GENERAL
1.1 El tamaño de los genomas
La cantidad total de DNA en un genoma (haploide), es una característica
particular de cada especie conocida como el valor C. El rango de valores C de
los organismos vivos varía ampliamente, desde menos de 106 pares de bases
(pb) para algunos genomas de arqueas, bacterias y protistas, hasta más de
1011 pb para algunos protistas, plantas y animales (ver figura 1.1).
Animales
Plantas
Hongos
Protistas
Bacterias
Archaea
1. E+05
1.E+06
1.E+07
1.E+08
1.E+09
1.E+10
1.E+11
1.E+12
1.E+13
Figura 1.1. Estima de tamaños genómicos (pb) basada en datos de DOGS (Database of Genome
Sizes). Se muestra el tamaño genómico de algunas especies de referencia cuyo nombre se indica en
la parte superior de cada barra. Figura modificada a partir de Bentley et al. (2004).
A priori, se espera que la cantidad de DNA se correlacione
positivamente con la complejidad genética del organismo y así ocurre en el
caso de los procariotas y en algunos eucariotas. Sin embargo dentro de los
eucariotas esta correlación no siempre se cumple (Thomas, 1971), es lo que
se conoce como la paradoja del valor C. Así por ejemplo, el tamaño
genómico del género de anfibios Xenopus y del hombre son similares, sin
3
...........................................................................................................................................................
embargo nosotros asumimos que el hombre posee un mayor grado de
complejidad respecto al desarrollo genético.
La paradoja del valor C se resolvió cuando se descubrió que, a
diferencia de lo que ocurre en procariotas, donde la mayor parte del DNA es
codificante (Bergthorsson y Ochman, 1998), en eucariotas existe una gran
cantidad de DNA que no se expresa en proteínas o RNAs. De modo que, si
sólo tenemos en cuenta la cantidad de DNA que contiene información, ésta sí
que se relaciona con la complejidad genética de las especies, con lo que la
paradoja queda resuelta. Sin embargo, el enigma en torno a las fuerzas que
dirigen la evolución del genoma y las causas que permiten explicar el tamaño
genómico en cada una de las especies, continúa sin resolverse.
Las principales teorías que han surgido para explicar la evolución
del tamaño genómico de los organismos son las siguientes:
a)
Teorías adaptativas
Surgen a partir de la observación de Mirsky y Ris (1951), de la
fuerte correlación existente entre el tamaño celular, el tamaño nuclear y el
tamaño del genoma de vertebrados. Correlación que también se da en plantas
y protistas. En base a esta observación Bennet (1972) sugiere que el DNA
tiene un papel estructural para controlar el volumen nuclear y denomina a
esta función del DNA y a otras no relacionadas con la secuencia, función
nucleotípica. Vinogradov (1998) propone posteriormente otra función
nucleotípica del DNA, tamponar las fluctuaciones de soluto intracelular.
Dentro de estas funciones estructurales asignadas al DNA, destaca la
función nucleoesquelética propuesta por Cavalier-Smith (1978), según la cual
el DNA constituye el esqueleto nuclear. De modo que el aparente exceso de
DNA de células grandes se explica porque células de mayor tamaño
requieren un esqueleto mayor, y un mayor volumen nuclear para optimizar la
razón entre el volumen del núcleo y del citoplasma y controlar así el flujo de
transcritos entre ambos. Cavalier-Smith extiende esta teoría, para explicar el
tamaño del DNA de todos los organismos vivientes. Según ésta, existe
4
..........................................................................................................................Introducción general
selección a favor de un reducido tamaño genómico, dado que un menor
genoma permite ganar tiempo y espacio. Sin embargo, en eucariotas, el rango
de tamaños es resultado de una compensación entre selección para
economizar (que actúa sobre todos los organismos) y selección para tener una
cantidad de DNA suficiente para constituir un buen esqueleto y mantener
invariante la razón del volumen núcleo/citoplasma. Esta presión de selección
a favor de un reducido tamaño genómico explicaría que el genoma de
bacterias, mitocondrias y cloroplastos se halle reducido por causas
metabólicas.
Otra aproximación adaptativa interesante es la de Comeron (2001),
que sugiere que el exceso de DNA no codificante en eucariotas puede estar
favorecido por fuerzas selectivas, dado que la presencia de éste aumenta las
probabilidades de recombinación, lo que en último término intensifica la
eficacia de la selección.
b) Teorías de presión mutacional
Según éstas, la selección tiende a genomas reducidos dado que
genomas más grandes implican un mayor coste de replicación y energía, al
igual que postulan las teorías adaptativas. Sin embargo, a diferencia de las
teorías nucleotípicas y similares, proponen que los genomas grandes, con
exceso de DNA no codificante, son genomas mal adaptados, resultado de una
presión persistente que añade DNA al genoma. De modo que, el tamaño
genómico final, es el balance entre la presión hacia el incremento y la
tolerancia del organismo para la acumulación de DNA no codificante por
selección natural. Dentro de este grupo están por un lado las teorías del DNA
egoísta, según las cuales la cantidad de DNA aumenta mediante la acción de
elementos egoístas tales como elementos transponibles, secuencias de
inserción etc., que existen sólo por su propio beneficio, independientemente
del impacto sobre el hospedador (Doolittle y Sapienza, 1980; Orgel et al.
1980), y por otro las teorías del DNA basura (Ohno, 1972), que denominan
así al DNA no codificante y carente de función que tiende a acumularse en
5
...........................................................................................................................................................
los genomas, como los pseudogenes, aunque la definición del término “DNA
basura” es a menudo imprecisa.
c)
Teorías del sesgo delecional
Esta teoría propuesta por Petrov y Hartl (2000b) afirma que la
variación de tamaño genómico entre organismos se explica por diferencias
respecto al sesgo delecional de pequeñas (1-400 pb) inserciones/deleciones
(indels), puesto que genomas más reducidos tienen sesgos mayores. Este
sesgo es resultado de un proceso mutacional y dada la reducida magnitud de
los eventos, no estaría dirigido por fuerzas selectivas.
El sesgo hacia la deleción ha sido también propuesto como la
principal fuerza para explicar el tamaño genómico de procariotas (Mira et al.
2001). Lawrence y colaboradores (2001) proponen también esta tendencia a
la deleción en bacterias, pero argumenta que se explica como un mecanismo
de defensa contra la invasión de secuencias de inserción y fagos. De este
modo, las bacterias de vida libre impedirían la expansión masiva de
elementos egoístas y la acumulación de parásitos genéticos, manteniendo el
tamaño genómico estable.
Estas teorías rechazan una respuesta selectiva para explicar el
tamaño genómico de bacterias, bien porque cuestionan las ventajas asociadas
a un genoma de menor tamaño, bien porque consideran que el tamaño de los
eventos es tan reducido respecto al genoma completo, que no tienen efectos
perceptibles sobre la eficacia biológica.
d) Teorías basadas en genética poblacional
Lynch (2006) propone recientemente una teoría para explicar el
tamaño genómico de los organismos basada en la estructura poblacional.
Según Lynch, la expansión del genoma es una respuesta pasiva, que se da en
aquellas especies donde la selección natural no puede actuar eficazmente para
erradicar el exceso de DNA. Según esta teoría, el tamaño del genoma se
expande en algunos organismos, no porque posea alguna función fenotípica,
como proponen las teorías adaptativas, o porque el exceso de DNA tenga
actividad intrínseca, como proponen las teorías del DNA egoísta; sino porque
6
..........................................................................................................................Introducción general
no puede eliminarse. Asume por tanto también que el exceso de DNA casi
siempre implica una carga mutacional y que por tanto, la selección tiende a
eliminarlo, siempre que el ambiente genético-poblacional lo permita.
1.2 El genoma de bacterias
El genoma bacteriano se haya compuesto por un replicón generalmente
circular, aunque existen excepciones como Borrelia burgdorferi (Ferdows et
al. 1996) o Agrobacterium tumefaciens (Allardet-Servent et al. 1993), que
presentan un cromosoma lineal. Generalmente se asume que los organismos
procariotas son haploides, dado que es una característica ampliamente
extendida, aunque no universal, y a menudo poseen replicones de tamaño
inferior, conocidos como plásmidos. En la mayoría de los casos presentan
también una serie de elementos accesorios, bien como plásmidos o bien
integrados en el cromosoma principal, que constituyen el denominado
exogenoma. Mientras que al grupo de genes presente universalmente en una
especie bacteriana se le conoce como endogenoma (ver figura 1.2). Los
elementos accesorios, aunque generalmente son móviles, pueden ser
funcionales o no y pueden ser elementos egoístas que actúan en su propio
beneficio, proporcionar alguna ventaja al hospedador, o tener ambos efectos.
Ejemplos de secuencias que constituyen el exogenoma son los profagos, las
secuencias de inserción, los integrones o las islas de patogenicidad. Estas
últimas son regiones del cromosoma de bacterias patógenas que codifican
para factores de virulencia, como toxinas o factores de invasión (Hacker et al.
1997) y que contribuyen en gran medida a la variabilidad hallada en
numerosos patógenos. Estas islas de patogenicidad son sólo una clase de un
grupo más amplio, que constituye las denominadas islas genómicas de los
genomas bacterianos, capaces de conferir propiedades de resistencia
antimicrobiana, simbióticas, adaptaciones metabólicas, etc. (Hacker y Kaper,
2000).
La presencia de estos elementos accesorios es una prueba a favor de
que la transferencia horizontal, es la principal vía de entrada de DNA en los
7
...........................................................................................................................................................
genomas bacterianos (Ochman et al. 2000). Las duplicaciones y la
recombinación también pueden incrementar el número de nucleótidos en los
genomas procariotas. El fenómeno de recombinación, tanto homóloga como
independiente de recA, es así mismo el mecanismo que permite la pérdida de
DNA en bacterias. La orientación de las repeticiones flanqueantes a la región
donde tiene lugar la recombinación determina la resolución del fenómeno en
una inserción, una deleción o un reordenamiento.
La expansión y/o contracción del genoma es una función de la
distribución de tamaños de indels producidos por mutación y el subsiguiente
filtro impuesto por selección natural. Si la selección natural es totalmente
inefectiva, debido a un pequeño coeficiente de selección o a un tamaño
efectivo poblacional reducido, el genoma aumentará progresivamente si la
tasa de ganancia de DNA sobrepasa a la de pérdida, y en caso contrario se
reducirá hasta el mínimo compatible con el mantenimiento de la función
génica (Lynch, 2006). Sin embargo si hay selección natural actuando sobre el
tamaño genómico, éste evolucionará hasta un óptimo de eficacia para el
organismo (figura 1.2).
ENDOGENOMA
EXOGENOMA
Cromosoma
Islas genómicas
gen
Plásmidos
Fagos
TAMAÑO
GENÓMICO
FINAL
Pl
Plásmidos
Integrones
Transposones
Selección
ón
INSERCIONES
Deriva Genética
é
DELECIONES
SI
NO
Efectos en la eficacia biológica
Presión mutacional
Figura 1.2. Fuerzas evolutivas que afectan a la evolución del tamaño genómico bacteriano,
compuesto por el exogenoma y endogenoma. Los indels generan una presión mutacional que
puede expandir o contraer el genoma. Algunas de estas mutaciones afectan al fenotipo por lo
que se ven sujetas al filtro de la selección natural, mientras que aquellas que no afectan al
fenotipo quedan sujetas a la acción de la deriva genética. La combinación de estas fuerzas
determina el tamaño genómico final.
8
..........................................................................................................................Introducción general
A pesar del flujo de entrada y salida que puede darse en éstos, los
genomas bacterianos son reducidos en relación a los de eucariotas. Así,
mientras el tamaño genómico en eucariotas varía hasta en cuatro órdenes de
magnitud (107-1011pb), hay sólo un orden de magnitud de diferencia entre
genomas
procariotas
(Casjens,
1998;
Gregory
y
Hebert,
1999).
Concretamente, el rango que comprende el tamaño de los genomas
bacterianos oscila entre el genoma más grande de 9.2 Mb de Myxococcus
xanthus, hasta los más pequeños de 0.42 Mb y 0,16 Mb pertenecientes a
Buchnera aphidicola, endosimbionte del pulgón Cinara cedri (BCc) (PérezBrocal et al. 2006) y a Carsonella ruddii, simbionte de psílidos (Nakabachi et
al. 2006), respectivamente. A pesar de este menor rango de variación en
procariotas, en éstos, incluso dentro de especies o cepas estrechamente
relacionadas, con escasa divergencia a nivel de secuencia nucleotídica, el
tamaño puede variar ampliamente (Casjens, 1998).
Los genomas procariotas no sólo se caracterizan por ser de menor
tamaño, sino también por una mayor compactación, con carencia de intrones,
espaciadores más reducidos y escasa presencia de secuencias no codificantes.
Así, mientras el genoma de organismos eucariotas tiene hasta un 60% de
DNA no codificante, genomas de virus y procariotas tienen más de un 85%
de DNA codificante y algo similar ocurre en los genomas unicelulares de
eucariotas (Lynch, 2006). Por lo tanto, dado que la mayor parte del DNA de
bacterias contiene información de secuencia, a diferencia de lo que ocurre en
eucariotas, en bacterias, diferencias en el tamaño genómico se corresponden
con diferencias en la complejidad (Bergthorsson y Ochman, 1998). Es por
ello que, en el caso de bacterias, el número de genes es un reflejo del estilo de
vida. Así, las bacterias con los genomas más pequeños suelen ser
especialistas: parásitos obligados que crecen sólo dentro de hospedadores o
bajo otras condiciones muy especiales; mientras que las bacterias con los
genomas más grandes son generalistas metabólicos y/o sufren alguna forma
de desarrollo como esporulación, formación de micelios etc.
9
...........................................................................................................................................................
Entre los genomas más pequeños, se encuentran los de simbiontes y
patógenos. Estudios de filogenética molecular (Woese, 1987), demostraron
que dichos genomas representaban un estado derivado y no primitivo como
inicialmente se pensaba. Hoy día se sabe que, el caso de los micoplasmas, es
sólo un ejemplo de la reducción genómica que sufren un amplio número de
bacterias que mantienen una asociación obligada con el hospedador.
Ejemplos de las mismas son patógenos como las bacterias del género
Rickettsia
o
mutualistas
como
Buchnera.
No
obstante,
existen
excepcionalmente bacterias de vida libre que sufren reducción genómica,
como las bacterias marinas del género Prochlorococcus (Dufresne et al.
2005) o Pelagibacter ubique (Giovannoni et al. 2005).
A pesar de la idea ampliamente extendida y aceptada de los genomas
bacterianos como unidades reducidas y compactas, el progresivo incremento
en el número de secuencias disponibles ha puesto de manifiesto el hallazgo
de un número creciente de pseudogenes en bacterias y la existencia de una
proporción elevada de DNA no codificante en diversas especies. Este mayor
número de pseudogenes y la mayor proporción de DNA no codificante se ha
descrito especialmente en algunas bacterias obligadas intracelulares como los
patógenos Mycobacterium leprae (Cole et al. 2001) con más de 1.000
pseudogenes o Bordetella pertussis con más de 200 (Parkhill et al. 2003).
Este hallazgo contrasta con la compactación y reducción extremas que
caracterizan también a otras bacterias obligadas intracelulares, pero esta
aparente paradoja sólo refleja diferentes estadios de un mismo proceso, la
evolución reductiva.
1.3 Evolución reductiva
Las bacterias que han sufrido la transición de un estado de vida libre a un
ambiente intracelular comparten una serie de hechos comunes que son al
parecer consecuencia de este cambio en el estilo de vida. Una de las
principales consecuencias derivadas de esta transición es la reducción
drástica del tamaño genómico.
10
..........................................................................................................................Introducción general
Son varias las razones que pueden explicar esta evolución reductiva.
Por un lado, en el nuevo ambiente intracelular la bacteria no requiere parte de
la información que antes necesitaba, como por ejemplo los genes implicados
en movilidad, o aquellos que son redundantes con el hospedador. Esto
conlleva a un aumento del material que potencialmente puede perderse sin
consecuencias en la eficacia. En estas etapas iniciales de la reducción los
genomas empezarían por tanto a sufrir la inactivación de genes teniendo lugar
la aparición masiva de pseudogenes. Este momento de la evolución reductiva
estaría representado por bacterias como las previamente citadas M. leprae o
B. pertussis. Estos estadios tempranos se caracterizan además por una
elevada inestabilidad genómica que promueve un gran número de
reordenamientos (Belda et al. 2005). Dado que en estos estadios iniciales la
proliferación de secuencias de inserción y otros DNAs móviles puede
catalizar la inestabilidad (Moran y Plague, 2004). De modo que en esta fase
los genomas no están tan reducidos, presentan numerosos pseudogenes y
abundantes repeticiones dispersas. Además, los cambios en la dinámica
poblacional conllevan a una reducción del tamaño efectivo poblacional,
debido a los drásticos cuellos de botella a los que se ve sometida la
población, al pasar de un hospedador a otro. Ello implica un aumento de la
deriva y una disminución por tanto en la eficacia de selección, que tiene
como consecuencia la acumulación de mutaciones en genes necesarios, pero
no esenciales, que pasan entonces a formar parte del repertorio potencial de
pérdida. Este incremento en la deriva genética se manifiesta en diversos
hechos genómicos de estas bacterias como: el incremento en las tasas de
sustitución, el sesgo hacia AT en la composición nucleotídica (Moran, 1996;
Clark et al. 1999; Wernegreen, 2002), la pérdida del sesgo en el uso de
codones (Rispe et al. 2004) o el bajo nivel de polimorfismo intraespecífico
(Funk et al. 2001; Abbot y Moran, 2002).
Adicionalmente, el secuestro en un ambiente intracelular reduce o
impide por completo la entrada de material por transferencia horizontal, con
lo que la pérdida de éste puede ser irreversible. Una segunda consecuencia es
11
...........................................................................................................................................................
que la recombinación con material genético diferente se ve impedida, con lo
que no es posible recuperar la clase más eficaz en la población, lo que unido
al pequeño tamaño poblacional aumenta la fijación de mutaciones
ligeramente deletéreas. Es lo que se conoce como Trinquete de Muller
(Muller, 1964; Felsenstein, 1974).
La pérdida masiva y la turbulencia que caracterizan las primeras
etapas de la reducción contrastan con la estabilidad genómica y la escasez de
DNA no codificante que caracteriza los últimos estadios. Esta estabilidad es
resultado de la pérdida de genes de recombinación y secuencias repetidas
durante las etapas tempranas y de las reducidas oportunidades de intercambio
genético, debido al secuestro en un ambiente intracelular.
La importancia relativa de todos estos factores explicativos está por
determinar, pero en conjunto conducen inevitablemente a la reducción del
genoma.
Pese a los hechos generales bien establecidos del proceso de
evolución reductiva, numerosos son los aspectos que quedan por resolver
respecto a la dinámica de pérdida, los mecanismos relacionados, o las fuerzas
evolutivas que dirigen el proceso. Así, en general, se asume que el ritmo de
pérdida ha variado a lo largo del proceso de reducción. Dado que
inicialmente la información que puede perderse es abundante y ésta va
disminuyendo a medida que avanza el proceso de reducción, a priori es
razonable asumir que el ritmo de pérdida es mayor inicialmente. Sin embargo
ésto ha llevado en numerosas ocasiones a una asunción no comprobada que
establece que el mayor ritmo de pérdida es resultado del tamaño superior de
los eventos en los estadios iniciales, frente al de los sucesos que protagonizan
las últimas etapas. Pero lo cierto es que un ritmo mayor de pérdida, puede
alcanzarse no sólo mediante deleciones de mayor tamaño sino también a
través de un incremento en la frecuencia de los eventos de tamaño moderado
o reducido. Así, por un lado una corriente postula que las grandes deleciones
(abarcando decenas de loci) protagonizan los estadios tempranos de la
reducción y sólo en etapas finales, la pérdida se da gradualmente a través de
12
..........................................................................................................................Introducción general
un proceso gen a gen (Moran y Mira, 2001; Wernegreen, 2002a; Moran,
2003; Nilsson et al. 2005). Por otro lado, otros estudios apoyan una pérdida
gradual mediante eventos de tamaño moderado, cuyo ritmo de acumulación
va descendiendo a lo largo del proceso de evolución reductiva (Silva et al.
2001; Delmotte et al. 2006). Ambas corrientes asumen una perdida final
gradual, dado que la disminución del potencial de pérdida y el hecho de que
el propio proceso de reducción acabe afectando a los elementos que permiten
actuar a los mecanismos de recombinación conllevarían a etapas finales
caracterizadas por eventos muy pequeños (Tamas et al. 2002).
Acerca de la principal fuerza evolutiva que dirige esta reducción, las
hipótesis postuladas, que en general se engloban dentro de teorías más
generales del tamaño genómico como las expuestas previamente,
básicamente se pueden clasificar en dos grupos.
a)
Seleccionistas
Según éstas, existe una presión selectiva que favorece un pequeño
tamaño genómico en todas las bacterias. Existen diversos argumentos para
explicar la mayor eficacia asociada a un genoma reducido. Por ejemplo, se
postula que los genomas con exceso de DNA tienen un mayor potencial
mutacional y por lo tanto mayores probabilidades de sufrir mutaciones, que
pueden matar a la célula o reducir su fecundidad o viabilidad; además,
requieren más espacio y compiten por tanto con otras funciones por éste,
restan energía y requieren más fosfato, nutriente escaso en la biosfera
(Cavalier-Smith, 2003). Sin embargo, la ventaja selectiva asociada a genomas
reducidos principalmente postulada en bacterias, es que un menor tamaño
puede conllevar ventajas como una reducción del tiempo de replicación o un
menor gasto energético (Albert et al. 1996; Davis y Hodgson, 1997; Selosse
et al. 2001; Rogozin et al. 2002; Ranea et al. 2005; Cavalier-Smith, 2005).
En base a estas teorías, las fuerzas evolutivas que actuarían sobre genomas
bacterianos de vida libre y endosimbiontes serían las mismas, pero la mayor
reducción de los últimos sería resultado de la mayor cantidad de información
que puede perderse.
13
...........................................................................................................................................................
Lynch (2006) también argumenta una ventaja selectiva de los
genomas reducidos, pero en base a su teoría poblacional a priori los genomas
de bacterias intracelulares, debido a la eficacia reducida de la selección
tenderían a expandirse. Sin embargo se reducen, y Lynch explica este hecho
porque afirma que no son hábitats adecuados para los elementos móviles, que
progresivamente van desapareciendo dando lugar a la contracción del
genoma.
Pese a que algunas de las condiciones favorables asociadas a una
dimensión genómica reducida son evidentes, no se puede afirmar sólo a partir
de esta observación que la selección es la fuerza que moldea el tamaño
genómico.
b) Mutacionales:
Las hipótesis restantes postulan que es la deriva genética la principal
fuerza evolutiva responsable del tamaño del genoma de bacterias
intracelulares y que, dado que existe un sesgo hacia la deleción en éstas, el
manifiesto del mismo es el responsable de la compactación genómica.
Efectivamente, el sesgo hacia la deleción ha sido demostrado en bacterias,
tanto de vida libre como intracelulares (Andersson y Andersson, 1999;
Moran y Mira, 2001). De modo que en el caso de las bacterias intracelulares
la reducción es mayor probablemente porque la cantidad de DNA sobre el
que puede actuar este sesgo se incrementa, aunque tampoco podemos
descartar que lo que ocurra sea un aumento del sesgo de pérdida en éstas. Sin
embargo, Lawrence (2001) afirma que en el caso de las bacterias obligadas
intracelulares, dado que la exposición a parásitos genéticos se reduciría
dramáticamente, ya no hay selección a favor de tasas de deleción elevadas, de
modo que el sesgo de pérdida está reducido respecto a las bacterias de vida
libre. Esto daría lugar a la creciente acumulación de pseudogenes, como
ocurre en M. leprae (Cole et al. 2001). Pero el sesgo mutacional hacia la
deleción, aunque inferior respecto al de bacterias de vida libre, eliminaría
progresivamente los pseudogenes. Esto conllevaría a genomas con un
moderado contenido de los mismos y restos génicos abundantes, como ocurre
14
..........................................................................................................................Introducción general
en Rickettsia prowazekii donde existe un 24% de DNA no codificante
(Andersson et al. 1998). Finalmente, quedarían muy pocos pseudogenes y la
mayor parte del DNA sin función se eliminaría, como ha ocurrido en el caso
de Buchnera y Carsonella (Shigenobu et al. 2000; Clark et al. 2001).
En las últimas etapas del proceso, el genoma podría llegar a alcanzar
un mínimo que vendrá determinado por el nicho intracelular específico en
cada caso, con lo que la bacteria será extremadamente vulnerable a cualquier
cambio ambiental. Esta tremenda astringencia genómica puede por tanto
condenar a la extinción a estas bacterias si el hospedador es eliminado. Otra
posibilidad es el reemplazamiento por nuevas bacterias más eficaces para el
hospedador, como se ha sugerido en el caso de B. aphidicola de C. cedri
(Pérez-Brocal et al. 2006). Este pulgón contiene además de esta bacteria otras
bacterias intracelulares, cuya expansión en el hospedador ha llevado a
postular una posible sustitución de B. aphidicola por estos endosimbiontes
secundarios (Gómez-Valero et al. 2004b). Así mismo, también se ha
postulado que la agrupación bacteria–hospedador puede evolucionar con
éxito hasta que la bacteria llegue a un grado de integración en la célula del
hospedador de modo que ya no sea reconocida como una entidad separada,
como en el caso de mitocondrias y cloroplastos. Sin embargo, la diferencia
principal entre estos orgánulos y las bacterias obligadas intracelulares citadas,
es que en el caso de mitocondrias y cloroplastos la simbiosis inicial se
estableció en la línea germinal y tuvo lugar la transferencia de genes al
núcleo, lo que hasta ahora no se ha descrito en estos endosimbiontes (Palenik,
2002).
Para estudiar el proceso de reducción genómica en las diferentes
especies bacterianas que lo sufren es necesario establecer el ritmo de pérdida
en éstas, como se ha hecho ya para diversas especies eucariotas (Graur et al.
1989; Saitou y Ueda, 1994; Petrov et al. 1996; Ophir y Graur, 1997; Petrov y
Hartl, 1998; Bensasson et al. 2001). Este cálculo requiere secuencias de
especies o cepas próximas para determinar los sucesos de indels (tamaño y
frecuencia de los mismos) o los genes perdidos, y estimas temporales para
15
...........................................................................................................................................................
calcular tasas respecto al tiempo absoluto. Así mismo, trabajar con diferentes
especies que se encuentren en etapas distintas del proceso de reducción
genómica nos permitirá saber si el ritmo y modo de pérdida varían o no a lo
largo del proceso.
La reducción genómica extrema ha sido documentada en varios
grupos bacterianos incluyendo gram-positivas, clamidias, espiroquetas o
linajes dentro de las gamma y alfa proteobacterias. Hasta el momento, los
genomas más pequeños (<1Mb), han sido encontrados mayormente en
bacterias que mantienen una asociación intracelular obligada con un
hospedador, de modo que estos organismos son modelos adecuados para
caracterizar la evolución reductiva del tamaño genómico.
1.4 Simbiosis en bacterias obligadas intracelulares
El término simbiosis (del griego simbios que significa “viviendo juntos”) fue
acuñado por Anton de Bary en 1879, para definir la asociación entre dos o
más especies diferentes. El concepto excluye por lo tanto a las poblaciones,
que son asociaciones entre individuos de una misma especie. Así mismo,
aunque la relación simbiótica puede ser tanto permanente como limitada a un
periodo extenso, las asociaciones de corta duración no se incluyen en la
definición original.
Las relaciones simbióticas se pueden clasificar en relación a
diferentes hechos característicos de la asociación establecida (Paracer y
Ahmadjian, 2000). De este modo, en base por ejemplo a su localización,
diferenciamos entre endo y ectosimbiontes. Los endosimbiontes son aquellos
que viven dentro de los tejidos o células del hospedador, durante todo o parte
del ciclo de vida de éste. Dentro de éstos, aquellos que pueden replicarse en
el interior de las células del hospedador se conocen como endosimbiontes
intracelulares. Por el contrario, los ectosimbiontes residen fuera del
organismo hospedador.
En base al grado de dependencia, la simbiosis puede ser tanto
obligada como facultativa. En el caso de una simbiosis obligada, los
16
..........................................................................................................................Introducción general
organismos no pueden vivir sin la relación simbiótica. Mientras que los
organismos que establecen simbiosis facultativas, pueden también ser
organismos independientes. No obstante, en ocasiones es difícil diferenciar
entre ambas, dado que por ejemplo, un organismo puede ser de vida libre
pero estar en nichos tan especializados que son difíciles de identificar
(Douglas, 1996).
Probablemente, la clasificación principal de las relaciones de
simbiosis se basa en las ventajas o desventajas derivadas de la asociación
sobre los organismos implicados. Según este criterio, distinguimos tres tipos
de simbiosis: mutualismo, comensalismo y parasitismo. El mutualismo se
define como la relación entre dos organismos, en la que ambos optimizan su
eficacia biológica relativa. En el comensalismo sólo uno de los organismos
implicados aumenta su eficacia sin causar perjuicio al otro. Mientras que en
el parasitismo uno de los simbiontes aumenta su eficacia provocando un
perjuicio a la otra parte. Los límites entre estas categorías no están
completamente separados y son frecuentes de hecho las transiciones entre
ellos. Por ejemplo, el mutualismo a menudo evoluciona a partir de una
relación de parasitismo o viceversa. No obstante, independientemente de las
transiciones que pueden darse entre los diferentes tipos de simbiosis, los
términos son a menudo confusos, porque no se utilizan correctamente. Así,
las propuestas para redefinir el término simbiosis a lo largo de la historia,
igualando numerosas veces su significado al del mutualismo, ha dado lugar a
confusiones (Saffo, 1992; Lewin, 1995). Sin embargo, el término tal y como
fue propuesto por Anton de Bary, se refiere no sólo al mutualismo sino a
cualquier asociación entre especies que implique beneficio, perjuicio o no
tenga efecto sobre las mismas.
Las relaciones simbióticas son muy comunes en la naturaleza y han
influenciado la diversidad y especiación de numerosas especies, siendo una
importante fuerza en la evolución de la vida en la tierra en las primeras
etapas. Quizás el ejemplo más importante es la asociación simbiótica entre
organismos procariotas durante el precámbrico, que ha dado lugar al origen
17
...........................................................................................................................................................
de orgánulos como la mitocondria o los cloroplastos (Margulis y Fester,
1991). Así mismo, son destacables las numerosas relaciones de simbiosis
entre insectos y bacterias intracelulares, que representan una clave para
explicar el éxito evolutivo de los artrópodos, que han podido adaptarse a
nichos inapropiados asociados con dietas deficitarias, gracias a la
compensación nutricional aportada por sus endosimbiontes asociados.
En referencia a las modificaciones genómicas derivadas de una
relación simbiótica y más concretamente a los cambios inducidos en el
tamaño genómico, un grupo de simbiontes destaca del resto: las bacterias
obligadas intracelulares. Este grupo de organismos se caracteriza por poseer
genomas muy pequeños, resultantes de un proceso de evolución reductiva
previamente descrito. Dentro de este grupo encontramos tanto parásitos como
mutualistas. Aunque el efecto sobre el hospedador de ambos es diferente, el
estilo de vida similar implica que han de enfrentarse a problemas comunes y
que sufren las mismas consecuencias derivadas de la estructura poblacional
compartida. Así, ambos necesitan superar las barreras físicas, celulares y
moleculares del hospedador, de hecho ambos poseen por ejemplo genes de
invasión celular; y ambos sufren una transmisión vertical a través de
drásticos cuellos de botellas. Además en ambos casos, el factor primario de la
relación es generalmente nutricional. Sin embargo, dado que los parásitos
buscan alimentarse a partir del hospedador, mientras que los mutualistas
representan una fuente de alimento para éste, estos últimos presentan una alta
fracción de genes que permiten llevar a cabo funciones biosintéticas, mientras
que los parásitos se caracterizan por una mayor fracción de funciones de
transporte (Tamas et al. 2001). Así mismo, mientras los parásitos
evolucionan comúnmente mediante mecanismos que van cambiando la
superficie celular, para evitar ser reconocidos y eliminados por el hospedador
(Andersson et al. 1998), los mutualistas a menudos se protegen localizándose
en células especializadas del hospedador, los bacteriocitos (Baumann et al.
2000; Wernegreen, 2002). En definitiva, dado que los patógenos no
benefician al hospedador como los mutualistas, han de estar adaptándose
18
..........................................................................................................................Introducción general
constantemente a posibles cambios para evitar ser eliminados y por esta
misma razón, en ocasiones es frecuente que necesiten encontrar nuevos
hospedadores (Wixon, 2001). Este requerimiento de una mayor capacidad
para adaptarse a cambios en el ambiente en patógenos versus endosimbiontes,
explicaría quizás porque, pese a que ambos sufren evolución reductiva, los
genomas de patógenos no están tan extremadamente reducidos como los de
mutualistas, dado que experimentan una fuerte selección a favor de la
variación fenotípica.
Una de las consecuencias más importantes de la evolución de las
bacterias obligadas intracelulares es la coevolución con el hospedador. Esta
evolución conjunta es resultante de la relación obligada que se establece y
que se mantiene a través de una transmisión vertical estricta, que se refleja en
la congruencia de árboles filogenéticos procedentes del hospedador y el
simbionte. La convergencia temporal en los fenómenos de especiación y
divergencia de simbiontes, tiene como principal ventaja que las estimas
temporales se pueden extrapolar de uno a otro. Dado que en los procariotas la
existencia de un registro fósil es prácticamente inexistente, las bacterias
endosimbiontes tienen la ventaja de que los tiempos de divergencia entre las
mismas pueden estimarse de manera indirecta a través de su correspondientes
hospedadores, para los que generalmente, la probabilidad de hallar un
registro fósil asociado es mayor.
La secuencia completa de muchos genomas de bacterias obligadas
intracelulares está actualmente disponible. Algunos de éstos están
filogenéticamente próximos a las bacterias de vida libre, cuyo genoma
también ha sido secuenciado; o la secuencia genómica de especies o cepas
muy relacionadas a los mismos también ha sido completada, lo que permite
el desarrollo de estudios comparativos. Los genomas secuenciados se
corresponden, además, con bacterias que abarcan un amplio rango, que
representa los diferentes estadios de la reducción genómica. Esta muestra
actual, aunque limitada, proporciona una oportunidad única para empezar a
19
...........................................................................................................................................................
descubrir de qué modo exactamente tiene lugar la reducción de los genomas
bacterianos.
El estudio de la degradación genómica en las mismas no sólo
permitirá explicar el proceso de miniaturización génica al que están
sometidas, sino que además, dado el drástico cambio en la estructura
poblacional sufrido, son ideales para contrarestar las teorías desarrolladas
para explicar el tamaño genómico de todos los organismos.
1.5 El análisis de las pérdidas
El análisis de los genomas reducidos requiere la identificación de los genes
perdidos y el cálculo de tasas. En nuestro estudio, consideramos que un gen
activo se convierte en un gen perdido desde el momento en que sufre
cualquier evento que destruye la función génica y se transforma por tanto, en
un pseudogen. A partir de ese momento, puede sufrir mutaciones tales como
sustituciones y/o indels que pueden llegar a hacer desaparecer por completo
la similitud con la secuencia original. Es por ello que, a la hora de detectar los
genes que ha perdido un genoma, hay que buscar tanto los pseudogenes
presentes en el mismo como las pérdidas completas:
a)
Pseudogenes
Son secuencias que originalmente codificaban para proteínas
funcionales, pero que actualmente no tienen capacidad de dar lugar a
proteínas capaces de llevar a cabo su función adecuadamente. Pueden ser
transcripcionalmente activos o no. El criterio que principalmente define a un
pseudogen es que aún mantiene un grado de similitud con el gen original, que
permite identificarlo. De modo que los pseudogenes pueden detectarse a
través de la búsqueda de restos ortólogos de genes funcionales en otro
genoma estrechamente emparentado. Adicionalmente existen también
pseudogenes de RNA cuya detección es más difícil, dado que al no codificar
para una proteína no pueden identificarse a través de la inactivación de ésta.
20
..........................................................................................................................Introducción general
La identificación de pseudogenes está sujeta a los criterios de
definición de los mismos, dado que no siempre puede comprobarse
experimentalmente que el producto codificado por el supuesto pseudogen no
es funcional. Estos criterios de definición pueden estar sujetos a variación.
Por ejemplo, los valores mínimos del grado de similitud y la longitud de un
gen inactivo respecto a un ortólogo funcional, para considerarlo un
pseudogen, dependen del autor. Así mismo, la base de datos de ortólogos
para realizar la búsqueda depende de las secuencias disponibles. De hecho, el
número de pseudogenes detectados en bacterias se ha incrementado a medida
que ha aumentado el número de genomas completamente secuenciados. Por
ejemplo, pequeñas pautas abiertas de lectura, que inicialmente se describieron
como genes de función desconocida, han pasado al estatus de pseudogen, al
descubrir ortólogos de los mismos de mucha mayor longitud en especies
estrechamente emparentadas (Ochman y Davalos, 2006).
La ortología, muchas veces basada únicamente en una estrecha
similitud, puede mejorarse con el criterio de sintenia. La sintenia existe entre
dos genes A y B de diferentes cepas, si hay dos o más ORFs en la inmediata
proximidad del gen A, que tienen homología a ORFs en la vecindad del gen
B. Este criterio implica asumir que el orden génico de las especies con las
que trabajamos está conservado, o bien trabajar únicamente con bloques
sinténicos del genoma. Es por ello que puede aplicarse únicamente cuando
trabajamos con especies cercanamente relacionadas.
b) Pérdidas completas
Los genes que se han perdido completamente pueden detectarse
mediante la comparación del genoma degradado con el de especies muy
próximas (Dagan et al. 2006). A la hora de llevar a cabo esta comparación,
usualmente se asume que en el momento de la divergencia el contenido
génico de las especies comparadas era el mismo y que, por tanto, los genes
presentes en una especie pero ausentes en otra probablemente se han perdido
en esta última. Esta asunción no está exenta de error, dado que la diferencia
21
...........................................................................................................................................................
en el contenido génico puede también deberse a transferencia horizontal. Sin
embargo, en el caso de bacterias intracelulares la transferencia horizontal está
muy restringida debido al secuestro en un ambiente intracelular.
Si, además, el genoma que ha sufrido degradación génica se
compara, no directamente con un genoma estrechamente emparentado, sino
con un genoma ancestral reconstruido, la probabilidad de que los genes
perdidos estuvieran originalmente en el genoma que estamos estudiando es
mayor, dado que la posibilidad de incorporar genes específicos de especie o
cepa en el ancestro se reduce. Estudios previos que han llevado a cabo la
reconstrucción del ancestro para estudiar el proceso de pérdida son los de
Moran y Mira (2001) o Silva et al. (2001). En ambos trabajos, se analiza la
pérdida de genes en el endosimbionte B. aphidicola en etapas tempranas, a
través de la reconstrucción del ancestro, mediante la comparación con E. coli
y Yersinia pestis en el primer trabajo, y con E. coli y Vibrio cholerae en el
segundo.
Una vez identificadas las pérdidas de un genoma, se puede proceder
al cálculo de las tasas relacionadas con procesos implicados en la
degradación, cuyas definiciones son a menudo imprecisas. Para evitar por
tanto la confusión de los términos empleados, definimos a continuación en
base a nuestro criterio, los parámetros con los que trabajamos en nuestro
estudio:
Tasa de inserción/deleción: es la frecuencia con la que se producen
eventos de inserción o deleción por unidad de tiempo. Este parámetro
requiere conocer el número de segmentos insertados o delecionados, pero no
el tamaño de los mismos.
Tasa de pérdida o ganancia: a partir del tamaño y el número de
eventos de inserción o deleción, esta variable nos mide la cantidad de
nucleótidos que pierde o gana un genoma por unidad de tiempo. El balance
entre el DNA incorporado y el DNA perdido resulta en una tasa global de
pérdida o ganancia.
22
..........................................................................................................................Introducción general
La tasa de pérdida no ha de ser confundida con la tasa de
inactivación, que se define como el número de genes inactivados por unidad
de tiempo.
23
24
2. OBJETIVOS GENERALES
25
26
…………………………………………………………………………………Objetivos generales
2. OBJETIVOS GENERALES
El principal objetivo del presente trabajo es caracterizar la evolución
reductiva en bacterias obligadas intracelulares, tanto en etapas tempranas
como tardías de la reducción genómica. Para llevar a cabo este estudio,
trabajamos con bacterias cuya secuencia genómica y/o la de especies o cepas
cercanas se haya actualmente disponible. De este modo, podemos reconstruir
el genoma o estado ancestral, lo que nos permite llevar a cabo estudios
comparativos con la secuencia o genoma actual y determinar los cambios que
se han producido durante la evolución de un linaje concreto.
27
28
4. MATERIAL Y MÉTODOS
29
30
……………………………………………………............................................Material y métodos
3. MATERIAL Y MÉTODOS
3.1 Especies empleadas
El presente trabajo se ha centrado en tres bacterias obligadas intracelulares:
B. aphidicola, Blochmannia floridanus y M. leprae, cuyas características
generales se detallan en la tabla 3.1.
Aunque éstas han sido las especies principales, dependiendo de si el
estudio llevado a cabo en cada capítulo ha sido intra o interespecífico, se han
empleado diferentes cepas de alguna de estas especies o bacterias de
diferentes especies hospedadoras. Además, en cada capítulo se ha trabajado
con otras especies adicionales, para las inferencias filogenéticas o como
fuente de información suplementaria para la reconstrucción de ancestros. La
información de cada una de las especies o cepas concretas empleadas en cada
capítulo y su obtención se detallan a continuación:
3.1.1 Capítulo 4
En este capítulo trabajamos con B. aphidicola de tres especies de pulgones
diferentes descritas en la tabla 3.2. Aunque B. aphidicola está descrita como
una única especie, el grado de divergencia entre B. aphidicola de diferentes
especies de pulgones ha llevado a sugerir que sea subdivida en nuevas
especies (Baumann et al. 2000). Por esta razón, nosotros consideraremos
como interespecífico el estudio llevado a cabo entre B. aphidicola de
diferentes especies de pulgones.
31
Hospedador
Pulgones
Hormigas
Humanos
Simbionte
Mutualista
Mutualista
Patógeno
Bacteria
Gram-negativa
Gram-negativa
Gram-positiva
Clasificación
Gamma proteobacteria
Gamma proteobacteria
Actinobacteria
Tamaño genoma (Mb)
0,42-0,64
0,71
3,2
32
Especie/Hospedador
B. aphidicola de Acyrthosiphon pisum
B. aphidicola de Schizaphis graminum
B. aphidicola de Baizongia pistaciae
Abreviatura
BAp
BSg
BBp
Tamaño Genoma (nts)
640.681
641.454
615.980
%GC
26%
25%
25%
Referencias
Shigenobu et al. 2000
Tamas et al. 2002
van Ham et al. 2003
Tabla 3.2. Especies de B. aphidicola empleadas en el estudio. Se indica nomenclatura abreviada que utilizaremos para su designación, el tamaño
genómico, % de GC y referencias bibliográficas.
* Los valores de Buchnera se basan en los obtenidos en los diferentes genomas de B. aphidicola cuya secuencia ha sido completada.
Especie
B. aphidicola*
B. floridanus
M. leprae
Tabla 3.1. Especies de bacterias obligadas intracelulares empleadas en el estudio y sus principales características.
DNA codificante
81-86%
83%
49%
%GC
20-25%
27%
57%
…………………………………………………...………………....................................................
…………………………………………………………………………………Material y métodos
3.1.2 Capítulo 5
En este capítulo trabajamos con dos especies mutualistas para llevar a cabo
estudios intra e interespecíficos: B. aphidicola y B. floridanus.
B. aphidicola
El estudio de la degradación génica en los últimos estadios de la reducción de
B. aphidicola se llevó a cabo a dos niveles: intra e interespecífico. Para llevar
a cabo el estudio intraespecífico se escogió como especie hospedadora el
pulgón Rhopalosiphum padi. Se analizaron un total de 37 genotipos de la
especie R. padi de diversas localizaciones geográficas distribuidas por todo el
mundo (ver figura 3.1): 16 de ellos con mtDNA de haplotipo I (hI), y 21 con
mtDNA de haplotipo II (hII).
SERBIA
ALEMANIA REP.CHECA
CANADA
GRAN BRETAÑA
FRANCIA:
Le Rheu
Colmar
Ensar
St.Amand
MÉXICO
Madon
SIRIA
Rennes
KENIA
AUSTRALIA
Figura 3.1. Distribución geográfica de los diferentes genotipos de R. padi empleados.
Además de éstas, para el estudio a nivel interespecífico, se
analizaron cuatro especies más del género Rhopalosiphum pertenecientes a la
subfamilia Aphidinae, tribu Aphidini: R. maidis, R. insertum, R. nymphaeae y
R. cerasipholiae (esta especie sólo fue empleada en el análisis con el gen
repA2). Para calibrar el reloj molecular en B. aphidicola, dos especies más de
la subfamilia Aphidinae fueron incluidas: Schizaphis graminum y
33
…………………………………………………...………………....................................................
Acyrthosiphon pisum, pertenecientes a las tribus Aphidini y Macrosiphini
respectivamente (ver tabla 3.3).
Tabla 3.3. Nombre, código, localización geográfica y haplotipo mitocondrial de las especies
empleadas. * Las secuencias de estas especies se extrajeron de la base de datos.
Especies
Rhopalosiphum padi (clones)
H6
A4
A2
A3
H1A
Colmar 14
Gb Lars 16
Gb Lars 17
Scotland
Kp1
A24
A16
H93
République Tchèque
A25
Tunisie 1
H15
H4
H5
Canada güel
Canada windsor
Colmar 10
Colmar 15
Colmar 3
Nord Germany
A26
J93
Arbo 4
Arbo 18
17 Ensar
Rebillon
Le Rheu
Ensar 1
Ensar 5
Ensar 6
Serbie2
Kerguelen
Grupos externos
Rhopalosiphum insertum
Rhopalosiphum maidis
Rhopalosiphum cerasipholiae
Rhopalosiphum nymphaeae
Schizaphis graminum *
Acyrthosiphon pisum*
Código
Localización geográfica
BRp1
Rennes (Fracia, oeste)
BRp2
Le Rheu, Francia
BRp3
Le Rheu, France
BRp4
Le Rheu, France
BRp5
Perth,Australia
BRp6
Colmar (Francia, este)
BRp7
Bristol, Gran Bretaña
BRp8
Bristol, Gran Bretaña
BRp9
Dundee, Escocia
BRp10
Kendenup, Australia
BRp11
Nairobi, Kenia
BRp12
Mandon, Francia
BRp13
Rennes (Francia, oeste)
BRp14
Opava, República Checa
BRp15
Alep, Siria
BRp16
Tunis, Túnez
BRp17
St Amand, Francia
BRp18
Rennes (Francia, oeste)
BRp19
Rennes (Francia, oeste)
BRp20
Guelph, Canada
BRp21
Windsor, Canada
BRp22
Colmar (Francia, este)
BRp23
Colmar (Francia, este)
BRp24
Colmar (Francia, este)
BRp25
Göttingen, Alemania
BRp26
CYMMIT, México
BRp27
Rennes (Francia, oeste)
BRp28
Rennes (Francia, oeste)
BRp29
Rennes (Francia, oeste)
BRp30
Rennes (Francia, oeste)
BRp31
Rennes (Francia, oeste)
BRp32
Le Rheu, Francia
BRp33
Rennes (Francia,oeste)
BRp34
Rennes (Francia,oeste)
BRp35
Rennes (Francia,oeste)
BRp36
Belgrade, Serbia
BRp37 Islas Kerguelen (Océano Índico)
BRi
BRm
BRc
BRn
BSg
BAp
34
Le Rheu, Francia
Le Rheu, Francia
Algonquin, Canada
Le Rheu, Francia
Base de datos
Base de datos
mt DNA
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
I
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
II
…………………………………………………………………………………Material y métodos
Las muestras de pulgones empleadas fueron suministradas por el Dr.
José M. Michelena Saval, de la unidad de Entomología del Instituto
Cavanilles y el Dr. Jean-Christophe Simon, del EMSAR de Le Rheu
(Rennes) Francia, a excepción de algunas muestras de R. nymphaeae
proporcionadas por el Dr. Pérez Hidalgo de la Universidad de León. El
material era suministrado en alcohol de 95%, o como material fresco.
B. floridanus
El estudio de la reducción en esta bacteria se llevó a cabo a nivel
intraespecífico. Un total de 9 colonias diferentes de la hormiga Camponotus
floridanus fueron empleadas (ver tabla 3.4), y adicionalmente Blochmannia
de C. rufipesA fue utilizada como grupo externo.
Tabla 3.4. Especies del género Camponotus empleadas en el estudio, código utilizado
para designar a B. floridanus de cada una de las colonias de Camponotus, localización
geográfica de las mismas y fecha de captura.
Especie
Código
Localización geográfica
Fecha de
captura
Colonias
Camponotus floridanus
CFloC1
Summerland key (FLORIDA)
2003
Camponotus floridanus
CFloC2
Sansibal island (FLORIDA)
2003
Camponotus floridanus
CFloC3
Saddlebunch keys (FLORIDA)
2003
Camponotus floridanus
CFloC10
Sugarloaf key (FLORIDA)
2003
Camponotus floridanus
CFloC51
Key Largo (FLORIDA)
2002
Camponotus floridanus
CFloC96
Orchid island (FLORIDA)
2003
Camponotus floridanus
CFloC236
Tarpon Springs (FLORIDA)
2003
Camponotus floridanus
CFloC308
Orchid island (FLORIDA)
2003
Camponotus floridanus
CFloC316
Sugarloaf shores (FLORIDA)
2003
Camponotus rufipes A
CRufA
Misiones (ARGENTINA)
2003
La distribución geográfica de dichas cepas, comprende diversas zonas
geográficas tanto de la península de Florida, como de diferentes islas del
archipiélago (ver figura 3.2). CRufA, fue la especie escogida como grupo
externo. Para el calibrado del reloj molecular, también se emplearon
35
…………………………………………………...………………....................................................
secuencias procedentes de C. pennsylvanicus y de Formica fusca, disponibles
en las bases de datos.
CFloC236
CFloC308,C96
CFloC2
CFloC51
CFloC1,C3,C10,C316
Figura 3.2. Localización geográfica de las colonias de hormigas del género
Camponotus empleadas en el estudio.
Las muestras de C. floridanus y de C. rufipes nos fueron
proporcionadas por el grupo del Dr. J. Gadau del grupo de Zoología II del
Instituto Theodor Boveri (Biozentrum, Universidad de Würzburg).
3.1.3 Capítulo 6
La especie objeto de estudio en este capítulo fue M. leprae, pero tanto para la
reconstrucción del genoma ancestral como para la reconstrucción filogenética
y el cálculo de parámetros, se emplearon otras especies del género
Mycobacterium descritas en la tabla 3.5.
36
…………………………………………………………………………………Material y métodos
Además de los anteriormente citados se utilizaron otros genomas
con el fin de resolver las relaciones filogenéticas, la ortología o la situación
ancestral de algunos genes: Mycobacterium marinum (Mma), Nocardia
farcinica cepa IFM10152 (Nfa), Corynebacterium glutamicum cepa
ATCC13032
(Cgl),
Corynebacterium
efficiens
Corynebacterium diptheriae NCTC13129 (Cdi).
37
YS-314
(Cef)
y
Tabla 3.5. Especies de Mycobacterium empleadas en el estudio. Se indica la cepa, la nomenclatura asignada, el hospedador, el tamaño genómico, el contenido en GC y las
referencias bibliográficas.
Especie
Cepa
Abreviatura
Hospedador
Tamaño Genoma (nts.)
%GC
Referencias
Li et al. 2005
Mycobacterium avium subsp. paratuberculosis
K-10
Mav
Ganado y humanos
4.829.781
69,30%
Cole et al . 1998
Mycobacterium tuberculosis
H37Rv
Mtu(I)
Humanos
4.411.532
65%
Fleischmann et al. 2002
Mycobacterium tuberculosis
CDC1551
Mtu(II)
Humanos
4.403.837
65%
Garnier et al. 2003
Mycobacterium bovis
AF2122/97
Mbo
Ganado y otros animales
4.345.492
65%
Cole et al. 2001
Mycobacterium leprae
TN
Mle
Humanos
3.268.203
67%
…………………………………………………...………………....................................................
38
…………………………………………………………………………………Material y métodos
3.2 Obtención de las secuencias
En los capítulos 4 y 6 se trabajó con el genoma completo de las especies
empleadas disponibles en la base de datos NCBI (National Center for
Biotechnology Information).
En el capítulo 5 se trabajó con secuencias específicas de las especies
escogidas, que se obtuvieron experimentalmente mediante el proceso que se
detalla a continuación:
3.2.1 Extracción de DNA
Extracción de DNA de pulgón
Dado que B. aphidicola no puede ser cultivada fuera del pulgón, para obtener
el DNA de la bacteria se ha procedido a la extracción del DNA total del
pulgón, lo que implica la obtención de una mezcla final compuesta por DNA
del hospedador, DNA de B. aphidicola y demás flora intestinal. El método
empleado para dicha extracción ha sido el método de extracción de DNA
total de Latorre et al. (1986). El protocolo de extracción consta de los
siguientes pasos:
1.
Homogeneizar la muestra en 160 μl de tampón I (10 mM
Tris-HCl, 60 mM NaCl , 5% Sacarosa, 10 mM EDTA, pH
7.8).
2.
Añadir 200 μl de tampón II (Tampón de lisis: 300 mM
Tris-HCl, 1.25% SDS, 5% Sacarosa, 10 mM EDTA, pH 8).
Homogeneizar mediante inversión suave del tubo. Incubar
a 65ºC durante 30 min.
3.
Neutralización con 60 μl de tampón III (3 M AcOK, pH 5).
Homogeneizar la solución mediante inversión enérgica del
tubo. Incubar a -20ºC, 20 min.
4.
Centrifugar 15 min. a 13000 rpm.
5.
Transferir el sobrenadante a un nuevo vial. Añadir un
volumen
de
Isopropanol, homogeneizar
la
suavemente. Incubar 5 min a temperatura ambiente.
39
muestra
…………………………………………………...………………....................................................
6.
Centrifugar 10 min a 13.000 rpm. Eliminar el sobrenadante
por decantación.
7.
Lavar el precipitado con 500 μl de etanol al 70%.
8.
Centrifugar 3 min a 13.000 rpm. Desechar el sobrenadante
y secar al vacío durante 5 min.
9.
Resuspender el precipitado en 20 μl de LTE+RNasa (LTE:
10 mM Tris-HCl, 0.1 mM EDTA, pH 8.0; 20 μg/ml
RNasa).
Extracción de DNA de hormigas
También en este caso se ha procedido a la extracción del DNA total del
insecto. Sin embargo, dado el mayor grosor de la cutícula en el caso de la
hormigas con las que trabajamos en comparación con los pulgones,
aplicamos un método de extracción con proteinasa K que mostró mucha más
eficacia que el anterior. En concreto, aplicamos el método de Salting out
(Sunnucks y Hales, 1996). El protocolo de extracción consta de los siguientes
pasos:
1.
Homogeneizar la muestra en 100 μl de TNES (Tris-HCl 50mM pH
7.5, NaCl 400mM, EDTA 20mM pH 8.0, 0,5% SDS) junto con 6 μl
de Proteinasa K (5mg/ml).
2.
Añadir 200 μl más de TNES e incubar 1 hora a 50ºC o toda la noche
a 37ºC.
3.
Añadir 85 μl de NaCl 5M, y homogeneizar invirtiendo el tubo varias
veces.
4.
Centrifugar a 14.000 rpm durante 10 min.
5.
Recuperar el sobrenadante y añadir 450 μl de etanol absoluto frío (20ºC).
6.
Incubar 20 min a -80ºC o 1 hora a -20ºC.
7.
Centrifugar 10 min a 13.000 rpm.
8.
Eliminar el sobrenadante y lavar el precipitado con 200 μl de etanol
70% frío (-20ºC).
40
…………………………………………………………………………………Material y métodos
9.
Centrifugar 10 min a 13.000 rpm.
10. Eliminar el sobrenadante por decantación y secar al vacío 20 min.
11. Resuspender en 20-50 μl de LTE (Tris-HCl 10mM pH 8.0, EDTA
0.1 mM pH 8.0), LTE con RNasa (10μg/ml) o mQH2O (según el
tamaño de la muestra y el uso posterior de la misma).
El protocolo se ha aplicado tanto sobre material fresco (hormigas vivas)
como sobre material en etanol o acetona. En un primer momento las muestras
fueron preservadas en etanol, pero posteriormente comprobamos que la
conservación del DNA mejoraba si las hormigas se mantenían en acetona de
acuerdo con Fukatsu (1999).
3.2.2 Regiones neutras estudiadas
B. aphidicola
Las regiones neutras escogidas para el estudio en este caso fueron el pseudogen
cmk (desde la posición 343.618 a la 344.378 en el genoma de BSg) y una región
intergénica situada entre los genes hupA y rpoC (desde la posición 35.993 a 36.463
en el genoma de BSg) a la que denominamos IGR.
B. floridanus
Un total de 16 regiones intergénicas del genoma de B. floridanus, fueron
seleccionadas al azar para su amplificación en las diferentes colonias de C.
floridanus y en C. rufipes. Las regiones intergénicas definidas por los genes
flanqueantes a las mismas y el tamaño de éstas se muestran en la tabla 3.6.
41
…………………………………………………...………………....................................................
Tabla 3.6. Regiones intergénicas del genoma de B. floridanus
seleccionadas para el estudio. El tamaño se basa en la secuencia
disponible del genoma completo de B. floridanus.
GEN
FLANQUEANTE
ANTERIOR
GEN
FLANQUEANTE
POSTERIOR
TAMAÑO
REGIÓN
INTERGÉNICA
tRNA-Ala
rplJ
rplD
cspC
trpA
tonB
lolA
fba
cysH
psd
yrbA
ubiE
manX
infC
Bfl040
pheT
metF
rplA
rplW
zwf
tonB
cls
serS
rpiA
cysG
orn
murA
aarF
manY
rpml
yidZ
lplA
1688
317
8
870
704
335
502
252
139
521
54
561
115
94
608
103
3.2.3 Regiones empleadas para calibrar el reloj molecular
B. aphidicola
El gen escogido para calibrar el reloj fue repA2, un gen plasmídico que
codifica para la replicasa del plásmido y para el cual la secuencia de algunas
especies con las que trabajamos ya estaba disponible (Silva et al. 1998).
B. floridanus
En este caso dos grupos de secuencias se emplearon para calibrar el reloj. En
primer lugar se empleó la secuencia de las subunidades I y II de la citocromo
oxidasa del hospedador, para obtener un primer punto de calibrado. A partir
de éste, todas las regiones intergénicas seleccionadas de B. floridanus se
concatenaron en un alineamiento único y se utilizaron para obtener los datos
de divergencias más recientes.
42
…………………………………………………………………………………Material y métodos
3.2.4 Amplificación por PCR
Tras comprobar el resultado de las extracciones de DNA mediante
electroforesis en gel de agarosa, se procedió a la amplificación de las
regiones de interés mediante la técnica de reacción en cadena de la
polimerasa (PCR). El diseño de cebadores, basados en la secuencias
genómicas disponibles, se llevó a cabo mediante el programa PRIMER3
(Rozen y Skaletsky, 2000), con el fin de evitar palíndromes, o estructuras
secundarias que afecten al cebador. El diseño de cebadores y las condiciones
concretas de cada amplificación se detallan a continuación:
B. aphidicola
1.
Regiones neutras
Para obtener la secuencia de ambas regiones, en primer lugar se diseñaron
cebadores degenerados (rpsA1R, aroA1F, hupABu y rpoCBu) basándose en la
secuencias de BBp, BAp y BSg, disponibles a partir de los genomas
completamente secuenciados de ambas especies (Shigenobu et al. 2000; Tamas et
al. 2002; van Ham et al. 2003). Una vez obtenidas las primeras secuencias de estas
regiones para algunos genotipos de BRp, se diseñaron cebadores más específicos
(hupABuRp, rpoBuRp, cmkRp1F y cmkRp1R). Además, dos cebadores
adicionales fueron necesarios para obtener la secuencia de cmk en BRn
(cmkRnymF y cmkRnymR) y uno diseñado corriente arriba del gen serC (serCRp)
para obtener la secuencia de cmk en BRm. La posición de dichos cebadores y sus
secuencias se muestran en la figura 3.3.
43
…………………………………………………...………………....................................................
cmkRnymF
rpsA1R
cmkRp1R
aroA1F
cmkRp1F
cmkRnymR
334005
336508
335816
335735
serCRp
aroA
cmk
rpsA
336665
337448
serC
338022
339143
rpoCBu
hupABu
hupABuRp rpoCBuRp
rpoC
hupA
37493
37771
Cebador
38178
42395
Secuencia 5' ? 3'
aroA1F
TTA TAA CGA TCA TCG CAT GGC
rpsA1R
CTG AGA AAA GGT TCG GTA TAG TC
hupABu
DTT AAT TAA TTG AGT TTT ATT CAT
rpoCBu
ACW GGA TAT GCA TAT CAY AAA RAA GG
hupABuRp
TTA ATT GAG TTT TAT TCA T
rpoBuRp
TAT GCA TAT CAY AAA RAA CG
cmkRp1F
GGC ATG AGT GTT GGT ATA CGT AAT C
cmkRp1R
TCT CCT GGA TTA ATA GAA GAA GAC G
cmkRnymF
CCA AAT TGT ATT TCT AAA ACT TTT CCA TC
cmkRnymR
TCA ATA GTT GAG CAA AAG ATT CAT TC
Figura 3.3. Localización y secuencia de los cebadores utilizados para obtener la secuencia
del pseudogen cmk y de IGR. Las posiciones hacen referencia al genoma de BBp.
2.
Secuencia del gen repA2
Para calibrar el reloj molecular en B. aphidicola empleamos la secuencia
del gen plasmídico repA2 (Latorre et al. 2005). Las secuencias de dicho gen
de BAp (AJ006878) y BSg (AJ006876) fueron obtenidas de la base de datos.
Para obtener dicha secuencia en el resto de especies empleadas para estimar
los tiempos de divergencia, se llevó a cabo una PCR larga con cebadores
degenerados: leuA.lo3 y ORF1up2. Posteriormente tras obtener las primeras
secuencias se diseñó un cebador específico adicional, repA2d, para obtener la
secuencia en BRp y BRi. La posición de los mismos y sus correspondientes
secuencias se muestran en la figura 3.4.
44
…………………………………………………………………………………Material y métodos
ORF1up2
repA2d
ORF
1637
leuA.lo3
repA2
2140
Cebador
leuA
3120
2368
3257
4813
Secuencia 5'? 3'
ORF1up2
GTW ATG GTW ATG TTT TCW GGW TA
leuA.lo3
ARA CTW GCT TGW ARW GCT TGT TCW CCA TC
RepA2d
TGT AAT CCC AAA CCA GTT TTT AAT CC
Figura 3.4. Localización y secuencia de los cebadores empleados para obtener la secuencia de
repA2. Las posiciones nucleotídicas están basadas en el genoma de BSg.
B. floridanus
1.
Regiones neutras
Para obtener las secuencias se diseñaron cebadores basados en la
secuencia completa de B. floridanus (Gil et al. 2003). Un total de 16 regiones
intergénicas se amplificaron mediante PCR. En general, los cebadores se
diseñaron sobre la secuencia de los genes flanqueantes, dado que se espera
que la secuencia de éstos esté más conservada que las regiones intergénicas,
de modo que también puedan ser empleados sobre C. rufipes. Al igual que en
los casos anteriores el diseño de cebadores se llevó a cabo con el programa
PRIMER3 (Rozen y Skaletsky, 2000). Se diseñaron dos cebadores por región
para la amplificación que fueron a su vez empleados en las reacciones de
secuenciación. Sin embargo en algunos casos fueron necesarios cebadores
adicionales, diseñados sobre posiciones más internas que los utilizados en la
PCR, para secuenciar. Igualmente, en algunas regiones fue necesario el
diseño de cebadores degenerados para amplificar la región diana en B.
rufipes. Los cebadores empleados para cada región, la localización de los
mismos y su secuencia específica se detallan en la figura 3.5 y en la tabla 3.7.
Indicar que, además de las 16 regiones intergénicas, se amplificaron también
parte de dos regiones codificantes: los genes aroK y glmU.
45
…………………………………………………...………………....................................................
Tabla 3.7. Secuencia de los cebadores empleados para amplificar las
regiones neutras de B. floridanus y de B. rufipes.
Cebador
Secuencia 5'→3'
BLOHtRNAAl
TGG AGC TAA GCG GAA TCG AAC C
BLOCHmetFF
CAA TAC TGA TAA TAT GTA CAC CAA ATTC
BLOCHmetR
CAA AAG TGA TAG GTA TTG CAG TTG
BLOrplJF
AAC CTC CTG GAT CTT ACA AAC G
BLOrplAR
AAG TAA AAC CAA CGC AAT TTA AGG
BLOrpl3
CCA CAA TCT CGA GAT TCT TTT CGC
BLOrplDF
TTG GCA TCG AGT AAT TTA CAC AC
BLOrplWR
TTT TCC AAT TAC ATC TAT AAC CAA G
BLOrplDF2
ATT TAA ATA GTA TAG ATC CAG TAA G
BLOrplWR2
AAT CAC ATA TGC TTT TTT CC
BLOcspCS
ACA CAT CCT TAC TCC CAT CTG C
BLOzwfR
TGG GGT CCG AGT GAA TCT AC
BLOCHtrpAR
ACA TTT AAT GAA AAT AGC TAT GAA ACT G
BLOtonBN
ATT AAA ATA GCT ATG CGT CGT TGG
BLOCHtonBF
CGT TGG ATA TAT GCA GTT GAT AAT G
BLOtonBF
CAC ATG TAA AAT ACA GGA TGA TAC AAC
BLOclsR
ATA ACC ACG CCA TAA AGG ATG
BLOfbaF
CAA TGG GCT ACT TGG TCT GG
BLOrpiAR
TGA TGA ATG CTG CGA ACT TG
BcysGR
ACA CAA ACA ACG GCA AAT ATC G
BcysHF
TTG GAT TAC AAC GAG AAT GTG G
BLOornF
AAA ATT CGA TCC CTT TCT GG
BLOpsdF
CAT CCT CCT TTC CAT GAA GC
BLOmurA
CCC GGA AAC CAA ACT TTA CC
BLOyrbAF
TTC ATT TAA TCC TCA GGA GTG G
BLOaarF
TGC TAA TCG AAA TCG TTC TCC
BLOubiER
TTA ATA TGA CAG GGG GCA TTG
manYBfl-F
TTG AAG CCA TAC CAA CAA TAC AAG
manYBfl-R
CAT CCA TAA ATA TTG GAG GAA TGT C
BLOrpml
TTA GAA TGT GCC TTG CGT ATG
BLOinfCF
GTC CTA ATT CTG ATC CTC CAG TG
BLOCHyidR2
GAC ATT AAG TTT TTT GGC AGC
BLOCHB040R
TTT TTG GCA GCT AAG TTA ACA CTG
BLOCHlplAF
TAT TAC ATT CTT TCC ATG CAT TTT G
BLOCHpheTR
TAC CAA CTC ATA TTT CTG CAT CAT C
BLOCHarokF
CTG GTA AAA GCA CTA TAG GTC GTC AG
BLOCHarokR
CCG TTC TTT TGC TAA ATC CTC TAA C
BLOCHglmUF
GAT GAC CAA CTT TTG AAT TGT TAC C
BLOCHglmUR
GGA AAA TTA GTG TGT GGA GAA GAT G
46
…………………………………………………………………………………Material y métodos
BLOCHtRNAAl
BLOCHmetR
BLOyrbAF
BLOmurAR
BLOCHmetFF
tRNA -Ala
metF
664314
yrbA
murA
51376
666003
51431
BLOCHrpl3
BLOaarFF
BLOrplJF
aarF
BLOrplAR
rplJ
BLOubiER
ubiE
rplA
692543
629813
BLOrplDF
BLOrplDF2
BLOrplWR2
manYBfl -R
manYBfl -F
manX
BLOrplwR
rplD
rplW
222821
693105
630131
manY
489561
222830
489677
BLOCHserSR
BLOCHserR2
BLOcspCS
BLOCHlolAF
BLOzwfR
cspC
serS
zwf
491758
lolA
423649
492629
424152
BLOtonBN
BLOinfCF
BLOCHtrpAR
BLOtonBF
trpA
BLOrpml
infC
rpmL
tonB
390436
472132
BLOtonBF
BLOclsR
tonB
BLOCHyidzF
cls
473616
BLOfbaF
BLOCHyidR2
yidZ
473951
Bfl040
46615
BLOrpiAR
fba
47224
BLOCHlplAF
rpiA
273548
390728
472837
BLOCHpheTR
pheT
273801
lplA
394740
394844
BLOCHlglmUR
BcysHF
BcysGR
BLOCHglmUF
cysH
cysG
glmU
193697
193837
10407
9010
BLOCHaroKR
BLOpsdF
BLOornF
psd
BLOCHaroKF
orn
81411
aroK
81932
28982
29539
Figura 3.5. Localización de los diferentes cebadores empleados para obtener la secuencia
de 16 regiones intergénicas y dos regiones codificantes. Las posiciones nucleotídicas están
basadas en la secuencia genómica disponible de B. floridanus.
47
…………………………………………………...………………....................................................
Sólo en el caso de las regiones intergénicas situadas entre metF-tRNA-Ala
y cysH-cysG no fue posible obtener la región intergénica completa. En la mayor
parte de casos el diseño de cebadores en los genes flanqueantes permitió la
obtención
parcial
de
secuencias
codificantes,
que
fueron
empleadas
posteriormente para incrementar la información a la hora de reconstruir la
filogenia de las cepas empleadas. Además de éstas, se amplificaron parcialmente
dos regiones codificantes correspondientes a los genes aroK y glmU que se
utilizaron también para la reconstrucción filogenética.
2.
Secuencias de COI/II
Las secuencias de las subunidades I y II de la citocromo oxidasa de
C. pennsylvanicus (AY334391), C. floridanus (AY334397) y Formica fusca
(334398) se extrajeron de la base de datos. Para obtener estas secuencias en
C. rufipes llevamos a cabo una PCR empleando dos de los cebadores
utilizados en el estudio de Degnan et al. (2004) (C1-J-1754Fb Y C2-N3661Rb). Además de éstos, dos cebadores adicionales diseñados por nosotros
fueron utilizados para poder secuenciar el fragmento completo. La situación y
secuencia específica de estos cebadores puede verse en la figura 3.6:
C1-J-1745F
COI(2)
COI(3)
C2-N-3661R
tRNALeu
COII
COI
Cebador
Secuencia 5' ? 3'
C1-J-1745F
CCA CGT TTA AAT AAT ATA AGA TTT TGA C
C2-N-3661R
CCA CAA ATT TCT GAA CAT TGA CCA
COI(I )2
ATT TAC GCT ATT ATT ACA ATT GG
COI(I )3
TAA AYC AYA GAT ATA ATG AAA TCC C
Figura 3.6. Localización y secuencia de los cebadores empleados para obtener la
secuencia de COI/II en B. floridanus de C. rufipes.
48
…………………………………………………………………………………Material y métodos
Las condiciones de las PCR llevadas a cabo fueron: 1,5 U de Taq
DNA polimerasa (Promega), 200μM de cada dNTP (Amersham), 300nM de
cada cebador, y entre 10-40 ng de DNA total intacto. Las condiciones de
amplificado fueron: 2 min a 94ºC; 30 ciclos de: 30 s a 94ºC, 30 s a la
temperatura adecuada a cada par de cebadores empleados, 30-60 s a 72ºC; y
un ciclo final de 7 min a 72ºC. Tras la primera amplificación, si no se obtenía
producto, o la muestra obtenida era insuficiente, la temperatura de unión de
los cebadores se ajustó gradualmente hasta obtener la muestra necesaria.
En algunos casos fue necesario llevar a cabo una long PCR debido al
resultado negativo de la PCR, o al elevado tamaño del producto esperado.
Las condiciones y componentes de este tipo de PCR permiten la obtención no
sólo de fragmentos de gran tamaño sino también de pequeño tamaño de
difícil amplificación. El sistema empleado fue Expand Long Template PCR
System (Roche).
Las condiciones de la PCR Larga eran: 1 U de Taq pol mix, 500μM
de cada dNTP (Amersham), 300nM de cada cebador, y entre 10-40 ng de
DNA total intacto. Las condiciones de amplificación fueron 2 min a 94ºC, 10
ciclos de: 15 s a 94ºC, 30 s a la temperatura específica a cada par de
cebadores empleados, 2 min a 68ºC; 20 ciclos idénticos a los anteriores pero
incrementando 20 s/ciclo de extensión, y un ciclo final a 68ºC de 7 min. En el
caso de que el sistema se empleara no para fragmentos largos, sino para
fragmentos pequeños de difícil amplificación, las condiciones fueron
idénticas a las de PCR normal salvo que la temperatura de extensión aplicada
fue de 68ºC en lugar de 72ºC.
3.2.5 Purificación de productos de PCR
Tras visualizar una muestra de la PCR en un gel de agarosa, el DNA obtenido
fue purificado empleando el High Pure PCR product Purification Kit
(Roche), siguiendo el protocolo indicado en el manual del fabricante.
En algunos casos, debido a la obtención de diversas bandas en la
PCR, producto de amplificaciones inespecíficas, fue necesario cortar la banda
49
…………………………………………………...………………....................................................
de interés y proceder a su limpieza. La extracción de DNA desde bandas de
agarosa se llevó a cabo con el mismo kit, pero utilizando el protocolo
específico para este caso.
3.2.6 Clonación
Para obtener la secuencia completa de repA2, en algunas de las especies de B.
aphidicola utilizadas fue necesaria la clonación de las mismas. Para ello, una vez
purificado el fragmento de PCR tal y cómo se ha descrito previamente, se llevaba a
cabo la clonación del mismo en el correspondiente vector, siguiendo los pasos
descritos a continuación:
Ligación
El vector empleado para la clonación fue pGEM-T Easy (Promega), un Tvector comercial. Dicho vector y el correspondiente inserto se ligaron en una
reacción de un volumen total de 10μl, que contenía: 5 ng de vector, tampón
de ligación, de 1 a 3 ul de T4 ligasa, y la cantidad correspondiente de
fragmento de PCR, manteniendo una relación molar 1:3 (vector:inserto).
Transformación de células competentes
El protocolo de transformación por choque térmico fue el descrito en los
manuales de uso rutinario en los laboratorios de biología molecular como:
Molecular cloning: A laboratory manual (Sambroock et al. 1989), DNA
cloning: A practical approach, vol I-IV (Glover et al. 1998). La cepa de E.
coli utilizada es la XL1-Blue MRF (Stratagene).
Obtención de los clones recombinantes
Tras la transformación se procedió a analizar al menos 10 colonias blancas
procedentes de cada una de las reacciones de ligación. Para ello se extraía el
DNA de las células mediante el protocolo de miniprep y a continuación se
procedía a la digestión del mismo con el correspondiente enzima de
50
…………………………………………………………………………………Material y métodos
restricción. El producto resultante se corría en un gel de agarosa para
confirmar la presencia del inserto.
3.2.7 Secuenciación
Las reacciones de secuenciación fueron llevadas a cabo empleando ABI
PRISM BygDye Terminador v3.0 Ready Reaction Cycle Sequencing KIT
(Applied Biosystems). Se utilizó una dilución 1:20 de la mezcla de Byg Dye
Terminator Ready Reaction que contiene la Taq polimerasa y los cebadores,
con el tampón rxn (400mM TrisHCl pH 9.0, 10mM MgCl2), de la cuál se
usaron 2 μl por reacción en un volumen final de 8 μl. Los ciclos empleados
en las reacciones de secuenciación fueron: 2 min a 94ºC, seguidos de 99
ciclos de: 10s a 95ºC, 5 s a 50ºC y 4 min a 60ºC.
Posteriormente las secuencias fueron enviadas al Servicio de
Secuenciación de proteínas y ácidos nucleicos de la Universitat de València,
donde las muestras eran procesadas con el secuenciador automático ABI
Prism (modelo 3700).
Finalmente, las secuencias obtenidas se ensamblaron y revisaron con
el paquete de programas Staden (Staden et al. 2000).
3.3 Alineamiento y editado de las secuencias
En los capítulos 5 y 6 del presente trabajo fue necesario llevar a cabo el
alineamiento de genes, pseudogenes o regiones intergénicas. Dada la distinta
naturaleza de las secuencias empleadas en ambos capítulos, la proximidad
filogenética de las mismas, así como el diferente cúmulo de secuencias a
analizar en cada capítulo, las aproximaciones empleadas fueron distintas en
cada caso:
3.3.1 Capítulo 5
En este capítulo los alineamientos fueron llevados a cabo con el programa
ClustalX 1.83 (Thompson et al. 1997). Posteriormente se revisaron, se
modificaron en los casos necesarios y se editaron con GENEDOC v.2.5
51
…………………………………………………...………………....................................................
(Nicholas y Nicholas, 1997) (anexos del 7 al 11). Este último programa
también fue empleado para alinear nucleótidos en base al alineamiento de
aminoácidos. El concatenado posterior de las secuencias, en los casos en que
fue necesario, se realizó mediante el programa BioEdit (Hall, 1999). Este
programa también se empleo para llevar a cabo “dot plots” para la búsqueda
de repeticiones flanqueantes.
En el caso de las regiones intergénicas de B. aphidicola de diferentes
especies del género Rhopalosiphum, la divergencia asociada a las regiones
neutras a nivel interespecífico nos obligó a llevar a cabo un estudio de los
parámetros que determinan un alineamiento, a fin de reducir al máximo las
ambigüedades y extraer la información evolutiva contenida en las secuencias.
La elevada divergencia entre diferentes especies a nivel de regiones
intergénicas, aumenta considerablemente la sensibilidad del alineamiento
frente a los cambios en los parámetros que determinan el mismo. En
consecuencia es necesario elegir dichos parámetros con un criterio adecuado.
El programa de alineamiento Clustal X permite modificar dos
parámetros: la matriz de sustituciones nucleotídicas, y la penalización por un
hueco que dependen de la penalización por abrir dicho hueco, GOP (gap
opening penalty) y por extenderlo, GEP (gap extension penalty).
La matriz de sustituciones nos permite dar un valor diferente a cada
sustitución nucleotídica. En base a estudios previos comparando secuencias
entre BSg y BRp sabemos que en este nivel de divergencia (menos de 50
m.a.), las transiciones son más abundantes que las transversiones (Silva et al.
1998). Sobre la base de esta información dimos un valor a las transiciones (1) intermedio entre transversiones (-9) y coincidencias (10).
Sin embargo, los parámetros más importantes de un alineamiento son el
GOP y el GEP (Vingron y Waterman, 1994; Wheeler, 1995). Variar los
valores de estos parámetros tiene efectos similares a cambiar el método de
alineamiento, o el método de reconstrucción del árbol. Estos parámetros son
necesarios, dado que si no se penalizaran los huecos en un alineamiento se
52
…………………………………………………………………………………Material y métodos
podrían generar alineamientos con más huecos que residuos. Ambos se
combinan mediante la siguiente fórmula para el cálculo de la penalización de
un hueco (ŋ):
ŋ = GOP + (GEP x long)
Donde “long” es la longitud del hueco. No existe ninguna justificación
matemática, estadística o biológica para esta fórmula y no hay razón para
pensar que los indels evolucionan de la manera tan simple descrita por la
misma (Salemi y Vandamme, 2003). Es ampliamente utilizada porque a
menudo funciona bien y es fácil de implementar en los programas de
alineamiento. Además no hay modo de determinar a priori los valores de
GOP y GEP (Rinsma-Melchert, 1993), que se escogen arbitrariamente. Para
conocer los efectos de la variación de dichos parámetros, Morrison y Ellis
(1997) proponen una estrategia que consiste en comprobar todas las
combinaciones ortogonales entre estos valores. Para ello el GOP se varía
entre 0.5 y 64 veces el coste de una sustitución (log2 = -1,0,1,2,3,4,5 y 6) y el
GEP desde 0 hasta 8 veces el coste de una sustitución (log2 = -5,-4,-3,-2,1,0,1,2 y 3). Posteriormente se ha mostrado que con tan sólo 6 de estas
combinaciones, se efectúa un barrido de las condiciones, desde las menos a
las más restrictivas suficiente para detectar la fuerza de la señal filogenética
(Sanchis et al. 2001). Estas 6 combinaciones incluían tres valores de GOP
(una penalización elevada, media y pequeña) versus dos valores de GEP. Con
estas 6 combinaciones obtuvimos siempre la misma topología pero no el
mismo alineamiento. Los resultados mostraron que tanto las condiciones más
restrictivas, como las menos, no producían alineamientos correctos; dado que
el cociente de transiciones frente a transversiones estaba muy alejado del
esperado para regiones neutras de B. aphidicola a esta escala temporal.
Además observamos como los valores de GOP intermedios o elevados
favorecen grandes deleciones, frente a un conjunto de pequeñas deleciones
53
…………………………………………………...………………....................................................
que implican el mismo número de nucleótidos. Sin embargo, diversos
estudios han mostrado que los indels más frecuentes en bacterias obligadas
intracelulares son de pequeño tamaño (Andersson y Andersson, 1999; Tamas
et al. 2002; van Ham et al. 2003). Para evitar por tanto este problema y seguir
un criterio más conservador, decidimos fijar el valor de GOP en 0,5 y
efectuar un barrido con los valores de GEP (tabla 3.8). De este modo el valor
de la penalización asociada a un hueco está principalmente asociado al
número de sitios nucleotídicos implicados en el indel antes que al número de
indels.
Tabla 3.8. Resultados de los alineamientos para un valor fijo de GOP y un barrido por
diferentes valores de GEP.
cmk
GOP GEP
0,5 0,03
0,5 0,5
0,5
4
0,5
6
0,5
8
0,5
10
0,5
12
0,5
14
IGR
GOP GEP
0,5 0,03
0,5 0,5
0,5
4
0,5
6
0,5
8
0,5
10
0,5
12
0,5
14
Penalización según el tamaño del indel
1 nt 2 nt 3 nt 10 nt
10*1 nt
0,53 0,56 0,59 0,81
5,3
1
1,5
2
5,5
10
4,5 8,5 12,5 40,5
45
6,5 12,5 18,5 60,5
65
8,5 16,5 24,5 80,5
85
10,5 20,5 30,5 101
105
12,5 24,5 36,5 121
125
14,5 28,5 42,5 141
145
Penalización según el tamaño del indel
1 nt 2 nt 3 nt 10nt
10*1 nt
0,53 0,56 0,59 0,81
5,3
1
1,5
2
5,5
10
4,5 8,5 12,5 40,5
45
6,5 12,5 18,5 60,5
65
8,5 16,5 24,5 80,5
85
10,5 20,5 30,5 101
105
12,5 24,5 36,5 121
125
14,5 28,5 42,5 141
145
BRp-BRn
tv ratio
0
e
0
e
11
3,5
17
2,8
23
2,2
27
2
29
1,9
32
1,7
BRp-BRn
ts
tv ratio
19
0
e
15
0
e
36
12
3
39
16
2,4
45
17
2,6
46
23
2
26
14
1,8
42
30
1,4
ts
27
36
39
48
51
54
54
55
Para escoger entre los alineamientos resultantes se tomó el ratio de
diferencias transicionales-transversionales entre Buchnera de R. padi (BRp) y
de R. nymphaeace (BRn). Datos previos de este ratio en terceras posiciones
54
…………………………………………………………………………………Material y métodos
de diversos genes entre BRp y BSg (tabla 3.9) daban un promedio corregido
por la longitud de cada gen de 1,6.
Tabla
3.9.
Ratio
de
diferencias transicionales (si)
frente
a
diferencias
transversionales (sv) para la 3ª
posición de los genes repA,
leuA, leuB y leuC de BRp
frente a BSg.
Ratio si/sv BRp-BSg
repA
2,29
leuA
1,6
leuB
1,5
leuC
1,4
Promedio
1,6
Dado que en nuestro caso la secuencia más alejada, la perteneciente
a BRn, está más cerca aún de BRp que BSg, aún esperamos ratios mayores a
éste. En base a esto, tomamos cuatro alineamientos que podían ser
igualmente válidos bajo nuestro criterio. Los valores de GEP para estos
fueron: 6, 8, 10 y 12 (anexos 7 y 8).
3.3.2 Capítulo 6
Alineamiento de los pseudogenes
En primer lugar se llevó a cabo el alineamiento de los pseudogenes de Mle
con sus correspondientes ortólogos de Mav y Mtu(II) (se toma este genoma
como representante del grupo formado por Mbo, Mtu(I) y Mtu(II), dado que
es el que posee el mayor número de genes). Sólo se emplearon aquellos
pseudogenes que poseían tanto un ortólogo en Mav como en Mtu (II). Un
total de 714 pseudogenes ancestrales cumplían este requisito, de modo que
llevamos a cabo 1428 alineamientos que implicaban cada pseudogen con sus
correspondientes ortólogos funcionales. Para ello utilizamos una versión
adaptada del algoritmo de Neddleman-Wusch (alineamiento global), donde
los límites no alineados de las secuencias más largas no son penalizados
(Erickson y Sellers, 1983). Los valores empleados para la penalización por
abrir un hueco en el alineamiento (GOP) y por extenderlo (GEP), fueron los
55
…………………………………………………...………………....................................................
valores por defecto del programa, 1 y 0.5 respectivamente. Para aquellos
pseudogenes que al alinearlos de este modo daban una puntuación (score)
superior a 65 en el alineamiento, se llevó a cabo un segundo alineamiento con
el programa GeneWise (Birney et al. 2004).
GeneWise es un programa desarrollado para predecir la función de
nuevos genes, a partir de la comparación con proteínas homólogas. Para ello,
el programa intenta producir a partir de una secuencia de nucleótidos dada,
transcritos que codifiquen una secuencia proteica válida en la secuencia del
genoma. La habilidad del programa para modelar también corrimientos en la
pauta de lectura, que pueden producirse debido a errores de secuenciación, ha
permitido que sea utilizado como una herramienta para investigar la
estructura de los pseudogenes (Hillier et al. 2003). Por tanto, este segundo
programa tiene en cuenta los posibles cambios de pauta de lectura en los
pseudogenes debido a indels a la hora de alinearlos. El alineamiento con
Genewise se aplicó sobre 611 pseudogenes.
Alineamiento de los genes
Con el programa ClustalX (Thompson et al. 1997), llevamos a cabo un
alineamiento de nucleótidos, basado en el alineamiento de aminoácidos, de
todos los genes de la tabla con sus correspondientes ortólogos funcionales.
Un total de 1281 genes ancestrales presentan ortólogos activos en Mav, en
Mtu (II) y en Mle, de modo que se efectuaron 3843 alineamientos siguiendo
este procedimiento. Por otro lado, para aquellos pseudogenes de Mle que
poseen ortólogos activos tanto en Mav como en Mle (714), los
correspondientes genes ortólogos fueron alineados entre sí siguiendo el
mismo método.
3.4 Reconstrucciones filogenéticas
Para llevar a cabo la reconstrucción de árboles filogenéticos a partir de un
grupo de secuencias es necesario en primer lugar determinar el modelo
evolutivo que mejor se ajuste a nuestros datos. Además, dentro del conjunto
de modelos más apropiado es adecuado escoger el menos complejo, dado que
56
…………………………………………………………………………………Material y métodos
cuánto más complejo es el modelo, mayor es el número de premisas que es
necesario asumir y de parámetros a estimar. Para ello empleamos el programa
MODELTEST v.3.7 (Posada y Crandall, 1998) que realiza tests estadísticos
para determinar, dentro del conjunto de modelos que mejor se ajustan a los
datos,
si
el
empleo
de
un
modelo
más
complejo
incrementa
significativamente la probabilidad de haber obtenido mis datos. El fichero de
entrada para este programa contiene una matriz con el valor de la máxima
verosimilitud de cada uno de los modelos candidatos para un grupo de
secuencias dado. Este fichero de entrada se obtiene con el programa
PAUP*4.0b10 (Swofford, 2002). A continuación MODELTEST compara la
verosimilitud de estos modelos usando likelihood (LRTs) y el criterio de
información de Akaike (AIC), que es el que nosotros empleamos. El criterio
de información de Akaike (Akaike, 1974) es un estimador asintóticamente no
sesgado de la cantidad de información Kullback-Leibler (Kullback y Leibler,
1951), que mide la distancia esperada entre el modelo verdadero y el modelo
estimado. Este criterio tiene en cuenta no sólo el buen ajuste del modelo, sino
también la varianza de la estima de los parámetros, de modo que penaliza el
incremento en el número de parámetros. El mejor modelo será el de menor
AIC. La ventaja del criterio de AIC frente a LRTs es que éste último sólo
permite comparar dos modelos al mismo tiempo, mientras que AIC permite
la comparación simultánea de todos y además puede ser empleado tanto para
modelos anidados como no anidados. En el caso de trabajar con secuencias
de aminoácidos, el programa equivalente para determinar el modelo
evolutivo es PROTTEST (Abascal et al. 2005), basado en el criterio de
información de Akaike corregido (AICc) (Felsenstein, 1985; Hurvich y Tsai,
1991).
Para las reconstrucciones filogenéticas, en el capítulo 5 se
emplearon tres métodos: distancias mediante el programa MEGA v.3
(Kumar, 2005), parsimonia y máxima verosimilitud con PAUP*4.0b10
(Swofford, 2002) y PHYML (Guindon y Gascuel, 2003). En el capítulo 6, las
57
…………………………………………………...………………....................................................
filogenias se resolvieron únicamente por el método de máxima verosimilitud
mediante el programa PHYML.
Una vez reconstruidos los árboles, la fiabilidad de los clados en el
árbol fue evaluada con el método de bootstrap (Felsenstein, 1985). Se trata de
un método no paramétrico de remuestreo a partir del conjunto original de los
datos. Entre 200 y 2.000 remuestreos son normalmente recomendables
(Hedges, 1992; Zharkikh y Li, 1992). Nosotros llevamos a cabo 1.000
remuestreos para todos los conjuntos de datos empleados, excepto en algunos
casos donde dado el tamaño muestral y el método escogido, el valor se redujo
a 300 para evitar un tiempo excesivo de computación.
3.5 Test de reloj molecular y test de tasas relativas
Los test de reloj molecular aplicados en el capítulo 5 fueron llevados a cabo
mediante un likelihood ratio test empleando PAUP*4.0b10 (Swofford, 2002).
Con este programa se calcula la verosimilitud del árbol forzando y sin forzar
reloj. El doble de la diferencia entre ambas verosimilitudes se distribuye
como una chi-cuadrado con n-2 grados de libertad, donde n es el número de
secuencias.
Adicionalmente se llevaron a cabo tests de tasas relativas,
concretamente el test de Tajima (Tajima, 1993), que viene implementado en
el programa MEGA3 (Kumar, 2005).
3.6 Estima de los tiempos de divergencia
Los tiempos de divergencia empleados en el capítulo 4 se obtuvieron a partir
de datos de la bibliografía en base a dataciones fósiles, tal y como se explica
en resultados y discusión.
En el capítulo 5, los tiempos de separación se calcularon del
siguiente modo: para los tiempos de divergencia entre los diferentes
haplotipos y especies de BRp empleamos el programa Beast v1.0.3
(Drummond et al. 2002). Beast es un programa de estadística bayesiana que
permite inferir mediante el uso de cadenas de Markov (Drummond et al.
58
…………………………………………………………………………………Material y métodos
2002) y el modelo Kingman de coalescencia. Mientras que en el caso de
Blochmannia, dado que partimos de puntos de calibrado estimados con el
programa r8s (Sanderson, 2003) decidimos emplear este mismo programa en
nuestro estudio, a fin de minimizar las incongruencias.
En el capítulo 6, dada la ausencia de registro fósil asociado,
calculamos los tiempos de divergencia entre las especies de Mycobacterium
empleadas (Mav, Mle y el grupo de M. tuberculosis) basándonos en la
divergencia entre E. coli y S. typhimurium. Ambas se asume que divergieron
hace 100 millones de años (m.a.), cuando tuvo lugar la diversificación de los
mamíferos (Doolittle et al. 1996), y el número de sustituciones sinónimas por
sitio (dS) entre ambas, calculada por ML, es 1,36 (Smith y Eyre-Walker,
2001). A partir de estos valores y de los valores de dS obtenidos entre los tres
linajes de Mycobacterium con los que trabajamos, extrapolamos para el
cálculo de los tiempos de divergencia asociados.
3.7 Análisis de la pérdida de nucleótidos
En los capítulos 4 y 6 analizamos la cantidad de nucleótidos perdidos en los
genes inactivados, tanto pseudogenes como genes perdidos en un estado de
desintegración más avanzado. Dado que en el caso de las pérdidas totales ya
no podemos conocer donde se localiza el inicio y el final del resto del gen
original, en el caso de que aún exista, tomamos toda la región comprendida
entre los genes flanqueantes anterior y posterior. En el caso de los
pseudogenes adoptamos el mismo criterio, puesto que los límites de éstos se
establecen en base a la similitud obtenida por BLAST (Basic Local
Alignment Search Tool), de modo que es posible no detectar restos del
pseudogen cuya secuencia ha podido divergir en gran medida de la del gen
original. Como tamaño original, tomamos por tanto también el número de
nucleótidos localizado entre los genes ortólogos flanqueantes a la región
perdida. El cálculo detallado de estos parámetros en cada capítulo se detalla a
continuación.
59
…………………………………………………...………………....................................................
3.7.1 Capítulo 4
Con el fin de determinar la cantidad de nucleótidos perdidos tras la
inactivación de genes en los diferentes linajes de B. aphidicola empleados,
llevamos a cabo el cálculo de la longitud de cada gen que se ha perdido en
algún linaje de B. aphidicola antes de su inactivación (Lg) y la longitud de la
región remanente de dicho gen tras su desintegración (Ld), tal y como hemos
descrito.. Una vez obtenidos ambos parámetros, el ratio Ld/Lg nos permite
obtener una estima del grado de desintegración génica. En el caso de pérdidas
individuales, Lg se define como el número de nucleótidos comprendidos entre
los genes adyacentes al gen analizado, menos la longitud de una región
intergénica promedio. La substracción de una región intergénica promedio se
explica porque previamente a la inactivación, la región analizada estaría
constituida por un gen activo y dos regiones intergénicas adyacentes a éste,
de modo que tras la pérdida si se da una completa desintegración, el DNA
remanente se correspondería con una región intergénica promedio (figura
3.7). Como tamaño de una región intergénica estándar se tomó un valor de
55,1 nucleótidos, dado que éste es el tamaño estimado para los espaciadores
ancestrales, aquellos flanqueados por los mismos genes en B. aphidicola y E.
coli (Mira et al. 2001).
De igual modo, Ld se calcula como el número de nucleótidos entre
los genes flanqueantes al gen perdido, menos 55,1 nucleótidos. Estos 55,1
nucleótidos representarían la contribución de cada uno de los genes contiguos
al gen perdido, a la región intergénica final. Originalmente, el gen
desintegrado estaría flanqueado por dos regiones intergénicas que se
perderían conjuntamente de manera parcial junto con el gen desintegrado. De
modo que la nueva región intergénica estaría formada por restos de las dos
regiones intergénicas originales que en promedio darían un tamaño final de
55,1 nucleótidos.
60
…………………………………………………………………………………Material y métodos
Ig1
A)
Gen
Pseudogen
Ig2
Ig1
L1
Ig1
B)
Gen
L2
Pérdida total
Ig2
L1
C)
Ig2
L2
Bloque
1
2
3
4
L1
L2
Ld = L 2 – 55.1
Lg = L 1– 55.1
Figura 3.7. Diagrama de las regiones incluidas en la estimación de Ld y Lg. (A) El gen perdido se
halla en estado de pseudogen. (B) La acumulación de sustituciones nucleotídicas ha dado lugar a
la pérdida de similitud entre el gen ortólogo funcional y la región desintegrada. (C) Ejemplo de
un bloque de pérdida formado originalmente por dos genes. Ig: región intergénica
Como tamaño original se tomó siempre el de la especie más cercana,
de modo que en el caso de genes perdidos en el linaje de BAp, BSg fue la
especie de referencia y viceversa. En el caso de pérdidas en BBp como
tamaño original se tomó el promedio de los ortólogos funcionales en BAp y
BSg, salvo cuando el gen estaba presente sólo en una de estas dos especies.
Cuando la especie más cercana no podía ser tomada como referencia porque
también tenía perdidos los genes analizados, se recurría a la especie más
alejada. Por ejemplo, el gen bioH es gen en BBp, pseudogen en BSg y gen
perdido en BAp, en este caso por tanto para analizar la pérdida tanto en BAp
como en BSg, sólo podemos tomar como tamaño de referencia el de BBp.
Sólo en el caso de yadF se tomó como tamaño original el de B. aphidicola de
Tetraneura caerulescens, dado que este gen está ausente en las tres especies
analizadas.
En el caso de pérdidas de dos o más genes adyacentes en un mismo
linaje, decidimos tratar estos genes perdidos como un bloque. En el caso de
estos bloques, 55,1 nucleótidos se tomó como el tamaño final de un
espaciador promedio entre los genes flanqueantes al bloque de pérdida,
61
…………………………………………………...………………....................................................
independientemente del número de genes que formaran parte del bloque.
Además establecimos asignar a cada gen que forma parte del bloque, el ratio
Ld/Lg calculado para todo el bloque, a la hora de clasificar cada gen en cada
una de las categorías de desintegración de acuerdo con el periodo de pérdida.
Sin embargo, en el caso de bloques formados por uno o varios pseudogenes
en los que era posible identificar los codones de inicio y de parada originales,
el bloque fue dividido en el máximo número posible de segmentos para
estimar el ratio Ld/Lg.
Aproximadamente 100 genes perdidos tras la divergencia de E. coli
y B. aphidicola, pero antes de la formación del LCSA (Last Common
Symbiont Ancestor) (Silva et al. 2001), no se incluyeron en el estudio, dado
que asumimos que el DNA proveniente de estos genes ha desaparecido por
completo tras más de 150 m.a. de evolución.
3.7.2 Capítulo 6
En este caso el cálculo de nucleótidos perdidos sólo se llevó a cabo sobre los
genes inactivados en M. leprae. El genoma ortólogo de referencia fue Mtu(II)
y en el caso de no poder emplear éste recurrimos al genoma de Mav. Sin
embargo, a diferencia de lo que ocurre en B. aphidicola, el grado de sintenia
entre estos genomas es mucho menor. De modo que en el caso de regiones
perdidas en Mle que no mantienen una sintenia perfecta bien con Mtu(II) o
bien con Mav, para conocer el número de nucleótidos que poseía esa región
originalmente en el ancestro, es necesario eliminar todo aquello que no sea
ancestral en el genoma ortólogo de referencia y esto puede hacerse de dos
modos (ver figura 3.8).
62
…………………………………………………………………………………Material y métodos
1
2
3
4
5
7
6
8
9
10
11
12
Gen flanqueante
Gen ancestral
Gen no ancestral
Figura 3.8. Reconstrucción de un segmento hipotético del genoma de Mav o Mtu(II)
flanqueado por dos genes que contienen toda una región perdida en Mle, en el que se
diferencian los genes ancestrales y no ancestrales. Los genes flanqueantes se consideran
ancestrales.
a)
Eliminando los genes no ancestrales, y las regiones intergénicas
flanqueadas por éstos. Esto implicaría en el esquema de la figura
eliminar el gen 3 y desde el gen 8 al 11. Entre los genes 2 y el 4, y
los genes 7 y 12, quedaría una región intergénica que no podemos
saber si es ancestral o no. Podríamos entonces eliminar el espacio
equivalente a dos espaciadores estándar, entendiendo por espaciador
estándar el número de nucleótidos promedio de un espaciador en los
genomas de Mycobacterium.
b) Podemos tomar el espacio desde el primer nucleótido que aparece
tras el primer gen flanqueante a la región perdida hasta el final del
primer gen ancestral que aparece (el gen 2) y a esto sumarle el
número de nucleótidos que hay entre el gen 4 y el 7, ambos
inclusive. A continuación haría falta sumar dos espaciadores
estándar para completar la región.
En ambos casos deberíamos llegar al mismo resultado, pero no
ocurre así, dado que si lo que hacemos es restar espaciadores estándar, como
ocurre en el caso a), es posible que queden restos de otros genes, de
pseudogenes o de secuencias de inserción en la región intergénica que queda.
De modo que el espacio remanente será mayor que en el caso b), donde lo
que hacemos es añadir espaciadores estándard. Además, llevamos a cabo un
estudio previo de los espaciadores de Mycobacterium, que mostró que éstos
63
…………………………………………………...………………....................................................
presentan tamaños muy variables. La distribución de frecuencias de los
mismos presentaba una enorme varianza, por lo que no es posible determinar
el tamaño de un espaciador promedio. En base por tanto a esto, sólo se
analizaron las pérdidas en las que tanto los genes perdidos como los
flanqueantes a éstos mantenían una sintenia perfecta, bien con el genoma de
Mtu(II), o bien con el genoma de Mav. Además, dentro de los pseudogenes
también se eliminaron del estudio aquéllos que eran contiguos a pérdidas
totales. En el caso de las pérdidas totales contiguas a pseudogenes, para
asegurarnos de que estábamos tomando únicamente la región que contiene
los restos de pérdidas totales, sin incluir posibles restos del pseudogen
adyacente, los límites del BLAST de los pseudogenes fueron revisados. De
modo que, aquellos casos en los que faltan más de 20 codones por detectar
del extremo del pseudogen flanqueante a nuestra región perdida, no se
analizaron.
3.8 Análisis de las regiones intergénicas
Con el objetivo de analizar si la reducción genómica en B.aphidicola ha
afectado a las regiones intergénicas, en el capítulo 4 analizamos la pérdida de
longitud de los espaciadores de B. aphidicola respecto a los de E. coli.
Únicamente analizamos los espaciadores ancestrales, que se definen como
aquéllos flanqueados por los mismos genes en B. aphidicola y E. coli (Mira
et al. 2001). De igual modo y para realizar un análisis homogéneo, sólo
trabajamos con aquellos espaciadores presentes en las tres especies de B.
aphidicola estudiadas. Además, los espaciadores de genes que codifican para
algún tipo de RNA, los pertenecientes a plásmidos, los flanqueantes al gen
xenólogo argG y aquellos flanqueados por pseudogenes se excluyeron del
análisis. En base a estos criterios, un total de 195 regiones intergénicas fueron
analizadas.
64
…………………………………………………………………………………Material y métodos
3.9 Estima del número de sustituciones sinónimas y no sinónimas
En el capítulo 6, para los 1281 genes ancestrales que poseen ortólogos
activos tanto en Mav como en Mtu (II), se calcularon dN y dS (número de
sustituciones no sinónimas y sinónimas por sitio) para cada una de las tres
comparaciones posibles: Mav-Mle, Mav-Mtu(II) y Mle-Mtu(II). Para el
cálculo de estos parámetros se aplicó el método implementado en el
programa yn00, dentro del paquete de programas PAML (Phylogenetic
Analysis by Maximum Likelihood), (Yang y Nielsen, 2000), que calcula dN y
dS entre dos secuencias. Se trata de un método aproximativo, basado por
tanto en los siguientes tres pasos: contar el número de sitios sinónimos y no
sinónimos en las dos secuencias, contar las diferencias sinónimas y no
sinónimas entre ambas, y corregir para múltiples sustituciones en el mismo
sitio.
3.10 Análisis estadísticos
Todos los análisis estadísticos fueron llevados a cabo con el programa SPSS
v12.
65
66
4. Reducción genómica en B. aphidicola
67
68
……………………………………………………………………………………….Introducción
4.1 INTRODUCCION
4.1.1 Simbiosis en insectos
Los insectos son el grupo de organismos con un mayor número de especies:
comprenden entre 3 y 30 millones de especies vivas, de las cuales sólo se han
descrito unas 900.000, y constituyen el 85% de la diversidad animal (Nel,
2003). Parte del éxito evolutivo de los insectos es resultante de su asociación
endosimbiótica con bacterias intracelulares. Aproximadamente, más del 10%
de las especies de insectos dependen de bacterias mutualistas obligadas para
su viabilidad y reproducción (Wernegreen, 2002). Debido a esta dependencia
estricta, estas bacterias endosimbiontes asociadas reciben el nombre de
endosimbiontes primarios.
Pulgones, psílidos, moscas blancas y cochinillas son insectos que
constituyen cuatro linajes separados dentro del suborden Sternorrhyncha,
orden Hemiptera (Campbell et al. 1994; von Dohlen y Moran, 1995) y que
comparten una serie de hechos estructurales y propiedades nutricionales.
Todos estos organismos se alimentan predominante o exclusivamente del
floema de las plantas. Este tipo de alimentación, constituye una dieta
desequilibrada dado que es rica en carbohidratos pero deficiente en
aminoácidos, vitaminas y ciertos lípidos esenciales (Douglas, 1993; Houk y
Griffiths, 1980; Raven, 1983; Sasaki et al., 1991). Para solventar este déficit,
han adoptado dos estrategias: por un lado succionan una gran cantidad de
floema, lo que les obliga a excretar el exceso de azúcares en forma de
melaza; y por otro lado, han establecido una relación de simbiosis con
bacterias, que les proporcionan sustancias ausentes o deficitarias en la savia
de las plantas, principalmente aminoácidos esenciales (Douglas, 1989;
Douglas y Prosser, 1992; Baumann et al. 1995, 1997a; Moran y Telang,
1998). A pesar de estos hechos comunes, estos insectos tienen diferentes
endosimbiontes primarios. Dentro de estas cuatro relaciones de simbiosis, la
que se da entre los pulgones y su endosimbionte primario, B. aphidicola, es la
más ampliamente estudiada.
69
...........................................................................................................................................Capítulo 4
4.1.2 Los pulgones
Los pulgones engloban aproximadamente 4.400 especies de insectos
distribuidos por todo el mundo, aunque la mayoría de estas especies se
concentran en el hemisferio norte (Dixon et al. 1990; Blackman y Eastop,
1994). Forman parte de la familia Aphididae, dentro del orden Hemiptera.
Se trata de insectos generalmente de cuerpo globoso u ovoidal,
blando y con un tamaño que oscila entre 1,5-3 mm (ver imagen figura 4.1.a).
Viven sobre plantas y aunque generalmente se desarrollan sobre las
partes verdes, pueden tener otras ubicaciones. Las especies que se desarrollan
sobre partes verdes a menudo provocan diversos síndromes en la planta,
como alteraciones morfológicas de frutos, brotes, pecíolo o limbo foliar.
Otras especies dan lugar a agallas, formaciones hipertélicas del hospedador,
de forma definida, dentro de las que se desarrollan los pulgones (figura
4.1.b).
a)
b)
Figura 4.1. Pulgones y alteraciones inducidas en el hospedador. a) Pulgón adulto y
ninfas de la especie A. pisum. b) Agalla inducida por el pulgón B. pistaciae sobre su
hospedador Pistacia terebinthus.
Los daños producidos en las plantas por los pulgones pueden ser
directos e indirectos. Los directos derivan de la pérdida de la savia y las
malformaciones. Los indirectos están relacionados con la proliferación de
hongos sobre la melaza defecada por los pulgones y sobretodo por los virus
que transmiten.
70
……………………………………………………………………………………….Introducción
Los pulgones se caracterizan además por una elevada diferenciación
fisio-morfológica y complicados ciclos de vida, consecuencia de la
adaptación de los mismos a los ciclos estacionales de sus hospedadores. La
modalidad más compleja de su ciclo biológico es la del ciclo holocíclico
dioico, con alternancia entre dos hospedadores vegetales y desarrollo tanto de
formas sexuales como asexuales.
La inclusión de varias generaciones partenogenéticas, vivíparas y
telescópicas (un mismo individuo puede albergar hasta 2 generaciones),
permite que se alcancen unos tamaños poblacionales enormes, lo que da lugar
a importantes plagas agrícolas. Las principales especies responsables de estas
plagas pertenecen fundamentalmente a la subfamilia Aphidinae.
La clasificación de los pulgones está todavía sujeta a controversia,
aunque los autores están de acuerdo en cuanto a los taxones de rango más
elevado. Por ejemplo, sí que está establecida y aceptada la existencia de dos
grandes agrupaciones monofiléticas que divergieron en el Jurásico hace unos
250 m.a. (Heie, 1987), los ovíparos Adelgidae y Phylloxeridae por un lado y
los vivíparos Aphididae por otro. Sin embargo, las relaciones dentro de los
Aphididae todavía no están totalmente resueltas.
Durante mucho tiempo la filogenia de Heie (1987), basada en datos
morfológicos, ha sido tomada como referencia (ver figura 4.2). Así por
ejemplo, ésta es la filogenia empleada en los estudios que demuestran
coevolución entre los pulgones y el endosimbionte primario de los mismos B.
aphidicola (Munson et al. 1991; Moran et al. 1993; Moran y Baumann,
1994). De hecho, diferentes filogenias moleculares llevadas a cabo con genes
de B. aphidicola son congruentes con la filogenia de Heie (Rouhbakhsh et al.
1996; Brynnel et al. 1998; Silva et al. 1998; Baumann et al. 1999; van Ham
et al. 1999, 2000). Aunque estas filogenias están limitadas por el muestreo
taxonómico, siempre sesgado hacia representantes de la subfamilia
Aphidinae.
La filogenia de Wojciechowsky (1992), basada también en
caracteres morfológicos, no está completamente de acuerdo con la filogenia
71
...........................................................................................................................................Capítulo 4
de Heie (1987). Se han llevado a cabo posteriores reconstrucciones
filogenéticas basadas en datos moleculares, para intentar resolver la filogenia
de los Aphididae (von Dohlen y Moran, 2000; Martinez-Torres et al. 2001;
von Dohlen et al. 2001) pero ninguna de ellas ha permitido esclarecer las
relaciones entre los diferentes linajes. La principal controversia está en torno
al linaje que ocupa la posición basal. Mientras algunas filogenias sitúan a
Pemphiginae junto con Hormaphidinae formando parte de las subfamilias
más ancestrales (Heie, 1980, 1987; Wojciechowski, 1992; von Dohlen y
Moran, 1995), otros estudios nunca agrupan a las subfamilias Lachninae y
Aphidinae y sugieren una posición basal de la subfamilia Lachninae,
situándola como la más ancestral (van Ham et al. 1999, 2000; MartinezTorres et al. 2001; Ortiz-Rivas et al. 2004).
Phylloxeridae
Aphidinae
Lachninae
Drepanosiphinae
Thelaxinae
Hormaphidinae
Pemphiginae
Anoeciinae
Figura 4.2. Relaciones filogenéticas de las subfamilias
dentro del grupo Aphididae, establecidas con criterios
morfológicos (Heie, 1987).
Existe un registro fósil de los pulgones, que aunque limitado
respecto al gran número de especies existentes hoy en día, proporciona
información sobre el origen y evolución de diversos taxones. En base a éste,
se sabe por ejemplo que los pulgones aparecieron hace unos 250 m.a., en el
Triásico o Pérmico tardío y que sufrieron una radiación evolutiva relacionada
72
……………………………………………………………………………………….Introducción
con la evolución de las gimnospermas. La posterior transición de la era de las
gimnospermas a las angiospermas, dio lugar a la extinción de diversos
taxones de rango elevado que fueron reemplazados por descendientes de una
minoría de taxones.
La combinación de las dataciones asociadas a los fósiles
encontrados, junto con la información molecular obtenida, ha permitido datar
eventos de divergencia. De este modo se ha establecido la edad del ancestro
de los Aphididae. En primer lugar Moran (1993), en base a las secuencias del
16S rDNA del endosimbionte y con los tiempos de divergencia del registro
fósil y la evidencia biogeográfica, estableció la edad del ancestro de los
Aphididae en 160-280 m.a. Pero posteriores recopilaciones de evidencias
fósiles (Heie y Wegierek, 1998), hacen pensar que esta datación es
demasiado antigua. En base a nuevas estimas, la edad del ancestro se
estableció entonces en 86-164 m.a., aplicando un método de máxima
verosimilitud, lo que es compatible con el registro fósil que sugiere que el
ancestro surgió en el Cretácico (von Dohlen y Moran, 1995) (ver figura 4.3).
La edad de los pulgones con los que trabajamos en este estudio,
también ha podido ser establecida siguiendo criterios similares. B. pistaciae
pertenece a la subfamilia Pemphiginae, mientras que A. pisum y S.
graminum, ambas a la familia Aphidinae. La subfamilia Pemphiginae
probablemente divergió del resto en el momento de la radiación de la familia
Aphididae (van Ham et al. 2003). Esta asunción está basada en el hecho de
que, en los pulgones, los datos moleculares indican una rápida radiación, que
el registro fósil confirma dada la aparición de la mayoría de tribus en el
Terciario temprano. De modo que la divergencia del ancestro de B. pistaciae
del ancestro de A. pisum y S. graminum se correspondería con la datación de
von Dohlen y Moran de 86-164 m.a.
Así mismo, el tiempo de divergencia entre A. pisum y S. graminum
también es conocido, dado que se sabe que el ancestro común a éstos es el
ancestro de las tribus Aphidini y Macrosiphini, dentro de la subfamilia
Aphidinae. Aunque esta subfamilia probablemente estaba presente en el
73
...........................................................................................................................................Capítulo 4
Cretácico, hace 80 m.a. (Heie, 1987), los primeros fósiles asignables a ambos
grupos datan del inicio del periodo Terciario. Así, hay un fósil en ámbar
báltico de 38-45 m.a., que probablemente pertenece a Macrosiphini y otro
fósil de Rhopalosiphini de 50 m.a. en piedra diatomita de Dinamarca.
Además, el ancestro común a Rhopalosiphini y Macrosiphini probablemente
habitaba en plantas de la familia Rosaceae y los fósiles de ésta no aparecen
hasta el Terciario temprano. Luego, el ancestro de S. graminun y A. pisum
tiene que haber estado presente en el Terciario temprano o, siendo muy
conservadores, en el Cretácico tardío, de modo que su datación se sitúa entre
hace 50-70 m.a. (Clark et al. 1999).
a)
b)
A. pisum
Aphidinae
TERCIARIO
(58)
S. graminum
Phylloxeroidea
CRETÁCICO
(65)
B. pistaciae
Aphidoidea Canadaphidoidea
JURÁSICO
(136)
86-164
-
TRIÁSICO
(190)
50-70
-
Pemphiginae
((My))
Figura 4.3. Estimas de divergencia entre diferentes linajes de pulgones en base al registro
fósil. a) Origen y evolución de la superfamilia Aphidoidea, basada en estudios morfológicos
y el registro fósil. Los periodos geológicos se indican junto a la filogenia. Entre paréntesis el
tiempo aproximado de inicio de cada uno de los periodos en m.a. b) Tiempos de divergencia
entre las especies A. pisum, S. graminum y B. pistaciae en base al registro fósil.
4.1.3 B. aphidicola
B. aphidicola es una bacteria gram negativa, de forma esférica u oval, con un
diámetro de 2-4 μm y con una pared celular constituida por dos membranas,
entre las cuales se sitúa una delgada capa de peptidoglicanos (Mc Lean y
Houk 1973; Griffith y Beck 1973; Akhtar y van Emdden 1994). Cada una de
estas bacterias está además contenida en vesículas derivadas del hospedador,
que se agrupan en células poliploides y uninucleadas conocidas como
bacteriocitos (Douglas y Dixon, 1987), (figura 4.4). A su vez, estos
bacteriocitos se agrupan, unos 60-90, formando una estructura bilobular
74
……………………………………………………………………………………….Introducción
conocida como bacterioma. El bacterioma está rodeado por una envoltura
constituida por una delgada capa de células sincitiales, también llamadas
células de la envoltura.
Figura 4.4. B. aphidicola y su distribución en bacteriocitos. a) Sección longitudinal de un
pulgón adulto. Las flechas señalan diferentes bacteriocitos. Barra, 500 μm. b) Corte semifinos
de 1,5 μm de pulgón con el endosimbionte primario B. aphidicola m, mitocondria; R, RER.
Bar, 0,5 μm (Gómez-Valero et al. 2004b).
El género Buchnera contiene una única especie, B. aphidicola, y la
cepa tipo es el endosimbionte del pulgón S. graminum (Munson et al., 1991).
De modo que, actualmente éste es el único nombre para designar al
endosimbionte primario de cualquier especie de pulgón. Teniendo en cuenta
que hay unas 4.400 especies de pulgones (Blackman y Eastop, 1984;
Remaudière y Remaudière, 1997) y que las diferencias entre el 16S de B.
aphidicola de las especies de pulgones más alejadas es equivalente a la
distancia entre E. coli y otras bacterias entéricas como Proteus vulgaris, se ha
sugerido que probablemente B. aphidicola debería ser subdividida en nuevas
especies (Baumann et al. 2000). Esto ha dado lugar a diversas nomenclaturas
para los endosimbiontes primarios de diferentes pulgones en la literatura. En
nuestro caso, utilizaremos una nomenclatura reducida basada en tres letras, la
75
...........................................................................................................................................Capítulo 4
primera referida a B. aphidicola y las siguientes referidas a la especie
concreta de pulgón empleada (por ejemplo: BAp es el modo de referirnos a
B. aphidicola del pulgón A. pisum). Los nombres asignados a cada una de las
especies y cepas empleadas se describen en tablas específicas en el apartado
de material y métodos.
La relación que existe entre B. aphidicola y su hospedador es una
endosimbiosis obligada estricta. B. aphidicola no puede ser cultivada fuera
del hospedador y cuando el hospedador es tratado con antibióticos que
eliminan al endosimbionte, esto conlleva a la pérdida de la habilidad para la
reproducción y a la muerte prematura del insecto (Douglas, 1998). El rol de
la endosimbiosis es nutricional, dado que como ya hemos indicado
previamente, B. aphidicola provee al pulgón con aminoácidos esenciales, que
son deficitarios en la dieta del mismo (Baumann et al. 1995). Esta aportación
de aminoácidos es necesaria pero no suficiente para el crecimiento del
embrión (Wilkinson y Ishikawa, 1999). La presencia de un pequeño grupo de
genes biosintéticos en B. aphidicola, pero ausentes en patógenos
intracelulares, sugiere que la mayoría de estos genes pueden estar implicados
en la provisión de pequeñas moléculas al hospedador (Shigenobu et al.,
2000). Esto ha sido demostrado al menos en el caso de la vitamina
riboflavina (Nakabachi y Ishikawa, 1997, 1999). En base a la secuencia del
16S rDNA, los organismos filogenéticamente más próximos a B. aphidicola
son los endosimbiontes de las hormigas carpinteras (Blochmannia), los
endosimbiontes de las moscas tse tse (Wigglesworthia) y otros miembros de
las Enterobacteriaceae (Aksoy, 1995; Schröeder et al. 1996) (ver apartado a,
figura 4.5). La filogenia basada en la secuencia del 16S rDNA (Moran et al.
1993; van Ham et al. 1997), concuerda en general con la filogenia de los
pulgones basada en su morfología (Heie, 1987) (ver apartado b, figura 4.5),
aunque esta última está siendo revisada, tal y como hemos indicado
previamente. Esta congruencia filogenética se da también entre las filogenias
derivadas de genes cromosómicos y plasmídicos de B. aphidicola, con las
derivadas de genes nucleares y mitocondriales del hospedador. Este resultado
76
……………………………………………………………………………………….Introducción
constituye una fuerte evidencia del modo de transmisión vertical que posee
esta bacteria (Moran y Baumann, 1994), que se transmite maternalmente por
transmisión transovarial, tanto a los embriones en desarrollo como a los
huevos (Buchner, 1965), e implica una infección original de la bacteria sobre
un ancestro común de los pulgones hace unos 200-250 m.a. (según el registro
fósil de los pulgones). La principal consecuencia de esta coevolución es que
los datos cronológicos extrapolados de los fósiles de los pulgones se pueden
extender al endosimbionte ancestral para calcular tasas respecto al tiempo
transcurrido.
77
...........................................................................................................................................Capítulo 4
a)
Buchnera
Blochmannia
Wigglesworthia
γ
Enterobacteriaceae
P-endosimbiontes de Sitophilus
S-endosimbiontes de pulgones, moscas tse tse y moscas blancas
E. coli y P. vulgaris
P-endosimbiontes de psílidos
P-endosimbiontes de moscas blancas
β
Endosimbiontes de cochinillas
Blattabacterium
b)
Bacteria
Flavobacterias
Pulgones
Ruminobacter
amylophilus
Proteus vulgaris
48-70 MA
Escherichia coli
Schlectendalia chinensis
80-160 MA
Melaphis rhois
Pemphigus betae
Mindarus victoriae
Chaitophorus
viminalis
Diuraphis noxia
80-120
MA
Acyrthosiphon pisum
B. aphidicola
Uroleucon sonchi
Myzus persicae
Rhopalosiphum padi
Rhopalosiphum
maidis
30-80 MA
Schizaphis graminum
Figura 4.5. Estudios filogenéticos de B. aphidicola. a) Posición filogenética de B. ahidicola
respecto a otras bacterias. Árbol filogenético obtenido por parsimonia en base a la secuencia del
16S rDNA. P: endosimbionte primario; S: endosimbionte secundario; letras griegas: subdivisión
de las Proteobacterias. b) Congruencia entre la filogenia de B. aphidicola y de los pulgones. A
partir de Baumann et al. 1997. La filogenia bacteriana se construyó a partir de las secuencias del
rDNA16S. La filogenia de los pulgones se construyó a partir de caracteres morfológicos (Heie,
1980). Los simbiontes se nombran con el nombre de la especie huésped (a partir de Moran y
Baumann, 1994).
En ocasiones, junto a B. aphidicola, los pulgones albergan otras
bacterias endosimbiontes que globalmente se denominan endosimbiontes
secundarios (Buchner 1965; Fukatsu y Ishikawa, 1993; Fukatsu, 1998). A
diferencia del endosimbionte principal, B. aphidicola, los endosimbiontes
secundarios generalmente no tienen una localización específica, no
representan un clado monofilético y no son esenciales para el hospedador
78
……………………………………………………………………………………….Introducción
(Fukatsu e Ishikawa 1993; Moran y Telang 1998). Sin embargo, sí que se han
observado diferentes efectos positivos sobre el hospedador derivados de los
mismos, como recuperación del daño causado por calor (Chen et al. 2000;
Montllor et al. 2002), especialización hacia la planta hospedadora y efectos
en la reproducción (Simon et al. 2003; Tsuchida et al. 2004) o resistencia al
ataque de parasitoides y otros enemigos naturales (Oliver et al. 2003; Ferrari
et al. 2004).
Características genómicas
Al inicio del trabajo de esta tesis se habían secuenciado completamente tres
genomas de B. aphidicola pertenecientes a diferentes especies de pulgones:
B. aphidicola de A. pisum (BAp) (Shigenobu et al. 2000), B. aphidicola de S.
graminum (BSg) (Tamas et al. 2002) y B. aphidicola de B. pistaciae (BBp)
(van Ham et al. 2003). Además, el genoma de B. aphidicola de Cinara cedri
(BCc) ha sido secuenciado recientemente (Pérez-Brocal et al. 2006). Las
principales características de estos genomas se resumen en la tabla 4.1.
Tabla 4.1. Comparación de los principales rasgos genómicos de los diferentes genomas
de B. aphidicola secuenciados hasta el momento. Los plásmidos contienen un número
variable de repeticiones en tándem, de las cuales sólo el tamaño de la unidad básica se
ha tenido en cuenta en este caso. pTrp: plásmido triptófano; pLeu: plásmido leucina;
IGRs: regiones intergénicas; pc: plásmido críptico
BAp
BSg
BBp
BCc
Tamaño genoma(pb)
652.115
653.001
618.379
422.434
pLeu+pTrp
pLeu+pTrp
pc
pLeu
Plásmidos
Total tamaño plásmidos (pb)
11.434
11.547
2.399
6.054
GC(%)
26,3
25,3
25,3
20,1
608
596
544
402
Número de genes
Pseudogenes
13
33
9
3
86,8
84,3
81
85,1
Regiones codificantes (%)
Longitud media ORFs (pb)
990,2
982,7
990,4
993,7
126,9
113,3
200,5
135,8
Longitud media IGRs (pb)
Un rasgo destacado de estos genomas es que son poliploides, con un
promedio de 120 genomas por célula (Komaki y Ishikawa, 1999). Además, el
número de genomas por célula varía según el estado del desarrollo del
hospedador o la morfología del mismo (Komaki y Ishikawa, 2000).
79
...........................................................................................................................................Capítulo 4
Tal y como se observa en la tabla, estos genomas poseen un
contenido en AT alrededor del 70% (Ohtaka et al. 1992). Este modelo de
sesgo hacia AT es una propiedad común de los endosimbiontes que se
transmiten verticalmente (Moran y Baumann, 2000). Aunque este sesgo se
manifiesta especialmente en regiones neutras se da también en regiones
codificantes, lo que tiene como resultado que los polipéptidos de B.
aphidicola están enriquecidos en aminoácidos codificados por codones ricos
en AT (Clark et al. 1999; Shigenobu et al. 2000), como la lisina. Del mismo
modo, el uso alternativo de codones está determinado principalmente por este
sesgo antes que por selección a favor de codones óptimos para maximizar las
tasas y eficacia de la traducción (Wernegreen y Moran 1999; Moya et al.
2002). Aunque trabajos posteriores han detectado algunos indicios de un
tenue sesgo selectivo en el uso de codones (Rispe et al. 2004; Charles et al.
2006).
En adición al sesgo en AT, B. aphidicola posee elevadas tasas de
sustitución nucleotídica. La tasa de sustitución en el 16S rDNA de B.
aphidicola es aproximadamente el doble de la de bacterias de vida libre
relacionadas, en base tanto a la comparación de tasas relativas como
comparando tasas calibradas respecto al tiempo absoluto (Moran 1996; Clark
et al. 1999). Estas elevadas tasas de sustitución también se dan en genes
codificantes de proteínas (Moran, 1996; Brynnel et al. 1998; Clark et al.
1999; Wernegreen y Moran, 1999), especialmente en sitios no sinónimos. Se
han propuesto dos explicaciones a este aumento en el ritmo de acumulación
de sustituciones: relajación de la selección e incremento de la deriva genética.
Sin embargo, la explicación más plausible es que la estructura poblacional de
B. aphidicola, que implica una estricta transmisión vertical de un pequeño
inóculo de bacterias entre hospedadores, da lugar a elevados niveles de deriva
genética, incrementándose la tasa de fijación de mutaciones ligeramente
deletéreas.
Un modo de contrarrestar este aumento de mutaciones ligeramente
deletéreas en B. aphidicola, es la expresión masiva de la chaperonina GroEL
80
……………………………………………………………………………………….Introducción
(Fares et al. 2002). Esta proteína participa en el plegamiento de péptidos en
sus formas funcionales, y también en la reparación de proteínas dañadas
(Gross et al. 1996). De hecho, la sobreproducción de GroEL es característica
de algunos endosimbiontes y patógenos de ambiente intracelular (Hogenhout
et al. 1998).
Entre las modificaciones génicas sufridas por esta bacteria, destaca
también la organización de los genes ribosómicos. El operón del rRNA está
organizado en dos unidades transcripcionales y sólo una copia de cada unidad
está presente en el genoma. Esta reordenación es rara en eubacterias y
específica de bacterias de crecimiento lento (Baumann et al. 1995).
Destaca también la pérdida de elementos reguladores de la expresión
génica (Baumann et al. 1995) y de la regulación enzimática (Jimenez et al.
2000).
Otra característica importante es la translocación a plásmidos de
genes implicados en las rutas de biosíntesis de aminoácidos esenciales de
triptófano (Lai et al. 1994) y leucina (Bracho et al. 1995). Inicialmente, el
hallazgo de estos plásmidos se interpretó como un modo de incrementar el
número de genes que codifican para estos aminoácidos. Sin embargo,
recientemente se ha sugerido que esta translocación al inicio de la simbiosis
sería un modo de evitar los sistemas de regulación por feedback, lo que
permitiría un suministro continuo de estos aminoácidos al insecto, a pesar de
que éste se halle en elevadas concentraciones en la célula (Latorre et al.
2005).
Opuestamente a esta amplificación de genes implicados en la
biosíntesis de aminoácidos está la pérdida de genes, no sólo no esenciales,
sino también de aquellos que aunque no son esenciales son necesarios. Así
por ejemplo, B. aphidicola ha perdido la mayor parte de genes implicados en
reparación y recombinación como el gen recA, los genes que codifican para
proteínas reguladoras y otros sistemas como la regulación por atenuación
(Shigenobu et al. 2000) Estas pérdidas, junto con sus elevadas tasas de
sustitución, el sesgo en AT, la ausencia de sesgo adaptativo en el uso de
81
...........................................................................................................................................Capítulo 4
codones y la pérdida de elementos repetidos, constituyen los síntomas de la
degradación genómica a la que está sometida esta bacteria, cuya principal
consecuencia es la drástica reducción del tamaño genómico.
Reducción genómica en B. aphidicola
La secuenciación del primer genoma de B. aphidicola, el genoma de BAp
(Shigenobu et al. 2000), permitió su comparación con los genomas de
bacterias de vida libre estrechamente relacionados como son los genomas de
E. coli (Blattner et al. 1997) y Vibrio cholerae (Heidelberg et al. 2000). Esta
comparación puso de manifiesto que B. aphidicola, desde su divergencia de
estas bacterias había sufrido una importante reducción genómica y numerosos
reordenamientos (Silva et al. 2001).
La comparación del genoma de B. aphidicola con el genoma de E.
coli permitió así mismo la reconstrucción del genoma ancestral mínimo LCA
(Last Common Ancestor). Esta reconstrucción se llevó a cabo en dos trabajos
diferentes (Moran y Mira 2001; Silva et al. 2001), empleando un genoma de
referencia distinto en cada caso. En el trabajo de Silva et al. (2001) se llevó a
cabo la reconstrucción del ancestro tomando como referencia a V. cholerae.
En base a esta comparación, el LCA posee un contenido mínimo de 1.818
genes y el análisis de los bloques ancestrales del mismo (con una orientación
equivalente en E. coli y en B. aphidicola) mostró ejemplos de los tres
estadios de degradación génica (pseudogenización, pequeñas deleciones y
pérdida total). Este hallazgo favorece la hipótesis de una desintegración
génica gradual para explicar la reducción genómica en B. aphidicola. En el
trabajo de Moran y Mira (2001) se llevó a cabo la reconstrucción del ancestro
entre E. coli y B. aphidicola, tomando como referencia el genoma de Yersinia
pestis (Moran y Mira, 2001). Esta bacteria está más prxima a E. coli que a B.
aphidicola, lo que produce que los bloques de genes sinténicos sean mucho
más largos al considerarse que un bloque es ancestral si coincide el orden
entre E. coli y Y. pestis. El genoma ancestral mínimo en este caso estaría
constituido por 2.425 genes y se propone que la reducción del genoma se
82
……………………………………………………………………………………….Introducción
habría dado a través de grandes deleciones entre fragmentos sinténicos y
deleciones más cortas acompañadas de reordenamientos (Moran y Mira,
2001). Según los autores, esto estaría apoyado por la observación de que los
genes perdidos están agrupados (en las bacterias de referencia) y porque no
existe una correlación positiva entre la longitud del espacio intergénico con el
número de genes perdidos en una región sinténica. Sin embargo, estas
observaciones no permiten concluir que la pérdida se ha dado a través de
grandes deleciones, puesto que no sabemos cuanto tiempo hace que se
inactivaron.
Contrariamente a las modificaciones que se observan al comparar B.
aphidicola con las bacterias de vida libre relacionadas, la comparación del
genoma de BAp con los genomas de B. aphidicola secuenciados
posteriormente: BSg (Tamas et al. 2002) y BBp (van Ham et al. 2003)
mostró una conservación extrema del orden génico, con sólo 4
reordenaciones (dos inversiones y dos translocaciones que implicaban a los
plásmidos triptófano y leucina) en los genomas de BAp y BSg con respecto a
BBp. Estos resultados llevaron a sugerir que B. aphidicola podría haber
mantenido el mismo orden génico desde el establecimiento de la simbiosis
con pulgones, que se correspondería con el LCSA. De modo que, su genoma
podría ser considerado un fósil del orden génico de B. aphidicola.
El elevado grado de conservación del orden génico puede explicarse
en base a la ausencia de transferencia horizontal en B. aphidicola y a la
escasa frecuencia de recombinación (Silva et al. 2003).
Respecto a los cambios en el tamaño genómico, un estudio sobre
diversas cepas de B. aphidicola mediante electroforesis de campo pulsante,
mostró un tamaño cromosómico estable alrededor de 630-643 Kb
(Wernegreen et al. 2002). Este resultado, adicionalmente apoyado por los
tamaños genómicos similares de BAp y BSg, llevó a postular que B.
aphidicola había alcanzado una estasis no sólo en cuanto al orden génico,
sino también respecto a la variación del tamaño genómico. Estas
83
...........................................................................................................................................Capítulo 4
conclusiones llevaron a postular que la tasa de erosión del actual genoma de
B. aphidicola era tan baja como 1 nt cada 10.000 años (Mira et al. 2002).
La secuenciación posterior de BBp, con un tamaño genómico menor
(615 Kb) (van Ham et al. 2003) y un estudio paralelo (Gil et al. 2002)
mediante electroforesis de campo pulsante con nuevas cepas de B.
aphidicola, revelaron un rango de tamaños cromosómicos más amplio (~
450-670 Kb), siendo el tamaño de B. aphidicola de C. cedri (422 Kb) el
mínimo encontrado hasta ahora para una especie bacteriana. Estos resultados
indican por tanto, que la tasa de pérdida en B. aphidicola tras la divergencia
del LCSA puede ser superior a lo que inicialmente se pensaba.
B. aphidicola es un modelo adecuado para el estudio de la reducción
genómica por numerosas razones: su genoma drásticamente reducido, su
proximidad a bacterias de vida libre ampliamente conocidas como E. coli, lo
que permite comparar las consecuencias de ambos estilos de vida; el hecho
de que existan diversos genomas de distintas cepas completamente
secuenciados, lo que permite llevar a cabo estudios comparativos y
finalmente por su coevolución con el hospedador, que hace que los tiempos
de divergencia estimados para éste sean aplicables a la bacteria. En concreto,
la disponibilidad de tres genomas de B. aphidicola completamente
secuenciados cuyos tiempos de divergencia son conocidos, proporciona una
oportunidad única para conocer el ritmo de reducción genómica en esta
bacteria durante la evolución de estos linajes.
84
………………………………………………...............................................…………….Objetivos
4.2 OBJETIVOS
El objetivo de este capítulo es caracterizar el proceso de reducción genómica
en los últimos 150 m.a. de evolución de B. aphidicola, mediante la
reconstrucción del genoma ancestral y el análisis comparativo de cada uno de
los genomas secuenciados de esta bacteria. Con este objetivo pretendemos
responder a las siguientes cuestiones:
-
¿Qué genes se han perdido?
-
¿En qué estado de degradación están los genes perdidos?
-
¿Cuántos nucleótidos han perdido los genes inactivados?
-
¿Cómo ha variado la composición nucleotídica de los genes
perdidos?
-
¿La reducción génica y la disminución en GC de los genes perdidos
son procesos correlacionados?
-
¿Cuál es la tasa de pérdida de B. aphidicola?
-
¿Cuál es la vida media de un pseudogen en esta especie?
-
¿La evolución reductiva afecta también a las regiones intergénicas?
-
¿Cuál era la función de los genes perdidos?
-
¿Existe convergencia de los genes inactivados en los diferentes
linajes de B. aphidicola?
85
…………………………………...............................................…………………………Capítulo 4
4.3 RESULTADOS Y DISCUSIÓN
4.3.1 Reconstrucción del ancestro
Con el objetivo de analizar los genes perdidos en los genomas de B.
aphidicola seleccionados para nuestro estudio, decidimos llevar a cabo la
comparación de éstos con el correspondiente genoma ancestral de estas
especies. El primer paso para llevar a cabo dicha comparación era por tanto,
reconstruir el genoma ancestral al que designamos LCSA (Last Common
Symbiont Ancestor).
A partir de la comparación de los genomas de BAp, BSg y BBp, se
determinó el contenido génico de este LCSA (Anexo 2). El criterio fue el
descrito en van Ham et al. (2003), bajo el cual todos los genes presentes en
alguna de estas especies se considera que forman parte del genoma ancestral.
Este asunción se basa tanto en la extrema estabilidad de estos genomas cuya
comparación del contenido y orden génico ha mostrado un número muy
escaso de reordenaciones cromosómicas (Tamas et al. 2002; van Ham et al.
2003), como en la ausencia de transferencia horizontal a excepción de un
único caso descrito (van Ham et al. 2000). Ambos hechos apoyan la hipótesis
de que cada gen presente en una de estas especies de B. aphidicola estaba
originalmente en el genoma ancestral. Adicionalmente, el gen yadF detectado
en B. aphidicola del pulgón T. caerulescens (BTc) (Sabater-Muñoz et al.
2004) pero ausente en los tres genomas de B. aphidicola con los que
trabajamos, también se incorporó al LCSA. Este gen (junto a mrcB) y truA
flanquean el cluster leucina en B. aphidicola de T. caerulescens, que en esta
especie tiene una localización cromosómica (figura 4.6). T. caerulescens
pertenece a la subfamilia Pemphiginae al igual que B. pistaciae, pero a
diferente tribu (Eriosomatini) y estudios filogenéticos previos de B.
aphidicola de T. caerulescens (Sabater-Muñoz et al. 2004) muestran su
agrupación con BBp en un mismo clado separado de aquél que reúne a las
especies de la familia Aphidinae (como BAp y BSg). La presencia adyacente
de truA y mrcB en los genomas de BAp, BBp y BSg (en éste, mrcB se halla
86
………………………………........................................…………………...Resultados y discusión
en estado de pseudogen), parece indicar que éste era el orden génico ancestral
y que el cluster leucina se insertó en la región intergénica de truA y yadF, tras
la divergencia de T. caerulescens de B. pistaciae, con la posterior
desintegración génica convergente de yadF en los linajes de BBp y
Aphidinae. En el caso de la familia Pemphiginae, la pérdida habría tenido
lugar tras la divergencia de las tribus Eriosomatini y Fordini. De hecho, la
región intergénica más larga en BBp indicaría que el proceso de
desintegración empezó recientemente en la tribu Fordini. Mientras que el
pequeño tamaño del espaciador intergénico en el caso de BSg y BAp
indicaría que la desintegración de yadF empezó en el ancestro de la
subfamilia Aphidinae (Sabater-Muñoz et al. 2004).
BBp
BTc
BAp
BSg
BBp
truA
BTc
truA
Subfamilia
Tribu
Pemphiginae
Fordini
Pemphiginae
Eriosomatini
Aphidinae
Macrosiphini
Aphidinae
Rhopalosiphum
mrcB
leuB
leuC
leuD
mrcB
leuA
yadF
BAp
truA
mrcB
BSg
truA
mrcB
Figura 4.6. Descripción de la región localizada entre los genes truA y mrcB en las especies
BBp, BTc, BAp y BSg, junto con su agrupación filogenética.
En base a los criterios descritos, el genoma ancestral mínimo de
BAp, BSg y BBp está formado por 640 genes (tabla 4.2). La proximidad de
las cepas de B. aphidicola con las que trabajamos, junto con su extrema
conservación del orden y contenido génico, gracias a la escasez de
reordenaciones y a la ausencia de fenómenos de transferencia horizontal,
permiten una reconstrucción del ancestro muy precisa. No obstante, hay que
tener en cuenta que éste es el contenido mínimo, dado que no podemos
87
…………………………………...............................................…………………………Capítulo 4
incorporar aquellos genes que se han podido perder simultáneamente en las
tres cepas, como ha ocurrido con el gen yadF. De hecho, la secuenciación
reciente del genoma de BCc ha mostrado, que a pesar de que ha perdido casi
200 genes con respecto al resto de genomas de B. aphidicola completamente
secuenciados, posee 5 genes propios (Pérez-Brocal et al. 2006) que estarían
por tanto también en el ancestro de esta bacteria.
4.3.2 Identificación de los eventos de pérdida
Una vez reconstruido el ancestro, para determinar qué genes se habían
perdido y en qué momento, en primer lugar definimos dos periodos de
pérdida basándonos en la filogenia conocida de estas especies: un primer
periodo comprendido entre la separación de las subfamilias Aphidinae y
Pemphiginae y un segundo periodo desde la divergencia de BAp y BSg hasta
el momento actual (figura 4.7).
A continuación se llevó a cabo la elaboración de una tabla indicando
el estado de cada uno de los genes ancestrales en cada uno de los genomas
analizados, diferenciando los siguientes estados: gen activo, pseudogen o gen
ausente. El resultado se muestra en la tabla 4.2 y en el anexo 2.
88
+
+
Ψ
Ψ
Ψ
+
+
Ψ
Ψ
Ψ
-
Ψ
+
+
+
+
+
Ψ
Ψ
Ψ
-
89
8
1
C2*
bioH
yadF
ansA, hemD
+
+
+
+
+
Ψ
+
+
-
-
Ψ
BBp
NOTA.- Símbolos empleados para describir el estado de los genes: + (gene), ψ (pseudogen), y – (gen/pseudogen ausente). Símbolos empleados para designar las pérdidas convergentes: U (pérdida única),
C2 (dos pérdidas convergentes), C3 (tres pérdidas convergentes), y C2* (dos pérdidas convergentes, una en el linaje de BBp y otra previa a la divergencia de los linajes BAp y BSg). El resto de pérdidas
convergentes en C2 que implican a los linajes de BAp o BSg tuvieron lugar en el periodo posterior a la divergencia entre BAp y BSg.
2
C3
apbE,cmk,cvpA
1
3
folE, metR, ycfW
bcp, ybaX, ygcF, ygcM, yqcD, znuA,
3
6
ycfM
cspC, hns
1
2
C2
C2
C2
ycfC
cysD, cysG, cysH, cysI, cysN, cysQ, hemC, nlpD
1
bioD, lgt, miaA, mltE, mraY, mrcB, mrsA, murC, murE, murF, phrB, pyrE, rnfC, ung, yba3, yfaE, yhhF, yjeA
yebA, ygfA, ygjT, yidD, yjeK
ddlB, fabD, fabZ, rnhA
bioC, bioF, mutH, norM, pal, uspA, yqgE
U
4
U
+
+
5
7
U
+
+
argA, argB, argC, argD, argE, cysC, cysJ, cysK, dnaT, fis, flgA, flgD, flgE, flgK, flgN, glpF, himA, himD,
hpt, ispA, kdtB, lpcA, metK, mltA, mutT, nadE, ompA, ompF, panB, panC, pncB, priA, pyrB, pyrC, pyrD,
pyrI, queA, ribF, secB, smg, smpA, speD, speE ,surA ,tgt, thiL, tig, topA, uup, vacB, yacE, yaeT, yb3052,
yba4, ybeN, ycbY, ycfU, ycfV, yeeX, yfiO, ygbQ, yggJ, yhiQ
18
63
U
BSg
BAp
LCSA
Estado del gen
dxr, dxs, gcpE, secG, ychB, yedA, ygbB, ygbP
U
8
U
U
Nº de
pérdidas
Pérdidas
convergentes
Nombre del gen
Genes perdidos y estado de los genes en los genomas de Bap, BSg y BBp
Tabla 4.2
………………………………........................................…………………...Resultados y discusión
…………………………………...............................................…………………………Capítulo 4
Una vez obtenida dicha tabla, un mismo gen ancestral puede hallarse
en estado de gen ausente o pseudogen en diferentes cepas. Para determinar en
qué periodo se produjo la inactivación de cada gen, establecimos un criterio
de parsimonia tal y como se muestra en la figura 4.7. En base a éste, en el
caso de los linajes de BAp y BSg cuando un gen funcional está presente en
una de estas especies pero ausente o en estado de pseudogen en la otra,
asumimos que la pérdida tuvo lugar en el periodo II, tras la divergencia de
ambos linajes. Por otro lado, si en ambas especies el gen está ausente, se
asume que la inactivación de dicho gen tuvo lugar antes de la divergencia o
periodo I.
a)
BAp
BSg
BBp
I
86-164
II
50-70
164
t (My)
b)
ANCESTRO
BBp
Bap
BSg
Periodo de inactivación
+
+
-
-
I
+
-
+
+
I/II
+
+
+
-
II
+
+
-
+
II
+
-
+
-
I/II y II
+
-
-
+
I/II y II
Figura 4.7. Determinación del momento de inactivación de los genes
perdidos en las especies de B. aphidicola empleadas en el estudio (+ =
gen activo, - = gen o pseudogen ausente). a) Diferenciación de dos
periodos de inactivación (I/II) a lo largo de la evolución de los linajes.
b) Periodo de inactivación establecido en base al estado de cada gen
en cada genoma siguiendo un criterio de máxima parsimonia.
90
………………………………........................................…………………...Resultados y discusión
Con este criterio la inactivación de todos los genes no puede
resolverse sin ambigüedades. Por ejemplo, los genes perdidos en el linaje de
BBp han podido sufrir su inactivación a lo largo de toda la evolución de
dicha especie, desde su divergencia de la subfamilia Pemphiginae, lo que
abarca tanto el periodo I como II. Así mismo, las pérdidas convergentes que
afectan a BBp y a una de las especies de la subfamilia Aphidinae, al igual que
en el caso descrito previamente en BBp, pueden haber tenido lugar tanto a lo
largo del periodo I como del II.
En el caso de los genes ancestrales que en BAp y BSg se hallan en
estado de pseudogen en ambas cepas, o pseudogen en una cepa y gen ausente
en la otra, establecimos un criterio basado en la similitud de la secuencia
respecto al ortólogo funcional para determinar el periodo de pérdida. Para
ello, intentamos determinar el rango de e-values resultantes tras una búsqueda
por BLAST (Altschul et al. 1997), para los genes inactivados tras la
divergencia de BAp y BSg. Para estar seguro de llevar a cabo la búsqueda
exclusivamente con genes perdidos en el periodo II, seleccionamos
únicamente los genes que presentaban alguno de los siguientes estados: gen
en BAp y pseudogen en BSg, gen en BSg y pseudogen en BAp, gen en BAp
y gen ausente en BSg y gen en BSg y gen ausente en BAp. A partir de estos
genes y tomando las correspondientes proteínas ortólogas funcionales de E.
coli como referencia, llevamos a cabo un tblastn contra los genomas de BAp
y BSg, con el objetivo de conocer el e- value obtenido contra la región del
genoma de B. aphidicola en la que esperamos localizar los restos remanentes
del gen funcional. Los resultados se muestran en la tabla 4.3.
91
+
-
+
ψ
ψ
+
+
+
BAp BSg BBp
ESTADO DEL GEN
e-94
e-105
5 x e-85
0
-69
-97
0
e-142
0
-135
-180
cysG
cysH
cysQ
hemC
92
e
9xe
e-59
0
-138
-121
0
0
-165
e
e-118
-180
murE
mltE
bioD
phrB
mrsA
lgt
pyrE
miaA
yba3
e
e
e
0
-52
0
murF
yjeA
-29
0
mraY
-77
-112
-85
e
-
-101
2xe
-87
-87
7xe
e
-84
-110
e
-43
-32
-80
-111
6xe
8xe
7xe
-102
e
4xe
e-120
e
0
-63
e
-89
-36
-11
5xe
5xe
-
-
-
-
-
-
-
2xe
-
-93
-82
5xe
e
-
-82
-83
4xe
3 x e-46 2 x e-52
-76
e
e
-103
e
-123
e
-116
-51
6xe
-34
e
-117
5xe
2xe
e
3xe
-98
e
8xe
-75
2xe
-104
3xe
-96
e-111
e-118
0
-58
5xe
e
-14
2xe
-70
-34
7 x e-54
murC
e
8xe
-94
2xe
-27
2 x e-74
0
e
9xe
0
0
e
mrcB
-68
8xe
-14
6xe
-136
9xe
yfaE
-87
-40
8xe
4xe
2xe
e
ung
0
-47
-101
e
e
e
e
rnfC
yhhF
cysI
-119
e
-130
e
-179
cysD
-132
-154
0
e
cysN
ψ
ψ
-
ψ
ψ
-
ψ
ψ
ψ
+
+
+
+
+
-
+
-
-
+
+
hemD*
ansA*
bioH*
cmK*
apbE*
cvpA*
ybaX
ygcM
ygcF
znuA
yqcD
bcp
ycfW
folE
metR
fabD
rnhA
fabZ
ddlB
ygfA
yebA
ygjT
yjeK
yidD
cspC
ESTADO DEL GEN
TBLASTN (E.coli)
BAp
BSg
BBp BAp BSg BBp GEN
-42
-35
+
e
e
ψ
ψ ycfM
-27
-27
hns
+
e
2xe
-174
e
-115
E.coli
nlpD
GEN
ycfC
e
e
0
-125
e
-149
e
e-104
-88
e
0
e
-135
-71
3xe
-121
e
-163
e
-168
e
-91
6xe
e-108
0
-175
e
-163
2xe
-91
-83
e
e
-172
-117
0
0
5xe
0
-37
6xe
2xe
7xe
-36
5 x e-28
-
-73
0.003
-
-
-
-
-
e-57
-
-
-55
-27
-12
-85
-33
-29
3xe
0.002
2xe
7xe
4xe
-
-
-
-
2xe
-
5xe
-13
e-100
8 x e-17
-
-
e
-22
6xe
e
-54
-126
e
6xe
1.2
-80
2xe
-11
3xe
-61
-47
e
-64
6xe
-53
8xe
-81
e
-48
5xe
4 x e-49
3 x e-59
-110
e
-53
e
-51
-43
4xe
e
-37
-83
8xe
-
-57
6xe
-
5 x e-36
3 x e-71
4 x e-19
-
-
-
-
-
-
-
-
-45
2xe
-
-51
-30
2xe
e
e
-38
-87
4xe
3 x e-77 8 x e-50
2 x e-57 7 x e-64
7 x e-95
2xe
-
-
TBLASTN (E.coli)
BAp
BSg
BBp
-7
6xe
-36
-48
e
-93
e
E.coli
Tabla 4.3. E-values obtenidos como resultado del TBlastN de las proteínas de E. coli contra los correspondientes ortólogos en cada una de las especies
de B. aphidicola empleadas para los genes inactivados en el periodo II. * Genes en estado de pseudogen, o en estado de pseudogen y gen ausente en
BAp y BSg. ψ: pseudogen; - : gen ausente.
…………………………………...............................................…………………………Capítulo 4
………………………………........................................…………………...Resultados y discusión
Los e-values obtenidos en el caso de los 33 pseudogenes
empleados, oscilaban en un rango que abarcaba desde 0 hasta casos en los
que no se detectaba señal (e-value > 7), con un valor medio de 2 x 10-74,
mientras que en el caso de los 14 genes ausentes, no se detectaba señal de
BLAST. De acuerdo con estos resultados, podemos asumir que la tasa de
sustitución en B. aphidicola es tan elevada que los pseudogenes formados
antes de la divergencia de BAp y BSg, probablemente se hallan en un estado
de desintegración elevado y no es posible detectar la similitud de los mismos
con el gen original. De modo que, basándonos en los pequeños e-values
obtenidos para los genes cvpA, apbE, cmk, bioH, ansA y hemD en las mismas
condiciones de la tabla 4.3, podemos asumir que dichos genes eran
funcionales en el momento de la divergencia entre BAp y BSg y que han
tenido lugar dos inactivaciones convergentes sobre los mismos.
Una vez establecido el periodo de inactivación de cada uno de los
genes, fue posible determinar el número de genes perdidos durante la
evolución de cada uno de los linajes a partir del ancestro (Figura 4.8).
93
…………………………………...............................................…………………………Capítulo 4
BAp
632
608
24
Aphidinae
8
LCSA
BSg 596
640
36
BBp 544
Pemphiginae
96
t (My)
86 164
50 70
164
Figura 4.8. Relación filogenética entre las especies de B. aphidicola empleadas en el
estudio. Los tiempos de divergencia se muestran debajo. El número mínimo de genes
del genoma ancestral LCSA (640) se distribuye entre 629 genes cromosómicos y 11
genes distribuidos en los plásmidos triptófano y leucina. El número de genes perdidos
en ramas internas o externas del árbol filogenético se muestra en los recuadros
indicados por flechas. Todas estas pérdidas se corresponden con genes que codifican
para proteínas. El número de genes de las diferentes especies de B. aphidicola
empleadas se muestra a la derecha del nombre de cada cepa. Este número incluye tanto
los genes cromosómicos como plasmídicos, pero en BAp y BSg sólo una copia de los
genes duplicados en el plásmido triptófano se ha tenido en cuenta, bien porque el
número de copias varía entre individuos o bien porque este número no ha sido
determinado.
De los 640 genes ancestrales, 629 se sitúan en el cromosoma y los
restantes 11 se distribuyen en los plásmidos triptófano y leucina. Este
genoma ancestral está constituido por 603 genes que codifican para proteínas
y 37 genes especificadores de RNAs.
Cinco genes anotados previamente como pseudogenes en el genoma
de BSg (Tamas et al. 2002) fueron reanotados como genes (Gil et al. 2003).
En el caso de los genes lig, mfd y endA, en base a la existencia de una pauta
de lectura abierta y en el papel esencial de la proteína. En el caso de infC
inicialmente se anotó como pseudogen debido a la ausencia de un codón de
inicio (Tamas et al. 2002) y posteriormente se ha descubierto que emplea el
codón AUA como tal, al igual que en E. coli y en el caso del gen prfB,
porque a pesar de un corrimiento de pauta, éste no impide la traducción dado
94
………………………………........................................…………………...Resultados y discusión
que el ribosoma lleva a cabo un deslizamiento programado (Gurvich et al.
2003).
A lo largo de la evolución de los linajes estudiados se han detectado
164 eventos de pérdida. En el linaje de BBp se identificaron 96 eventos de
pérdida, dos de los cuales (ibpA y repAC) no se tuvieron en cuenta en los
análisis posteriores, dado que se trata de genes plasmídicos en el caso de
BBp. Por lo tanto, al menos 94 de los 629 genes cromosómicos ancestrales se
han perdido a lo largo de la evolución de BBp. En contraste, los linajes de
BAp y BSg han sufrido la pérdida de sólo 32 y 44 genes respectivamente en
el mismo periodo de tiempo.
Estos 164 eventos, debido a las pérdidas convergentes que se han
producido en estos linajes, representan sólo 135 genes diferentes. Estas
pérdidas convergentes son: los genes ansA y hemD, que se han perdido tanto
en el linaje de BBp como tras la divergencia de BAp y BSg en ambas
especies independientemente; el gen yadF, inactivado tanto en BBp como
antes de la divergencia entre BAp y BSg; 9 genes perdidos tanto en el linaje
de BBp como en BAp, 11 inactivados en BBp y en el linaje de BSg y los
genes apbE, cmk, cvpA y bioH que han sufrido perdidas convergentes en los
linajes de BAp y BSg (ver tabla 4.2).
4.3.3 Análisis de las pérdidas en los linajes de BAp y BSg
La cantidad de DNA perdido en los 135 genes inactivados durante la
evolución de cada uno de los linajes estudiados se analizó tal y como se
describe en material y métodos (apartado 3.7.2) en base al periodo en el cual
tuvo lugar la inactivación de los mismos.
Periodo I
En primer lugar, analizamos los genes perdidos cuya inactivación
tuvo lugar en el periodo comprendido entre la divergencia de las subfamilias
Aphidinae y Pemphiginae (hace 86-164 m.a.) y la divergencia entre los
linajes de BAp y BSg (hace 50-70 m.a.). Un total de 8 genes (bioC, bioF,
95
…………………………………...............................................…………………………Capítulo 4
mutH, norM, pal, uspA, yqgE y yadF) han iniciado su desintegración en este
periodo. De estos 8 genes, 2 (bioC y bioF) eran contiguos y por lo tanto,
fueron tratados como un bloque en el análisis de la pérdida de DNA.
El cálculo del ratio Ld/Lg para estos 8 genes mostró que 6 habían
perdido más del 90% de sus nucleótidos, mientras que en el caso de los otros
dos el DNA remanente era sólo ligeramente superior al 10% respecto al
tamaño original (figura 4.9 y anexo 3).
16
Nº genes perdidos
14
12
10
8
6
4
2
0
>1.1 1.05 0.95 0.85 0.75 0.65 0.55 0.45 0.35 0.25 0.15 0.05
Ld/Lg
Figura 4.9. DNA perdido en B. aphidicola del linaje Aphidinae, cuya
inactivación tuvo lugar entre el LCSA y la divergencia de los linajes BAp y
BSg. La anchura de cada barra a lo largo del eje de abscisas representa un
intervalo de 0,1 excepto para el primer segmento (>1.1).
El promedio del ratio para estos 8 genes Ld/Lg fue 0,055, dentro de
un rango que oscilaba entre 0 y 0,13.
Para cada gen el cálculo de Ld está basado en el promedio entre los
tamaños calculados en BAp y BSg. Estas dos longitudes fueron siempre muy
similares y en ninguno de los genes analizados la diferencia en el valor del
ratio para ambas cepas fue superior a 0,1.
Asumiendo que la desintegración de los genes tiene lugar de manera
gradual, podemos calcular la tasa de deleción por nucleótido y por millón de
años mediante la fórmula de desintegración continua propuesta por Petrov y
Hartl (1998) en un estudio previo:
96
………………………………........................................…………………...Resultados y discusión
Ld = L g × e − r × t
Donde Ld es la longitud de la región desintegrada a tiempo t, Lg es la
longitud del gen activo a tiempo 0, t es el periodo de desintegración y r la
tasa de deleción. Para aplicar la fórmula tomamos como valor del ratio Ld/Lg,
el promedio obtenido para los genes analizados en este intervalo de tiempo,
0,055 y como tiempo desde la inactivación un valor promedio de 100 m.a. de
acuerdo con los límites máximos (86-164 m.a.) y mínimos (50-70 m.a.) de
este periodo. En base a estos valores obtenemos una tasa de deleción del
2,9% por millón de años (r = 0,029), lo que significa que el ritmo de pérdida
de B. aphidicola es 2,9 x 10
-8
nucleótidos perdidos por sitio y año. Este
resultado implica que la degradación gradual en B. aphidicola en este periodo
puede definirse en base a la siguiente función (figura 4.10):
− 0.029 × t
Ld = L g × e
Al aplicar dicha fórmula obtenemos que la vida media de un
pseudogen, es decir, el tiempo necesario para que un gen inactivado pierda la
mitad de sus nucleótidos, es de 23,9 m.a.
1
0,9
0,8
0,7
Ld/Lg
0,6
0,5
0,4
0,3
0,2
Vida media
0,1
0
0
20
40
60
80
100
120
140
Tiempo de desintegración
Figura 4.10. Función hipotética de la pérdida de DNA basada en la información
disponible para 8 genes cuya inactivación tuvo lugar entre la divergencia de las
subfamilias Aphidinae y Pemphiginae y la divergencia entre los linajes de BAp y
BSg. La vida media de un pseudogen (periodo de tiempo necesario para que un
gen inactivado pierda la mitad de sus nucleótidos) sería de 23.9 m.a.
97
…………………………………...............................................…………………………Capítulo 4
Esta función teórica implicaría que el DNA de un gen que se
inactivó durante los primeros estadios de la evolución de B. aphidicola desde
el LCSA, en el presente habría perdido prácticamente la totalidad de sus
nucleótidos. Sin embargo, el grado de deterioro de genes perdidos tras la
divergencia de los linajes de BAp y BSg abarcaría un rango de variación más
amplio, con un ratio Ld/Lg que podría oscilar entre valores de 0,13, si la
inactivación se hubiera producido en el momento más temprano posible (hace
70 m.a.) y 1 para genes inactivados muy recientemente.
En base a este resultado podemos afirmar que la tasa obtenida es lo
suficientemente elevada como para producir la completa o casi completa
desintegración de genes en un corto periodo de tiempo, lo que explicaría que
los genes inactivados durante el periodo I se hayan desintegrado casi por
completo.
Periodo II
En el segundo periodo de pérdida, que comprende desde la
divergencia entre BAp y BSg (hace 50-70 m.a.) hasta el presente, un total de
60 genes se han inactivado en ambos linajes (22 en BAp y 34 en BSg). De
estas 60 pérdidas analizamos 56. Los cuatro eventos no examinados se
corresponden con dos genes: ansA y hemD. Éstos se extrajeron del análisis
dado que al no ser genes activos en ninguno de los genomas estudiados no
disponemos de ortólogos funcionales con los que comparar los restos
génicos. Dentro del grupo analizado, 53 no se situaban contiguos en el
genoma ancestral y 4 formaban parte de dos bloques de dos genes cada uno
(znuA-yebA y ygcF-ygcM).
Tras analizar la pérdida de nucleótidos en estos genes el rango de
valores obtenidos fue muy amplio, aunque la mayor parte de los genes habían
perdido menos del 20% de sus nucleótidos (figura 4.11 y anexo 4).
98
Nº genes perdidos
………………………………........................................…………………...Resultados y discusión
30
Pérdidas totales
25
Pseudogenes
20
15
10
5
0
>1,1 1,05 0,95 0,85 0.75 0,65 0,55 0,45 0,35 0,25 0,15 0,05
Ld/Lg
Figura 4.11. DNA perdido en B. aphidicola del linaje Aphidinae cuya inactivación
tuvo lugar tras la divergencia de los linajes BAp y BSg. La anchura de cada barra a
lo largo del eje de abscisas representa un intervalo de 0,1 excepto para el primer
segmento (>1,1). Los genes se han clasificado en base a la ausencia (pérdidas
totales) o presencia de similitud (pseudogenes) respecto al gen ortólogo funcional.
La altura total de cada barra representa la suma de estas dos condiciones.
Dentro de los 56 genes analizados 44 son pseudogenes y por tanto,
probablemente genes inactivados recientemente, lo que explica que aún
posean un alto grado de similitud con el gen ortólogo funcional. Sin embargo,
los genes perdidos totalmente, cuya similitud con el ortólogo activo ya no
puede detectarse, cuando se analizan separadamente de los pseudogenes, 12
de las 14 pérdidas muestran ratios Ld/Lg con un valor igual o inferior a 0,603
y algunos de los mismos presentan una desintegración completa. El alto
grado de deterioro de estas pérdidas totales indica que probablemente se
inactivaron en el primer millón de años tras la divergencia de los linajes BAp
y BSg, en base a la tasa de desintegración gradual (figura 4.10).
Dado que no podemos acotar el tiempo de inactivación de los genes
en este periodo, que puede oscilar entre millones y cientos de años, calcular
la vida media de un pseudogen en este intervalo es difícil. No obstante,
nosotros intentamos obtener una estima aproximada, empleando únicamente
la longitud de los 14 genes que han sufrido una pérdida total y para los cuales
no se detectan restos con similitud reconocible. El promedio del ratio Ld/Lg
para estos genes es de 0,426. A partir de este valor, aplicamos la fórmula de
desintegración continua para un tiempo máximo de 60 m.a. (tiempo promedio
de la divergencia entre BAp y BSg) y un tiempo mínimo de 20 m.a. En base a
99
…………………………………...............................................…………………………Capítulo 4
estos tiempos y el ratio Ld/Lg aplicado, la vida media de un pseudogen debería
corresponderse con un valor comprendido dentro de un rango que oscila entre
16,2-48,7 m.a., intervalo que contiene el valor de 23,9 m.a. obtenido a partir
de los genes perdidos en el periodo I y que confirma nuestros resultados
previos.
La desintegración de un gen se caracteriza no sólo por la pérdida de
longitud del mismo, sino también por cambios en su composición
nucleotídica. En el caso de bacterias asociadas con un hospedador, los
genomas se caracterizan por un elevado contenido en AT, que se manifiesta
sobre todo en regiones neutras (Wernegreen, 2002; Rocha y Danchin, 2002).
Esta observación ha llevado a postular que existe una presión mutacional en
los mismos que incrementa su contenido en AT (Moran, 2002). Este sesgo
sería el responsable del bajo contenido en GC de los genomas de B.
aphidicola, en torno al 25%. De modo que, una vez que un gen se inactiva
esperamos que su contenido en GC se reduzca gradualmente, al mismo
tiempo que sufre la pérdida de nucleótidos. Para ver por lo tanto si ambos
procesos están correlacionados, sobre los genes perdidos en los diferentes
linajes de B. aphidicola se llevó a cabo el cálculo del contenido en GC, en los
mismos segmentos empleados para las estimas de Ld y Lg, obteniéndose los
parámetros GCg y GCd y a partir de éstos el ratio GCd/ GCg.
Únicamente los genes ansA y hemD no fueron incluidos en los análisis
finales dado que no existe un gen ortólogo funcional de éstos en BBp para
determinar su contenido en GC. El resultado se muestra en la figura 4.12.
100
………………………………........................................…………………...Resultados y discusión
0,4
R= 0,7
0,2
-0,2
-0,4
ln (GCd/GCg)
0
-0,6
-0,8
-1
-1,2
-1,4
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
Ld/Lg
Figura 4.12. Relación entre la pérdida de longitud (Ld/Lg) y de contenido en GC
(GCd/GCg) de los genes cuya inactivación tuvo lugar tras la divergencia de los linajes de
BAp y BSg (periodo II). Se ha llevado a cabo una transformación logarítmica del
parámetro que mide el descenso del contenido en GC (GCd/GCg). El coeficiente de
correlación obtenido es de 0,765.
Tal y como se observa en la figura, existe una disminución paralela
de ambos parámetros con un punto de equilibrio para el contenido en GC
alrededor de 0,47. Este valor implica que el promedio de la composición final
en GC de los genes analizados es el 47% de la composición inicial.
En base a este resultado podemos afirmar que el sesgo hacia AT y la
pérdida de nucleótidos son procesos que presentan algún grado de
correlación, de modo que cuando un gen se inactiva el DNA de dicho gen
sufrirá un acortamiento y una pérdida de GC en su composición.
Esta correlación positiva entre tamaño y contenido en GC ha sido
confirmada también en el caso extremo de B. aphidicola de C. cedri, en base
a las dos primeras regiones genómicas obtenidas de esta bacteria (PérezBrocal et al. 2005).
4.3.4 Análisis de las pérdidas en BBp
En el caso de los genes inactivados durante la evolución del linaje de BBp,
las inactivaciones han podido producirse tanto durante el periodo I como II,
pero no disponemos de un criterio para diferenciar ambos tipos de pérdida.
101
…………………………………...............................................…………………………Capítulo 4
De modo que los 94 genes cromosómicos perdidos en esta cepa desde su
divergencia del LCSA fueron analizados conjuntamente. De estos genes, 44
eran pérdidas individuales mientras que el resto formaban parte de 13 bloques
formados por desde 2 a 8 genes.
Debido al amplio rango de desintegración que representan estas
pérdidas (desde 0 a 150 m.a.), obtuvimos un rango de variación elevado para
el ratio Ld/Lg, aunque un gran número de genes presentaban una
desintegración casi completa (figura 4.13). Sólo 23 de los 94 mostraban
ratios Ld/Lg superiores a 0,6, y la mayor parte de los pseudogenes formaban
parte de este grupo (anexo 5).
Nº genes perdidos
30
25
20
Pérdidas totales
Pseudogenes
15
10
5
0
>1,1 1.15 0.95 0.85 0.75 0.65 0.55 0.45 0.35 0.25 0.15 0.05
Ld/Lg
Figura 4.13. DNA perdido en B. aphidicola del linaje BBp. La anchura de
cada barra a lo largo del eje de abscisas representa un intervalo de 0,1 excepto
para el primer segmento (>1.1). Los genes se han clasificado en base a la
ausencia (pérdidas totales) o presencia de similitud (pseudogenes) respecto del
gen ortólogo funcional. La altura total de cada barra representa la suma de estas
dos condiciones.
En base por tanto a la fórmula de desintegración continua
previamente descrita, este resultado implica que sólo unos pocos genes han
empezado a sufrir un proceso de desintegración recientemente, mientras que
la gran mayoría se inactivaron hace más de 50-60 m.a. Los genes con
inapreciables
reducciones
son
principalmente
pseudogenes,
que
probablemente se han inactivado hace poco tiempo. Sin embargo, no hay que
descartar que algunos de éstos todavía conserven su funcionalidad. Para
diversos genes de E. coli se ha demostrado que la producción de pequeñas
102
………………………………........................................…………………...Resultados y discusión
cantidades de proteína completa y funcional es posible, si dichos genes son
transcritos y durante la traducción se producen diversos corrimientos de pauta
de lectura ribosomales (Gurvich et al. 2003).
En este caso también intentamos calcular la vida media de un
pseudogen, empleando únicamente las pérdidas que no son pseudogenes,
pero con un largo intervalo que represente el posible momento de
inactivación, desde 120 a 20 m.a., dada la imprecisión asociada al momento
de la divergencia de este linaje (86-164 m.a.). El ratio Ld/Lg obtenido para
estos genes perdidos fue de 0,358. En base a estos valores, la vida media de
un pseudogen es un valor que puede oscilar entre 81,1 y 13,5 m.a. y que
contiene por tanto al primer resultado obtenido de 23,9 m.a.
La ausencia en este caso de una datación para la divergencia de dos
o más miembros de la subfamilia Pemphiginae no nos permite determinar si
los genes perdidos en estadios tempranos de este linaje se han eliminado
completamente, pero es evidente que una larga proporción de genes han
perdido un elevado número de sus nucleótidos. En base a esto podemos por
tanto asumir que en ambos linajes el DNA de un gen puede haber
desaparecido casi por completo tras 40-60 m.a. después de su inactivación.
También para los genes perdidos en este linaje estudiamos la posible
correlación entre la pérdida de nucleótidos y la disminución en el contenido
en GC. Sin embargo, en este caso no se detectó correlación entre ambos. La
explicación más probable es que el contenido en GC de un gen que se
inactiva va descendiendo hasta un valor de equilibrio a partir del cual la
composición no variará. Este valor puede alcanzarse rápidamente, dado que
incluso para los genes activos de B. aphidicola el contenido en GC es bajo.
De modo que este parámetro probablemente se satura antes que la pérdida de
longitud, por lo que para los genes inactivados en periodos muy tempranos, la
correlación entre ambos parámetros desaparece. Dado que el linaje de BBp
incluye pérdidas que pueden ser muy antiguas, de hecho, la mayoría de los
genes perdidos se hallan en un avanzado estado de desintegración, estos
103
…………………………………...............................................…………………………Capítulo 4
genes inactivados tempranamente en este linaje serían responsables de la
ausencia de correlación entre la pérdida en GC y la pérdida de nucleótidos.
Algunos de los genes analizados en los tres linajes estudiados no
sólo presentaban una ausencia de reducción sino que incluso habían sufrido
un incremento en el número de nucleótidos tras la inactivación de los
mismos. Estos genes probablemente se inactivaron recientemente, y el
aumento de longitud que han sufrido posteriormente puede explicarse por
diversas razones:
1.
Debido a la introducción de nucleótidos a través de eventos
de inserción.
2.
Por la imprecisión asociada al cálculo de la región de
origen ancestral, al tomar como referencia para dicho
cálculo la región ortóloga funcional de una cepa de B.
aphidicola actual.
3.
En base a la posible existencia de restos de genes
ancestrales perdidos en las tres cepas de B. aphidicola
estudiadas en las regiones analizadas.
4.
Debido a una anotación incorrecta del extremo 5’ final de
algunos genes.
El análisis de las pérdidas en los tres linajes: BAp, BSg y BBp
durante los últimos aproximadamente 150 m.a. ha permitido calcular la tasa
de pérdida y la vida media de un pseudogen de B. aphidicola durante este
periodo, mostrando que el ritmo de pérdida es superior a la tasa de erosión de
1nt cada 10.000 años estimada previamente (Mira et al. 2002). Esta estima
estaba basada únicamente en la comparación del tamaño genómico de los
genomas de B. aphidicola secuenciados hasta el momento (BAp, BSg y
BBp). Sin embargo, nuestro resultado se basa en la comparación de cada una
de estas cepas con el genoma ancestral reconstruido y en los tiempos de
divergencia asociados a estas especies.
104
………………………………........................................…………………...Resultados y discusión
La vida media de un pseudogen es un parámetro que se ha calculado
sobre especies de diversos géneros tanto eucariotas como procariotas:
Drosophila, Laupala, Podisma, Ricketttsia, etc (Petrov et al. 1996; Petrov y
Hartl, 1998; Bensasson et al. 2001; Andersson y Andersson, 2001). Debido a
la ausencia en estos estudios de una estima temporal del momento de la
inactivación de los pseudogenes analizados se ha realizado el cálculo de la
tasa de deleción en estos organismos respecto al número de sustituciones, de
modo que la vida media se obtiene en nucleótidos/ sustituciones y no en
unidades de tiempo. Dado que el ritmo de acumulación de sustituciones
puede variar entre organismos y regiones analizadas, estos resultados no son
comparables. Así en Rickettsia, la vida media de un pseudogen está en torno
a 0,06 nucleótidos/sustituciones, pero este valor no puede ser analizado
comparativamente con los resultados obtenidos en B. aphidicola.
No obstante, en el caso de eucariotas, el valor de la vida media de un
pseudogen ha podido obtenerse en unidades de tiempo. En estos trabajos, la
existencia de alguna datación que ha permitido calcular la tasa de sustitución
nucleotídica respecto al tiempo, junto con el cálculo de la tasa de deleciones
respecto al número de sustituciones nucleotídicas, han permitido calcular la
vida media de un pseudogen en una escala temporal. Así sabemos, que el
valor obtenido de 23,9 m.a. en nuestro estudio está en el rango de los 14,3
m.a. estimados en Drosophila (Petrov y Hartl, 1998), pero es muy inferior al
valor de 615 m.a. obtenido para Laupala (Petrov et al. 2000b) o de los 884
m.a. estimados para mamíferos (Petrov y Hartl, 1998). Las tasas obtenidas en
mamíferos o Laupala son extremadamente bajas y no explicarían diferencias
en el tamaño genómico (Gregory, 2003) entre estos phyla. Sólo en
Drosophila se puede decir que son relevantes y permiten explicar diferencias
de tamaño genómico entre Drosophila y otras especies. En base a nuestros
resultados en B. aphidicola, también en esta especie la tasa de pérdida es lo
suficientemente elevada para explicar diferencias de tamaños entre especies,
especialmente teniendo en cuenta el tamaño genómico de bacterias respecto a
eucariotas.
105
…………………………………...............................................…………………………Capítulo 4
Nuestra estima más precisa se ha llevado a cabo a partir de 8 genes
inactivados durante los estadios tempranos de evolución de los linajes de
BAp y BSg, dado que éstos son los únicos genes cuyo periodo de
inactivación podemos acotar dentro de un intervalo conocido. Pero cuando
llevamos a cabo la misma estima, utilizando aquellos genes cuya inactivación
sabemos que se ha producido tras la divergencia de BAp y BSg, el valor
obtenido es del mismo orden (16,2-48,7 m.a.). Finalmente, el mismo análisis
pero llevado a cabo sobre genes que abarcan un amplio periodo, durante el
cual se ha podido producir la inactivación de los mismos, da lugar a un rango
que oscila entre 13,5 y 81,1 m.a. en el linaje de BBp. En conjunto, estos
resultados demuestran que la pérdida de DNA en B. aphidicola, en los
últimos periodos de la evolución de estos linajes, está teniendo lugar a una
tasa relevante. Es obvio que la tasa de desintegración probablemente sería
más elevada en los estadios iniciales de la reducción, dada la presencia de
mecanismos que pueden provocar pérdidas más drásticas de nucleótidos (más
de 100-200 nucleótidos por evento) y que posteriormente se perdieron en B.
aphidicola. De hecho, la estabilidad en el orden génico de estos genomas es
probablemente resultado de la pérdida de elementos que permiten
reordenaciones,
tales
como
elementos
transponibles,
fagos,
largas
repeticiones y un sistema de recombinación (Rocha, 2003). Además, para que
dichas deleciones se produzcan es necesaria la presencia contigua de genes
cuya pérdida no va a tener efectos significativos en la eficacia y a medida que
el proceso de reducción avanza, la presencia de éstos es menor. Igualmente,
tal y como ocurre con las deleciones, el impacto de las inserciones de gran
tamaño se ha reducido enormemente, debido a la pérdida de la capacidad de
adquirir material genético a través de los mecanismos de transferencia
horizontal en esta bacteria. Por tanto, en los estadios recientes de la evolución
de B. aphidicola, esperamos que los principales eventos que dirigen la
evolución del genoma sean de reducido tamaño. Sin embargo, esto no
implica necesariamente que el ritmo de pérdida en estas etapas sea
insignificante, dado que sólo pueden darse indels pequeños. En primer lugar,
106
………………………………........................................…………………...Resultados y discusión
aunque sólo se dieran deleciones muy pequeñas (1-2 nucleótidos), éstas
podrían ser muy frecuentes a lo largo del genoma, teniendo un efecto global
considerable, especialmente teniendo en cuenta el reducido tamaño genómico
de B. aphidicola. En segundo lugar, no podemos descartar que se produzcan
indels de mayor tamaño. Aunque en estas etapas podemos descartar indels
que abarquen cientos de loci, como las invocadas para explicar los primeros
estadios de la reducción en diversos estudios, por los argumentos
previamente citados, no podemos descartar indels de un tamaño menor pero
todavía significativo (~ 50-100 nucleótidos). De hecho, los mecanismos que
permiten este tipo de eventos aún pueden actuar en el genoma de B.
aphidicola. Por ejemplo, la presencia de cortas repeticiones (8-10
nucleótidos) separadas por un espaciador de varios nucleótidos puede dar
lugar a indels de más de 100 nucleótidos a través de un mecanismo de
recombinación independiente de recA, que puede actuar en esta bacteria (ver
capítulo 5). Además, estos eventos tendrían un impacto mucho mayor en el
genoma que los indels de 1-2 nucleótidos, aún cuando el ritmo de aparición
de los mismos fuera muy inferior. La tasa de pérdida obtenida en este estudio
demuestra que la pérdida de DNA en las ultimas etapas de la evolución de B.
aphidicola aún es considerable, pero esta tasa puede ser resultado de un gran
número de eventos de muy reducido tamaño (1-2 nucleótidos) que se
producen a un ritmo elevado, o de la combinación de éstos a un ritmo inferior
con eventos de mayor tamaño (más de 100 nucleótidos). Para caracterizar el
tamaño de los eventos que explican el ritmo de pérdida obtenido, será
necesaria la caracterización de las inserciones y deleciones en las secuencias
donde éstas se han producido (ver capítulo 5).
Estos indels que se producen son la materia prima sobre la que las
fuerzas evolutivas actúan para dirigir la evolución del tamaño genómico. Así,
varios autores han propuesto que en los genomas bacterianos existe un sesgo
hacia las deleciones versus inserciones, debido a un mayor número de
eventos y/o un mayor tamaño de los mismos (Andersson y Andersson, 2001;
Lawrence et al. 2001; Mira et al. 2001; Gregory, 2004). Si este sesgo existe
107
…………………………………...............................................…………………………Capítulo 4
realmente, la deriva genética podría contribuir a la fijación de las deleciones
frente a las inserciones. Este efecto de deriva sería además muy importante en
B. aphidicola, dado el pequeño tamaño poblacional efectivo asociado a este
organismo y su transmisión vertical a través de drásticos cuellos de botella en
cada generación (Mira y Moran, 2002).
Alternativa o simultáneamente, la selección natural puede ser
responsable parcial o totalmente de la reducción. La ventaja selectiva de un
genoma de menor tamaño puede ser no gastar energía en replicar y transcribir
DNA no codificante, un control de la expresión génica más eficaz y una
replicación más rápida. Así por ejemplo, se ha observado una correlación
negativa entre el contenido de DNA y la tasa de división de algunos ciliados
(Wickham y Lynn, 1990). Sin embargo, aunque esta hipótesis ha sido
propuesta diversas veces para explicar la redución del tamaño genómico de
bacterias endosimbiontes obligadas y genomas mitocondriales, (Selosse et al.
2001; Silva et al. 2001) hay pocos ejemplos que la apoyen. De hecho, no
existe una correlación entre los tiempos de replicación bacteriana y el tamaño
de los genomas en condiciones de laboratorio para diversas especies (Mira et
al. 2001), ni tampoco entre diversas cepas de E. coli con tamaños genómicos
cuya variación era de hasta un 25% (Bergthorsson y Ochman 1998). Si el
tamaño más frecuente de indels es de 1-2 nucleótidos, dado el reducido
impacto de éstos en el tamaño genómico global, es razonable aceptar que la
selección no actuará sobre la fijación o no de dichos eventos. Sin embargo,
estudios llevados a cabo en Drosophila han mostrado que deleciones mayores
de 400 pb pueden ser ventajosas (Blumenstiel et al. 2002). En el caso de B.
aphidicola, el reducido tamaño genómico y la naturaleza poliploide de su
genoma incrementarán el impacto de eventos de centenas de nucleótidos. De
modo que para conocer la eficacia selectiva asociada a los eventos de indels,
es necesario determinar el tamaño y la frecuencia de éstos.
108
………………………………........................................…………………...Resultados y discusión
4.3.5 Análisis de los espaciadores ancestrales
Con el objetivo de conocer si el proceso de reducción afecta no sólo a los
genes, sino también a las regiones intergénicas, analizamos la pérdida de
longitud de las mismas en comparación con los espaciadores de E. coli.
Tal y como se estableció previamente (ver material y métodos,
apartado 3.8), en este análisis únicamente se incluyeron los espaciadores
ancestrales, dado que el resto pueden haber surgido posteriormente, tras
procesos de reordenación, lo que no permitiría considerarlos ortólogos. El
Tamaño regiones intergénicas en Buchnera (pb)
resultado de la comparación se muestra en la figura 4.14 (anexo 6).
700
600
500
BSg
BAp
BBp
400
300
200
100
0
0
100
200
300
400
500
600
700
Tamaño regiones intergénicas en E. coli (pb)
Figura 4.14. Espaciadores ancestrales ortólogos entre E. coli y B.
aphidicola. Relación entre el tamaño de las regiones intergénicas de E. coli y
el tamaño de las regiones intergénicas de BAp, BSg y BBp. Los espaciadores
ancestrales se definen como aquellos flanqueados por los mismos genes en
E. coli y en B. aphidicola (Mira, Ochman y Moran 2001). Sólo se
compararon los espaciadores presentes en las tres especies analizadas de B.
aphidicola (n = 195). La línea discontinua representa la pendiente 1:1.
El tamaño promedio (pb ± desviación estándar) de los espaciadores
en cada uno de los linajes de B. aphidicola analizados fue 51,1 ± 70 en el
caso de BAp, 47,7 ± 63,6 para BSg y 55,3 ± 76,1 en el caso de BBp. Estos
valores son ligeramente inferiores al valor promedio obtenido para E. coli:
67,5 ± 98,2.
En primer lugar llevamos a cabo un test de Friedman, para saber si
el tamaño de los espaciadores de los linajes de B. aphidicola empleados eran
109
…………………………………...............................................…………………………Capítulo 4
significativamente diferentes entre sí. Tras aplicar dicho test no podemos
considerar significativas las diferencias entre las medias de los rangos de
tamaños para estos genomas (p = 0,103). El mismo test aplicado para los
cuatro genomas mostró que en este caso las diferencias sí que eran
significativas (p = 0,017). Por tanto, la distribución del tamaño de los
espaciadores intergénicos entre E. coli y B. aphidicola es diferente, de modo
que en B. aphidicola éstos han sufrido una reducción ligera pero
significativa.
Esta reducción de los espaciadores ancestrales indica que existe una
compactación general del genoma y que la pérdida no afecta por tanto sólo a
los genes. Estudios previos afirman que si existe esta compactación genómica
global, puede ser un indicio de que existe selección a favor de un reducido
tamaño genómico (Mira et al. 2001), lo que daría lugar a una correlación
entre tamaño genómico y tamaño de los espaciadores ancestrales. De hecho,
la comparación de los espaciadores ortólogos del genoma de B. aphidicola
más pequeño conocido hasta el momento, B. aphidicola de C. cedri, con los
espaciadores de BAp, BSg y BBp, ha mostrado también que éstos se han
acortado significativamente (Pérez- Brocal et al. 2006).
No obstante, estos resultados han de ser tomados con precaución
dado que esta diferencia significativa que nosotros detectamos entre los
espaciadores de E. coli y B. aphidicola desaparece en BAp, si los
espaciadores con regiones reguladoras anotadas en el genoma de E. coli son
excluidos (Mira et al. 2001). Además, la interpretación de los resultados ha
de ser cuidadosa, dado que este acortamiento de las regiones intergénicas, no
tiene que ser necesariamente una prueba sobre fuerzas selectivas a favor de
un reducido tamaño genómico. Un elevado sesgo delecional podría conllevar
al mismo resultado (Lawrence et al. 2001) y aún en el caso de que la
selección favoreciera la reducción genómica, los espaciadores podrían estar
próximos a un tamaño límite o la enorme deriva asociada a las poblaciones de
B. aphidicola podría reducir la eficacia de la selección, disminuyendo su
efecto sobre las regiones intergénicas.
110
………………………………........................................…………………...Resultados y discusión
En cualquier caso, esta contribución de los espaciadores a la
reducción cromosómica total es muy inferior a la resultante de la pérdida y
desintegración de genes.
4.3.6 Análisis funcional de los genes perdidos
El rol funcional de los genes perdidos analizados se determinó en base a la
clasificación establecida en los COGs (Clusters of Orthologous Groups of
proteins) (Tatusov et al. 1997), en los que los genes se agrupan en categorías
que vienen designadas mediante letras. El resultado se muestra en la tabla
4.4.
Tabla 4.4. Clasificación de los genes perdidos en base al COG y análisis de las pérdidas
convergentes.
Nº de
Nº total
pérdidas
de
pérdidas convergentes
2
0
1
0
12
3
7
1
4
0
21
6
7
0
6
1
4
2
11
0
18
2
7
0
5
3
6
3
1
0
10
4
b
Función
Producción y conversión de energía
Control del ciclo celular, mitosis y meiosis
Transporte y metabolismo de aminoácidos
Transporte y metabolismo de nucleótidos
Transporte y metabolismo de carbohidratos
Transporte y metabolismo de coenzimas
Transporte y metabolismo de lípidos
Traducción, estructura ribosomal y biogénesis
Transcripción
Replicación, recombinación y reparación
Pared celular/Biogénesis de la membrana
Movilidad celular
Modificación postranscripcional, rotación de proteínas, chaperonas
Transporte y metabolismo de iones
Biosíntesis, transporte y catabolismo de metabolitos secundarios
Únicamente predicción de la función general (proteína hipotética)
Función desconocida
Mecanismos de transdución de la señal
Tráfico intracelular y secrección
a
COG
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
TOTAL
a
Clusters of Orthologous Groups.
b
Excluídos dos genes perdidos localizados en plásmidos.
9
1
1
133
2
0
0
27
En base a los resultados, podemos afirmar que los genes perdidos se
distribuyen entre todas las posibles categorías funcionales, aunque la
contribución a cada una de ellas es diferente. La mayoría de las pérdidas se
han producido en genes implicados en el transporte de coenzimas y en el
111
…………………………………...............................................…………………………Capítulo 4
metabolismo (21 genes perdidos) y en la biogénesis de la membrana y la
pared celular (18 genes perdidos). La pérdida de genes relacionados con la
síntesis de metabolitos posiblemente es resultado de la habilidad de la
bacteria para adquirir éstos desde el citoplasma del hospedador, o
consecuencia de cambios en las necesidades metabólicas del mismo. Del
mismo modo, la reducida biosíntesis de la envoltura celular ha sido
previamente descrita en B. aphidicola (Tamas et al. 2001) y es
probablemente el resultado derivado de la protección de dicha bacteria en el
interior de vesículas del hospedador, que anulan la necesidad de generar
polimorfismo molecular en la envoltura para no ser reconocidas por el
sistema de defensa del mismo.
Por el contrario, la categoría funcional menos afectada por la
pérdida de genes es la relacionada con procesos informativos, tal y como
esperamos dado que éstos no son específicos de linaje, sino que se relacionan
con procesos universales y presentan por lo general un alto grado de
conservación. Este resultado es congruente también con el obtenido para el
caso más extremo de reducción, B. aphidicola de C. cedri (Pérez-Brocal et al.
2006).
Una observación destacable es el escaso número de pérdidas
convergentes en relación con la categoría funcional (27 de 133 genes
implican convergencia). Este reducido número de pérdidas convergentes está
indicando que las pérdidas, probablemente son específicas de cada
hospedador y están relacionadas con su particular dieta o ciclo de vida. En
base a este argumento, un ejemplo claro de conservación es el de los genes
implicados en las rutas de biosíntesis de aminoácidos, que están conservados
en los tres genomas analizados dado el rol nutricional de la simbiosis, en el
que la bacteria proporciona aminoácidos esenciales al hospedador que son
deficitarios en su dieta (van Ham et al. 2003). Por el contrario, los genes
implicados en la ruta de la ornitina se han perdido independientemente en el
linaje de BBp y BSg (van Ham et al. 2003). Esta pérdida afecta a genes como
argA, B, C, D, E y a otros relacionados con esta ruta, como los genes pyr y
112
………………………………........................................…………………...Resultados y discusión
spe, lo que indica que una vez se inactiva un gen que participa junto con otros
en alguna ruta metabólica o proceso en el que éste es necesario, este hecho
probablemente desencadenará la inactivación del resto de genes implicados
en dicha ruta o proceso.
De hecho, el factor principal que determina el tamaño del genoma de
B. aphidicola es la importancia, o esencialidad de la función de las diferentes
secuencias de DNA que lo conforman, bien sean genes o regiones
intergénicas con alguna clase de función. Una vez que dichos segmentos
pierden su función, el proceso de pérdida gradual conlleva a una pérdida de
longitud de los mismos. Cambios en el estilo de vida del hospedador o en la
relación hospedador-simbionte debida a la interacción con otras bacterias,
inducirán cambios del repertorio génico esencial que darán lugar a la nueva
materia prima sobre la que actuará la evolución reductiva que sufren estos
genomas.
Por esta razón, el tamaño de B. aphidicola puede continuar
reduciéndose y el límite a esta reducción estará asociado al mínimo número
de genes requeridos para la vida de la bacteria y por la contribución
simbiótica al hospedador. De hecho, se ha demostrado como los genomas
completamente secuenciados de cinco bacterias endosimbiontes de insectos
sólo comparten 313 genes, 277 de los cuales codifican para proteínas (Gil et
al. 2003). En base a estos datos, el genoma mínimo de estas bacterias estaría
formado por aproximadamente 300 Kb y una tercera parte de sus genes no
serían esenciales para la bacteria pero sí necesarios para la supervivencia del
hospedador. Estos datos no incluyen el genoma de BCc recientemente
secuenciado (Pérez- Brocal et al. 2006).
113
114
5. Las últimas etapas de la reducción genómica en
B. aphidicola y en B. floridanus
115
116
..........................................................................................Introducción
5. 1 INTRODUCCIÓN
5.1.1 Las últimas etapas de la evolución reductiva
Las bacterias que mantienen una relación íntima y obligada con un
hospedador poseen genomas de tamaño reducido como consecuencia de la
adaptación a un estilo de vida intracelular. Los patógenos de géneros como
Rickettsia (Andersson et al. 1998; Ogata et al. 2001) y Mycoplasma (Fraser
et al. 1995; Himmelreich et al. 1996; Chambaud et al. 2001) y las bacterias
endosimbiontes de géneros como Buchnera (Shigenobu et al. 2000; Tamas et
al. 2002; van Ham et al. 2003), Blochmannia (Gil et al. 2003) o
Wigglesworthia (Akman et al. 2003) son sólo algunos ejemplos.
En los estados más avanzados del proceso de reducción, la
progresiva pérdida de la mayor parte de información innecesaria o
redundante con el hospedador da lugar a genomas altamente reducidos, más
estables y con escasos pseudogenes. Además, esta pérdida acaba afectando a
elementos repetidos y genes implicados en recombinación y reparación
(Frank et al. 2002), lo que ha llevado a postular que la velocidad del proceso
es reducida en las últimas etapas y queda relegada a eventos de muy pequeño
tamaño (Tamas et al. 2002). Además, se piensa que en los últimos estadios de
la reducción el proceso tiene lugar muy lentamente, a través de indels de tan
pequeño tamaño que la influencia de los mismos sobre la eficacia no se
considera significativa (Petrov y Hartl, 2000), de modo que las fuerzas
selectivas jugarían un papel escaso o nulo en estadios finales.
La comparación de las tasas y modelos de degradación génica en
bacterias intracelulares de diferentes grupos filogenéticos es necesaria para
entender los factores evolutivos responsables de la transformación de los
genomas de gran tamaño de bacterias de vida libre en genomas reducidos.
Para ello, las tasas y modelos de mutaciones puntuales, deleciones, así como
otros mecanismos que conducen a la degradación del genoma tienen que ser
cuantificados. La cuantificación de los mismos en genomas altamente
117
...........................................................................................................................................Capítulo 5
reducidos y estrechamente emparentados es lo que nos permitirá caracterizar
el proceso de pérdida en sus últimas etapas.
5.1.2 Tasas de inserción/deleción
La cuantificación de la pérdida de DNA se puede llevar a cabo a través del
cálculo de las tasas de inserción y deleción, que nos permiten conocer el
balance final entre la entrada y salida de material genético.
Dado que la mayoría de cambios en regiones no codificantes del
DNA se suponen neutros (Kimura, 1983), las estimas evolutivas en estas
regiones se pueden considerar equivalentes a las tasas de mutación
espontánea de inserción y deleción. De este modo, salvo en el caso de que
exista una presión selectiva sobre el tamaño genómico, las regiones carentes
de restricciones funcionales son una representación fiel del proceso
mutacional de inserciones/deleciones (indels). En base a esto se han llevado a
cabo estudios de las tasas de inserción/deleción mediante dos aproximaciones
principales (Comeron, 2001):
a)
Estudio de indels en secuencias con equivalentes funcionales:
Generalmente se trata de estudios llevados a cabo sobre
pseudogenes, lo que permite la comparación con el homólogo funcional. La
ventaja de esta comparación es que el gen proporciona una guía para el
alineamiento, a menudo difícil en el caso de regiones neutras, así como un
criterio para la polarización de indels y su diferenciación por tanto en
inserciones/deleciones. Así se ha caracterizado el sesgo hacia la pérdida en
mamíferos, homínidos o bacterias como Rickettsia (Graur et al. 1989; Ophir
y Graur, 1997; Andersson et al. 1998). El problema es que los pseudogenes
no siempre son abundantes en todas las especies. Es por ello que en ausencia
de los mismos, se han empleado secuencias que equivalen a éstos, como por
ejemplo los elementos DOA, secuencias resultantes de una transposición
truncada
de
elementos
transponibles
118
no-LTR,
que
dan
lugar
a
..............……………………………………………………………………………….Introducción
elementos no funcionales como los pseudogenes, y que han permitido
determinar las tasas de pérdida en el caso de Drosophila (Petrov, 1996). Otro
ejemplo son las secuencias “Numts”, pseudogenes nucleares de origen
mitocondrial, empleados para estudiar tasas de indels en Podisma (Bensasson
et al. 2001).
b) Estudio de indels polimórficos en regiones no codificantes:
Se basan en regiones no codificantes entre taxones muy próximos, lo
que permite dar un modelo muy cercano a las tendencias mutacionales. De
este modo se sabe por ejemplo, que en Drosophila las deleciones superan a
las inserciones en regiones no codificantes (Comeron y Kreitman, 2000). Esta
aproximación es especialmente adecuada en organismos como las bacterias,
donde los pseudogenes son en general escasos, especialmente en aquéllas en
avanzado estado de desintegración, donde éstos prácticamente han
desaparecido.
En general, todos estos trabajos que calculan tasas de indels, han
puesto de manifiesto la existencia de un sesgo a favor de las deleciones tanto
en organismos eucariotas -Drosophila, Laupala (Petrov y Hartl, 1998;
Bensasson et al. 2001), etc- como en procariotas -Rickettsia, Buchnera y
otras- (Andersson y Andersson, 1999; Mira et al. 2001; Wernegreen, 2002).
Estos resultados han de ser no obstante tomados con precaución, dado que el
tamaño muestral sobre el que se basan no es significativo.
Además, las tasas de ganancia y pérdida de DNA pueden variar en
diferentes microorganismos, lo cual proporcionaría una explicación a la
variación de tamaños genómicos. La respuesta a esta cuestión sólo puede
obtenerse a través de la comparación de secuencias de cepas y especies muy
relacionadas.
Las tasas de indels nos permitirán, por tanto, conocer si existe un
sesgo mutacional que sólo por deriva ya conllevaría a la pérdida y si este
sesgo es igual o diferente al de bacterias de vida libre. El análisis adicional de
las regiones flanqueantes a los sucesos de indels puede dar pistas acerca del
mecanismo molecular subyacente a dichos eventos.
119
………………………………………………………………………………………….Capítulo 5
5.1.3 Mecanismos implicados en la generación de indels
El tamaño de los genomas bacterianos es el resultado del balance entre la
entrada y la salida de DNA de los mismos. La principal vía de entrada de
DNA en los genomas procariotas es la transferencia horizontal (Ochman et
al. 2000). Dentro de las bacterias intracelulares obligadas existe evidencia de
transferencia horizontal entre patógenos intracelulares incluso muy alejados
(Wolf et al. 1999). Sin embargo, en endosimbiontes la ausencia de dicho
proceso es al parecer total, a excepción de un único caso descrito para un gen
plasmídico de B. aphidicola (van Ham et al. 2000).
El principal mecanismo molecular que permite la aparición de indels
es la recombinación entre repeticiones del genoma (Krawiec y Riley, 1990).
Dentro de ésta, diferenciamos dos tipos principales de recombinación
intracromosómica (Bzymek y Lovett, 2001).
a)
Recombinación homóloga (dependiente de RecA)
La principal característica de este tipo de recombinación es que no
puede producirse en ausencia de RecA. La proteína RecA es la que durante el
proceso de recombinación recubre la zona de cadena sencilla desplazada del
DNA dador, de modo que esta cadena adopta una configuración helicoidal
extendida. De este modo, RecA facilita así el encuentro de ésta con la parte
de doble hélice complementaria del receptor, dando lugar a la formación de
una triple hélice. La recombinación homóloga requiere repeticiones largas
(de más de 200 pb), con una elevada homología entre las mismas (entre 95 y
100%) y que pueden estar muy alejadas.
b) Recombinación no homóloga (independiente de RecA)
Se caracteriza principalmente porque no depende de RecA ni
tampoco de otras proteínas o sistemas como RecBCD, RuvAV, RuvC, etc. A
diferencia de la recombinación homóloga, se da normalmente entre
repeticiones cortas (menos de 200 pb) y sobretodo bastante cercanas (no más
alejadas de unas cuantas kilobases). De hecho, se ha observado un
120
..............……………………………………………………………………………….Introducción
decrecimiento exponencial de la tasa de deleción a medida que la distancia
entre las homologías se incrementa (Lovett et al. 1994; Bi y Liu, 1994). Esta
dependencia de la distancia y el hecho de que no sea necesaria la intervención
de RecA son indicios acerca de que la recombinación ilegítima se da en el
contexto de la horquilla de replicación. De hecho, la naturaleza de cadena
simple del DNA y el hecho de que las secuencias estén muy próximas,
explicarían que RecA no fuera necesaria, y puesto que en E. coli la media de
un fragmento de Okazaki es de 1-2 kb, varias kb sería pues el límite máximo
de distancia para la recombinación independiente de RecA.
La recombinación no homóloga puede darse a través de diversos
mecanismos. Los principales, descritos hasta ahora son:
1.
Slippage o deslizamiento de la polimerasa: es el mecanismo más
conocido y consiste en la desnaturalización local y desplazamiento
de las hebras de un DNA dúplex, seguido por un mal alineamiento
de las bases complementarias en el lugar de una corta repetición en
tándem (Levinson y Gutman, 1987). Cuando este apareamiento
incorrecto no es reparado es cuando puede dar lugar tanto a
inserciones como a deleciones (Strand et al. 1993; Modrich y Lahue,
1996). Si el apareamiento incorrecto se ha dado a partir de un bucle
en la hebra naciente el resultado será la inserción de la secuencia
repetida mientras que si el bucle se forma en la hebra molde, el
resultado es la deleción del motivo repetido (ver figura 5.1).
121
………………………………………………………………………………………….Capítulo 5
Figura 5.1. Modelo para el deslizamiento de la polimerasa. Un deslizamiento
de la hebra naciente respecto a la hebra parental puede generar deleción o
expansión de una repetición directa y de cualquier segmento implicado (Figura
tomada de Bzymek y Lovett 2001).
2.
Sister chromosome exchange-associated slippage: está asociado con
la dimerización del replicón. Implica el alineamiento incorrecto de
las dos hebras nacientes, en la horquilla de replicación, en
segmentos
con
repeticiones,
o
también
puede
darse
por
entrecruzamiento desigual entre repeticiones directas de moléculas
circulares.
3.
Single-strand annealing: se da a partir de una rotura de la doble
hélice, que desencadena una degradación exonucleolítica de las
regiones terminales de las dos hebras. Esto permite la unión de las
dos hebras complementarias expuestas y la ligación que conducirá a
la
deleción
de
la
secuencia
(Michel,
1999).
Contribuye
principalmente a deleciones asociadas con secuencias palíndromes.
5.1.4 Secuencias que permiten actuar a los mecanismos de pérdida
Los mecanismos de pérdida pueden actuar gracias a la presencia de
repeticiones en el genoma. Dentro de éstas se han definido diversos tipos en
relación con la recombinación no homóloga (Rocha, 2003):
a)
CRs (close repeats): repeticiones cortas (>8-10nt) separadas por
varios nucleótidos.
122
..............……………………………………………………………………………….Introducción
b) SPIDRS (spaced interspersed direct repeats): se trata de CRs en
multicopia.
c)
SSRs (simple sequence repeats) o microsatélites: son repeticiones en
tándem de 1 a 5 nucleótidos.
d) VNTRs (variable number of tandem repeats): repeticiones en
tándem de más de 5 nucleótidos.
SSRs, VNTRs y especialmente SPIDRS son las que tienen un mayor
potencial de recombinación, mientras que CRs son las de un menor potencial
de recombinación pero destacan por ser las más abundantes en los genomas.
Las repeticiones en tándem están formadas por la repetición sucesiva
de unidades que van desde un simple par de bases hasta 200 pares de bases
(Ellegren, 2004). Cuando las repeticiones están formadas por mono, di y
tetranucleótidos, incluso por 5 nucleótidos, se habla de microsatélites o SSRs.
Las repeticiones formadas por un mayor número de unidades, constituyen los
minisatélites o VNTRs y en el caso extremo, el DNA satélite. Pese a estas
definiciones frecuentemente empleadas, el número mínimo de pares de bases
y de repeticiones que permite designar a un microsatélite como tal no está
determinado. Tampoco el grado de imperfección que puede darse en las
repeticiones. De modo que en la práctica, los umbrales que definen a un
microsatélite son definidos por el autor en cada nueva descripción de un
grupo de datos genómicos (Ellegren, 2004). En nuestro caso, hablamos de
microsatélites en el caso de secuencias repetidas que se ajusten al patron (X)n,
siendo 1≤ X ≥ 5 y n ≥ 2. En el caso de que X sea superior a 5 entonces
hablamos de minisatélites.
En los procariotas los microsatélites son muy poco abundantes
(Ellegren, 2004), especialmente los formados por largas repeticiones. La
única excepción son los loci de contingencia, repeticiones funcionales
localizadas dentro o cerca de genes relacionados con la patogenicidad, cuyas
mutaciones dan lugar a cambios en regiones reguladoras que conducen a
variaciones en los patrones de expresión de estos genes (Moxon et al. 1994).
123
………………………………………………………………………………………….Capítulo 5
No obstante, pese a su escasa frecuencia en comparación con su presencia en
genomas eucariotas, el hallazgo de microsatélites en genomas procariotas ha
aumentado a medida que se ha obtenido la secuencia completa de diversos
genomas (Field y Wills, 1998). Además, incluso los cortos microsatélites de
procariotas están sometidos a variaciones de su longitud (Metzgar et al.
2001). El deslizamiento de la polimerasa se postula como el principal
mecanismo que genera esta variación en el número de copias de un
microsatélite (Ellegren, 2004).
5.1.5 Genomas en estadios finales del proceso de reducción
Aunque tanto patógenos intracelulares como endosimbiontes sufren
reducción genómica, los patógenos a menudo invaden a nuevos hospedadores
o adquieren nuevas maneras de explotar a su hospedador, proporcionando un
contexto selectivo para la incorporación de nuevos genes (Moran, 2003).
Igualmente, tanto patógenos como mutualistas facultativos se mueven
horizontalmente entre hospedadores, por lo que a menudo retienen un largo
número de transportadores y rutas de invasión, incluso aún cuando su
genoma haya sufrido una importante reducción (Wernegreen, 2002). A
diferencia de estos patógenos y mutalistas facultativos, los endosimbiontes
primarios de insectos no se mueven horizontalmente entre hospedadores y
han coevolucionado con éstos durante millones de años.
Dentro de los endosimbiontes destaca el grupo de las gamma
proteobacterias, que contienen genomas de menos de 1 Mb así como especies
de vida libre de entre 4 y 8 Mb. Este grupo proporciona la mejor oportunidad
para estudiar el proceso de reducción genómica (Moran, 2003). En primer
lugar, están filogenéticamente próximos a organismos con genomas de mayor
tamaño, de modo que la homología aún puede detectarse en muchos casos y
por tanto, pueden localizarse eventos de pérdida específicos. Además, este
grupo incluye enterobacterias bien caracterizadas como S. enterica o E. coli,
por lo que permiten comparar la evolución genómica intracelular versus la de
bacterias de vida libre. Por otro lado, como ya indicamos en anteriores
124
..............……………………………………………………………………………….Introducción
apartados, existen ya genomas completamente secuenciados de diferentes
cepas o especies muy próximas, como los 4 genomas del endosimbionte de
pulgones B. aphidicola que oscilan entre 0,42-0,64 Mb (Shigenobu et al.
2000; Tamas et al. 2002, van Ham et al. 2003; Pérez-Brocal et al. 2006) o los
2 de la bacteria endosimbionte de hormigas Blochmannia (Gil et al. 2003;
Degnan et al. 2005) que abarcan un rango de entre 0,71-0,79 Mb.
Concretamente, los genomas de estas dos especies bacterianas están
altamente reducidos, poseen una elevada estabilidad del orden génico, como
ha puesto de manifiesto la comparación de los genomas ya secuenciados
dentro de cada grupo y tienen un escaso número de pseudogenes, rasgos que
se asocian con los estados más avanzados de la reducción. Por otro lado
tienen la ventaja ya argumentada previamente de ser endosimbiontes del
grupo de las gamma proteobacterias, y además pertenecen a hospedadores
para los cuales existen datos de algunos registros fósiles asociados. Este
último hecho es importante porque puede permitirnos datar eventos de
divergencia y a partir de éstos, inferir nuevos datos bajo la hipótesis de un
reloj molecular. En este caso, podríamos en última instancia calcular tasas
respecto al tiempo transcurrido y conocer de este modo el ritmo de los
eventos de indels.
Si queremos estudiar las últimas etapas de la reducción, los genomas
de Buchnera y Blochmannia son por lo tanto modelos adecuados.
5.1.6 El género de pulgones Rhopalosiphum y R. padi
Tal y como hemos argumentado previamente, B. aphidicola es un organismo
adecuado para el estudio de la degradación en estadios finales. Cómo ya
vimos en el capítulo previo, esta bacteria es el endosimbionte primario de los
pulgones.
Los pulgones constituyen un grupo de amplia distribución mundial
(Blackman y Eastop, 1994). Aunque no muy numerosos, algunos fósiles de
pulgones han sido hallados en ámbar canadiense (aprox. 75-80 m.a.), ámbar
báltico del Eoceno (35-45 m.a.) y en arcilla y otros sedimentos que abarcan
125
………………………………………………………………………………………….Capítulo 5
del Triásico al Pleistoceno (von Doblen, 2000). Gracias a éstos se ha podido
establecer el tiempo de divergencia entre diferentes grupos de pulgones y así
sabemos por ejemplo, que A. pisum y S. graminum han divergido hace unos
50-70 m.a. en base al registro fósil. Dada la coevolución de B. aphidicola con
su hospedador, estos tiempos pueden aplicarse a la bacteria para calcular en
este microorganismo tasas respecto al tiempo transcurrido.
Rhopalosiphum
es
un
género
de
pulgones
que
incluye
aproximadamente 13 especies ampliamente distribuidas a nivel mundial y
con un origen presumiblemente americano (Halbert y Voegtlin 1998).
Algunas de éstas se muestran la figura 5.2 y forman parte de nuestro estudio.
R. padi
R. maidis
R. nymphaeae
R. insertum
Figura 5.2. Morfología de diversas especies de pulgones
del género Rhopalosiphum empleadas en nuestro estudio.
R. padi es una especie de pulgón perteneciente a la subfamilia
Aphidinae, tribu Aphidini, que ha sido objeto de numerosos estudios
ecológicos y genéticos (Simon et al. 1991; Martínez et al. 1992; Simon et al.
1995; Simon et al. 1996) y que constituye una importante plaga de cereales.
Se trata de una especie que en base a su ciclo biológico, presenta linajes tanto
holocíclicos como anholocíclicos, los cuales en algunos casos se ha
demostrado que pueden coexistir en una misma zona geográfica al mismo
tiempo (Simon et al. 1991). Los linajes holocíclicos son aquellos que se
reproducen por partenogénesis cíclica, mientras que los anholocíclicos son
126
..............……………………………………………………………………………….Introducción
partenogenéticos obligados. En el caso de los linajes holocíclicos, el ciclo se
inicia con el huevo de invierno, depositado sobre hospedadores primarios del
género Prunus, que da lugar a una línea partenogenética. A partir de esta
línea partenogenética, tras una o varias generaciones sobre el huésped
primario, surgen formas emigrantes (aladas) que colonizan al huésped
secundario, que comprende un gran número de especies de gramíneas. En
éste se dan una serie de generaciones partenogenéticas hasta que al final del
verano nacen las ginóparas, formas aladas que retornan al huésped primario,
donde dan lugar a hembras sexuadas (ovíparas). Éstas últimas se aparean con
machos alados que provienen de las mismas hembras que dieron lugar a las
ginóparas, dando de nuevo lugar al huevo de invierno. Mientras sólo los
linajes holocíclicos pueden dar lugar a hembras sexuadas, tanto holo como
anholocíclicos pueden generar machos sexuados (Blackman, 1971; Simon et
al. 1991). En el laboratorio se puede inducir de forma experimental, mediante
la simulación de condiciones de invierno, la aparición de formas sexuales y
determinar por tanto el tipo de ciclo vital que presenta un determinado clon
(Simon et al. 1991).
Los estudios con secuencias de DNA mitocondrial (mtDNA) sobre
esta especie han revelado una escasa variabilidad, con sólo tres haplotipos
mitocondriales (Martinez-Torres et al. 1996, 1997; Simon et al. 1996). La
ventaja es que estos haplotipos detectados han podido relacionarse con los
ciclos de vida (Simon et al. 1996), dado que todos los holocíclicos son de
haplotipo II o III, mientras que el 94% de los anholocíclicos son de haplotipo
I (el 6% son de haplotipo II o III). Así mismo, se han desarrollado
marcadores nucleares, SCAR (Sequence-Characterized Amplified Region)
que muestran una mayor cosegregación con partenogenéticos cíclicos y
obligados (Simon et al. 1999), aunque tampoco en este caso es completa.
Adicionalmente, se ha demostrado una covariación entre la diversidad a nivel
del mtDNA y el plásmido leucina de B. aphidicola (Simon et al. 1996).
Igualmente, mediante el uso de marcadores nucleares y el mtDNA, se ha
demostrado el origen polifilético del linaje asexual, con al menos tres
127
………………………………………………………………………………………….Capítulo 5
orígenes independientes para la asexualidad en R. padi (Simon et al. 1999;
Delmotte et al. 2001). Estos datos demuestran que existe diferenciación
genética entre poblaciones holocíclicas y anholocíclicas y sugieren un largo
tiempo de divergencia entre ambos linajes y un origen antiguo de los linajes
asexuales (Martinez-Torres et al. 1996; Simon et al. 1996). De hecho,
estimas iniciales llevadas a cabo mediante el análisis de los sitios de
restricción del mtDNA indican que estos dos linajes mitocondriales han
podido divergir separadamente desde hace 0,4-1,4 m.a. (Martinez-Torres et
al. 1996). Posteriormente mediante un estudio con marcadores moleculares,
tanto mitocondriales como nucleares, se ha demostrado como la divergencia
entre linajes sexuales y asexuales es debida a repetidos y recientes eventos de
hibridación entre R. padi y especies relacionadas desconocidas (Delmotte et
al. 2003).
Al estudiar regiones intergénicas es conveniente trabajar en un nivel
intraespecífico, dada la dificultad posterior de los alineamientos si la
divergencia es muy elevada. Pero por otro lado es necesario que entre los
clones empleados haya transcurrido un tiempo suficiente para generar
variabilidad y poder detectar polimorfismos. Los clones de B. aphidicola de
R. padi con diferentes ciclos de vida cumplen este requisito, de modo que son
un modelo adecuado para este estudio. Así mismo, cepas de B. aphidicola de
especies próximas de Rhopalosiphum, pueden ser útiles para extender el
estudio a una escala interespecífica.
5.1.7 “Candidatus Blochmannia”
Otra de las especies adecuadas para la caracterización del proceso de
reducción genómica en sus últimas etapas, por las razones previamente
argumentadas, es el endosimbionte de hormigas Blochmannia.
Cuando una especie es descrita de acuerdo al Bacteriological Code,
además de la información genómica como son las secuencias que permitirán
determinar su posición filogenética, toda la información (incluyendo hechos
estructurales, metabólicos y reproductivos) ha de incluirse en la descripción,
128
..............……………………………………………………………………………….Introducción
junto con el ambiente natural en el cual el organismo puede ser identificado
mediante hibridación in situ u otras técnicas de identificación celular. Según
el ICSP (International Committee on Systematics of Prokaryotes), el término
Candidatus ha de ser empleado para describir entidades procariotas, para las
que existe más de una secuencia disponible pero para las cuales todas las
características requeridas para la descripción en el Bacteriological Code
todavía no están disponibles. De modo que los microbiólogos a menudo
emplean este término para aquellas especies bien caracterizadas, pero que
todavía no han podido ser cultivadas. En base a estos argumentos, el modo
correcto para hacer referencia al endosimbionte primario de hormigas es
“Candidatus Blochmannia”, pero con el fin de simplificar la nomenclatura
empleada en nuestro estudio designamos el género como Blochmannia y a
continuación el término específico de la especie a la que hacemos referencia.
En 1887, Blochmann describió la asociación entre una bacteria,
Blochmannia, y los tejidos del intestino medio y los ovarios en las especies
de hormiga Camponotus ligniperdus y Formica fusca, ambas pertenecientes a
la subfamilia Formicinae (Blochmann, 1887). Se trata de una bacteria gram
negativa, de forma bacilar, perteneciente a la subclase gamma de las
proteobacterias, que se halla en el citoplasma de células especializadas
denominadas bacteriocitos, intercaladas entre las células epiteliales del
intestino medio en hormigas de la familia Formicinae (Dasch et al. 1984;
Schröder et al. 1996; Sauer et al. 2000, 2002). Al contrario de lo que ocurre
en B. aphidicola, se encuentra libre en el citoplasma de los bacteriocitos y no
en el interior de vacuolas especializadas. También se ha encontrado en el
citoplasma de oocitos de reinas y obreras, lo que sugiere una transmisión
transovarial (Schröder et al. 1996). La bacteria se ha detectado sólo dentro de
la subfamilia Formicinae, pero no en especies de las subfamilias ancestrales
Nothomyrmeciinae, Myrmeciinae y Ponerinae.
Hasta ahora los genomas secuenciados de Blochmannia son B.
floridanus (Gil et al. 2003) y B. pennsylvanicus (Degnan et al. 2005). Las
principales características de ambos genomas se resumen en la tabla 5.1.
129
………………………………………………………………………………………….Capítulo 5
Tabla 5.1. Comparación de los hechos generales del genoma de B.
pennsylvanicus y B. floridanus.
Cromosoma, pb
%GC
Nº genes
CDS
rRNAs
tRNAs
RNAs
Pseudogenes
% Regiones codificantes
Longitud promedio CDS, pb
B. pennsylvanicus
791.654
29,6
658
610
3
39
2
4
76,7
995
B. floridanus
705.557
27,4
636
590
3
37
2
4
83,8
1.002
Ambas especies muestran una completa conservación del orden y de
la orientación de los genes compartidos. Las 86 Kb de diferencia entre
ambas, refleja la perdida diferencial de genes en ambos linajes, siendo B.
floridanus la que ha sufrido una mayor pérdida génica (Degnan et al. 2005).
En cualquier caso, ambas han sufrido una importante reducción genómica,
poseen un bajo contenido en GC y no poseen el mecanismo de inicio de la
replicación dependiente de la proteína codificada por el gen dnaA.
Al igual que otros endosimbiontes, Blochmannia presenta tasas de
evolución aceleradas en comparación con E. coli y S. typhimurium. Mientras
que esta aceleración es 10 veces superior en Buchnera que en las bacterias
entéricas, en Blochamnnia las tasas son hasta 50 veces mayores para los
cambios aminoacídicos. En concreto, B. floridanus posee una tasa superior a
B. pennsylvanicus, lo que puede reflejar elevadas tasas de mutación,
coeficientes de selección reducidos o un menor tamaño poblacional efectivo
del hospedador o del simbionte, lo que conllevaría a un incremento de la
deriva genética.
5.1.8 Las hormigas del género Camponotus
Las hormigas carpinteras constituyen el género de hormigas Camponotus,
perteneciente a la familia Formicinae (Sauer et al. 2002) (figura 5.3).
Formicinae es una de las 16 subfamilias de la familia Formicidae, formada
por unas 3.000 especies descritas hasta el momento (Grimaldi y Agosti,
130
..............……………………………………………………………………………….Introducción
2000). Se trata del mayor y más ampliamente distribuido género de hormigas,
formado aproximadamente por 1.000 especies, distribuidas por todo el
mundo (Bolton, 1995). La aparente monofilia del grupo en base a diversos
estudios (Astruc et al. 2004) no está clara, dado que se ha demostrado que
ciertos subgéneros no son monofiléticos de Camponotus (Brady et al. 2002;
Degnan et al. 2004), sino que se agrupan junto con especies de otros géneros
relacionados.
C. floridanus
C. rufipeps
C. pennsylvanicus
Figuras 5.3. Morfología de
diversas especies de hormigas
del género Camponotus.
C. floridanus es una especie que habita en la mayor parte de la
península de Florida, así como en la mayoría de las islas de la parte sur de
esta región (Deyrup y Tragger, 1986; Deyrup et al. 1988). Diversos estudios
filogenéticos ponen de manifiesto como esta especie y la especie
Camponotus rufipes forman parte de un mismo grupo filogenético separado
de Camponotus pennsilvanicus (Sauer et al. 2000; Degnan et al. 2004). Esta
distribución filogenética se haya apoyada tanto por secuencias procedentes de
Blochmannia, como por secuencias procedentes de Camponotus. Sin
131
………………………………………………………………………………………….Capítulo 5
embargo, la distribución geográfica no está completamente reflejada en estas
filogenias. Así por ejemplo, C. floridanus que habita en Florida, está más
estrechamente emparentada con C. rufipes, aislada de América del Sur, que
de otras especies residentes en Florida como C. castaneus, o C.
pennsilvanicus. Esto indica que las grandes migraciones de hormigas han
tenido lugar en el pasado y desde entonces no ha habido transmisión
horizontal de simbiontes, a pesar del solapamiento geográfico o la estrecha
vecindad de diferentes especies (Sauer et al. 2002).
Un estudio sobre la estructura poblacional de C. floridanus de la
península y las poblaciones de las islas (Gadau et al. 1996) muestra que
ambas están genéticamente aisladas. Además de esta subestructuración, este
estudio revela una mayor distancia genética entre poblaciones de islas y
continente, que entre poblaciones de islas, pese a que la distancia en Km que
separa a ambas poblaciones en ambos grupos es similar. Esto indica, que las
diferencias genéticas entre las poblaciones de C. floridanus no se deben sólo
a la distancia geográfica. De hecho, la subestructuración hallada en esta
especie es esperable por diversas razones tales como el aislamiento
geográfico, el pequeño tamaño poblacional y la endogamia en las poblaciones
de las islas. Esta diferenciación genética entre poblaciones de C. floridanus
las convierte en sujetos apropiados para el estudio de la variación
intrapoblacional de los sucesos de indels en la bacteria asociada, B.
floridanus y para el cálculo de tasas a nivel intraespecífico.
Además, las hormigas poseen un extenso registro fósil, con más de
60 especies aún existentes y 100 géneros extintos. En base a evidencias
fósiles tales como el hallazgo de hormigas en fragmentos de ámbar que datan
del Cretácico y el Terciario, se ha podido establecer la edad de diferentes
grupos (Grimaldi y Agosti, 2000). Así, la edad del clado Formicinae se ha
establecido en torno a 91-101,4 m.a. (Moreau et al. 2006). En el caso
concreto de Camponotus, no existe un registro fósil detallado. Sin embargo, a
partir de la divergencia entre las subfamilias Formicinae y Myrmicinae
estimada en 90-110 m.a. en base a la evidencia fósil (Grimaldi y Agosti,
132
..............……………………………………………………………………………….Introducción
2000), se ha inferido la edad del nodo basal de todas las especies de hormigas
asociadas con Blochmannia (29,3-35,9 m.a.) y del ancestro de numerosas
especies del género Camponotus (16,2-19,9 m.a.) (Degnan et al. 2004).
La estabilidad de la relación de simbiosis entre Blochmannia y el
género de hormigas Camponotus está apoyada por la congruencia de
filogenias de ambas especies en numerosos estudios filogenéticos (Schröder
et al. 1996; Sameshima et al. 1999; Sauer et al. 2000 y Degnan et al. 2004).
Además, el hecho de que los géneros de hormigas Camponotus, Polyrhachis
y Colobopsis formen un grupo monofilético y que la bacteria esté presente en
todos ellos, también es un apoyo a la coevolución de ambas especies.
Aunque el rol de la simbiosis no está claro, debido a la compleja
dieta del hospedador, la secuenciación del genoma parece mostrar una base
nutricional (Gil et al. 2003), dado que la bacteria contiene genes para la
biosíntesis de varios aminoácidos esenciales para el hospedador y también
genes para el reciclado del nitrógeno. Además, Blochmannia depende del
hospedador para la obtención de la mayoría de aminoácidos no esenciales,
vitaminas y cofactores. No obstante, se han sugeridos otros posibles roles del
endosimbionte, como la producción de feromonas empleadas para el
reclutamiento de alimento (Sauer et al. 2000).
Otra cuestión sin resolver es si Blochmannia es esencial para el
hospedador, ya que ha sido eliminada de hormigas de laboratorio sin aparente
detrimento (Sauer et al. 2002). Además, los bacteriocitos del intestino de
hormigas reinas se van degenerando con el tiempo, mientras que aquellos
situados en los ovarios no sufren este deterioro (Sauer et al. 2002). Es posible
por tanto, que el supuesto rol nutricional sea importante durante las fases de
metamorfosis y fundación de la colonia del hospedador, cuando las demandas
metabólicas exceden al alimento disponible (Wheeler y Martinez, 1995;
Wernegreen et al. 2003). De hecho, un estudio posterior (Wolschin et al.
2004) ha mostrado que Blochmannia prolifera durante la pupación, estado de
la metamorfosis en el que el hospedador tiene que construir todos los
componentes del mapa corporal sin entrada de alimento (Wheeler y Martinez,
133
………………………………………………………………………………………….Capítulo 5
1995). De modo que, aunque no está claro si la bacteria es indispensable para
el hospedador durante todo su ciclo vital, la presencia en todas las especies de
los géneros Camponotus, Polyrhachis y Colobopsis (Dasch et al. 1984,
Sameshima et al. 1999), la coevolución por transmisión vertical, el aparente
rol nutricional, su localización en bacteriocitos, su bajo contenido en GC
(Dasch, 1975; Gil et al. 2003) y su genoma altamente reducido, permiten
considerarla un endosimbionte primario del género Camponotus. De hecho,
la congruencia filogenética entre las filogenias de hospedador y simbionte,
sugiere que la asociación es evolutivamente estable y tan antigua como el
género hospedador, 20 m.a. (Wilson, 1985) o incluso más.
5.1.9 El reloj molecular
Para entender el proceso evolutivo que dirige la reducción del genoma es
necesario conocer no sólo el tamaño y el contenido génico de las deleciones,
sino también el momento en el que se producen estos eventos en la historia
evolutiva de los endosimbiontes (Wernegreen, 2002). La datación de los
mismos permite calcular tasas respecto al tiempo, revelando el ritmo de los
sucesos. Esta datación es posible a partir de estimas de divergencia y bajo la
hipótesis del reloj molecular.
La hipótesis de reloj molecular afirma que la tasa de sustitución
aminoacídica o nucleotídica es aproximadamente constante a lo largo del
tiempo. Bajo esta hipótesis, es por tanto posible predecir el tiempo de
divergencia entre especies a partir de las diferencias nucleotídicas o
aminoacídicas, siempre y cuando tengamos un punto de calibración que
normalmente es provisto por el registro fósil.
El reloj molecular fue empleado por primera vez en 1962 por
Zuckerkandl y Pauling, quienes a partir del tiempo de divergencia entre
humano y caballo, basado en el registro fósil y de las diferencias observadas
para las respectivas secuencias de la α-hemoglobina, calibraron un reloj
molecular que permitió establecer el tiempo de divergencia entre otras
especies.
134
..............……………………………………………………………………………….Introducción
La idea del reloj molecular, ha estado sujeta a numerosas
controversias a lo largo del tiempo. Hoy en día está claro que la idea de un
reloj molecular universal no es posible, dado que numerosos factores como
las diferencias en el tiempo de generación, en el tamaño poblacional efectivo,
la selección natural, las diferencias específicas de especie en las polimerasas,
los cambios en la función de una proteína a lo largo de tiempo, etc. impiden
que la tasa de cambio sea proporcional al tiempo (Ayala, 1999). Sin embargo,
el reloj molecular no necesita ser universal, ya que aún cuando sólo funcione
para un grupo limitado de organismos, sigue siendo muy útil para estudiar las
relaciones evolutivas o los tiempos de divergencia entre dichos organismos.
De hecho, el creciente impacto del reloj molecular se refleja en el incremento
exponencial del número de publicaciones que han empleado este método
entre 1980 y el presente a medida que se ha incrementado el número de
secuencias disponibles (Kumar, 2005).
El test del reloj molecular
El primer test de reloj molecular, fue el test de tasas relativas propuesto por
Fitch (1976), que permite examinar la hipótesis nula según la cual la cantidad
de cambio evolutivo acumulado en dos linajes es igual. Para poder llevarlo a
cabo necesitamos una tercera especie que pueda ser empleada como grupo
externo del par de especies inicial (figura 5.4).
a
O
A
b
B
c
C
Figura 5.4. Diagrama que representa la
evolución de dos especies “A” y “B” desde un
ancestro común “O” y su relación con un grupo
externo designado como “C”.
135
………………………………………………………………………………………….Capítulo 5
Atendiendo a la figura 5.4, si la hipótesis del reloj es correcta, dAO
(número de sustituciones entre el taxón A y el ancestro común a A y B) y
dBO (número de sustituciones entre el taxón B y el ancestro O) serán iguales
y por tanto dAO – dBO será igual a 0. Puesto que dAO y dBO no se conocen,
se estiman a partir de dAC y dBC. No obstante, dAC y dBC están sujetos a
errores estadísticos, por ello el test de tasas relativas lo que hace es evaluar si
dAC-dBC es significativamente diferente de 0. Este método asume que la
filogenia es conocida y el grupo externo se emplea en sustitución del ancestro
“O”. Por ello, el grupo externo escogido no ha de estar muy alejado del par
de especies estudiado, dado que a medida que éste sea más distante tendrá
muy poco impacto en el cálculo de dAC-dBC y además la estima de las
distancias será muy imprecisa.
Se ha llevado a cabo el desarrollo de diversos test de tasas relativas,
uno de ellos es el test de Tajima (Tajima, 1993), un test no paramétrico,
válido tanto para secuencias de aminoácidos como de nucleótidos. Sin
embargo, posteriormente se han desarrollado test más poderosos, como el
LRT (Likelihood Ratio Test), que puede emplearse para más de dos especies
y evalúa si éstas evolucionan o no a una misma tasa. Este test parte de una
filogenia, sobre la que se estima la longitud de las ramas por máxima
verosimilitud con el modelo escogido, bajo dos escenarios: sin forzar reloj y
forzándolo. Cuando el árbol no está forzado a cumplir reloj, carece de raíz, a
menos que se introduzca un grupo externo para enraizarlo, de modo que todas
las longitudes de rama (2n-3 para n taxones) han de ser inferidas. Mientras
que cuando el árbol ha de ajustarse al reloj, es enraizado en la rama más
larga, que representa el linaje más antiguo y sólo necesitan estimarse n-1
longitudes de rama, dado que cada vez que dos taxones compartan un
ancestro común, sólo la longitud de uno de ellos al ancestro ha de calcularse,
puesto que la otra es equivalente. De modo que el test LTR puede compararse
a una distribución chi-cuadrado con (2n-3)-(n-1) = n-2 grados de libertad,
puesto que la única diferencia en el cálculo de los parámetros es el número de
ramas que necesita ser estimado.
136
..............……………………………………………………………………………….Introducción
Por último, se han desarrollado test más sofisticados que permiten
relajar la hipótesis del reloj, como son los “relojes locales”, que asumen una
tasa constante dentro de un clado particular, pero que puede ser diferente
entre distintos clados (Yoder y Yang, 2000), o “relojes relajados” que
permiten que las tasas varíen de un linaje a otro dentro de una filogenia
(Sanderson, 1997).
137
………………………………………………………………………………………….Capítulo 5
5.2 OBJETIVOS
El principal objetivo del presente capítulo es la cuantificación empírica del
proceso de degradación génica en las últimas etapas de la reducción
genómica, mediante el análisis de indels en regiones neutras de cepas
filogenéticamente muy próximas. Los genomas empleados para llevar a cabo
este estudio son: B. aphidicola, de diferentes linajes del pulgón R. padi y de
diferente especies del género Rhopalosiphum y B. floridanus de diferentes
colonias de la hormiga C. floridanus.
A través de este análisis pretendemos responder a las siguientes
cuestiones:
-
¿Se dan inserciones y deleciones con la misma frecuencia?
-
¿La cantidad de nucleótidos implicados en eventos de inserción y
deleción es la misma?
-
¿Cuál es el tamaño más frecuente de inserciones y deleciones?
-
¿A qué ritmo se suceden los eventos de ganancia y pérdida de
DNA?
-
¿Existe un sesgo hacia la pérdida de DNA?
-
¿Qué mecanismos pueden estar implicados en la generación de
indels en estos genomas?
-
¿Cómo varía la composición nucleotídica de regiones que sufren
degradación génica?
-
¿Cuál es la tasa neutra de sustitución?
-
¿Puede haber fuerzas selectivas actuando en la reducción en etapas
finales del proceso?
138
……………………………………………………………………………...Resultados y discusión
5.3 RESULTADOS Y DISCUSIÓN
B. aphidicola
5.3.1 Reconstrucción filogenética
A partir de las regiones neutras escogidas para el estudio de la degradación génica
en B. aphidicola, una región intergénica y un pseudogen, se llevó a cabo la
reconstrucción filogenética de las especies empleadas. La neutralidad de las
regiones intergénicas únicamente puede verse afectada por la posible existencia de
elementos reguladores, pero dado que la mayor parte de éstos se han perdido en el
genoma actual de B. aphidicola (Shigenobu et al. 2000; Tamas et al. 2002; van
Ham et al. 2003), asumimos el carácter neutral de dichas regiones. Sin embargo,
en el caso del pseudogen cmk, partimos de información previa para poder asumir
el carácter neutral del mismo en las especies empleadas. En primer lugar, en base a
un trabajo anterior sabemos que cmk es un gen no esencial en E. coli, cuya
eliminación produce una disminución de la tasa de replicación (Fricke et al. 1995).
Además, nosotros sabíamos previamente que cmk es un gen en BBp y un
pseudogen en BAp, BSg y BRp (datos no mostrados sobre el tamaño de este gen
en BRp fueron obtenidos previamente). Los pulgones de R. padi, S. graminum y A.
pisum pertenecen a la subfamilia Aphidinae, pero a diferentes tribus (figura 5.5).
R. padi y S. graminum son miembros de la tribu Aphidini y A. pisum pertenece a
la tribu Macrosiphini. Dado que el pseudogen cmk en BAp posee un tamaño y un
contenido en GC similar al gen activo, postulamos que la pseudogenización en esta
especie es reciente. Por otro lado, el bajo contenido en GC y el pequeño tamaño
del pseudogen cmk en BSg y BRp indicarían que la pseudogenización comenzó
tempranamente en el linaje Aphidini.
139
………………………………………………………………………………………….Capítulo 5
Subfamilia
Pemphiginae
Tribu
Especie
Fordini
BBp
Macrosiphini
Aphidinae
Gen activo
840 (24,9%)
BAp
BSg
Aphidini
929 (24,7%)
823 (16,7%)
BRp
524
BRm
Ps reciente Ps antiguo
Figura 5.5. Clasificación y relación filogenética de BBp, BAp, BSg, BRp y BRm.
Los valores que aparecen sobre cada una de las ramas muestran la longitud y el
contenido en GC del gen/pseudogen cmk, para cada una de estas especies. En base a
estos valores podemos inferir el momento de la pseudogenización en cada linaje.
El pseudogen cmk fue la primera región escogida con el fin de poder
utilizar la secuencia del gen activo, como referencia para facilitar el
alineamiento posterior de las secuencias. Además, era necesario escoger un
pseudogen que llevara inactivo el tiempo suficiente como para poder estar
seguros de que era una región realmente neutra y no un gen fragmentado, que
todavía puede dar lugar a pequeñas cantidades de producto funcional
(Gurvich et al. 2003). La segunda región escogida fue un espaciador
intergénico (IGR), el único criterio tomado a la hora de seleccionarla fue
escoger una región neutra con un tamaño tal que pudiera ser secuenciada
directamente.
En primer lugar obtuvimos la secuencia de cmk para los diferentes
clones de BRp. El resultado fueron 36 secuencias de una misma longitud:
597 pares de bases, con total ausencia de indels. Los únicos polimorfismos
entre las secuencias son debidos a 6 sustituciones. La reconstrucción
agrupaba a las secuencias en dos grandes grupos, correspondientes a los dos
haplotipos mitocondriales empleados (figura 5.6).
140
......................................................................................................................Resultados y discusión
62
BRp27
BRp22
BRp33
BRp20
BRp21
BRp17
BRp36
BRp24
BRp23
BRp30
BRp31
BRp35
BRp25
BRp32
BRp26
BRp18
BRp28
BRp19
BRp37
Haplotipo mt II
BRp29
BRp34
98
BRp5
BRp8
BRp10
BRp7
BRp16
BRp4
BRp12
BRp11
BRp14
BRp6
BRp3
BRp13
BRp15
BRp2
BRp1
Haplotipo mt I
0.001
Figura 5.6. Reconstrucción filogenética de los diferentes genotipos de BRp, a partir de
la secuencia del pseudogen cmk. Junto a cada nodo se indican los valores de bootstrap
obtenidos.
Todos los genotipos con mtDNA de haplotipo I mostraron
exactamente la misma secuencia, mientras que los genotipos de haplotipo II
formaron tres grupos: BRp37, una muestra de las remotas islas de Kerguelen,
BRp29 y BRp34 de la misma región francesa (Rennes), y el resto de
genotipos.
La región intergénica IGR fue amplificada en un número más
restringido de genotipos de BRp que cmk, dada la escasa variabilidad
obtenida en el caso del pseudogen para los genotipos con un mismo haplotipo
141
………………………………………………………………………………………….Capítulo 5
mitocondrial. En el caso de la región intergénica IGR se obtuvo igualmente
una secuencia de longitud única, 477pb, para todas las secuencias
amplificadas de las diferentes muestras de BRp y tres sustituciones como
únicos polimorfismos. La reconstrucción filogenética mostró la misma
separación entre los dos haplotipos mitocondriales que habíamos obtenido a
partir de las secuencias del pseudogen cmk y alguna variación dentro del
grupo con haplotipo mtII, que separaba BRp37 y BRp29 del resto de las
muestras (figura 5.7).
BRp23
BRp25
65 BRp26
BRp20
31
Haplotipo mt II
BRp27
BRp28
BRp37
BRp29
BRp10
BRp14
BRp7
BRp8
86 BRp9
BRp1
Haplotipo mt I
BRp6
BRp11
0.0005
Figura 5.7. Reconstrucción filogenética de los diferentes genotipos de BRp, en base a la
secuencia IGR. Los valores que aparecen junto a cada nodo son los valores de bootstrap
obtenidos.
Dada la diferenciación genética descrita para ambos haplotipos
mitocondriales en diversos estudios mediante el uso de marcadores
moleculares (Simon et al. 1996; 1999), a priori esperamos encontrar, aunque
moderadamente, divergencia en regiones neutras entre ambos linajes, pese a
tratarse de individuos pertenecientes a una misma especie. Sin embargo, la
variabilidad obtenida fue muy escasa y con total ausencia de indels. Esta
reducida divergencia detectada a nivel intraespecífico entre los diferentes
linajes de BRp es congruente con la escasa y/o nula variabilidad detectada a
nivel intraespecífico en estudios previos llevados a cabo sobre secuencias de
mtDNA en diversas especies de pulgones (Powers et al. 1989; Simon et al.
142
......................................................................................................................Resultados y discusión
1995; Barrette et al. 1994; Bulman et al. 2005). Además, nuestros resultados
confirman, tal y como se demostró recientemente, que la divergencia entre
linajes sexuales y asexuales no es debida a un origen antiguo como
inicialmente se sugirió, sino a repetidos y recientes eventos de hibridación
entre R. padi y especies relacionadas desconocidas (Delmotte et al. 2003).
La escasa variabilidad obtenida a nivel intraespecífico, incluso para
genotipos geográficamente muy alejados y la ausencia de indels, nos obligó a
alejarnos más en la escala temporal y a estudiar la variabilidad a nivel
interespecífico entre B. aphidicola de diferentes especies del género
Rhopalosiphum. En este caso, sólo trabajamos con las cuatro secuencias de
BRp que habían mostrado algún polimorfismo en los análisis previos (por
ejemplo BRp 11, 26, 29 y 37). El rango de tamaños de las secuencias
obtenidas oscilaba entre 597-841 pb para cmk y entre 463-499 pb para la
región IGR. En el caso de cmk, los alineamientos revelaron un gran indel
hacia el final de esta región. Esta zona fue eliminada del alineamiento, para
su análisis posterior, con el objetivo de estudiar independientemente el efecto
de indels de pequeño tamaño (<100 pb). De modo que continuamos el
análisis con la primera región de cmk, de forma que el rango de tamaños de
las secuencias modificadas oscilaba entre 548-552 pb.
El elevado nivel de polimorfismo entre las secuencias nos obligó a
un estudio de los parámetros del alineamiento (ver material y métodos,
apartado 3.3.1), especialmente en relación con los valores de penalización por
abrir un hueco en el alineamiento (GOP) y por extenderlo (GEP). En base a
este estudio, finalmente se llevaron a cabo cuatro alineamientos para cada
región, cada uno de ellos con una combinación diferente de valores de GOP y
GEP (anexos 7 y 8). A la hora de llevar a cabo las reconstrucciones
filogenéticas de estos cuatro alineamientos, se escogieron dos, el más y el
menos restrictivo respecto a la penalización asociada a la apertura de un
hueco en el alineamiento, con un GEP de 6 y 12 respectivamente. En el caso
de cmk, el modelo evolutivo que mejor se ajustaba a los datos de acuerdo con
el programa MODELTEST v.3.7 (Posada y Crandall, 1998), era el mismo
143
………………………………………………………………………………………….Capítulo 5
para
ambos
alineamientos:
K81+uf
(frecuencias
desiguales).
La
reconstrucción filogenética obtenida siempre fue la misma con ambos
alineamientos, independientemente del método utilizado para la construcción
del árbol: distancias, parsimonia o máxima verosimilitud (figura 5.8). La
especie más próxima a BRp fue BRi, seguida de BRm y finalmente BRn
como la especie más alejada.
En el caso de IGR, el modelo evolutivo seleccionado para las
secuencias varió en función del alineamiento, TVM+I para el alineamiento
con un GEP de 6 y K81+uf para el alineamiento con un GEP de 12, pero la
reconstrucción filogenética siempre fue la misma independientemente del
método empleado y similar a la obtenida con cmk (figura 5.8).
70,0,0
a) cmk
59,73-75,69
100,100,100
100,100,100
BRp29
BRp37
mtDNA (II)
BRp26
BRp11
BRp1
mtDNA (I)
BRi
BRm
BRn
b) IGR
-84
88,63 -86,51-84
0.02
99,92 -97,10
-97,100 --100
100,100,100
BRp26
BRp29
BRp11
mt DNA (II)
mt DNA (I)
BRi
BRm
BRn
0.02
Figura 5.8. Árbol filogenético de las diferentes especies de B. aphidicola de pulgones del género
Rhopalosiphum. Los valores que aparecen junto a cada nodo corresponden a los valores de
bootstrap obtenidos a partir del árbol reconstruido por distancias, verosimilitud y parsimonia, en
cada caso con los alineamientos menos y más restrictivos para los valores de GOP y GEP. a)
Reconstrucción filogenética a partir de la secuencia del pseudogen cmk. b) Reconstrucción
filogenética a partir de la secuencia de IGR.
El problema de las regiones neutras es que al no estar sometidas a
restricciones selectivas pueden acumular un elevado número de mutaciones
144
......................................................................................................................Resultados y discusión
rápidamente, lo que puede dar lugar a fenómenos de homoplasia que pueden
destruir la señal filogenética. Sin embargo, la obtención de una misma
topología única para ambas regiones con cualquiera de los alineamientos,
indica que estas secuencias contienen todavía información filogenética
válida, pese a la divergencia acumulada entre las mismas. La reconstrucción
obtenida es además congruente con estudios filogenéticos previos (Bulman,
2005).
5.3.2 Análisis de las sustituciones nucleotídicas
Una vez conocida la topología de las cepas y especies empleadas, así como
los cambios nucleotídicos de las secuencias, es posible situar dichas
mutaciones en la filogenia siguiendo un criterio de parsimonia. No obstante,
dada la divergencia entre las especies, algunas sustituciones tenían más de
una solución igualmente parsimónica, de modo que no pudieron ser
localizadas en el árbol. Además, según el alineamiento analizado, el número
y tipo de sustituciones nucleotídicas podían estar sujetos a variación. De este
modo decidimos localizar en la filogenia todas aquellas sustituciones que
eran compartidas por los cuatro alineamientos llevados a cabo para cada
región y que tenían una única solución más parsimónica. En el caso de cmk,
sólo 8 sustituciones no eran compartidas por los cuatro alineamientos y de las
89 posiciones variables compartidas, 86 tenían una única solución más
parsimónica. Sin embargo, en el caso de IGR la ambigüedad fue mayor, 13
sustituciones no eran compartidas por los cuatro alineamientos y de las 50
comunes a éstos, 15 tenían más de una solución igualmente parsimónica, por
lo que no pudieron resolverse (figura 5.9).
145
………………………………………………………………………………………….Capítulo 5
BRp29
70
1v BRp37
v 1
1s 1v
a) cmk
8s 4v
8
v 100
20s 4v
20
7s 4
4v
7
59
mt DNA (II)
BRp26
100
2s BRp11 mt DNA (I)
BRi
27s 6
6v
BRm
BRn
0.02
b) IGR
v
6s 1v
10s 33v
11s
BRp11
100
1s
1
1
1v BRp26
1s 1v 75
1
mt DNA (II)
BRp29
100
mt DNA (I)
BRi
BRm
BRn
0.02
Figura 5.9. Localización en el árbol de los sucesos de transición (s) y transversión (v), en cada
una de las regiones analizadas en B. aphidicola de pulgones de diferentes especies del género
Rhopalosiphum.
Tal y como se espera al trabajar con una secuencia neutra, las ramas
más largas del árbol son aquellas que acumulan un mayor número de
cambios, debido a un tiempo más largo de evolución en todos los linajes
empleados. Igualmente, el número total de transiciones fue superior al
número de transversiones, tal y como se espera cuando se trabaja con
secuencias relativamente cercanas, en nuestro caso con un tiempo de
divergencia inferior a los 50 m.a.
A continuación, estudiamos la posible existencia de algún sesgo en
los cambios nucleotídicos. Para ello, es necesario corregir las sustituciones
detectadas en base a la composición inicial de las secuencias. En primer
lugar, estimamos el número de cambios nucleotídicos direccionales en cada
región y dividimos cada valor por la frecuencia en la secuencia estudiada del
nucleótido original de cada cambio. De este modo, obtenemos la frecuencia
relativa de cada clase de sustitución nucleotídica (fij) (Tamura y Nei, 1993). A
continuación, agrupamos los cambios que no podían ser distinguidos (fAG =
146
......................................................................................................................Resultados y discusión
fTC; fAT = fTA; fAC = fTG; fCA = fGT; fGC = fCG; fGA = fCT) dado que no podemos
diferenciar la hebra mutante y la complementaria (ver tabla 5.2).
Tabla 5.2. Porcentaje de cada tipo de sustitución
nucleotídica en las dos regiones analizadas en B.
aphidicola
de
diferentes
especies
de
Rhopalosiphum.
Cambio nucleotídico
cmk
IGR
A→G = T→C
17,74
35,5
A→T = T→A
5,28
4,44
A→C = T→G
1,42
3,07
C→A = G→T
10,83
8,99
C→G = G→C
2,06
0
G→A = C→T
62,67
48
CG → AT
73,5
57
AT →GC
19,6
38,6
El número de cambios que incrementan el contenido en AT es
mucho mayor al número de cambios que aumentan la proporción de GC en
las secuencias, lo que es congruente con el bajo contenido en GC de los
genomas de B. aphidicola (en torno al 28%) y el sesgo hacia AT,
previamente descrito en esta especie, que es más fuerte en la tercera posición
de los codones y en regiones neutras (Moran, 1996).
La mayor frecuencia de transiciones frente a transversiones y el
sesgo hacia AT, se ha descrito en diversos organismos tanto procariotas como
eucariotas: Rickettsia, Drosophila, o mamíferos (Li et al. 1984; Petrov y
Hartl, 1999; Andersson y Andersson, 1999). No obstante, el sesgo hacia AT
es especialmente notable en bacterias obligadas intracelulares que se
caracterizan casi siempre por un bajo contenido en GC (menos del 35% en la
mayoría de los casos) (Wernegreen, 2002b; Rocha y Danchin, 2002). La
hipótesis más aceptada para explicar este aumento de AT es el incremento del
dominio del sesgo mutacional, frente a la selección a favor de una elevada
eficacia durante la traducción y de la preservación de la función génica
147
………………………………………………………………………………………….Capítulo 5
(Clark et al. 1999; Shigenobu et al. 2001; Palacios y Wernegreen, 2002). El
dominio de este sesgo mutacional frente a la selección se explicaría por la
deriva asociada a genomas de mutualistas y patógenos obligados, como
consecuencia de su escaso tamaño poblacional. El efecto de este sesgo
mutacional es el aumento del contenido en AT en estos organismos, debido a
la pérdida de elementos implicados en reparación (Ochman y Moran, 2001).
Así, la explicación más probable a este sesgo en B. aphidicola es la pérdida
de los genes que codifican enzimas de reparación del DNA y/o la pérdida de
eficacia de estos enzimas como previamente se ha mostrado en otros trabajos
(Wernegreen, 2005). En particular, la incorporación de uracilo en el DNA,
bien debido a un error durante la replicación o bien debido a desaminación de
C a U, si no es impedida o corregida, da como resultado una presión
mutacional hacia AT (Beletskii y Bhagwat, 1996; Glass et al. 2006).
Sin embargo, ha sido propuesta una explicación alternativa (Rocha
y Danchin, 2002) según la cual el sesgo hacia AT podría ser resultado de
selección. Según esta segunda hipótesis, la mayor disponibilidad de AT y el
mayor coste asociado al incremento en GC, explicarían que en un contexto de
pocas fuentes y limitadas capacidades metabólicas, como es el caso de
bacterias intracelulares, el sesgo hacia AT sería ventajoso dado que permitiría
explotar mejor las fuentes disponibles.
En nuestro caso, este sesgo hacia AT obtenido en las regiones de B.
aphidicola analizadas es más elevado en cmk que en IGR (73,5% de los
cambios de G o C a A o T en cmk versus 57% de los cambios en IGR). Una
primera explicación es que el mayor número de sustituciones no resueltas en
IGR puede introducir un sesgo en los resultados. Sin embargo, dado que la
mayoría de los cambios se resuelven y los resultados, mayor número de
transiciones frente a transversiones y sesgo hacia AT, son congruentes con lo
esperado, suponemos que las sustituciones resueltas son suficientemente
representativas de los cambios en esta región intergénica. Para encontrar una
explicación a esta diferencia analizamos los sitios nucleotídicos que
contenían guanina o citosina, con el fin de ver si alguno de ellos podía tener
148
......................................................................................................................Resultados y discusión
algún tipo de restricción funcional en IGR. De hecho, encontramos 3
citosinas, que podrían corresponder a la secuencia Shine-Dalgarno del gen
hupA y 10 guaninas/citosinas, que podrían estar implicadas en la formación
de una horquilla de terminación del gen rpoC (figura 5.10).
SD
a)
BRp26
BRp29
BRp11
BRi
BRm
BRn
1
TATTTTCCCT
TATTTTCCCT
TATTTTCCCT
TATTTTCCCT
TATTTTCCCT
TATTTTCCCT
TTTT.ACTTA
TTTT.ACTTA
TTTT.ACTTA
TTTTTACTTA
TTTTTACTTA
TTTTGACTTG
T A
A
T
T
G
T-A
C-G
b)
BRp26
BRp29
BRp11
Bri
BRm
BRn
T.TTG..GCT
T.TTG..GCT
T.TTG..GCT
T.TTG..GCT
C.TTG..GCT
TATTACAGCT
510
GCTTTTAAGA GCAGCCATAG
GCTTTTAAGA GCAGCCATAG
GCTTTTAAGA GCAGCCATAG
GCTTTTAAGA GCAGCCATAG
GCTTTTAAGA GCAGCCATAA
GCTTTGAAGA GCAGCCATAA
G-C
T-A
C-G
G-C
G-C
T-A
Figura 5.10. Localización de secuencias reguladoras en la región IGR. a) Posiciones
nucleotídicas implicadas en una secuencia Shine-Dalgarno b) Posiciones nucleotídicas
implicadas en la formación de una horquilla de terminación.
Estos nucleótidos invariantes representan el 20% del total de GC de
esta región intergénica, de modo que el débil sesgo hacia AT en IGR podría
ser explicado por la presencia de estos motivos ricos en GC. Estos resultados
apoyan las conclusiones de Clark et al. (1999), en base a los cuales el
contenido en AT no es sólo resultado de equilibrio mutacional, sino de un
equilibrio entre mutación y restricciones selectivas. Por otro lado, también
esperamos que el sesgo hacia AT sea inferior en la IGR respecto al
pseudogen, dado que a medida que pasa el tiempo, la cantidad de GC que
puede mutar en una región neutra se reduce y el pseudogen es una región
neutra más reciente.
Además, los valores hallados para cmk se hallan más próximos a los
valores encontrados en pseudogenes de Rickettsia (70,4 versus 22,9)
(Andersson y Andersson, 1999), por lo tanto consideramos que son más
149
………………………………………………………………………………………….Capítulo 5
representativos de los cambios en regiones neutras. De hecho, aunque cmk
sea un pseudogen reciente en las especies estudiadas, se ha demostrado que el
sesgo hacia AT típico de regiones neutras de B. aphidicola se puede alcanzar
rápidamente desde secuencias con una composición intermedia (Clark et al.
1999).
5.3.3 Análisis de los indels
Una vez conocida la topología del árbol filogenético de las especies
estudiadas, los indels pueden diferenciarse como sucesos de inserción o
deleción, al posicionarlos sobre la misma siguiendo un criterio de máxima
parsimonia, tal y como se describe en la tabla 5.3.
Tabla 5.3. Escenarios posibles (desde la A a la N) para los eventos de
indels detectados: “x” indica la presencia de nucleótido/s, y “.” la ausencia
de nucleótido/s. Cada caso es resuelto siguiendo un criterio de máxima
parsimonia (D, deleción; I, inserción; ?, caso no resuelto).
BRp
BRi
BRm
BRn
A
.
x
x
x
D
B
x
.
x
x
D
C
x
x
.
x
D
D
x
x
x
.
?
E
.
.
x
x
D
F
.
x
.
x
?
G
.
x
x
.
?
H
x
.
.
x
?
I
x
.
x
.
?
J
x
x
.
.
I
K
.
.
.
x
?
L
x
.
.
.
I
M
.
x
.
.
I
N
.
.
x
.
I
Siguiendo este criterio, aunque la posición y el tamaño de algunos
indels variaban ligeramente según los parámetros del alineamiento
empleados, independientemente del alineamiento escogido, el número de
deleciones detectado fue siempre superior al número de inserciones. De igual
modo, el número total de nucleótidos perdidos fue siempre superior al
número de nucleótidos incorporados por eventos de inserción.
Dadas las ligeras variaciones de tamaño y posición de los indels
según los parámetros de GOP y GEP escogidos, para los análisis posteriores
decidimos trabajar únicamente con aquellos nucleótidos implicados en cada
indel, que fueran compartidos por todos los alineamientos escogidos. La
dificultad de alinear regiones no codificantes ha sido puesta de manifiesto en
150
......................................................................................................................Resultados y discusión
estudios previos (Morton, 1995; Lee, 2001). De hecho, las regiones más
variables de un alineamiento suelen ser eliminadas debido a la dificultad a la
hora de alinearlas. Sin embargo, estas regiones son normalmente las que más
rápidamente evolucionan y por lo tanto, pueden ser las más efectivas para
resolver la relación entre especies muy cercanas y contribuir a las estima de
longitud de ramas, tasas evolutivas y tiempos de divergencia. Además, la
eliminación de porciones del alineamiento puede sesgar los resultados.
Debido a esto, se han desarrollado diversos métodos que intentan incorporar
estas secuencias en los análisis evolutivos, en lugar de ignorarlas. Entre los
más ampliamente empleados, aunque no han sido formalmente denominados,
están los que se engloban bajo el nombre de “Métodos de análisis múltiple”
(Lee, 2001). Estos métodos, lo que hacen es variar los parámetros del
alineamiento para obtener todos los alineamientos posibles, tomando
finalmente sólo los resultados comunes a todos ellos. Esta es la estrategia que
nosotros hemos seguido, a la hora de alinear las secuencias de B. aphidicola
de diferentes pulgones del género Rhopalosiphum (ver material y métodos,
apartado 3.3.1), dado el elevado nivel de divergencia entre las secuencias y la
consecuente dificultad de alinearlas.
El problema de estos métodos es, que dado que los parámetros
pueden combinarse de manera infinita, esto puede dar lugar a resultados
interminables. Pero en primer lugar hay restricciones obvias, por ejemplo, a
partir de un valor máximo para la penalización de un hueco que se determina
empíricamente el alineamiento ya no varía (Gatesy et al. 1993) y existe un
mínimo para el coste de un hueco, que es la mitad del coste de una
sustitución (Wheeler, 1995). Aún así, es posible que la restante combinación
de parámetros a explorar sea excesiva, pero el valor de los parámetros puede
acotarse también en base a información previa, por ejemplo la razón de
transiciones y transversiones pueden determinarse empíricamente, cómo ha
sido nuestro caso.
En cualquier caso, los parámetros más importantes de un
alineamiento son el GOP y el GEP (Tyson, 1992), Vingron y Waterman,
151
………………………………………………………………………………………….Capítulo 5
1994; Wheeler, 1995), que sólo pueden ser determinados empíricamente
(Vingron y Waterman, 1994). De hecho, los valores por defecto de dichos
parámetros que dan los programas únicamente se han elegido porque
proporcionan resultados “biológicamente interesantes”. El valor de estos
parámetros determinará el número de huecos en el alineamiento y el objetivo
es que estos huecos representen indels, es decir eventos mutacionales (Olsen,
1988). Nosotros hemos acotado el espacio a explorar de combinaciones entre
ambos parámetros en base a diversos criterios. Por un lado, con criterios de
estrategia de búsqueda: en base a estudios previos se han determinado las
combinaciones mínimas para encontrar todas las combinaciones ortogonales
de ambos (Morrison y Ellis, 1997) y saber cuántas de éstas son suficientes
para detectar la fuerza de la señal filogenética (Sanchis et al. 2001). Por otro
lado, con criterios empíricos: dado que conocemos el valor del ratio
transiciones/transversiones esperado y que los indels más frecuentes, en
bacterias obligadas intracelulares, son de pequeño tamaño (Andersson y
Andersson 1999; Tamas et al. 2002; van Ham et al. 2003).
Con todos estos criterios hemos reducido las combinaciones de
parámetros a explorar y finalmente, hemos tomado los resultados comunes de
todas aquellas combinaciones no descartadas. La congruencia filogenética y
el elevado número de eventos mutacionales comunes, desde las diferentes
regiones resultantes de las distintas combinaciones de parámetros escogidas,
son un apoyo favorable de la estrategia empleada.
Además de tomar los eventos comunes, aquellos localizados en la
rama de BRn no se tuvieron en cuenta, dado que esta especie se utiliza como
grupo externo. De este modo, los indels fueron localizados sobre el árbol
filogenético tal y como se muestra en la figura 5.11.
152
......................................................................................................................Resultados y discusión
BRp29
70
a) cmk
1D 2II
59
BRp37
mt DNA (II)
BRp26
100
1I 6D
BRp11 mt DNA (I)
100
2I 1
1D
BRi
1
1I 2D
BRm
BRn
b) IGR
0.02
1I 1D
22I 55D
100
75
BRp26
mt DNA (II)
BRp29
100
BRp11 tmt DNA (I)
BRi
33I 44D
BRm
BRn
0.02
Figura 5.11. Localización en el árbol de los diferentes eventos de inserción/deleción (I/D)
detectados siguiendo un criterio de máxima parsimonia.
En base a este criterio, al igual que ocurría para cada uno de los
alineamientos para los indels comunes a ambas regiones, el número de
deleciones fue mayor al número de inserciones, tanto en cuanto al número de
eventos (20 y 12 respectivamente), como en cuanto al número de nucleótidos
implicados (235 y 18, respectivamente) (figura 5.12).
250
cmk
200
30
25
Número de eventos
Número de nucleótidos
150
IGR
Número de eventos
Número de nucleótidos
20
15
100
10
50
5
0
0
Deleciones
Inserciones
Deleciones
Inserciones
Figura 5.12. Número de eventos de inserción/deleción y número total de
nucleótidos implicados en dichos eventos.
153
………………………………………………………………………………………….Capítulo 5
Estos resultados confirman la predominancia de las deleciones sobre
las inserciones y el sesgo hacia la pérdida de DNA, previamente descrito en
otros organismos, tanto eucariotas como procariotas (Mira et al. 2001;
Comeron, 2001). En el caso de bacterias obligadas intracelulares, sólo en el
patógeno intracelular Rickettsia se ha llevado a cabo un análisis detallado de
los eventos de indels entre diversas especies próximas de un mismo género
(Andersson, 2000; Andersson y Andersson, 1999). Nuestro estudio en B.
aphidicola a nivel intraespecífico, confirma los resultados obtenidos en
Rickettsia, la existencia de un sesgo hacia la pérdida de DNA.
El elevado número de nucleótidos implicados en las deleciones de
cmk se debe principalmente a la gran deleción hallada de aproximadamente
200 nucleótidos. Sin embargo, aún sin tener en cuenta dicha deleción, el
número de nucleótidos delecionados es superior al número de nucleótidos
insertados, tanto en cmk como en IGR.
La distribución de frecuencias del tamaño de los eventos de
inserción/deleción se muestra en la figura 5.13.
154
......................................................................................................................Resultados y discusión
11
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
Tamaño de deleciones
8
9
0
1
2
3
4
5
6
7
8
11
10
9
8
7
6
5
4
3
2
1
0
10
9
10
Tamaño de inserciones
0 1 2 3 4 5 6 7 8 9 10
200
Tamaño de deleciones
Número de inserciones
0
Número de inserciones
b) cmk
Número de deleciones
Número de deleciones
a) IGR
11
10
9
8
7
6
5
4
3
2
1
0
11
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
Tamaño de inserciones
Figura 5.13. Distribución del número de deleciones e inserciones en base al número de
nucleótidos implicados en dichos eventos.
En el caso de cmk, el tamaño de las deleciones e inserciones
detectadas fue siempre de 1 nucleótido, excepto para la gran deleción hallada
de aproximadamente 200 nucleótidos. Al igual que en el caso de Rickettsia,
la mayor proporción de nucleótidos delecionados frente a los insertados, es
debida a eventos escasos de mayor tamaño (Andersson y Andersson, 2001),
en nuestro caso a esta gran deleción hallada en cmk. En el caso de IGR,
hallamos eventos de un tamaño superior a 1 nucleótido, pero nunca mayor de
10 nucleótidos. Además, es importante destacar que los indels de un tamaño
superior a 1 nucleótido, se detectaron siempre en ramas internas del árbol y
pueden ser por tanto, el resultado de la confluencia con el tiempo de sucesos
adyacentes que implicaban únicamente 1 nucleótido. Estos resultados son
congruentes con la prevalencia mayoritaria de sucesos de inserción/deleción
de pequeño tamaño (entre 1-5 nucleótidos) descrita tanto para procariotas
como eucariotas (Saitou y Ueda, 1994; Petrov y Hartl, 1998; Bensasson et al.
2001; Andersson y Andersson, 2001).
155
………………………………………………………………………………………….Capítulo 5
Aproximadamente una tercera parte de los eventos de 1nt (34%) de
ambas regiones formaban parte de una cola de mononucleótidos.
Respecto a la gran deleción hallada en cmk, el análisis de esta
secuencia reveló tres repeticiones directas en torno a esta región (figura 5.14).
BRp
BRi
BRm
TTTTTAAAAA ATTTGT TTTT TTTGAA .... .......... ..........
TTTTTAAAAA .....T TTTT TTTGAA .... .......... ..........
TTTTTGAAGA .....T TTTT TTTAAA TTTA TTAACTCTT T TTTTTTGAA A
BRp
BRi
BRm
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
AAAAATCTAA ATTTTTTAAA AAAGGAATGA TTTTTTCTTC TAAAATAGGA
BRp
BRi
BRm
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
ATATTTAATA TAAAAAATAC TATCAATCGA TATATTTTAC TAGATTCTAA
BRp
BRi
BRm
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
AAGAGACCAA TTTAATTTTT GAGCTATGAT TTTAAATAAA GAACTTTTAC
BRp
BRi
BRm
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
TTACACCACT GCGTCTATTA ATTACAAATA AGAGGAGTTT TATTTTTCAT
BRp
BRi
BRm
.......... .AGA....A. AAAAATTTAA ATTAAAATAG ATAACATCAT
.......... .AGA....AG AAAAATTTAA ATTAAAATAG ATAAAATCAT
ATTTTTTTCA AAAAATTAAA AAAAACTTCA ATTAAAATAC ATATAATTAT
Figura 5.14. Repeticiones directas localizadas en las regiones flanqueantes
e internas a la gran deleción localizada en BRp y BRi para la secuencia del
gen cmk.
Estas repeticiones eran imperfectas, debido probablemente a la
acumulación de mutaciones por el tiempo transcurrido. Dos de ellas se hallan
flanqueando la gran deleción detectada, estando una de las copias ausente en
las especies que han sufrido la deleción, lo que sugiere que un mecanismo de
recombinación ilegítima ha sido probablemente responsable de este evento
mutacional, dada la ausencia de un gen, recA, en B. aphidicola. Puesto que el
deslizamiento de la polimerasa generalmente no da lugar a eventos del orden
de 100 nucleótidos o más (Gregory, 2003), otro mecanismo de
recombinación independiente de recA, como el entrecruzamiento desigual, es
probablemente el responsable de la aparición de esta deleción a partir de las
repeticiones flanqueantes.
156
......................................................................................................................Resultados y discusión
5.3.4 Calibrado del reloj molecular
Para estimar tiempos de divergencia entre un conjunto de especies dado es
necesario al menos un punto de calibración, es decir, tener al menos una
estima del momento de la divergencia entre dos de las especies o de los
grupos de especies empleados, a partir del cual se infiere el resto. Estos
puntos de calibrado se obtienen, normalmente, a partir del registro fósil, o a
través de métodos indirectos, como grandes eventos ya datados que pueden
asociarse a la divergencia entre especies o grupos. En el caso de las bacterias,
la carencia de un registro fósil obliga a obtener puntos de calibrado mediante
otras aproximaciones. Como ya se ha indicado, una ventaja de las bacterias
que coevolucionan con su hospedador es, que si se conocen los tiempos de
divergencia entre los hospedadores, para los cuales es más probable que
exista una datación fósil, éstos son aplicables a la bacteria asociada.
Así, en el caso de B. aphidicola, hay diversas estimas de divergencia
entre diferentes linajes de pulgones, basadas en el registro fósil o en la
datación de eventos ecológicos, que pueden asociarse a eventos de
especiación (Munson et al. 1991; Moran et al. 1993) y que pueden aplicarse a
la bacteria. En nuestro caso, empleamos la estima del tiempo de divergencia
entre las tribus Rhopalosiphini y Macrosiphini dentro de la subfamilia
Aphidinae, establecida en 50-70 m.a. de acuerdo con el registro fósil (Clark
et al.1999), tal y como se explicó en el capítulo previo. En concreto,
empleamos una especie de cada una de las subtribus citadas, S. graminum de
la tribu Rhopalosiphini y A. pisum perteneciente a la tribu Macrosiphini. Este
punto de calibrado, a priori, es útil para nuestro estudio, dado que S.
graminum pertenece a la misma tribu que los pulgones del género
Rhopalosiphum empleados, la tribu Rhopalosiphini de la subfamilia
Aphidinae.
Para calibrar el reloj molecular empleamos la secuencia del gen
plasmídico repA2, un marcador filogenético adecuado dentro de la subfamilia
Aphidinae, puesto que predice la separación de las cepas de B. aphidicola
dentro de las tribus Macrosiphini y Aphidini, tal y como se ha demostrado en
157
………………………………………………………………………………………….Capítulo 5
un estudio previo (Silva et al. 1998). Además, para este gen estaban
disponibles las secuencias para algunas de las especies empleadas en nuestro
estudio. En concreto, las secuencias de BRc y BSg, que pertenecen a la
misma tribu (Rhophalosiphini) pero a diferente género y la secuencia de
BAp, de la tribu Macrosiphini, fueron obtenidas desde la base de datos. De
modo que obtuvimos la secuencia de repA2 de los clones de BRp (uno de
cada haplotipo mitocondrial), BRi y BRm (anexo 9). La secuencia de BRn no
fue necesaria, dado que no podemos diferenciar en inserciones y deleciones
los indels de esta especie.
La reconstrucción filogenética se llevó a cabo empleando
únicamente la segunda posición de los codones, para disminuir el efecto de
posibles eventos de homoplasia, dado el nivel de divergencia asociado a las
especies utilizadas. El método de reconstrucción por máxima verosimilitud,
daba lugar a tres topologías diferentes, una de las cuales era la misma
obtenida por distancias. Mientras que máxima parsimonia daba lugar a cuatro
posibles topologías, una de las cuales era común a la obtenida por distancias
y máxima verosimilitud. Las principales incongruencias entre las filogenias
eran: por un lado la posición de BSg, que en ocasiones se agrupaba con BRm
y en otros casos, se agrupaba con BRm y con el resto de especies de
Rhopalosiphum formando un nodo trifurcado; y por otro lado, la relación
entre BRp, BRi y BRc, que en algunas topologías no quedaba resuelta. La
reconstrucción filogenética era por tanto ambigua dependiendo del método de
reconstrucción empleado. Nosotros elegimos la topología común a los tres
métodos de reconstrucción como la correcta (figura 5.15).
158
......................................................................................................................Resultados y discusión
65
64
68
52
BRp23
BRp3
BRp29
BRi
BRc
BRm
BSg
BAp
0.01
Figura 5.15. Reconstrucción filogenética por neighbor-joining de las especies
empleadas en base a la secuencia de repA2. Los valores que aparecen junto a cada
nodo son los valores de bootstrap obtenidos por distancia tras 1.000 réplicas de
bootstrap.
Para ello nos basamos en varios datos: las reconstrucciones
filogenéticas previamente obtenidas en este trabajo con las regiones neutras
empleadas y que resolvían sin ambigüedad la relación entre las diferentes
especies de Rhopalosiphum utilizadas; estudios previos llevados a cabo con
diferentes especies de pulgones de la familia Aphididae (Bulman 2005; Silva
et al. 1998) y datos morfológicos, en base a los cuales sabemos que R. maidis
pertenece al género Rhopalosiphum y por tanto, esperamos que se agrupe con
las especies de su mismo género, antes que con S. graminum. Además, la
ambigüedad asociada a la posición de BRm respecto a otras especies de su
mismo género es un problema recurrente como se ha demostrado en un
estudio previo (Rouhbakhsh et al. 1996), incluso aunque se hayan empleado
genes diferentes (del hospedador, del cromosoma bacteriano y de plásmidos
bacterianos) para resolver las relaciones filogenéticas, pese a lo cual siempre
se ve más apoyada una mayor proximidad entre R. maidis y S. graminum que
entre R. padi y S. graminum. De modo que, en base a los argumentos citados,
podemos asumir que la agrupación BSg y BRm no es real y que
probablemente es resultado de un fenómeno de atracción de ramas largas. No
obstante, dado que el tiempo de separación entre las especies empleadas
comprende un rango amplio, desde hace 50-70 m.a, llevamos a cabo
diferentes estudios para descartar cualquier posible efecto de saturación de
las secuencias. En primer lugar, dibujamos la distancia genética no corregida
frente a la corregida para cada par de secuencias (K2P y otros modelos), de
159
………………………………………………………………………………………….Capítulo 5
modo que las desviaciones de las líneas isométricas se tomaron como una
medida cualitativa del grado de saturación (Zamudio et al. 1997). Sin
embargo, con este análisis no detectamos ningún indicio de saturación. Así
mismo, llevamos a cabo un test de Xia, una medida del grado de saturación
basado en entropía (Xia et al., 2003) implementada en el programa DAMBE
v4.2.13 (Xia y Xie, 2001). Este método se basa en la observación empírica de
que en la mayoría de conjuntos de datos, las transiciones son más frecuentes
que las transversiones (Salemi y Vandamme 2003). Esto es porque sólo por
azar hay 8 posibles transversiones, pero sólo 4 transiciones. De modo que,
dibujando el número de transiciones y transversiones estimadas contra la
distancia genética para cada par de secuencias, transiciones y transversiones
crecerán linealmente con la distancia, estando las primeras siempre por
encima de las transversiones. Sin embargo, a medida que la distancia se haga
mayor puede alcanzarse la saturación y entonces las transversiones superan a
las transiciones. Este test puso de manifiesto un ligero efecto de saturación.
Con el fin de confirmar este efecto llevamos a cabo una representación de las
distancias corregidas frente a transiciones y transversiones. Este análisis
mostró que la ligera saturación detectada con el test de Xia era debida
únicamente a la secuencia de BAp y se localizaba sólo en la tercera posición
de los codones.
Adicionalmente, llevamos a cabo un test de Shimodaira y Hasegawa
(Shimodaira y Hasegawa 1999), para descartar que alguna de las topologías
obtenidas fuera significativamente mejor que el resto. Sin embargo, no
encontramos diferencias significativas entre las topologías, de modo que en
base a los datos previamente citados fijamos la topología de la figura 5.15
para testar la hipótesis del reloj molecular. Los valores de verosimilitud sin
forzar y forzando reloj fueron –ln L = 1937.56494 y –ln L = 1939.96251
respectivamente. En base a estos datos, la hipótesis del reloj molecular no
podía ser rechazada.
Además, llevamos a cabo test de tasas relativas para todas las
comparaciones posibles entre las especies. En el caso de BRp escogimos dos
160
......................................................................................................................Resultados y discusión
secuencias, una como representante del primer clado (hII) y otra como
representante del segundo clado (hI). Sólo uno de los 30 tests llevados a
cabo, el correspondiente a la comparación entre BRm, BSg y BAp, fue
significativo (p = 0.027).
Finalmente, los datos de repA2 fueron por tanto empleados para
estimar tiempos de divergencia mediante el empleo del programa BEAST,
asumiendo tasas constantes. Beast es un programa basado en estadística
bayesiana. La esencia de la inferencia bayesiana es que no hace una
distinción lógica entre los parámetros del modelo y los datos. Ambos son
considerados variables al azar, con una distribución de probabilidad conjunta.
La distribución conjunta es producto de la “verosimilitud” y la “prior”. La
“prior” es la distribución de probabilidades de los parámetros antes de los
datos observados y la “verosimilitud” es la probabilidad de los datos
observados dado cualquier valor particular de los parámetros (Beaumont y
Rannala, 2004). El objetivo de la inferencia bayesiana es calcular la
distribución posterior de los parámetros, que es la distribución condicional de
los parámetros dados los datos. A diferencia de ésta, la máxima verosimilitud
no incorpora la información de la “prior” y elige aquellas estimas de los
parámetros que maximizan la probabilidad de los datos, dados los
parámetros. Además Beast, utiliza el algoritmo MCMC (Markov chain Monte
Carlo) para construir una cadena de Markov con una distribución
estacionaria, que es la distribución de probabilidades de interés y muestrea
entonces desde la misma para hacer inferencias. La ventaja de este programa
es que los eventos de divergencia pueden datarse probabilísticamente dentro
de un rango, lo cual es una aproximación más realista al verdadero resultado,
especialmente cuando trabajamos con tiempos de divergencia elevados. Los
resultados obtenidos (figura 5.16) indican que los eventos evolutivos
estudiados abarcan un intervalo de tiempo que oscila entre los 600.000 años
hasta menos de 20 m.a. El valor de ESS es el tamaño efectivo de un
parámetro muestreado desde una MCMC y representa el número de muestras
independientes desde la distribución posterior a las que equivale la cadena de
161
………………………………………………………………………………………….Capítulo 5
Markov. Los elevados valores de “ESS” obtenidos apoyan una adecuada
estima de la distribución posterior, dado que valores muy bajos (<100)
indican que la estima de la distribución posterior del parámetro en cuestión es
pobre.
repA2
F
E
D
BRp (mt DNAI)
BRp (mt DNAII)
BRi
C
BRc
B
BRm
A
BSg
BAp
Nodo
A
B
C
D
E
F
Tiempo promedio (m.a)
59,42
19,51
14,88
11,21
4,77
0,62
Límite inferior (m.a)
50,01
12,41
8,57
6,39
2,27
0,07
Límite superior (m.a)
68,08
27,64
21,54
16,64
7,41
1,39
ESS
8085,454
5456,37
5427,05
6057,6
6411,72
8623,91
Figura 5.16. Datación de los eventos de divergencia entre las especies empleadas en base a la
secuencia del gen repA2. Para cada nodo se muestra la estima del tiempo medio obtenida, así
como el rango desde el valor mínimo al máximo posible para cada nodo. El ESS (tamaño
efectivo de la muestra) de una cadena de Markov Monte Carlo (MCMC) es una estima del
número de muestras independientes que la MCMC representa.
El tiempo de divergencia obtenido entre los linajes holo y
anholocíclicos de BRp implica un rango de divergencia más temprano a la
inicialmente propuesta en base a secuencias del mtDNA de pulgón según la
cual ambos linajes podían haber divergido entre hace 0,4-1,4 m.a.(MartínezTorres, 1996). Una divergencia más temprana es congruente con la escasa
variabilidad detectada entre ambos hablotipos mitocondriales en las regiones
neutras analizadas. Estos resultados confirman además, que la diferenciación
genética asociada a ambos linajes no es consecuencia, por lo tanto, de un
largo periodo de divergencia entre ambos como tempranamente se había
propuesto (Martínez-Torres et al. 1996; Simon et al. 1996), sino resultado de
162
......................................................................................................................Resultados y discusión
repetidos y recientes eventos de hibridación tal y como se ha demostrado en
un estudio posterior (Delmotte et al. 2003).
5.3.5 Tasas de indels y de sustitución nucleotídica
Una vez conocido el tiempo de divergencia entre los linajes estudiados, a
partir de los eventos localizados en las ramas del árbol, es posible calcular el
ritmo al que se suceden los eventos mutacionales y calcular tasas de
sustituciones y de indels respecto al tiempo transcurrido.
a)
Sustituciones
Dado el amplio rango temporal que abarcan las secuencias
empleadas, la localización en el árbol de las sustituciones nucleotídicas
siguiendo un criterio de máxima parsimonia no ha sido posible para todos los
eventos detectados tal y como vimos previamente, dado que en algunos casos
más de una única solución igualmente parsimónica se ajustaba a los datos
observados. Además, en el tiempo asociado a los datos bajo estudio es muy
probable que se hayan producido sustituciones recurrentes que no podemos
detectar. De modo que para conocer las sustituciones acumuladas en nuestras
secuencias durante el tiempo de evolución contemplado decidimos aplicar un
modelo evolutivo en lugar de basarnos en los eventos mutacionales
observados. De este modo calculamos el número de sustituciones por sitio en
cada rama aplicando el modelo de Kimura 2 parámetros con la opción
pairwise deletion y con el árbol construido por neighbor-joining. Una vez
obtenidos estos valores los dividimos por el tiempo total teniendo en cuenta
la suma de los tiempos asociados a cada una de las ramas del árbol, y
tomando para cada rama el tiempo medio entre las estimas inferior y superior.
El resultado obtenido fue de 4,3 y 6,7 x 10-9 sustituciones por sitio y año para
IGR y cmk respectivamente. Esta tasa de sustitución se halla en concordancia
con estima previas (Ochman et al. 1999; Brynnel et al. 1998), según las
cuales la tasa de sustitución neutra de B. aphidicola es 8,2 x 10-9 y 3,9 x 10-9 8 x 10-9 sustituciones por sitio y año en cada uno de los estudios,
respectivamente. Estas estimas previas se basaban en los tiempos de
163
………………………………………………………………………………………….Capítulo 5
divergencia conocidos para diferentes especies de pulgones y estaban
calculadas sobre sitios sinónimos. El hecho de que nuestras estimas, llevada a
cabo sobre los tiempos de divergencia mucho más próximos inferidos a partir
del reloj molecular y en regiones neutras, sean congruentes con los resultados
de trabajos previos, es un apoyo a favor de nuestros cálculos y un refuerzo a
las estimas llevadas a cabo en los mismos. Las tasas obtenidas son mayores
que las calculadas para bacterias de vida libre en sitios sinónimos. Esta
diferencia puede explicarse por el sesgo hacia el uso de codones preferentes,
que sufren las bacterias de vida libre en sitios sinónimos (Sharp, 1991) y que
no se da en B. aphidicola, debido a la relajación de la selección purificadora
por el incremento de la deriva (Moran, 1996). También se ha propuesto que
esta diferencia puede ser debida a que la tasa de mutación intrínseca de
endosimbiontes está incrementada debido a la pérdida de genes implicados en
la reparación del DNA (Moran y Wernegreen 2000, Itoh et al. 2002).
b) Indels
En numerosos estudios previos (Ophir y Graur 1997; Petrov 2000;
Bensasson 2001), el desconocimiento de los tiempos asociados a los eventos
de indels estudiados ha obligado a un cálculo de las tasas de indels relativas a
las sustituciones nucleotídicas. El problema de estas tasas es que no permiten
conocer si el proceso es lento o rápido (Gregory, 2003). Además, esto
dependerá de la tasa de sustitución por unidad de tiempo, la cual variará entre
organismos. En nuestro estudio, sin embargo, el calibrado de un reloj
molecular nos permite conocer el ritmo de los eventos a escala temporal.
Dado que el rango temporal que abarcan las mutaciones estudiadas
es amplio, hasta casi 20 m.a., asumimos que el tiempo transcurrido es
suficiente para esperar “a priori” un mayor número de eventos mutacionales
en las ramas más largas. En el caso de los indels, éste fue el resultado
obtenido en todos los casos, excepto para la rama correspondiente a BRm de
cmk (figura 5.16), donde el número de indels fue inferior a lo esperado, en
base al tiempo de divergencia asociado a esta especie. Una posible
explicación es que cmk no fuera un pseudogen durante la mayor parte de la
164
......................................................................................................................Resultados y discusión
evolución de este linaje. Para compobrar esta hipótesis, analizamos las
posibles pautas abiertas de lectura que presentaba la secuencia de cmk en las
diferentes especies de Rhopalosiphum. Las secuencias de BRp y BRi
presentaban pautas abiertas de lectura muy cortas y ninguna de éstas daba un
resultado positivo en una búsqueda por blastp. En el caso de BRn, detectamos
una pauta de 51 aminoácidos con una ligera similitud con cmk de B.
floridanus (e-value = 0,068). Sin embargo, en el caso de BRm detectamos
dos pautas abiertas de lectura de 81 y 63 aminoácidos respectivamente y
ambas mostraban una similitud significativa en las búsquedas por blastp con
parte de los dominios putativos de la proteína codificada por el gen activo de
cmk. Además, la composición en GC de BRm en esta región fue del 21%,
mientras que en el resto de las especies oscilaba entre 16-17%. Por tanto, en
base a esto resultados son posibles dos escenarios. Primero, que las dos
pautas abiertas de lecturas detectadas en BRm sean todavía codificantes pese
a su pequeño tamaño, debido a algún mecanismo que permita al ribosoma
leer las dos pautas como una única por un cambio de pauta (Weiss y Gallant,
1983). De hecho, en el genoma de R. conorii, se han hallado numerosas
ORFs interrumpidas, a pesar de lo cual son al menos transcritas (Ogata et al.
2001). Segundo, que cmk sea una región neutra en BRm, pero que se ha
inactivado más recientemente que en el resto de especies. Este último
escenario es el que consideramos más probable, ya que fenómenos de
inactivaciones múltiples del mismo gen ya han sido previamente descritos en
otros casos (Gómez-Valero et al. 2004a). Debido por tanto, a las
incertidumbres sobre la naturaleza del pseudogen en BRm, decidimos extraer
esta secuencia para el cálculo de las tasas de inserción/deleción.
El método utilizado para calcular las tasas de indels fue el de Saitou
(1992). En base a este método, el número total de indels se divide por la
longitud total de las ramas del árbol filogenético analizado y por la longitud
de las secuencias comparadas. Para el cálculo de los tiempos empleamos
siempre el tiempo promedio obtenido para cada nodo. Los resultados
obtenidos se muestran en la tabla 5.4.
165
Tabla 5.4 Tasas de indels, inserciones y deleciones en base al tiempo. * En el caso de cmk no se tuvieron en cuenta los datos de BRm ni la gran deleción hallada
al final de dicha región.
Deleciones/sitio/año
Region
Indels Inserciones
Deleciones
Longitud (pb) Tiempo (m.a)
Indels/sitio/año
Inserciones/sitio/año
13
5
8
7,2 x 10-10
4,5 x 10-10
cmk*
479,3
35,2
1,2 x 10-9
16
6
10
IGR
550,3
20,3
1,0 x 10-10
3,6 x 10-10
5,9 x 10-10
………………………………………………………………………………………….Capítulo 5
166
......................................................................................................................Resultados y discusión
Una vez conocido el ritmo al que se suceden los eventos, a partir del
tamaño medio de los eventos producidos, obtenemos un sesgo hacia la
pérdida de DNA con valor de 7,7 x 10-10 y 2,7 x 10-10 nucleótidos perdidos
por sitio y año en IGR y cmk, respectivamente. En el cálculo de estas estimas
no tuvimos en cuenta la gran deleción detectada en cmk. Esta deleción, de
aproximadamente 200 nucleótidos, es una deleción que ha ocurrido en el
ancestro de BRp y BRi y que por tanto, se ha producido hace 4,8-14,9 m.a.
Nosotros no conocemos la frecuencia de estos indels de mayor tamaño a lo
largo del genoma y el tiempo, pero si tenemos en cuenta esta deleción en el
cálculo de la tasa de pérdida de DNA, el resultado es una tasa de pérdida dos
órdenes de magnitud mayor (1,3 x 10-8 nucleótidos perdidos por sitio y año)
dado que entonces el tamaño medio de los eventos es de aproximadamente 20
nucleótidos.
Los resultados obtenidos, tanto si tenemos en cuenta la gran deleción
como si la excluimos del análisis, confirman un sesgo hacia las deleciones
como previamente se ha descrito en otros trabajos (Mira et al. 2001;
Comeron, 2001; Gregory, 2003). Sin embargo, si no tenemos en cuenta la
gran deleción hallada en cmk, la tasa de pérdida obtenida (2,7 x 10-10) es
demasiado reducida para explicar la pérdida de DNA que B. aphidicola ha
sufrido en el último periodo de su evolución. De hecho, esta tasa es muy
inferior a la obtenida en el capítulo previo de esta tesis de 3-5 x 10-8
nucleótidos perdidos por sitio y año para el periodo de tiempo transcurrido
tras la divergencia de las tribus Aphidini y Macrosiphini (Gómez-Valero et
al. 2004a). La primera explicación a esta diferencia de tasas es el diferente
rango de tiempo analizado en ambos casos. Mientras en el capítulo previo
estudiamos la pérdida de DNA acontecida en un intervalo de 164-86 m.a., en
el presente estudio analizamos la pérdida entre secuencias que han divergido
tan sólo durante los últimos 20 m.a. como máximo. Probablemente la tasa de
pérdida es inferior en periodos más recientes, dado que la degradación del
genoma se haya en un estado más avanzado. Sin embargo, tal y como hemos
visto previamente, en periodos recientes aún es posible la emergencia de
167
………………………………………………………………………………………….Capítulo 5
indels de tamaño considerable. De modo que si tenemos en cuenta la gran
deleción detectada, la tasa de pérdida es 10 veces mayor y próxima a los
resultados obtenidos en el primer capítulo. Tener en cuenta el tamaño de los
eventos, especialmente en el caso de eventos de un tamaño considerable, es
un factor muy importante tal y como se ha demostrado en otros organismos
para los cuales se ha visto como la diferencia de tasas entre los mismos es
resultado del tamaño diferente de los eventos detectados, antes que del
número de los mismos. De este modo se explica por ejemplo, la diferencia
entre las tasas de pérdida de los géneros de saltamontes Podisma e
Italopodisma (Bensasson, 2001). Aunque no conocemos el ritmo al que
pueden surgir indels de mayor tamaño, es necesaria una tasa mayor a la
obtenida sin tener en cuenta la gran deleción, para poder explicar la reducción
del genoma de B. aphidicola, especialmente drástica en algunos como en B.
aphidicola del pulgón C. cedri de tan sólo 420 kb.
Sin embargo, no podemos descartar que por los mismos mecanismos
surjan inserciones de un tamaño considerable (más de 100 nucleótidos) que
compensen las deleciones de tamaños similares, de modo que la tasa global
de pérdida no sea tan elevada. Nosotros pensamos que la selección podría
favorecer a estas deleciones frente a las inserciones. De hecho, diversos
autores han propuesto una explicación selectiva de la reducción de los
genomas procariotas, dado que un genoma más pequeño podría asociarse a
una tasa de replicación mayor (Andersson y Kurland, 1995, 1998; Maniloff
1996; Selosse et al. 2001). Aunque generalmente esta explicación no ha sido
aceptada, principalmente por dos razones: en primer lugar se ha observado
que la tasa de replicación de las bacterias depende principalmente de la
eficacia de los ribosomas durante la traducción y de la abundancia de tRNAs
(Kurland y Ehrenberg, 1987; Emilsson y Kurland, 1990; Mikkola y Kurland,
1991) antes que del tamaño genómico. De hecho, no se ha detectado una
correlación positiva entre tamaño del genoma y tiempos de duplicación (Mira
et al. 2001). En segundo lugar, hasta el momento, las deleciones descritas en
procariotas implican 1 o muy pocos nucleótidos de modo que producen
168
......................................................................................................................Resultados y discusión
cambios minúsculos en el tamaño genómico y por tanto, difícilmente pueden
afectar a la eficacia selectiva (Mira et al. 2001). Sin embargo, nosotros hemos
demostrado que en periodos relativamente recientes (menos de 20 m.a.)
pueden aparecer indels de un tamaño considerable para tener un efecto sobre
la eficacia, especialmente si tenemos en cuenta el pequeño tamaño genómico
de B. aphidicola. Además, es importante señalar que el genoma de B.
aphidicola es poliploide (Komaki y Ishikawa, 1999) (aproximadamente 200
moléculas por célula) y necesariamente el tamaño de estos genomas ha de
correlacionarse con el tiempo y/o energía para completar su replicación. De
modo que es razonable pensar que si entre estas moléculas existen algunas de
tamaño inferior debido a deleciones, la replicación de las mismas finalizará
antes respecto al resto y por tanto, las moléculas más pequeñas acabaran
siendo mayoritarias en la célula. Aunque la replicación de la célula depende
de la maquinaria transcripcional, la replicación del genoma necesariamente
depende del tamaño de éste. De hecho, se ha sugerido que existe competencia
entre genomas citoplasmáticos (Cosmides y Tooby, 1981). En base a esto,
diversos autores han propuesto que existe selección a favor de las deleciones
en orgánulos (Selosse et al. 2001). Un apoyo a esta idea ha sido la
descripción de la acumulación de mitocondrias con deleciones en tejidos
animales (Cortopassi et al. 1992; Simonetti et al. 1992; Wallace, 1999) y la
acumulación in vitro de plásmidos de plantas con deleciones (Day y Ellis,
1984), así como la acumulación de plástidos con deleciones en el alga
unicelular Euglena (Eximan, 1982). En estos casos, el DNA delecionado se
comporta, por tanto, como un elemento egoísta incrementando su número a
expensas de la célula u organismo. Además, si efectivamente existiera una
selección a favor de un reducido tamaño genómico, ésta es una fuerza global
que actúa sobre todo el genoma, de modo que el sesgo hacia la pérdida no se
correspondería entonces con el sesgo mutacional, sino que es el resultado de
las fuerzas selectivas, a pesar de que el estudio se lleve a cabo sobre regiones
a priori neutras.
169
………………………………………………………………………………………….Capítulo 5
De modo que si los elementos necesarios para que aparezcan indels
de tamaño considerable en B. aphidicola, están presentes tal y como se ha
mostrado; si efectivamente las deleciones tienen una ventaja selectiva, la
única restricción para la fijación de las mismas es que el fragmento implicado
en éstas no sea esencial. La condición de esencial o no está completamente
sujeta a las condiciones ambientales. En el caso de B. aphidicola, el ambiente
depende principalmente del hospedador, dado que cualquier cambio en el
estilo de vida del hospedador cambiará sus necesidades y quizás los
requerimientos de la bacteria. Por otro lado, la existencia de otras bacterias
como los endosimbiontes secundarios puede cambiar el repertorio esencial
del endosimbionte primario.
Mientras varios autores han propuesto que el genoma actual de B.
aphidicola sólo puede sufrir indels de muy pequeño tamaño, con un sesgo
hacia la pérdida que daría lugar a una muy lenta degradación génica en las
últimas etapas (Wernegreen, 2000; Mira et al. 2001), e incluso a una tasa tan
escasa como 1 nucleótido cada 10.000 años (Mira et al. 2001), nuestros
resultados no apoyan estos datos. Estas primeras hipótesis se hicieron en base
a la estabilidad del tamaño genómico de los primeros genomas de B.
aphidicola secuenciados, antes de la aparición del genoma de BCc, que
muestra que una reducción importante aún es posible tal, y como demuestran
nuestros resultados. La dinámica de la reducción es mucho más importante en
estadios recientes de lo previamente supuesto. Un ejemplo de ello es el
pseudogen cmk. Este pseudogen fue inicialmente descrito como un
pseudogen muy antiguo y la detección de una deleción de 16 pb idéntica
compartida en este pseudogen en BAp y BSg que divergieron hace 50 m.a.
(Mira et al. 2001) fue empleada como un argumento a favor del muy
reducido ritmo de la degradación en los últimos m.a. de evolución en B.
aphidicola. Sin embargo, nosotros mostramos que cmk es sujeto de
pseudogenizaciones convergentes, por lo que es más reciente de lo
inicialmente postulado y además la gran variación en el patrón de indels
170
......................................................................................................................Resultados y discusión
sobre el mismo en las distintas especies de Rhopalosiphum demuestra como
la dinámica de la reducción es muy superior a lo previamente propuesto.
De modo que, aunque es evidente que la velocidad de la reducción
en las etapas tempranas será mayor por la mayor cantidad de información que
puede perderse y la mayor presencia de elementos repetidos, en los últimos
estadios de la evolución de B. aphidicola la tasa de reducción continúa siendo
relevante tal y como hemos comprobado empíricamente. Nosotros
proponemos por tanto, un nuevo escenario evolutivo escalonado en el que
junto con una degradación gradual muy lenta (deleciones de 1-2 nucleótidos),
puntualmente pueden emerger deleciones de tamaño considerable (más de
50-100 nucleótidos) que darían lugar a cambios mayores del tamaño
genómico con efectos en la eficacia selectiva. Probablemente, estos saltos en
la evolución del genoma estarían precedidos por cambios en la información
esencial de B. aphidicola, que pueden estar asociados a diversos eventos tales
como: cambios en la dieta del hospedador, eventos de especiación, invasión
del hospedador por nuevas bacterias, etc. Estos cambios darían paso a un
conjunto de información génica susceptible de perderse y a partir de este
momento, dicha información puede ser sujeto de indels de considerable
tamaño (>50 nucleótidos) como el detectado en cmk.
5.4 B. floridanus
5.4.1 Reconstrucción filogenética
Para llevar a cabo la reconstrucción filogenética se emplearon tres conjuntos
de datos diferentes, con el fin de conocer cuál de ellos resolvía mejor la
relación entre B. floridanus de las diferentes colonias de hormigas: todas las
regiones intergénicas concatenadas, todos los fragmentos de regiones
codificantes concatenados y un concatenado de todos las regiones
amplificadas, incluyendo tanto regiones intergénicas como codificantes. La
longitud final de los alineamientos concatenados fue de 5678 nucleótidos en
el caso de las regiones intergénicas, 2204 nucleótidos en el caso de las
171
………………………………………………………………………………………….Capítulo 5
regiones codificantes y 7882 en el caso de regiones intergénicas y codificanes
conjuntamente (ver anexo 10).
La mejor resolución de las relaciones filogenéticas entre las especies
utilizadas en el estudio se obtuvo con el alineamiento que concatena tanto las
regiones intergénicas como los segmentos parciales de las regiones
codificantes flanqueantes. Aunque las regiones codificantes e intergénicas
evolucionan de modo diferente, dado que la mayor parte de cambios
nucleotídicos entre las cepas de B. floridanus se localizaban en las regiones
intergénicas (80 sustituciones en intergénicas frente a 20 en regiones
codificantes) y que comprobamos que la mayor parte de los cambios en
regiones codificantes se localizaban en terceras posiciones (14 de 20),
asumimos que la mayor parte de cambios son neutros y que por tanto,
podemos aplicar un modelo evolutivo común a todo el alineamiento.
Tanto con distancias, como con parsimonia y verosimilitud se
resolvieron los principales clados, quedando únicamente dos politomías sin
resolver (figura 5.17).
172
......................................................................................................................Resultados y discusión
CFloC1
CFloC316
CFloC10
CFloC3
CFloC51
CFloC2
CFloC96
CFloC236
CFloC308
CRufA
a)
0.02
b)
100,100,99
CFloC236
CFloC96
Grupo C
CFloC308
CFloC2
94,97,73
CFloC51
85,90,97
97,98,99
76,72,65
CFloC10
CFloC3
Grupo I
CFloC316
CFloC1
0.001
Figura 5.17. Reconstrucción filogenética de las especies y cepas empleadas de
Blochmannia. a) Reconstrucción por máxima verosimilitud de las diferentes cepas de
B. floridanus y B. rufipes b) Relación filogenética entre las diferentes cepas de B.
floridanus. Los valores que aparecen al lado de cada nodo corresponden a los valores
de bootstrap obtenidos por distancias, parsimonia y máxima verosimilitud
respectivamente tras 1000 réplicas en el caso de distancias y parsimonia, y 300 en el
caso de máxima verosimilitud.
Los resultados obtenidos muestran como las poblaciones de B.
floridanus, se dividen en dos clados principales con una distribución
norte-sur que nosotros denominamos “C” e “I”, dado que en el primero
están las colonias pertenecientes al continente y a una isla próxima a
éste, mientras que el segundo está formado sólo por colonias
pertenecientes a diferentes islas de Florida. Estos resultados se ajustan
con total precisión a la distribución geográfica de hormigas empleadas.
La colonia CFloC308 (Tarpon Spring), que pertenece a la península de
Florida, se agrupa con las colonias CFloC96 y CFloC236, ambas
173
………………………………………………………………………………………….Capítulo 5
pertenecientes a la isla de Orchid situada al noreste de la península y
muy próxima a ésta (figura 5.18). Todas éstas constituirían el grupo de
colonias pertenecientes al continente, pues aunque Orchid es una isla, se
halla aproximadamente a tan sólo 3 Km de la península.
Tarpon Springs
(CFloC236)
Grupo C
Isla Orchid
(CFloC308, CFloC96)
Isla Sansibel
(CFloC2)
Isla Key Largo
(CFloC51)
Islas del sur
(CFloC10, CFloC3,
CFloC1,CFlo316)
Grupo I
Figura 5.18. Localización geográfica de las colonias pertenecientes a la península de
Florida y a las diversas islas del archipiélago. La isla de Orchid se agrupa con la región
peninsular de Tarpon Spring dada su elevada proximidad al continente.
El resto de colonias no pertenecientes a la isla de Orchid ni a la
región de Tarpon Spring, constituiría el grupo de las islas. La especie
más externa de este clado es CFlo2, que es justamente la que pertenece
a la isla más alejada del resto de las islas del sur de Florida y al mismo
tiempo la más cercana al continente. La segunda especie más externa
pertenece a Key Largo, la isla más próxima al continente de la cadena
de islas situada al sur de la península (ver figura 5.18). A continuación
de éstas se agruparían en un mismo clado el resto de colonias que son
justamente las pertenecientes a islas situadas al sur del archipiélago y
muy próximas entre sí (figura 5.19).
174
......................................................................................................................Resultados y discusión
Isla Summerland(CFloC1)
Isla Key Largo (CFloC51)
Isla Saddlebunch (CFloC3)
Isla Sugarloaf (CFloC10,CFloC316)
Figura 5.19. Localización geográfica de las colonias de hormigas pertenecientes al
archipiélago de islas situado al sur de la península.
Estos resultados confirman las subestructuración poblacional entre
colonias pertenecientes a las islas y las colonias pertenecientes al continente
previamente descritas (Gadau et al. 1996). Al igual que en este trabajo,
nosotros encontramos mayor distancia genética entre las poblaciones de islas
y las poblaciones de continente, que entre las propias poblaciones de islas;
aunque la distancia geográfica sea similar o incluso superior en el caso de
poblaciones de islas. Así por ejemplo, CFloC2 está más alejada de
CFloC236, CFloC96 y CFloC308, que de CFloC51, pese a que la distancia
geográfica en ambos casos sea similar.
5.4.2 Análisis de las sustituciones nucleotídicas
Conocida la filogenia de las cepas y especies empleadas, así como los
cambios nucleotídicos de las secuencias, es posible localizar dichas
175
………………………………………………………………………………………….Capítulo 5
mutaciones en el árbol filogenético siguiendo un criterio de parsimonia al
igual que hicimos en el caso de B. aphidicola.
En el caso de las secuencias de B. floridanus existen 81 posiciones
que muestran cambios nucleotídicos. Dada la elevada proximidad de las
secuencias nucleotídicas, casi todos los cambios nucleotídicos (72) han
podido resolverse sin ambigüedades con una única solución más parsimónica
(figura 5.20).
6s 2v
6s 9v
CFloC236
2s 0v
2s 0v
CFloC96
CFloC308
7s 1v
6s 1v
1s 3v
CFloC2
CFloC51
4s 6v
1s 4v
1s 2v
5s 1v
CFloC10
CFloC3
1s 0v
CFloC316
0.001
1s 0v
CFloC1
Figura 5.20. Localización en el árbol filogenético de las transiciones (s) y transversiones (v)
detectadas entre las secuencias de 16 regiones intergénicas concatenadas de B. floridanus.
Al igual que en el caso de las regiones analizadas en B. aphidicola,
las ramas más largas del árbol son aquellas que acumulan un mayor número
de cambios, lo que es esperable cuando todas las regiones son neutras en
todos los linajes analizados, si ha transcurrido el tiempo suficiente.
Igualmente, el número total de transiciones fue superior al número de
transversiones, tal y como se espera cuando se trabaja con linajes próximos.
A continuación, estudiamos la posible existencia de algún sesgo en
los cambios nucleotídicos siguiendo el mismo procedimiento empleado en el
caso de B. aphidicola. Todas las regiones fueron analizadas conjuntamente,
dado que todas son regiones intergénicas y por lo tanto no esperamos a priori
diferencias entre las mismas. El resultado se muestra en la tabla 5.5.
176
......................................................................................................................Resultados y discusión
Tabla 5.5. Porcentaje de cada tipo de sustitución nucleotídica
para las regiones intergénicas de B. floridanus analizadas.
Cambios nucleotídicos 16 Regiones intergénicas
A→G = T→C
9,94
A→T = T→A
5,44
A→C = T→G
5,96
C→A = G→T
17,35
C→G = G→C
0
G→A = C→T
61,32
GC→AT
78,67
AT→GC
15,9
Al igual que en las regiones analizadas de B. aphidicola, los
resultados muestran un sesgo hacia las transiciones y hacia los cambios que
incrementan el contenido en AT de las secuencias. En comparación con los
datos de las dos regiones analizadas en B. aphidicola, la proporción de
cambios de GC a AT es más similar a la obtenida para la región cmk (73,5%)
que para IGR (57%). Esto confirma que el sesgo en cmk es más
representativo de los cambios en regiones neutras de B. aphidicola, dado que
este valor es más similar al de otros microorganismos intracelulares
obligados como Rickettsia (Andersson y Andersson, 1999). Además, la
presencia de nucleótidos invariantes en IGR sesgan los resultados en esta
región. Los valores de B. floridanus, más próximos a los de cmk que a los de
IGR, son un apoyo adicional de nuestras conclusiones.
5.4.3 Análisis de indels
De 16 regiones intergénicas analizadas en B. floridanus, 13 mostraron
eventos de indels a nivel intraespecífico. Aquellas regiones que no mostraron
ningún indel fueron las intergénicas situadas entre los genes: cysH-cysG,
infC-rpmL y lplA-pheT.
Para poder diferenciar entre inserciones y deleciones y poder mapear
en el árbol los diferentes eventos evolutivos, seguimos un criterio de máxima
parsimonia. En base a éste, a partir de la filogenia conocida, inferimos
siempre el estado ancestral a partir de la situación mayoritaria dentro de los
177
………………………………………………………………………………………….Capítulo 5
linajes de un mismo clado y determinamos la dirección del cambio (inserción
o deleción), comparando cada secuencia con el estado inmediatamente
ancestral. Puesto que las cepas de B. floridanus se agrupan en dos clados
principales, cuando ambos clados muestran un estado diferente, el estado
ancestral se infiere a partir del grupo externo, B. rufipes. Cuando la solución
es ambigua, escogemos siempre aquélla que requiere un menor número de
cambios. Si es posible más de una solución con el mismo número de
cambios, los cambios en ramas más largas se asume que tienen una mayor
probabilidad de ocurrir. Dada la proximidad de las secuencias empleadas,
puesto que trabajamos a un nivel intraespecífico, fue posible establecer el
tipo de evento mutacional y posición en el árbol, en todos los casos, excepto
en el caso de la región intergénica entre los genes manX y manY. Esta región
fue por tanto eliminada de los análisis posteriores. Un total de 45 indels
fueron caracterizados, 36 de ellos tenían una única solución más parsimónica
y 8 tenían soluciones ambiguas. El bajo número de ambigüedades confirma el
escaso nivel de homoplasia asociado a las secuencias dada su proximidad.
Para estos 8 casos se tomó el criterio de longitud de rama para decidir la
posición del cambio. La posición final de los cambios en la filogenia se
muestra en la figura 5.21.
178
......................................................................................................................Resultados y discusión
2D 1I
5D 6I
1D 1I
4D 0I
CFloC308
1D 3I
CFloC2
2D 3I
2D 1I
CFloC236
CFloC96
CFloC51
1D 1I
0D 0I
0D 2I
0D 0I
CFloC10
CFloC3
0D 1I
CFloC316
0.001
0D 1I
3D 4I
CFloC1
Figura 5.21. Localización en el árbol de los diferentes eventos de inserción/deleción (I/D)
detectados siguiendo un criterio de máxima parsimonia.
Dado que trabajamos con regiones neutras, esperamos que las ramas
más largas acumulen un mayor número de eventos mutacionales que las
ramas más cortas, al igual que observamos en el caso de B. aphidicola. Sin
embargo, en el caso de los eventos de inserción/deleción, tal y como
observamos en la figura, esto no siempre ocurre, lo que probablemente es
resultado del azar asociado al escaso tiempo de divergencia transcurrido entre
las colonias y también a la rápida evolución asociada a las repeticiones en
tándem como las detectadas.
En este caso, el número de deleciones e inserciones fue similar (21
frente a 24), pero no así el número de nucleótidos implicados en estos
eventos (figura 5.22).
179
………………………………………………………………………………………….Capítulo 5
140
120
Número de eventos
100
Número de nucleótidos
80
60
40
20
0
Deleciones
Inserciones
Figura
5.22.
Número
de
eventos
de
inserción/deleción y número total de nucleótidos
implicados en dichos eventos.
La cantidad de nucleótidos implicados en eventos de deleción fue
por tanto muy superior a los introducidos por inserción. Sin embargo, esta
diferencia fue debida mayoritariamente a una única deleción de 68
nucleótidos (figura 5.23), dado que como se observa en la figura el tamaño
mayoritario de los eventos fue de 1 nucleótido, tanto en el caso de inserciones
como de deleciones. Este resultado confirma los datos obtenidos en el estudio
previo que hemos llevado a cabo en B. aphidicola y los resultados obtenidos
para Rickettsia (Andersson y Andersson, 2001), en los que se observa que la
mayor diferencia entre la entrada y salida de DNA es debida a unos pocos
sucesos de un tamaño muy superior al resto.
180
......................................................................................................................Resultados y discusión
16
Número de deleciones
14
12
10
8
6
4
2
0
012
8
o
Tamaño deleciones
35
Número de inserciones
68
17
30
25
20
15
10
5
0
0
1
2
3
6
10
Tamaño inserciones
Figura 5.23. Distribución del número de deleciones e inserciones
en base al número de nucleótidos implicados en dichos eventos.
Los eventos de mayor tamaño eran deleciones de 68, 17 y 8
nucleótidos respectivamente. En los tres casos encontramos que la deleción
se hallaba flanqueada por repeticiones directas, una de las cuales perduraba
en la secuencia con la deleción mientras que la otra formaba parte de la zona
delecionada, pero presente en el resto de especies en las que la deleción no
había tenido lugar (figuras 5.24 y 5.25). Este resultado podría ser
consecuencia de un evento de recombinación homóloga o independiente de
recA. El pequeño tamaño de las repeticiones implicadas, así como la ausencia
de recA en el genoma de B. floridanus señalan a los mecanismos de
recombinación independiente de recA, como principales responsables de la
generación de estas deleciones, al igual que ocurre en B. aphidicola.
181
………………………………………………………………………………………….Capítulo 5
El tipo de repetición flanqueando estas deleciones encaja con las
CRs, es decir repeticiones no en tándem, sino alejadas varios nucleótidos.
Este tipo de repetición, como ya vimos en el caso de B. aphidicola, se ha
demostrado que juega un importante papel en la reducción genómica (Rocha
2003). Nuestros resultados confirman de hecho que las deleciones de mayor
tamaño encontradas se asocian a CRs. En cuanto al mecanismo, aunque el
deslizamiento de la polimerasa puede ser responsable de los mismos, éste
generalmente se asocia con indels de muy pequeño tamaño (1-5 nucleótidos)
(Gregory, 2003), por lo que otro mecanismo de recombinación ilegítima
puede ser más apropiado para explicar estos indels. Aunque no podemos
descartar el deslizamiento como mecanismo responsable, dado que en
ocasiones este puede producirse entre secuencias repetidas alejadas, gracias a
la presencia de secuencias palíndromes que promueven el acercamiento de
las mismas a través de la formación de estructuras secundarias (Bzymek y
Lovett, 2001).
182
......................................................................................................................Resultados y discusión
201
250
CFloC1
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CFloC2
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CFloC3
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CFloC10
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CFloC51
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CFloC96
ATGTA..TAA TATTTATATA T......... .......... ..........
CFloC236
ATGTA..TAA TATATCTATA T......... .......... ..........
CFloC308
ATGTA..TAA TATTTATATA T......... .......... ..........
CFloC316
ATGTA..TAA TATTTATATA TTAGATATAA ATTATTTAAA TTTTATATAT
CRufA
ATATAATTAA CATTTTAATA TTAAATATAC ATT....... ..TAATATGT
CFloC1
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT .ATATATATA
251
300
CFloC2
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA
CFloC3
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA
CFloC10
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA
CFloC51
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT .....ATATA
CFloC96
.......... .......... .......... .......... ..........
CFloC236
.......... .......... .......... .......... ..........
CFloC308
.......... .......... .......... .......... ..........
CFloC316
TTTGTTATTG GATAAATACA ACAATGACTA AATTTAAATT ...ATATATA
CRufA
TTTGATATTT AA..GGTATA ATATCTATTG GATTTTATTA GATATGTATA
CFloC1
TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
CFloC2
TGTTGTTATA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
301
350
CFloC3
TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
CFloC10
TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
CFloC51
TGTTGTTATA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
CFloC96
.GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA
CFloC236
.GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA
CFloC308
.GTTGTTATA GTATGTAAGT TTAAGTTTTT AATATGATTA GTAGTTTTAA
CFloC316
TGTTGTTGTA ATATGTAAGT TTAAGTCTTT AATATGACTA GTAGTTTTAA
CRufA
TGTTGTTGTA TTATGTGAAT TTATGTCGTT ATTATAGTTA GTAATTTTT.
Figura 5.24. Delección de 68 nucleótidos en la región intergénica entre los genes metF y tRNAAla, flanqueada por una repetición directa de 8 nucleótidos (TTATATAT).
183
………………………………………………………………………………………….Capítulo 5
a) 3001
CFloC1
CFloC2
CFloC3
CFloC10
CFloC51
CFloC96
CFloC236
CFloC308
CFloC316
CRufA
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
CTATTTATAT
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
AGCATATAAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TTAGTAATAA
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
TGGAATTAAT
b) 5401
CFloC1
CFloC2
CFloC3
CFloC10
CFloC51
CFloC96
CFloC236
CFloC308
CFloC316
CRufA
TATGA......
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATGAAGAACA
TATATTTAATA
..........
CATAAA....
CATAAA....
CATAAA....
CATAAA....
CATAAA....
CATAAA....
CATAAA....
CATAAA....
TTTAAAATTG
.........T
....TATGAT
....TATGAT
....TATGAT
....TATGAT
....TATGAT
....TATGAT
....TATGAT
....TATGAT
TGATTATATC
3050
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
........GAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
GTAATAATGAATAATAATTT
5450
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGATAATAAA CAGTATTTAT
TGGTTATAAA CAGTGTTTAT
Figura 5.25. Deleciones flanqueadas por repeticiones directas. a) Deleción de 8 nucleótidos en
la región intergénica entre los genes serS-lolA flanqueada por una repetición directa de 4
nucleótidos (TAAT). b) Deleción de 17 nucleótidos en la región intergénica situada entre los
genes Bfl040-yidZ, flanqueada por una repetición directa de 5 nucleótidos.
En cuanto a los indels más abundantes, de 1 nt, la mayoría formaban
parte de colas de mononucleótidos (25 de 33). El resto de indels de más de 1
nucleótido, a excepción de un indel de 2 nucleótidos localizado en la región
intergénica entre tonB-cls, formaban parte de microsatélites cuyo motivo de
repetición era más de 1 nucleótido. Concretamente se detectaron tres
microsatélites con una unidad de repetición superior a 1 nucleótido. Además
de éstos, hallamos también un minisatélite en la región intergénica entre los
genes manX-manY que no se incluyó en los análisis dado que los estados del
mismo en las diferentes cepas se ajustaban a más de una solución igualmente
parsimónica. La descripción detallada de estos mini y microsatélites se
muestra en la tabla 5.6.
184
......................................................................................................................Resultados y discusión
Tabla 5.6. Descripción de las repeticiones en tándem halladas
en las regiones intergénicas analizadas. El número de copias
hace referencia al mínimo y máximo número de copias halladas
entre las diferentes cepas estudiadas.
Región
Clase
Motivo
Copias
metF-tRNAla
microsatélite
AT
1-2
metF-tRNAla
microsatélite
AT
1-5
metF-tRNAla
microsatélite
T
6-7
cspC-zwf
microsatélite
T
4-5
cspC-zwf
microsatélite
A
9-10
cspC-zwf
microsatélite
T
3-4
cspC-zwf
microsatélite
T
3-4
cspC-zwf
microsatélite
A
6-7
trpA-tonB
microsatélite
ATT
0-3
trpA-tonB
microsatélite
A
4-5
trpA-tonB
microsatélite
A
6-7
tonB-cls
microsatélite
A
6-7
tonB-cls
microsatélite
A
7-9
fba-rpiA
microsatélite
A
5-7
manX-manY
minisatélite
TAACAAA
2-5
El hallazgo de micro y minisatélites es importante por varias
razones. En primer lugar, son potenciales fuentes de recombinación ilegítima
(Rocha, 2003). En segundo lugar, han sido escasamente descritos en
procariotas, aunque a medida que se han secuenciado más genomas, el
número detectado de los mismos ha ido incrementando (Field y Wills, 1998;
Field y Wills, 1996; Gur-Arie et al. 2000). En nuestro caso, llevamos a cabo
una búsqueda de repeticiones en tándem en los genomas de B. aphidicola, B.
floridanus y E. coli en la base de datos GPMS (Genomes Polymorphism and
Minisatellites), que mostró una densidad de repeticiones en tándem de hasta
10 nucleótidos muy similar en B. floridanus y B. aphidicola (0,12) y superior
a la de E. coli (0,046). El sesgo composicional hacia AT probablemente
incrementa la probabilidad de aparición de estas pequeñas repeticiones en
185
………………………………………………………………………………………….Capítulo 5
tándem sólo por azar, lo que es congruente con su mayor abundancia en los
endosimbiontes intracelulares.
Respecto a la variabilidad asociada a estas repeticiones, dos
estudios acerca de los microsatélites en 8 regiones no codificantes analizadas
en diversas cepas de E. coli mostraban que sólo existían polimorfismos
intrapoblacionales
para
los
microsatélites
formados
por
colas
de
mononucleótidos, pero no para otros microsatélites de orden superior (GurArie et al. 2000; Metzgar et al. 2001). La explicación que proporciona este
estudio es que las poblaciones de E. coli son capaces de estabilizar las colas
de motivos superiores a 1nt, gracias a un eficiente sistema de reparación. Este
límite a la expansión estaría dirigido por selección contra un incremento en la
variabilidad, la repetibilidad o el aumento del tamaño genómico. Sin
embargo, nosotros encontramos polimorfismo entre cepas no sólo para colas
de mononucleótidos, sino también para di, trinucleótidos, e incluso para el
minisatélite hallado. Además, estos trabajos no detectan colas de
mononucleótidos superiores a los 9 nucleótidos en la región analizada y
nosotros llegamos a detectar una cola de hasta 10 adeninas. De modo que la
variabilidad intrapoblacional asociada a estas repeticiones es mayor en B.
floridanus que en E. coli.
Los principales genes implicados en la reparación de las bases mal
alineadas son algunos de los que constituyen el sistema mutSHL. Este sistema
está ausente en B. floridanus y en B. aphidicola, aunque intacto en BBp, está
degradado en BAp y BSg dada la pérdida de la nucleasa MutH. El
polimorfismo asociado a los microsatélites de B. floridanus de diferentes
colonias de hormigas podría reflejar por tanto deficiencias en los sistemas de
reparación asociados con la replicación en B. floridanus. De hecho, se ha
comprobado que el sistema de reparación de pares de bases mal alineadas es
crucial para la estabilidad de los microsatélites, de modo que las tasas de
mutación en microsatélites en procariotas y eucariotas con deficiencias en los
sistemas de reparación se incrementan en varios órdenes de magnitud
(Levinson y Gutman, 1987; Strand et al. 1993; Sia et al. 1997). Este hecho
186
......................................................................................................................Resultados y discusión
explicaría también la mayor abundancia de pequeñas repeticiones en tándem
en los genomas de estos endosimbiontes respecto a E. coli.
Por otro lado, nuestros resultados confirman, al igual que se ha
mostrado previamente en E. coli (Gur-Arie et al. 2000), que existe un sesgo
en la composición de microsatélites hacia AT. Esto es debido a que el
deslizamiento es más probable en colas de A y T, dado que la separación de
hebras de A y T es más fácil que la de colas de G y C. Por la misma razón, el
deslizamiento de la polimerasa es más probable en colas de mononucleótidos
que en otras repeticiones de orden superior, lo que explicaría que sean los
microsatélites más abundantes. Dado que el contenido en AT asociado a los
genomas endosimbiontes analizados incrementa seguramente la probabilidad
de aparición de colas de mononucleótidos de adenina y timina, éstas
promueven el deslizamiento, la frecuencia y polimorfismo asociado a las
repeticiones en tándem, que es por tanto, superior en B. aphidicola y en B.
floridanus.
Respecto al mecanismo responsable de los indels en microsatélites,
estudios previos llevados a cabo en E. coli muestran que la variación en el
número de copias de repeticiones en tándem poco o nada tiene que ver con
RecA (Lovett et al. 1994). Nuestro estudio confirma este hallazgo, dado que
B. floridanus carece de recA, y sin embargo hemos detectado numerosos
microsatélites en su genoma. De hecho, es el deslizamiento de la polimerasa
el principal mecanismo implicado en la variación en el número de copias de
un microsatélite (Ellegren, 2004). De modo que podemos afirmar que este
mecanismo juega un importante papel en la generación de indels en B.
floridanus, dada la abundancia de repeticiones en tándem halladas. Otro
argumento a favor del deslizamiento de la polimerasa como principal
mecanismo en estos casos es el hecho de que los microsatélites a menudo
evolucionan por mutaciones que implican cambios de más de una unidad de
repetición, lo cual es compatible con este mecanismo y no con otros. De
hecho, en la muestra de datos que nosotros analizamos hemos detectado
187
………………………………………………………………………………………….Capítulo 5
varios indels que se han generado por aumento o disminución de varias
unidades de repetición simultáneamente.
En cuanto al minisatélite detectado, pensamos que el origen del
mismo está más relacionado con la recombinación (Berg et al. 2003), a
diferencia de lo que ocurre con los microsatélites. Luego la presencia del
mismo es un indicador de que otros mecanismos, además del deslizamiento
de la polimerasa, actúan en la generación de indels en B. floridanus, al igual
que ocurre en B. aphidicola. Éstos han de ser mecanismos de recombinación
ilegítima, que pueden ser a su vez los responsables de las deleciones de
mayor tamaño halladas, como hemos postulado previamente.
Respecto al sesgo en las mutaciones producidas en secuencias
microsatélites, en principio se espera que la tasa de mutación de
microsatélites esté sesgada hacia las inserciones por dos razones: en primer
lugar, los bucles desplazados son más fácilmente introducidos en la hebra
recién sintetizada (Ellegren, 2004) y los bucles en dicha hebra dan lugar a
inserciones; y en segundo lugar, la reparación es más eficiente en la hebra
molde que en la naciente (Sia et al. 1997). Esto sería congruente con nuestros
datos, dado que en nuestro caso si sólo tenemos en cuenta los microsatélites,
las inserciones son más abundantes que las deleciones (19 frente a 12)
incluso cuando no tenemos en cuenta los casos ambigüos (15 frente a 10 en
este caso), aunque el tamaño muestral no es significativo.
Mientras en eucariotas los estudios indican sesgo hacia las
inserciones o ausencia de sesgo en la evolución de los microsatélites (Jones et
al. 1999; Kaiser et al. 2000; Ellegren 2000; Xu et al. 2000; Hard y
Schlotterer, 2000), en procariotas, sin embargo, predomina el sesgo hacia las
deleciones (Morel et al. 1998; De Bolle et al. 2000; Metzgar et al. 2002),
aunque hasta ahora los estudios sólo se han llevado a cabo sobre tres especies
bacterianas. En uno de estos estudios (Metzgar et al. 2002), analizan las
mutaciones en microsatélites en ausencia de selección natural en un
microsatélite de Mycoplasma gallisepticum perteneciente a un locus de
contingencia. El resultado es un sesgo hacia la deleción, que confirma
188
......................................................................................................................Resultados y discusión
similares resultados obtenidos en E. coli y en H. influenzae. Los autores
además, confirman que se trata de un sesgo mutacional y no resultado de
selección. No obstante, argumentan que este sesgo puede ser el resultado de
una selección de segundo orden. De acuerdo con ésta, selección recurrente
actuando diferencialmente sobre los productos resultantes de mecanismos
mutacionales puede dar lugar a presión selectiva sobre los propios
mecanismos, puesto que los genes que regulan a éstos están unidos a los
genes directamente seleccionados sobre los que ellos actúan (Weber, 1996);
(Metzgar y Wills, 2000). La selección de segundo orden puede actuar
efectivamente en organismos asexuales como bacterias, ya que la asexualidad
permite el mantenimiento a largo plazo de la unión entre los productos
directamente seleccionados de la mutación y los mecanismos mutacionales
que son responsables de su existencia (Metzgar et al. 2002). De modo que, en
linajes clonales bajo selección a favor de una disminución en la longitud de
los microsatélites, se espera que la selección de segundo orden actúe a favor
de un sesgo delecional o a favor de bajas tasas de mutación. Esto explicaría la
ausencia de los mismos en genomas procariotas, dado que tienden a la
extinción. Este sesgo además, no está al parecer relacionado con los sistemas
de reparación dado que la especie implicada en el estudio descrito,
Mycoplasma gallispeticum, carece del mismo. Sin embargo, nuestros
resultados no confirman este sesgo en el caso de los indels generados desde
repeticiones en tándem, ni en cuanto al número de eventos ni en cuanto al
tamaño de los mismos. Una primera explicación a este hecho es haber
direccionado mal los cambios asociados a microsatélites, dado que la alta tasa
de variabilidad asociada a los mismos los hace hipermutables y por tanto muy
susceptibles de homoplasia. Su valor filogenético es por tanto escaso, a
menos que trabajemos con cepas estrechamente emparentadas. En nuestro
caso, la proximidad de las cepas, y el hecho de que la mayor parte de
microsatélites se resuelvan sin ambigüedades siguiendo un criterio de
parsimonia permite descartar un elevado nivel de homoplasia para el nivel de
divergencia en el que trabajamos.
189
………………………………………………………………………………………….Capítulo 5
Si la tendencia a la deleción en los microsatélites procariotas es
consecuencia de selección contra la expansión de los mismos, tal y como
afirma Metzgar (Metzgar et al. 2002), la ausencia de este sesgo en B.
floridanus podría reflejar la baja eficiencia de la selección asociada a
endosimbiontes. De hecho, la selección actuando contra la expansión de los
microsatélites tendría un coste considerable, dado que los sitios con
repeticiones son numerosos y sus tasas de mutación elevadas (Metzgar et al.
2001) y además actuaría contra incrementos del tamaño genómico muy
pequeños, la mayor parte de los cuales tendrán un escaso efecto fenotípico.
En el caso de endosimbiontes, la fuerza de la selección está reducida, debido
al escaso tamaño poblacional y los sucesivos cuellos de botella a los que se
ve sometida la población, por lo que es difícil pensar que la selección pueda
ser eficaz actuando sobre cambios tan pequeños. Sin embargo, la fuerza de la
selección no necesita ser tan elevada a medida que el tamaño de los indels sea
superior y generen cambios más notables en el tamaño genómico. Nosotros
argumentamos por tanto, que en el caso de los endosimbiontes, si existe una
selección a favor de un reducido tamaño genómico, ésta actúa eficazmente
sólo sobre indels de un tamaño considerable, al menos superior al tamaño
asociado a los microsatélites (1-5 nucleótidos). Ello explicaría que los indels
de mayor tamaño detectados siempre sean deleciones, dado que los
mecanismos que pueden dar lugar a éstos, en principio pueden dar lugar tanto
a una deleción como a una inserción. Sin embargo, en las bacterias de vida
libre, la selección sí puede probablemente actuar más eficazmente contra la
expansión de microsatélites. Esta falta de eficacia selectiva en B. floridanus
impediría la estabilización de microsatélites, que es esperable tiendan a la
expansión, tal y como ocurre en eucariotas, únicamente por la termodinámica
asociada al proceso.
En cualquier caso, si existe un sesgo hacia la deleción, al menos
para deleciones de mayor tamaño (superiores a 50 nucleótidos), éstas
acabarán afectando a elementos repetidos, incluidos los microsatélites,
especialmente a los de mayor tamaño, que por lo tanto acabarán
190
......................................................................................................................Resultados y discusión
desapareciendo del genoma. No obstante, tampoco podemos descartar que el
sesgo asociado a los microsatélites varíe entre especies, o que las muestras
estudiadas sean escasas para determinar inequívocamente la dirección del
sesgo direccional. Por ejemplo en el estudio de Metzgar y colaboradores
(2002) es analizado un único microsatélite, mientras que en nuestro caso el
número de microsatélites es superior, pero la cantidad de cepas estudiadas es
menor.
5.4.4 Calibrado del reloj molecular
La elevada proximidad entre las secuencias de B. floridanus escogidas, en
comparación con las secuencias de B. rufipes, impide que las estimas de
divergencia entre C. floridanus - C. rufipes y entre las diferentes colonias de
C. floridanus, puedan llevarse a cabo a partir de la misma secuencia
nucleotídica. El diferente grado de variabilidad hallado a nivel intra e
interespecífico, asociado a tiempos de divergencia muy diferentes, hace
necesario el empleo de secuencias con tasas de evolución distintas para cada
caso. En este caso, tal y como se describe en Hedges y Kumar (2004), tras
calibrar los tiempos de divergencia de una filogenia en base a uno o más
nodos datados por registro fósil u otras aproximaciones, cualquier punto del
árbol puede emplearse entonces como punto secundario de calibrado. La
estima por tanto de los tiempos de separación entre las diferentes cepas de C.
floridanus requiere un proceso en dos pasos, en el que tras obtener la estima
entre C. floridanus y C. rufipes, ésta se emplea como punto de calibrado
secundario para inferir el momento de la divergencia entre las cepas de C.
floridanus. El empleo de puntos de calibrado secundario es más
recomendable que llevar a cabo largas extrapolaciones desde secuencias con
muy diferentes rangos de divergencia, dado que entonces puede amplificarse
cualquier sesgo existente en los tiempos asociados. De hecho, se ha mostrado
en diversos estudios (Kumar y Hedges, 1998; Wang et al. 1999; Hedges y
Kumar, 2004) como el uso de puntos de calibrado secundarios mejora la
precisión de las estimas.
191
………………………………………………………………………………………….Capítulo 5
a) Estima de la divergencia entre C. floridanus y C. rufipes
En el caso de Blochmannia, aunque también muestra coevolución
con su hospedador, hormigas del género Camponotus, no existe un registro
fósil asociado al mismo y que pueda por tanto aplicarse a la bacteria. La
única datación sobre el género ha sido inferida a partir de la divergencia entre
las subfamilias Formicinae y Myrmicinae, estimada en 90-110 m.a. de
acuerdo con el registro fósil (Grimaldi y Agosti, 2000). A partir de esta fecha,
Degnan y colaboradores (Degnan et al. 2004) estimaron que el ancestro de
numerosas especies del género Camponotus tiene una edad comprendida
entre los 16,2 y los 19,9 m.a. Para realizar este cálculo, los autores trabajaron
con las secuencias mitocondriales de Camponotus que codifican la subunidad
I de la citocromo oxidasa (COI). Este gen es ampliamente empleado, dado
que sus propiedades evolutivas y estructurales son bien conocidas (Lunt et al.
1996) y porque es útil para estudios similares en otros insectos (Caterino y
Sperling, 1999). Entre las secuencias utilizadas en el estudio de Degnan et al.
(2004) se hallan las de Camponotus rufipes y pennsylvanicus, ambas
pertenecientes a dos clados diferentes que divergen a partir del ancestro cuya
edad estimada es 16,2-19,9 m.a. (figura 5.26).
192
......................................................................................................................Resultados y discusión
Figura 5.26. Filogenia basada en las secuencias de COI para estimar tasas absolutas de
evolución de las secuencias y tiempos de divergencia dentro de Formicinae (Degnan et al.
2004). Los cálculos fueron llevados a cabo mediante el empleo del programa r8s (Sanderson,
2003). Basándose en esta constricción se han datado los nodos correspondientes al ancestro
común de todas las hormigas asociadas con “Candidatus Blochmannia” y el nodo basal de
todas las especies de Camponotus muestreadas. Diversos taxones no pertenecientes al grupo
Formicinae fueron incluidos en el análisis para enraizar el árbol: Leptothorax recedens
(AF096117), Crematogaster recedens (AF096117), Crematogaster borneensis (AB030558),
Myzinum sp. (AF142546/af142535), Dasymutilla sp. (AF142541/AF142531) y Polistes
tenebricosus (AF142550/AF142539).
Aprovechando por tanto las secuencias obtenidas por Degnan y
colaboradores, y su estima del tiempo de separación entre C. rufipes y C.
pennsylvanicus, en primer lugar llevamos a cabo una estimación de la
divergencia entre C. rufipes y C. floridanus. Para ello obtuvimos las
secuencias mitocondriales de las subunidades COI y COII de C. rufipes. La
subunidad II era amplificada en el trabajo de Degnan et al. (2004) en las
especies con las que trabajaban, aunque no se utilizaba para las estimas
posteriores. Nosotros decidimos, por tanto, obtener ambas subunidades en C.
rufipes con el fin de calibrar el reloj a partir de ambos grupos de secuencias,
193
………………………………………………………………………………………….Capítulo 5
para ver si se obtenía un resultado similar, lo que daría un mayor apoyo a los
resultados.
En el caso de COII se obtuvo la secuencia completa de dicho gen en
C. rufipes, mientras que en el caso de COI parte del inicio de la secuencia fue
eliminada debido a indeterminaciones no resueltas. En ambos casos las
secuencia de nucleótidos de C. rufipes, C. floridanus y C. pennsylvanicus (las
secuencias de estas dos últimas especies obtenidas a partir del trabajo citado)
fueron alineadas en base a la secuencia de aminoácidos. La longitud final de
los alineamientos de COI y COII fue de 1101 y 549 nucleótidos,
respectivamente.
La filogenia de las especies obtenida se muestra en la figura 5.27.
a)
CFloCOI
CRufACOI
CPennCOI
0.02
b)
CFloCOII
CRufACOII
CPennCOII
0.02
Figura 5.27. Árbol filogenético de las especies Camponotus floridanus,
C. rufipes y C. pennsylvaniccus. a) Empleando la secuencia de las
subunidad I de la citocromo oxidasa (COI) del género Camponotus. b)
Empleando la subunidad II (COII) de la citocromo oxidasa.
Tal y como esperamos, C. floridanus y C. rufipes se hallan más
próximas entre sí que con C. pennsylvanicus. Estos resultados están en
concordancia con estudios previos (Sauer et al., 2000; Degnan et al. 2004),
en base a los cuales los árboles fueron enraizados en C. pennsylvanicus.
Una vez conocida la topología se calculó la verosimilitud del árbol
forzando y sin forzar reloj. Los resultados para COI fueron –ln L =
2477,01065 (sin forzar reloj) y –ln L = 2478,64792 (forzando reloj), de modo
que la hipótesis del reloj no puede ser rechazada. En el caso de COII los
194
......................................................................................................................Resultados y discusión
valores obtenidos fueron –ln L = 1283,10578 (sin forzar reloj) y –ln L =
1285,64908 (forzando reloj), de modo que la hipótesis del reloj era
rechazada. En base por tanto a los resultados obtenidos, únicamente COI
podía ser empleada para estimar tiempos de divergencia asumiendo una tasa
constante de cambio.
Por tanto, dado que podemos asumir que la secuencia de COI
evoluciona con una tasa constante en las especies empleadas, procedimos a la
datación de dichas especies asumiendo reloj.
El programa empleado para la datación en este caso fue el mismo
utilizado por Degnan et al. (2004): r8s (Sanderson, 2003). Este programa
implementa diversos métodos para el cálculo de tiempos de divergencia a
partir de, al menos un punto de calibrado. Estos métodos abarcan desde los
más ampliamente conocidos de máxima verosimilitud, tanto para relojes
globales como locales, hasta métodos más experimentales semiparamétricos
y no paramétricos que relajan la asunción del reloj. En nuestro caso, dado que
las secuencias empleadas cumplen reloj aplicamos un método paramétrico, el
método de Langley-Fitch (Langley y Fitch, 1974) que utiliza máxima
verosimilitud para obtener los tiempos de divergencia bajo la asunción del
reloj molecular. Este método estima una tasa de sustitución para el árbol
completo y un grupo de tiempos de divergencia para todos los nodos no
fijados. El criterio de optimización es la verosimilitud de la longitud de
ramas. Este programa requiere como entrada el árbol de las especies con la
longitud de ramas del mismo. Este árbol ha de estar enraizado, de no ser así,
el árbol posee una tricotomía basal que refleja la ambigüedad asociada al
hecho de que no exista un grupo más distante. Si el programa detecta esta
tricotomía basal, asume que es una “tricotomía dura” (por ejemplo, un nodo
trifurcado resultante de un triple evento de especiación) y actúa acorde con
ello. El problema es que si intentamos convertir la tricotomía basal en una
dicotomía, algunos programas como PAUP crean un nuevo nodo raíz, a partir
del cual hay que decidir como dividir la última rama. Si dejamos al programa
que lo haga, PAUP decide arbitrariamente darle toda la longitud a la rama
195
………………………………………………………………………………………….Capítulo 5
que conduce del nodo basal al grupo externo, y al resto le da una longitud
cero. Esta solución no es por tanto recomendable, de modo que hay dos
opciones más: enraizar arbitrariamente o emplear la información de un grupo
externo adicional. Esta última solución es la metodología recomendada en el
manual del programa. De modo que para poder tener un criterio que permita
a PAUP enraizar de manera no arbitraria, se incorporó la secuencia de COI
de un grupo externo adicional. La especie escogida fue Formica fusca, cuya
secuencia se haya disponible en el trabajo mencionado. Una vez incorporada
la secuencia de F. fusca se llevó a cabo la reconstrucción filogenética por
likelihood, con los mismos resultados previamente obtenidos. A partir de este
árbol con la correspondiente longitud de las ramas, se estimó el tiempo de
divergencia entre C. rufipes y C. floridanus en 8,76-10,77 m.a. (ver figura
5.28). Aunque en nuestro caso las secuencias cumplían reloj, llevamos a cabo
también la estima de los tiempos permitiendo que las tasas variaran entre
linajes. En este caso, la edad asociada al mismo nodo oscilaba entre 9,5711,71, rango que solapa con nuestro resultado y que muestra que aún
reduciendo las astringencias asociadas a la estimación de los tiempos, los
resultados siguen siendo similares.
En el caso de las secuencias de COII el reloj era rechazado de modo
que no pudimos emplear estos datos para calibrar.
b) Estima del tiempo de divergencia entre las diferentes cepas de C.
floridanus
Dada la elevada proximidad de las diferentes cepas de C. floridanus, las
secuencias mitocondriales de la citocromo oxidasa no pueden emplearse para
calibrar la divergencia entre la mismas, debido a su elevado grado de
conservación. De igual modo, las regiones codificantes tendrán una
variabilidad escasa o nula para servir como fuente de información que
permita inferir los tiempos de separación a partir de las mutaciones. Sin
embargo, el concatenado resultante de todas las regiones intergénicas
obtenidas con el fin de detectar indels muestra un grado de variabilidad que
permite un alineamiento fiable, al mismo tiempo que proporciona un número
196
......................................................................................................................Resultados y discusión
suficiente de cambios para inferir los tiempos de separación. Además, cuando
las divergencias no son demasiado grandes, los sitios neutrales se espera que
evolucionen a la misma tasa, constante entre linajes a lo largo del tiempo y
entre regiones del genoma. Esto es porque las tasas absolutas de sustitución
neutras sólo se ven afectadas por la tasa de mutación y el tiempo de
generación y no por variación en el tamaño poblacional o por restricciones
selectivas específicas de sitio (Kimura, 1968). A partir de la topología
obtenida previamente y de todas las regiones intergénicas concatenadas,
llevamos a cabo el cálculo de la verosimilitud forzando y sin forzar reloj. Los
resultados fueron –ln L (sin forzar reloj) = 10340,86698 y -ln L (forzando
reloj) = 10352,49858. Con estos valores la hipótesis del reloj era rechazada.
Los test de tasas relativas mostraron una ligera aceleración en la
rama que conduce a la cepa CFloC10. Eliminando ésta, el reloj no podía ser
rechazado y los valores obtenidos eran –lnL (sin forzar reloj) = 10258,25696
y –lnL (forzando reloj) = 10264,92475. La datación de las especies se hizo,
por tanto, sin incluir a CFloC10, también mediante el programa r8s. La
carencia en este caso de un grupo externo adicional que permitiera enraizar a
C. rufipes objetivamente, nos obligó a decidir el modo de enraizar. Dado que
las secuencias de CFlo y CRufA evolucionan a tasas constantes para las
secuencias de COI y que en este caso trabajamos con secuencias neutras,
asumimos que podemos situar la raíz de CRuf en un punto medio. Los
resultados de la datación, en este caso partiendo de las estimas de divergencia
obtenidas para la separación entre CRuf y el clado CFlo (8,76-10,77), se
muestran en la figura 5.28.
197
………………………………………………………………………………………….Capítulo 5
CRufA .
CFloC96 .
A
C
CFloC236 .
CFloC308 .
B
CFloC2 .
D
CFloC51 .
E
CFloC3 .
CFloC10 .
F
G
CFloC1 .
CFloC316 .
Nodo Tiempo promedio (m.a)
A
9,77
B
0,21
C
0,055
0,12
D
E
0,06
F
0,02
G
0,01
Límite inferior (m.a)
8,76
0,19
0,05
0,11
0,05
0,02
0,01
Límite superior (m.a)
10,77
0,23
0,06
0,13
0,07
0,02
0,01
Figura 5.28. Datación de los eventos de divergencia entre las especies empleadas en base
a las secuencias de la subunidad I de la citocromo oxidasa y en base a las regiones
intergénicas estudiadas concatenadas.
Independientemente del empleo del límite inferior o superior
asociado al nodo B, la escasa divergencia asociada a las secuencias más
recientes de CFlo da lugar a una misma datación (límite inferior = límite
superior) en los nodos más recientes.
5.4.5 Tasas de indels y de sustitución nucleotídica
Al igual que en el caso de B. aphidicola, una vez conocidos los tiempos
asignados a cada rama del árbol filogenético y los eventos localizados en
éstas, es posible estimar tasas respecto al tiempo transcurrido.
a)
Sustituciones
198
......................................................................................................................Resultados y discusión
Para calcular la tasa de sustitución, únicamente necesitamos conocer
el número de sustituciones que se han dado en las regiones intergénicas, la
longitud de la secuencia contemplada y el tiempo en el que se han dado
dichos sucesos. En nuestro caso, las 16 regiones intergénicas concatenadas
implicaban un alineamiento total de 5678 nucleótidos, que contenía un total
de 81 sustituciones nucleotídicas acumuladas en un intervalo medio de
tiempo de 740.000 años. De estas 81 hemos podido localizar sobre la
filogenia 72 cambios, por lo que no es necesario aplicar un modelo para el
cálculo de las sustituciones por sitio como hicimos para B. aphidicola. No
obstante, nosotros calculamos la tasa de sustitución nucleotídica directamente
con las sustituciones que habíamos podido localizar e, indirectamente,
aplicando un modelo de evolución (K2P) para conocer las sustituciones por
sitio en cada rama. La rama de CFloC10 no se tuvo en cuenta en ningún caso,
dado que está sujeta a aceleración y el tiempo de divergencia de la misma no
pudo ser estimado. La tasa de sustituciones obtenida en ambos casos fue muy
similar, entre 1,5 x 10-8 y 1,8 x 10-8 sustituciones por sitio y año. Esta tasa es
congruente con estimas previas basadas en sitios sinónimos de diversos genes
según las cuales la tasa de sustitución sinónima en Blochmannia oscila entre
1,3 x 10-7 y 8,5 x 10-8 sustituciones por sitio y año (Degnan et al. 2004). Al
igual que ocurría con las estimas obtenidas en el trabajo de Degnan y
colaboradores, la tasa que nosotros obtenemos es superior a la obtenida para
B. aphidicola, lo que es congruente con la mayor tasa descrita también para el
16S rDNA en Blochmannia en comparación con bacterias entéricas y
también con B. aphidicola (Degnan et al. 2004). Estos resultados han llevado
a sugerir que B. floridanus aparentemente posee tasas absolutas superiores no
sólo a E. coli sino también a B. aphidicola (Degnan 2004), lo que es
congruente con los resultados que nosotros obtenemos. Estas mayores tasas
de sustitución, descritas también para otros endosimbiontes, se asocian con la
mayor deriva a la que están sometidos estos organismos, dada su estructura
poblacional, así como con la pérdida de elementos implicados en la
199
………………………………………………………………………………………….Capítulo 5
reparación del DNA, que también ha sido descrita en Blochmannia (Gil et al.
2003; Degnan et al. 2005).
b) Indels
En el caso de los indels, calculamos la tasa aplicando el método de
Saitou (Saitou y Ueda, 1994), descrito previamente. En este caso, la longitud
del alineamiento considerada fue de 5.254,3 nucleótidos dado que la región
intergénica entre manX-manY no se tuvo en cuenta, puesto que los indels de
dicha región no podían resolverse. Tampoco en este caso la rama de CFlo10
se incluyó en los cálculos. Las tasas obtenidas de deleciones e inserciones por
sitio y año fueron: 5,1 x 10-9 y 5,9 x 10-9, respectivamente.
Una vez conocido el ritmo al que se suceden los eventos
mutacionales que introducen o extraen DNA del genoma, considerando la
cantidad de nucleótidos contenida en estos eventos, podemos calcular las
tasas de pérdida y ganancia de DNA. En nuestro caso la tasa de pérdida es de
3,1 x 10-8 nucleótidos perdidos por sitio y año frente a una tasa de ganancia
de 8,8 x 10-9 nucleótidos ganados por sitio y año. Puesto que la tasa de
pérdida de DNA es superior a la tasa de ganancia, el balance de ambos
eventos da como resultado una tasa global de pérdida de DNA con valor de
2,2 x 10-8 nucleótidos perdidos por sitio y por año. Al igual que vimos en B.
aphidicola este sesgo es consecuencia, no de un mayor número de eventos de
deleción, dado que el ritmo al que se suceden inserciones y deleciones es
muy similar, sino al tamaño superior de los eventos de deleción frente a los
eventos de inserción tal y como se ha descrito para otros organismos
(Bensasson et al. 2001); (Andersson y Andersson, 2001). Esta diferencia de
tamaño es además consecuencia de escasos eventos de deleción de un tamaño
superior a la media.
La tasa de pérdida obtenida es del orden de la calculada en B.
aphidicola cuando tenemos en cuenta la gran deleción, pese a que los eventos
evolutivos estudiados en B. floridanus son aún más recientes. Además, la tasa
de B. floridanus es casi el doble que la de B. aphidicola, de modo que la
mayor aceleración de tasas en B. floridanus descrita respecto a las
200
......................................................................................................................Resultados y discusión
sustituciones es posible que se dé también respecto a los eventos de
inserción/deleción. Además, Blochmannia se haya probablemente en un
estadio ligeramente más temprano de degradación que B. aphidicola, dada su
más temprana coespeciación con el hospedador y su genoma de mayor
tamaño (706-809 Kb), (Gil et al. 2003; Degnan et al. 2005), lo que puede
explicar una tasa de pérdida mayor.
Al igual que en el caso de Buchnera, las tasas descritas se
corresponden con las tasas mutacionales, a menos que exista una selección a
favor de un tamaño genómico reducido. Blochmannia no ha sido descrita
como poliploide, por lo que en este caso no podemos hablar de una
competencia genómica intracelular, en la que los genomas aún ligeramente
más pequeños podrían tener una ventaja selectiva dada su mayor velocidad de
replicación, aunque tampoco podemos descartarla. Nuestros resultados
confirman el sesgo hacia las deleciones, descrito previamente para otros
organismos, tanto procariotas como ecuariotas (Andersson y Andersson,
1999, 2001; Moran y Mira, 2001; Wernegreen, 2002; Ophir y Graur, 1997;
Petrov y Hartl, 1998). La diferencia de nuestro estudio respecto a otros es que
permite calcular tasas respecto al tiempo y no respecto a las sustituciones
nucleotídicas y por lo tanto, conocer el ritmo rápido o lento al que se suceden
los eventos evolutivos y llevar a cabo la comparación entre especies.
Hasta el momento, dentro de las bacterias intracelulares, sólo en el
patógeno Rickettsia se había llevado a cabo un estudio detallado de las
inserciones/deleciones, que puso de manifiesto un sesgo hacia la deleción.
Nuestro trabajo amplia el conocimiento del proceso de degradación génica
con dos simbiontes: B. aphidicola y B. floridanus. A diferencia de éstos,
Rickettsia se haya en un estado más temprano de degradación dado su mayor
tamaño genómico, cantidad de pseudogenes, proporción de DNA no
codificante, presencia de recA y repeticiones, etc. (Andersson, 1998). Nuestro
estudio se centra por tanto, en el estudio de los estadios más avanzados de la
reducción, a fin de conocer el ritmo de pérdida en las últimas etapas,
mostrando que aún en un avanzado estado de desintegración la tasa de
201
………………………………………………………………………………………….Capítulo 5
pérdida continúa siendo relevante y puede estar conducida por fuerzas
selectivas.
Además, la detección de abundantes repeticiones en tándem, debido
al sesgo en la composición de estos genomas y a la ausencia de sistemas de
reparación, que impiden la aparición o expansión de las mismas, proporciona
las potenciales fuentes de los mecanismos de recombinación ilegítima que
dirigen la reducción en esta etapa y aumentan su dinámica a pequeña escala.
202
6. Las etapas iniciales de la evolución reductiva en
M. leprae
203
204
……………………………………………………………………………….Introducción
6.1 INTRODUCCIÓN
6.1.1 Las primeras etapas de la evolución reductiva
Los patógenos intracelulares obligados y los endosimbiontes poseen
frecuentemente genomas de pequeño tamaño. El reducido tamaño de los
mismos es consecuencia del paso de un estadio de vida libre a un ambiente
intracelular, que conlleva a la pérdida masiva de genes. Al tener lugar esta
transición, la redundancia de genes con el hospedador y el ambiente
intracelular estable llevan a una disminución de la presión de selección sobre
numerosos genes, que a partir de ese momento pueden perderse. En este
primer estadio, tiene por tanto lugar la acumulación de pseudogenes. A partir
de este momento, estos pseudogenes se ven sometidos a un proceso de
degradación y pérdida, que tiene como resultado final una drástica reducción
del tamaño genómico. Aunque estas características generales de la reducción
en fases tempranas son claramente bien conocidas, numerosas cuestiones
acerca de las fuerzas y la dinámica que dirigen el proceso en las primeras
etapas están aún por resolver.
Es sabido que la reducción genómica que se da en estas bacterias es
el resultado de un sesgo hacia las deleciones (Andersson y Andersson, 1999,
2001; Petrov et al. 2000; Wernegreen, 2000; Mira et al. 2001). Sin embargo,
existe controversia acerca de la naturaleza de estas deleciones. Inicialmente
se postuló que la rápida acumulación temprana de pseudogenes permitiría
grandes deleciones en estadios iniciales (Moran y Mira, 2001), que se
extenderían decenas de loci. Pero poco a poco la cantidad de material que
puede perderse sería menor. Además, la pérdida de material acabaría
afectando a elementos implicados en recombinación o secuencias repetidas
(Frank et al. 2002), que son precisamente los que permiten actuar a los
mecanismos de pérdida. De modo que el proceso acabaría quedando relegado
a eventos de muy pequeño tamaño. En concordancia con estas hipótesis está
el hallazgo de grandes zonas delecionadas en genomas secuenciados de
patógenos intracelulares cuando se comparan con especies filogenéticamente
205
…………………………………………………………...............................................…Capítulo 6
muy cercanas. Por ejemplo, la comparación de diferentes clones de M.
tuberculosis ha permitido detectar variabilidad a nivel de deleciones que en
algunos casos superan las 10.000 pares de bases y comprenden hasta 16
pautas abiertas de lectura (Kato-Maeda et al. 2001). No obstante, este tipo de
hallazgos sólo ponen de manifiesto una pérdida sustancial de nucleótidos a la
que puede llegarse tanto a través de eventos de gran tamaño, como a través de
la acumulación de numerosas deleciones de pocos nucleótidos.
Un trabajo posterior (Nilsson et al. 2005), en el que se analiza la
reducción del genoma en S. enterica mediante una serie de pases
experimentales, sí demuestra que en breves periodos de tiempo pueden llegar
a producirse deleciones de gran tamaño (de hasta 202 Kb). Puesto que en el
genoma de esta bacteria están todos los genes que se hallan presentes en
genomas altamente reducidos como son los de Blochmannia, Buchnera o
Wigglesworthia, se postula que es similar al genoma ancestral de estas
especies y que por tanto, puede reflejar los eventos acontecidos durante las
fases iniciales de la degradación génica de estos endosimbiontes (Ochman,
2005).
Frente a los estudios que postulan grandes deleciones en estadios
iniciales, diversos trabajos han demostrado la pérdida gradual de genes por
eventos de pequeño tamaño (Andersson et al. 1998; Andersson y Andersson
1999) y cómo la pérdida gen a gen ha podido jugar un papel crucial en las
primeras etapas de la evolución reductiva (Silva et al. 2001; Dagan et al.
2006). A favor de esta postura está el hallazgo de abundantes pseudogenes
esparcidos por todo el genoma en numerosos patógenos recientemente
secuenciados (Cole et al. 2001; Parkhill et al. 2001; Jin et al. 2002; Lerat y
Ochman, 2004, 2005).
El proceso de pérdida gen a gen y el proceso de pérdida a través de
grandes deleciones no tienen por qué ser excluyentes, pero es posible que uno
de los dos sea el que principalmente dirija la reducción drástica de los
206
……………………………………………………………………………….Introducción
genomas en las etapas iniciales. Aunque la importancia relativa de estos
procesos puede también estar sujeta a variación según linajes.
6.1.2 El potencial de pérdida
El primer paso de la degradación de un genoma es la pérdida de funciones
génicas, que puede darse a través de sustituciones o inserciones/deleciones.
Esta pérdida es debida a que a partir del momento en el que se establece una
relación con el hospedador, la redundancia de información genética con éste
y el ambiente relativamente estable convierten a muchos genes de la bacteria
en genes no esenciales. El grupo de genes que pasa a formar parte del
potencial repertorio de pérdida depende en gran medida de los requerimientos
en el nuevo ambiente intracelular. Los genes que se inactivan inicialmente
pueden además definir el contenido final, dado que pueden imponer
restricciones a las pérdidas posteriores. El proceso por tanto puede ser la
consecuencia de la inactivación inicial al azar de unos pocos genes.
Este proceso puede tener lugar al azar, aunque también se ha
sugerido la idea de un efecto de arrastre o cascada en el proceso de pérdida de
genes. En este principio se basa la denominada “teoría del efecto dominó”
según la cuál, cuando un gen que interacciona con otros en sus funciones se
inactiva, produce un efecto de arrastre que lleva a la inactivación del resto de
genes relacionados (Dagan et al. 2006). Este proceso en cascada ha sido
propuesto por Babu (2003) para explicar la aparición de pseudogenes en M.
leprae. De acuerdo con el trabajo de Babu, la pérdida de factores sigma
puede ser la responsable de esta acumulación de pseudogenes. Los factores
sigma son proteínas que se unen al promotor de la RNA polimerasa
confiriéndole especificidad, de modo que cada factor sigma controla la
expresión de un conjunto discreto de genes en respuesta a varios estímulos
fisiológicos y ambientales (Lewin, 1998). Babu propone un modelo en dos
pasos, según el cual la inactivación de los factores SigH y SigJ en diferentes
momentos ha dado lugar al surgimiento de numerosos pseudogenes que están
207
…………………………………………………………...............................................…Capítulo 6
bajo el control de dichos factores. Las diferencias esperadas en la edad de
ambos grupos de pseudogenes se calculan a través de la distinta densidad de
codones de paro acumulados en los mismos y concuerda a su vez con la
densidad hallada en los genes de los factores sigma citados. Según este
modelo, la pérdida de factores sigma desencadena la formación de
pseudogenes, lo que a su vez conlleva a una restricción de las condiciones
ambientales y de estrés bajo las que el patógeno puede sobrevivir.
Otro ejemplo de este efecto dominó propuesto para M. leprae está
relacionado con la pérdida de los genes devR y devS, que están implicados en
la respuesta a la hipoxia (Saini et al. 2004), pues casi el 70% de los genes
implicados en esta respuesta son pseudogenes o se han perdido
completamente. De hecho, en este artículo proponen que esta pérdida está a
su vez relacionada con la pérdida de factores sigma, aunque no es posible
determinar si ésta precede a la primera o viceversa.
El efecto dominó puede verse también reflejado en la degradación
completa de todos los genes que se agrupan en un mismo operón. Esta
agrupación obedece a una regulación común dado que dichos genes
participan en una misma ruta metabólica. La pérdida de operones completos,
como el operón de la NADH oxidasa en Mycobacterium leprae es otro de los
argumentos a favor de una pérdida en cascada (Wixon, 2001).
Para caracterizar la pérdida de genes en estadios tempranos es
necesario trabajar con genomas que se encuentren en fases iniciales del
proceso de reducción y que posean especies filogenéticamente emparentadas,
cuya secuencia genómica esté disponible.
6.1.3 Genomas en estadios iniciales del proceso de reducción
Aunque tanto patógenos como endosimbiontes muestran un claro paralelismo
en la respuesta genética que tiene lugar al establecer la relación con su
correspondiente hospedador, también existen diferencias. Así, mientras en los
208
……………………………………………………………………………….Introducción
endosimbiontes parte de la información genética que albergan es más
beneficiosa para el hospedador que para la propia bacteria, los patógenos
poseen numerosos genes cuya función es intervenir en las interacciones
celulares y en los mecanismos antigénicos (Ochman y Moran, 2001).
Los patógenos facultativos o recientes, representan la fase inicial del
proceso de reducción (Ochman y Davalos, 2006). Poseen un tamaño
poblacional efectivo inferior al de las bacterias de vida libre, pero no tan
pequeño como en el caso de patógenos o endosimbiontes obligados. Así
mismo, poseen una serie de hechos que no están presentes ni en las bacterias
de vida libre ni en aquéllas que se hallan en un avanzado estado de reducción
genómica: numerosos pseudogenes, elementos genéticos egoístas y una
organización genómica inestable. Ejemplos de patógenos que se encuentran
en este estadio inicial de degradación son Borrelia burgdorferi con un 24%
de su genoma formado por genes inactivos (Fraser et al. 1997), Rickettsia
prowazekii, con más de un 24% de su genoma compuesto por pseudogenes
(Andersson et al. 1998), Neisseria meningitidis Z2491 con un 22.6%
(Parkhill et al. 2000), Salmonella typhi, que posee unos 204 pseudogenes
(Parkhill et al. 2001) , Shigella flexneri, con aproximadamente 254 genes que
han dejado de ser funcionales (Wei et al. 2003) y Bordetella pertussis y B.
parapertussis con 358 y 220 pseudogenes, respectivamente (Parkhill et al.
2003). Sin embargo, el caso más dramático es el de M. leprae, el organismo
con la mayor proporción de DNA no codificante de todos los genomas
bacterianos completamente secuenciados hasta el momento (Cole et al.
2001). El tamaño de su genoma en comparación con especies muy próximas
como M. tuberculosis, el elevado número de pseudogenes (más de 1.000) y
su sesgo hacia una composición baja en GC, han permitido postular que la
evolución reductiva de M. leprae es reciente y que quizás está unida a su
transformación en un patógeno obligado hace pocos m.a. (Andersson y
Andersson 1999; Cole et al. 2001; Moran, 2002).
209
…………………………………………………………...............................................…Capítulo 6
6.1.4 El género Mycobacterium
Las Micobacterias son bacterias gram positivas pertenecientes al género
Mycobacterium, género único dentro de la familia Mycobacteriaceae en el
orden Actinomycetales (Rastogi et al. 2001). Las Actinomycetales incluyen
diversos microorganismos, pero las micobacterias se diferencian por su
capacidad de sintetizar ácidos micólicos. Se trata de ácidos grasos de cadena
larga que forman parte de la pared celular (Besra et al. 1994), responsables en
gran medida de la impermeabilidad de la misma y que también están
presentes en los géneros Nocardia y Corynebacterium.
El género Mycobacterium incluye varios agentes de enfermedades
infecciosas importantes en humanos y ganado. Estas infecciones a menudo
tienen un largo periodo de latencia, durante el cual la bacteria vive dentro de
macrófagos del hospedador.
La primera clasificación útil del género (Runyon et al. 1959) se
basaba en la velocidad de crecimiento (rápido o lento, según sea inferior o
superior a una semana), la presencia de pigmento y la importancia clínica.
Dentro del género también se diferencia entre especies parasíticas o
ambientales, en base a su epidemiología y hábitat (Wayne y Sramek, 1992),
aunque esta distinción no siempre es absoluta, dado que hay especies que
muestran ambas características.
Todas las especies de Mycobacterium empleadas en nuestro estudio
son patógenos intracelulares de crecimiento lento. M. avium subsp.
paratuberculosis cepa K-10 (Mav) es el agente responsable de la enfermedad
de Johne en ganado y otros rumiantes, aunque también ha sido relacionada
con la enfermedad de Crohn en humanos (Li et al. 2005). M. tuberculosis
cepa H37Rv (Mtc (I)) y M. tuberculosis cepa CDC1551 (Mtc (II)), son
responsables de la tuberculosis en humanos (Cole et al. 1998; Fleischmann et
al. 2002). M. bovis cepa AF2122/97 (Mbo) causa la tuberculosis en ganado y
otros animales (Garnier et al. 2003) y M. leprae TN (Mle) es responsable de
la lepra o enfermedad de Hansen en humanos (Cole et al. 2001).
210
……………………………………………………………………………….Introducción
Mtu(I), Mtu(II) y Mbo son miembros del complejo Mycobacterium
tuberculosis (MTBC). Las cepas de este complejo se caracterizan por una
elevada conservación a nivel de secuencias de DNA (Kapur et al. 1994;
Frothingham et al. 1994), pese a que muestran una amplia variedad respecto
al rango de hospedadores, la virulencia y otros fenotipos (Wayne, 1982).
El genoma de todas estas bacterias ha sido completamente
secuenciado. Los principales hechos genómicos de los mismos se muestran
en la tabla 6.1.
Tabla 6.1. Comparación de los principales hechos genómicos de los genomas de Mycobacterium
cuyo genoma ha sido completamente secuenciado.
Tamaño genoma (pb)
GC(%)
Número de genes
RNAs estructurales
Pseudogenes
Regiones codificantes (%)
Mav
4829781
69
4398
48
0
91
Mbo
4345492
65
4003
50
33
90
Mle
3268203
57
2770
50
1133
49
Mtu (I)
4411532
65
4048
50
8
90
Mtu (II)
4403837
65
4293
48
56
90
A partir de la comparación de estos genomas se observa como M.
leprae es el que ha sufrido una mayor reducción del tamaño y el que presenta
un mayor número de indicios de degradación, tales como un elevado número
de pseudogenes o un contenido en GC inferior al resto.
6.1.5 Mycobacterium leprae
M. leprae, el agente de la enfermedad de Hansen, fue identificada en 1874
por Gerhard Henrik Armauer Hansen (Hansen, 1874). La bacteria se acumula
principalmente en las extremidades del cuerpo, donde reside dentro de
macrófagos e infecta a las células de Schwann del sistema nervioso periférico
(figura 6.1). Estas células infectadas son incapaces de producir mielina y son
destruidas por reacciones inmunes del hospedador, lo que conlleva a daños en
la piel, el tracto respiratorio, los nervios periféricos y también los ojos
(Sasaki et al. 2001). Aunque la incidencia de la enfermedad ha sido altamente
reducida desde la aparición de terapias multidroga y vacunas con BCG
211
…………………………………………………………...............................................…Capítulo 6
(Karonga, 1996), continúa siendo un problema preocupante con más de
690.000 nuevos casos por año (Cole et al. 2001).
Figura 6.1. M. leprae presentes en el citoplasma de
células de Schawnn (microscopía electrónica x
10.000) (Ciudad et al. 2002).
M. leprae presenta una serie de rasgos característicos que la
diferencian del resto de especies del mismo género utilizadas en nuestro
estudio, entre los que destacan su incapacidad para ser cultivada in vitro, su
reducido tamaño genómico (3.268.203 nucleótidos) y un elevado número de
pseudogenes (más de 1.000) (Cole et al. 2001). Este último rasgo es
consecuencia de la evolución reductiva a la que está sometida esta especie.
De hecho, se ha propuesto que su incapacidad para ser cultivada in vitro
puede ser debida a la pérdida de ciertas rutas biosintéticas (Cole et al. 2001).
Al igual que otras bacterias endosimbiontes intracelulares, M. leprae no
puede ser cultivada en medios artificiales. Así mismo, su velocidad de
crecimiento es extraordinariamente lenta, con un tiempo de duplicación de
aproximadamente 14 días.
Aunque se desconoce el mecanismo que ha dado lugar al elevado
número de pseudogenes en esta especie, se postula que la pérdida de dnaQ,
que media la actividad correctora de la DNA polimerasa III, puede haber
contribuido a la formación de éstos (Mizrahi et al. 2000). Posteriormente se
ha propuesto que la pérdida de factores sigma puede ser responsable de la
inactivación de numerosos genes en M. leprae (Babu, 2003).
212
……………………………………………………………………………….Introducción
En el caso de los pseudogenes, la comparación con el ortólogo
funcional aún es posible. Si el proceso de degradación de la secuencia
original es gradual, a medida que pasa el tiempo, su similitud con el gen
original será menor. Este proceso progresivo nos permite por lo tanto conocer
la edad relativa de un pseudogen, si somos capaces de medir el grado de
deterioro del mismo.
Se han llevado a cabo diversos intentos de calcular la edad de los
pseudogenes en M. leprae. En el estudio de Babu (2003) previamente citado,
la edad de los pseudogenes se estima partiendo de la premisa de que la
acumulación de codones de paro en los mismos se incrementará con el
tiempo. De modo que cuanto mayor sea el número de codones de paro
acumulados, mayor será la edad del pseudogen.
Otras estimas de la edad se han llevado a cabo calculando el número
de corrimientos de pauta debidos a indels, o a sustituciones en los
pseudogenes (Liu et al. 2004), o mediante el cálculo de distancias respecto a
ortólogos funcionales (Dagan et al. 2005).
Determinar la edad de los pseudogenes y analizar las pérdidas
génicas requiere por tanto, la comparación con ortólogos funcionales. M.
leprae es uno de los genomas reducidos en los que esta comparación puede
llevarse a cabo, dado que no sólo su genoma ha sido completamente
secuenciado, sino también el de diversas especies del mismo género
estrechamente emparentadas. Esta comparación nos permitirá además, la
reconstrucción de un genoma ancestral a partir del cual conocer la
degradación que ha sufrido esta especie desde la divergencia con su ancestro.
Dado que los hechos genómicos de esta especie indican que se halla en fases
iniciales de la reducción, este estudio nos permitirá caracterizar las etapas
iniciales de la evolución reductiva.
213
...........................................................................................................................................Capítulo 6
6.2 OBJETIVOS
El principal objetivo del presente capítulo es la caracterización del proceso de
degradación génica en las primeras etapas de la reducción genómica,
mediante el análisis de los genes perdidos en el genoma de M. leprae.
A través de este análisis pretendemos responder a las siguientes
cuestiones:
-
¿Cuántos genes ha perdido M. leprae desde su divergencia del
ancestro común a M. leprae y el complejo de M. tuberculosis?
-
¿En qué estado de degradación se encuentran los genes perdidos en
M. leprae?
-
El proceso de pérdida en las primeras etapas, ¿está dominado por
pérdidas graduales o por grandes eventos de deleción?
-
¿Cuál es la edad de los pseudogenes de M. leprae?
-
¿Existe un “efecto dominó” en el proceso de inactivación y pérdida
de genes?
-
¿Qué porcentaje de nucleótidos se han perdido a partir de los genes
inactivados en M. leprae?
214
…………………………………………………………………………....Resultados y discusión
6.3 RESULTADOS Y DISCUSIÓN
6.3.1 Reconstrucción filogenética
Con el fin de poder llevar a cabo la reconstrucción del supuesto genoma
ancestral de M. leprae, para poder realizar un estudio riguroso de los
pseudogenes y los genes perdidos, procedimos en primer lugar a la obtención
de una topología robusta de las especies empleadas. Los genomas de
Mycobacterium escogidos para esta reconstrucción fueron los genomas de
Mav, Mtc (I), Mtc (II), Mbo y Mle, descritos en material y métodos.
Adicionalmente se utilizaron otras especies de los géneros Nocardia y
Corynebacterium como grupos externos: Cgl, Cdi, Cef y Nfa (ver material y
métodos, apartado 3.1.3).
A partir de la base de datos TIGR (The Institute for Genomic
Research) se seleccionaron las proteínas con un elevado valor de homología
(más de un 70%) entre las especies Mle y Mtu(II). De éstas se escogieron 12
implicadas en procesos informativos: AlaS, DnaE, GyrA, IleS, InfB, LeuS,
PheT, PolA, TopA, UvrD, ValS y RpoC. Se utilizaron secuencias de
aminoácidos para que la reconstrucción filogenética no se viera afectada por
el sesgo en la composición nucleotídica. El modelo evolutivo aplicado fue
JTT, optimizando gamma y estimando la proporción de sitios invariables.
La topología obtenida con el alineamiento de 12 proteínas
concatenadas se representa en la figura 6.2.
215
……………………………………………………………………...................................Capítulo 6
100
100
100
Mtu(II)
Mbo
Mtu(I)
Mle
100
Mav
Nfa
Cgl
100
Cef
Cdi
0.1
Figura 6.2. Reconstrucción filogenética por máxima
verosimilitud de las especies de Mycobacterium
empleadas en este estudio, a partir de la secuencia de
aminoácidos de 12 proteínas. El número que aparece en
la parte superior de cada nodo es el valor de bootstrap.
Los elevados valores de bootstrap obtenidos indican un alto grado
de apoyo de los nodos en base a nuestros datos. Como ya se ha mostrado en
estudios previos del género Mycobacterium (Devulder et al. 2005), el empleo
de diferentes genes concatenados permite un incremento significativo del
poder de discriminación y de la robustez del árbol filogenético.
Mtu(I), Mtu(II) y Mbo, dada la alta similitud de sus secuencias,
forman un grupo monofilético separado de las otras especies, al que nos
referiremos a partir de ahora como el complejo M. tuberculosis. Mav es el
grupo externo del resto de especies de Mycobacterium y Mle muestra una
visible aceleración en la longitud de su rama.
De acuerdo con estudios anteriores, Mtu(I), Mtu(II) y Mbo
comparten un ancestro común (Fleischmann et al. 2002). Las relaciones
filogenéticas entre dichas especies no se resuelven debido a la alta similitud
entre las secuencias de las mismas. De hecho, el complejo de M. tuberculosis
se caracteriza por una similitud del 99,9% a nivel nucleotídico y por poseer
secuencias idénticas del 16SrDNA (Brosch et al. 2002). Sin embargo, en
estudios posteriores que comparan genomas completamente secuenciados se
demuestra que la variabilidad entre cepas del complejo M. tuberculosis es
mucho más elevada de lo que se pensaba inicialmente (Fleishcmann et al.
216
………………………………………………………………………...........Resultados y discusión
2000; Hughes et al. 2002). La explicación a esta aparente contradicción es
que la variabilidad no se distribuye uniformemente a lo largo de estos
genomas, sino que mientras el 80,5% de los loci no muestra diferencias
sinónimas o no sinónimas, en otros el nivel de polimorfismo es elevado
(Sreevatsan et al. 1997; Hughes 2002; Musser et al. 2000). Por tanto, para
resolver las relaciones entre las especies del complejo M. tuberculosis, es
necesario el empleo de estas secuencias de alta variabilidad, que no
permitirían, dado su elevado nivel de polimorfismo resolver la filogenia entre
especies más alejadas como las de nuestro estudio.
Finalmente la posición de Nfa nos indica que puede ser utilizada
como un grupo externo apropiado para las especies de Mycobacterium
empleadas en nuestro trabajo.
6.3.2 Reconstrucción del genoma ancestral
Para la reconstrucción del hipotético genoma ancestral de M. leprae y el
grupo de M. tuberculosis, a partir de la base de datos MBGD (Microbial
Genome Database) obtuvimos una tabla de genes ortólogos de los genomas
de Mycobaterium empleados y de Nfa. Las secuencias de inserción fueron
eliminadas de la tabla, dada la dificultad de asignar la ortología de las
mismas. Los pseudogenes fueron identificados según la anotación de la
versión de Agosto del 2005 de la base de datos NCBI (National Center for
Biotechnology Information). En el caso del genoma de M. leprae se
incorporaron pseudogenes adicionales detectados tras una reanotación del
genoma y disponibles en la base de datos Leproma.
La tabla fue ordenada escogiendo arbitrariamente uno de los
genomas de Mycobacterium. A continuación, se comprobó cuál era la
situación de cada uno de los genes de cada genoma que no estaban presentes
en dicha tabla. En primer lugar, la probabilidad de no haber detectado algún
ortólogo real para dichos genes se redujo utilizando una segunda base de
datos de ortólogos: GFIT (Gene Function Identification Tool). Una vez
comprobado que no existen genes ortólogos descritos en otros genomas para
217
……………………………………………………………………...................................Capítulo 6
estos genes, es posible que dichos genes sean ortólogos de pseudogenes o de
restos de genes en un avanzado estado de desintegración génica. Dado que las
bases de datos empleadas únicamente asignan ortología a los genes, estamos
perdiendo estos ortólogos. Para evitar esta pérdida, en primer lugar llevamos
a cabo un blastx de todos los pseudogenes empleados contra las proteínas del
resto de Mycobacterium del estudio. En segundo lugar, realizamos un tblastn
de las proteínas de cada genoma de Mycobacterium utilizado contra las
regiones intergénicas del resto de genomas de Mycobacterium incorporados
en la tabla. El e-value de los tblastn se limitó a 0,05, y las regiones
intergénicas de menos de 30 nucleótidos no se tuvieron en cuenta, dado que
éstas pueden dar señal de BLAST únicamente por azar. De este modo, los
pseudogenes fueron incorporados a la tabla, y cada vez que para un gen no se
detectaban genes ortólogos se comprobó que no existía ningún resto ortólogo
del mismo en cualquiera de los otros genomas.
Para algunos genes, la probabilidad de detectar una secuencia
similar de los mismos en las regiones no codificantes de otros
Mycobacterium es muy elevada, dada la alta frecuencia en estos genomas de
familias multigénicas, y genes duplicados (Cole et al. 1998, 2001;
Fleischmann et al. 2002; Garnier et al. 2003, Li et al. 2005). De modo que en
el caso de detectar una señal positiva para estos genes contra la región
intergénica de otro de los genomas, sólo se incorporó a la tabla de ortólogos
si la región intergénica contra la que se obtenía señal mostraba sintenia. Es
decir, si esta región se localizaba entre el gen ortólogo anterior y el posterior,
siempre y cuando éstos fueran consecutivos o se hallaran en el área
inmediatamente cercana. En el caso de que esto ocurra en una zona de rotura
del orden génico, las regiones adyacentes al bloque previo y posterior serán
candidatas a ser regiones donde a priori se puede esperar obtener una señal
positiva del tblastn. Este criterio se toma en base a que la probabilidad de
encontrar un ortólogo real aislado, fuera de la posición esperada, es baja. Sin
embargo, a medida que el número de ortólogos encontrados fuera de la
posición esperada, pero contiguos entre sí, aumenta, la probabilidad de que se
218
………………………………………………………………………...........Resultados y discusión
trate de una ortología real es mayor. Para establecer por tanto un límite que se
ajuste a todos los casos posibles, calculamos con el programa “R” (v.2.2.1) la
probabilidad de que genes consecutivos aparezcan adyacentes, tras barajar al
azar un genoma de 3.000 genes (este número se tomó como una
aproximación al número de genes que llegaría a tener finalmente el genoma
ancestral reconstruido, dado que el criterio se establece previamente). Esta
probabilidad es mayor de 0,1 para dos genes, y sólo a partir de tres es inferior
a 0,002. En base a esto, sólo cuando tres o más genes contiguos muestran una
señal positiva en el tblastn, se incorporan como ortólogos en la tabla, aunque
no se localicen en la región situada entre los genes ortólogos anterior y
posterior. De modo que, en nuestro estudio la descripción de pseudogenes no
detectados previamente se basa en la identificación de ortólogos y la
ortología viene definida tanto por similitud como por sintenia. Así, aunque es
posible perder algún resto ortólogo real que ha sufrido translocación y no se
localiza en la región esperada, la probabilidad de que esto ocurra es baja y la
fiabilidad de los restos ortólogos que incorporamos en la tabla es elevada.
Además, para algunos casos en los que la asignación de la ortología era
especialmente complicada, se llevaron a cabo análisis adicionales tales como
la reconstrucción filogenética de los genes homólogos.
A los restos de genes ortólogos incorporados a la tabla se les asignó
el nombre del gen anterior junto con una letra. De modo que si por ejemplo,
en la región intergénica situada entre los genes de Mle: ML0789 y ML0790
hallamos algún resto del gen que esperamos encontrar en esa zona al
comparar con los genes de los otros Mycobacterium, éste se denominará
ML0789a.
La filogenia previamente obtenida (figura 6.2) permite diferenciar
tres linajes: uno formado por Mav, otro formado por Mle y un tercer grupo
formado por los genomas de Mtu(I), Mtu(II) y Mbo que constituyen lo que
hemos denominado el complejo de M. tuberculosis. En base a esto
establecimos que un gen es ancestral si está presente en al menos dos de estos
tres linajes, como gen activo, pseudogen o resto génico. Este criterio nos
219
……………………………………………………………………...................................Capítulo 6
permite detectar restos ortólogos presentes sólo en el grupo de tuberculosis o
en Mle, gracias a la comparación con Mav, e incorporarlos al ancestro.
En el caso de duplicaciones en tándem, para establecer la situación
ancestral, se tomaron los siguientes criterios:
a)
Si los genes implicados están presentes en los tres linajes de
Mycobacterium, se toma como situación ancestral la mayoritaria. Por
ejemplo, si hay dos genes consecutivos en los genomas del complejo M.
tuberculosis, que muestran ortología con un único gen en el resto de
genomas, se considera que se trata de una duplicación en el grupo de M.
tuberculosis y por lo tanto el gen ortólogo ancestral es sólo uno. En el caso
del genoma que presenta los genes duplicados, sólo dejamos en la tabla aquél
que tenga una mayor homología con sus ortólogos.
b)
Si los genes implicados están sólo en dos de los tres linajes,
se toma como referencia adicional el genoma de Nfa y la situación
compartida por éste y uno de los dos linajes Mycobacterium que tenemos,
será la que se tome por ancestral. Pero si el gen no está presente en Nfa no
podemos conocer cuál era la situación ancestral. En este caso, decidimos
escoger siempre el resultado que incrementa el número de genes ancestrales.
De este modo, si estamos ante un gen que se ha perdido completamente en
Mle y que es adyacente a otras pérdidas totales estamos incrementando el
tamaño del bloque de pérdida. Esto favorece a las grandes deleciones frente a
la pérdida gen a gen, lo cual nos parece un criterio más conservador, dado
que el gran número de pseudogenes presentes en M. leprae favorece a priori
la hipótesis de pérdida gradual. No obstante, la influencia de esta decisión en
el resultado final es inapreciable, dado que sólo en uno de los bloques de
pérdida se dio esta situación.
En el caso de fisiones y fusiones génicas se toman exactamente los
mismos criterios para establecer la situación ancestral. Cuando una fisión no
sea ancestral, el ortólogo para ese gen en el genoma que presente dicha fusión
y que vendrá en la tabla serán los dos genes fisionados.
220
………………………………………………………………………...........Resultados y discusión
El genoma ancestral finalmente obtenido estaba compuesto por
2.977 genes (anexo 12).
Una vez construido el genoma ancestral, se determinó el orden
génico del mismo en base a los siguientes criterios:
a)
Si uno de los tres linajes de Mycobacterium tiene una
reordenación pero ésta no afecta a los otros dos genomas, el orden ancestral
será el compartido por dos de los tres (figura 6.3. a)).
221
……………………………………………………………………...................................Capítulo 6
a)
GENOMA
ANCESTRAL
B01_0710
B01_0711
B01_0712
B01_0713
B01_0714
B01_0715
B01_0716
B01_0717
B01_0718
B01_0719
B01_0720
B01_0721
B01_0722
B01_0723
B01_0724
B01_0725
B01_0726
B01_0727
B01_0728
b)
GENOMA
ANCESTRAL
B01_2062
B01_2063
B01_2064
B01_2065
B01_2066
B01_2067
B01_2068
B01_2069
B01_2070
B01_2071
B01_2072
B01_2073
B01_2074
B01_2075
B01_2076
B01_2077
B01_2078
B01_2079
B01_2080
Mav
mpa:MAP0595C
mpa:MAP0594C
mpa:MAP0593C
mpa:MAP0592
mpa:MAP0591
mpa:MAP0590
mpa:MAP0582
Orden
Mav
377
376
375
374
373
372
Orden
Mle
Mle:ML2237
Mle:ML2238
Mle:ML2239
Mle:ML2240
Mle:ML2240
Mle:ML2241
2100
2101
2102
2103
2104
2105
Mle:ML2246
Mle:ML2247
Mle:ML2248
Mle:ML2250
Mle:ML2251
Mle:ML2253a
Mle:ML2254
Mle:ML2255
2106
2107
2108
2109
2110
2111
2112
2113
Mle
mle:ML0132
mle:ML0133
mle:ML0134
mle:ML0135
mle:ML0136
mle:ML0137
mle:ML0138
mle:ML0139
mle:ML2349
mle:ML2350
mle:ML2351
mle:ML2352
mle:ML2353
mle:ML2354
mle:ML2355
mle:ML2356
mle:ML2357
mle:ML2358
mle:ML2359
Orden
Mle
125
126
127
128
129
130
131
132
2200
2201
2202
2203
2204
2205
2206
2207
2208
2209
2210
371
mpa:MAP0579C
mpa:MAP0578
mpa:MAP0577
mpa:MAP0576
370
369
368
367
mpa:MAP0573C
mpa:MAP0572C
mpa:MAP0571
mpa:MAP0570
366
365
364
363
Mav
Orden
Mav
Punto rotura orden génico
Mle
Pseudogen
Orden
Mma
mtu:RV3489
mtu:RV3490
mtu:RV3491
mtu:RV3492C
mtu:RV3493C
Orden
Mtu(I)
600
599
598
597
596
595
594
593
2608
2609
2610
2611
2612
2613
2614
2615
2616
2617
2618
Mtu(I)
mtu:RV2950C
mtu:RV2949C
mtu:RV2948C
mtu:RV2946C
mtu:RV2945C
mtu:RV2942
mtu:RV2941
mtu:RV2940
mtu:RV2939
mtu:RV2938
mtu:RV2937
mtu:RV2936
mtu:RV2935
mtu:RV2934
mtu:RV2933
mtu:RV2932
mtu:RV2931
mtu:RV2930
mtu:RV2928
Orden
Mtu(I)
2228
2227
2226
2225
2224
2223
2222
2221
2220
2219
2218
2217
2216
2215
2214
2213
2212
2211
2210
Orden
Mma
MM1759
MM1000
MM1761
MM1762
MM1763
MM1764
MM1765
MM1767
MM1768
MM1769
MM1770
MM1771
MM1772
MM1773
MM1774
MM1775
MM1776
MM1777
MM1778
Mtu(I)
mtu:RV0761C
mtu:RV0760C
mtu:RV0759C
mtu:RV0758
mtu:RV0757
mtu:RV0756C
mtu:RV3473C
mtu:RV3482C
mtu:RV3484
mtu:RV3485C
Gen perdido
Figura 6.3. Tabla de ortólogos ancestrales de los genomas de Mav, Mle, Mtu(I) y Mma. Junto a
cada columna que contiene los genes de cada genoma aparece otra columna que muestra el
número correspondiente a ese gen cuando la tabla se ordena por ese genoma en concreto. El caso
a) muestra un punto de rotura del orden génico exclusivo de Mtu(I) que no es compartido por
Mav ni Mlep y que por tanto, no se considera ancestral. El caso b) muestra una zona de la tabla
en la que no existen ortólogos para Mav y dado que Mle y Mtu(I) no comparten el orden génico,
hay que recurrir al genoma de Mma para saber cuál era el orden ancestral. En este caso el orden
ancestral es el compartido por Mma y Mtu(I).
222
………………………………………………………………………...........Resultados y discusión
b) Si a partir de un punto dado, cada uno de los tres linajes continúa
con un orden génico diferente, o en el caso de zonas con genes presentes sólo
en dos de los grupos de Mycobacterium y con ordenaciones diferentes, se
consulta el orden de los genes ortólogos de otro genoma de Mycobacterium
que pueda servir como grupo externo de Mle y el complejo Mtu. El orden
ancestral será el compartido por la mayor parte de los genomas (figura 6.3.
b). Además de los genomas de Mycobacterium empleados en el estudio, los
genomas de M. marinum, M. microti y M. smegmatis estaban parcialmente
secuenciados y anotados cuando finalizamos la reconstrucción del genoma
ancestral. M. microti pertenece al complejo de M. tuberculosis, por lo que no
puede ser utilizado como grupo externo de las especies utilizadas. M.
smegmatis es una micobacteria de crecimiento rápido, mientras que M.
marinum es de crecimiento lento, al igual que el resto de especies empleadas
en nuestro estudio. De modo que, dada su mayor proximidad al resto de
especies utilizadas, si M. marinum puede ser empleada como grupo externo,
es más adecuada que M. smegmatis. Para saber su posición filogenética
respecto a las especies con las que hemos trabajado nos basamos en el
alineamiento de las 12 proteínas concatenadas, empleadas en la filogenia
inicial (apartado 6.3.1), al que incorporamos las mismas proteínas de M.
marinum (figura 6.4). El resultado mostró que M. marinum podía ser
empleado como grupo externo a la hora de reconstruir el orden ancestral.
223
……………………………………………………………………...................................Capítulo 6
Cgl
Cef
Cdi
Nfa
Mav
100
Mma
100
Mle
78
98
Mtu (I)
100
0.1
Mtu (II)
Figura 6.4. Reconstrucción filogenética por máxima
verosimilitud de las especies de Mycobacterium empleadas en
este estudio y M. marinum, a partir de la secuencia de
aminoácidos de 12 proteínas. El número que aparece en la parte
superior de cada nodo es el valor de bootstrap obtenido.
De este modo, fue posible reconstruir el genoma ancestral como un
bloque único, a excepción de dos genes que quedan excluidos de este bloque
dado que no es posible conocer el orden ancestral de los mismos en base al
criterio empleado (figura 6.5). Estos dos genes en el genoma de Mav son
MAP2046 y MAP2048. Se corresponden con ortólogos consecutivos en los
genomas del complejo M. tuberculosis, pero en orden inverso respecto a los
genes flanqueantes, no existen ortólogos de los mismos en el genoma de M.
leprae y Mma no proporciona información suficiente para conocer el
verdadero orden ancestral.
Una vez ordenada la tabla por el genoma ancestral, se determinó el
número de roturas de cada uno de los genomas de Mycobacterium respecto
del ancestral. Se detectaron 20 y 19 puntos de roturas en Mav y Mtu(I)
respectivamente, y 109 en el caso de M. leprae.
224
………………………………………………………………………...........Resultados y discusión
a)
b)
19
109
20
Mtu(I)
Mle
Mav
Figura 6.5. Reordenaciones en los genomas de Mycobacterium empleados en el estudio desde la
divergencia del genoma ancestral. a) Número de puntos de rotura detectados desde el genoma
ancestral reconstruido hasta cada una de las especies del estudio. b) Representación gráfica de
las reordenaciones desde el genoma ancestral (círculo exterior) hasta los genomas de Mav,
Mtu(II) y Mle (desde fuera hacia dentro, respectivamente). Los espacios en blanco representan
genes ausentes en el genoma correspondiente. La línea negra situada en la parte superior de los
genomas ancestral, de Mav y del complejo M. tuberculosis, representa dos genes que no forman
parte del resto del bloque ancestral (MAP2046 y MAP2048).
La presencia de reordenaciones en estos genomas es una
consecuencia de la gran cantidad de elementos repetidos en los mismos que
permiten actuar a los mecanismos de recombinación. El elevado número de
reordenaciones que encontramos en el linaje que conduce a Mle es
congruente con la amplia evidencia previamente hallada (Cole et al. 2001),
de la presencia de reordenaciones de larga escala y deleciones originadas
desde eventos de recombinación homóloga.
6.3.3 Análisis de las pérdidas en M. leprae
La comparación de ortólogos entre el genoma ancestral y el genoma de Mle
permitió detectar los genes ancestrales perdidos. De los 2.977 genes
ancestrales, 1.537 se habían perdido en Mle (figura 6.6). Éstos se clasificaron
en dos grupos:
a)
Pseudogenes: de los 1133 pseudogenes descritos para Mle,
952 estaban presentes en la tabla y fueron por tanto genes ancestrales.
225
……………………………………………………………………...................................Capítulo 6
Además de éstos, nosotros detectamos 177 nuevos pseudogenes no descritos
previamente, dado que en general se hayan en un avanzado estado de
degradación génica, pero para los cuales aún es posible detectar homología
con el correspondiente gen ortólogo de otro de los genomas de
Mycobacterium.
La identificación de nuevos pseudogenes depende en gran medida
de la disponibilidad de la secuencia de genes ortólogos en especies cercanas.
Es por ello que el número de pseudogenes identificados en los genomas
bacterianos ha ido incrementando a medida que el número de genomas
completamente secuenciados ha aumentado (Lerat y Ochman, 2004). La
mayor parte de los pseudogenes hallados en este estudio y no identificados
hasta el momento poseían un ortólogo en el genoma de Mav pero no
mostraban ortología con el resto de genomas de Mycobacterium. El genoma
de Mav ha sido el último de los genomas de Mycobacterium utilizados en
este estudio, cuya secuencia completa ha sido publicada. Este hecho pone de
manifiesto como el orden temporal de aparición de la secuencia completa del
genoma de las especies de Mycobacterium ha influido en la detección de
pseudogenes en el genoma de Mle. El incremento de pseudogenes descritos
para una especie dada a medida que aumenta el número de genomas
secuenciados disponibles, se ha puesto de manifiesto en otros estudios
previos (Homma et al. 2002; Ochman y Davalos 2005).
b)
Pérdidas completas: genes que estaban en el genoma
ancestral y de los cuales no se detecta ningún resto en el genoma de Mle. Se
detectaron 408 genes ancestrales que se habían perdido completamente en
Mle. Éstos a su vez se clasificaron en dos tipos:
1.
Pérdidas individuales: se trata de genes completamente
perdidos, pero no adyacentes a otras pérdidas completas, en base al orden del
genoma ancestral. De los 1.537 genes perdidos en Mle, 105 son pérdidas
completas individuales.
226
………………………………………………………………………...........Resultados y discusión
2.
Pérdidas en bloque: son genes para los cuales no se detecta
ningún resto y que son contiguos a una o más pérdidas del mismo tipo.
Aunque en este caso puede tratarse también de genes que se perdieron de
manera individual, pero que se situaban consecutivamente en el genoma. De
los 1537 genes perdidos en Mle, 303 son pérdidas completas agrupadas en
bloques.
952
Ps
303
Nuevos ps
Pérdidas completas individuales
177
105
Pérdidas completas en bloque
Figura 6.6. Distribución de los genes perdidos en Mle en pseudogenes, nuevos pseudogenes
detectados y genes para los que no se detecta ningún resto génico. Estos últimos se dividen en
pérdidas individuales aisladas y en pérdidas en bloques.
Se han detectado un total de 62 bloques de pérdidas completas
formados por un número variable de genes que oscila entre 2 y 37. La mayor
parte de los bloques están formados por un pequeño número de genes, siendo
los bloques de dos genes los más abundantes. Sólo hay cuatro bloques
formados por más de 10 genes, que poseen 12, 14, 17 y 37 genes cada uno de
ellos (figura 6.7).
227
……………………………………………………………………...................................Capítulo 6
120
Número de bloques
100
Número de genes perdidos
80
60
40
20
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Número de genes por bloque
Figura 6.7. Distribución de las pérdidas completas en Mle. Los genes ancestrales perdidos en
Mle, para los cuales no se detecta ningún resto homólogo, se dividen en pérdidas individuales
(no se tratarían por tanto de bloques, pero los designamos como bloques formados por un único
gen en la figura a fin de simplificar la representación) y pérdidas en bloque que están formadas
por un número variable de genes.
De modo que, aunque la mayor parte de genes perdidos totalmente
son pérdidas en bloque, observamos que la mayor parte de bloques están
formados por un pequeño número de genes. El bloque más grande detectado
es de 37 genes. Si, además, tenemos en cuenta que la gran mayoría de los
genes perdidos en Mle son pseudogenes o nuevos pseudogenes y por tanto,
pérdidas individuales, observamos que la mayor parte de la pérdida de genes
en Mle se ha producido gen a gen. Estos resultados apoyan por tanto el
modelo de pérdida gradual continua propuesto por Silva et al. (2001).
Además, de acuerdo con este modelo, hay que considerar la posibilidad de
que las pérdidas en bloque sean el resultado de pérdidas individuales
adyacentes, cuyo resultado final son “desiertos génicos” que pueden
interpretarse como el resultado de una gran deleción y podrían explicar los
bloques de pérdida (Figura 6.8).
228
………………………………………………………………………...........Resultados y discusión
a)
b)
Deleción
Figura 6.8. El proceso de degradación gen a gen, frente a la pérdida a través de grandes
deleciones. a) Pérdida gradual de 8 genes contiguos mediante un proceso de
desintegración génica gen a gen. b) Pérdida de 8 genes contiguos mediante un evento
único de deleción.
Nuestro estudio no abarca todas las pérdidas de Mle dado que nos
basamos únicamente en bloques ancestrales. Estudiando la distribución de
todas las pérdidas en Mle posiblemente pueden detectarse bloques de
pérdidas completas de mayor tamaño, pero no puede asumirse la
ancestralidad de las mismas y por tanto, tampoco puede asumirse que la
pérdida ha sido conjunta dado que el orden actual puede ser el resultado de
reordenaciones posteriores. Por tanto, es posible que genes esparcidos por el
genoma que se inactivaron de manera individual terminen contiguos tras
diversas translocaciones.
No obstante, no podemos descartar la posibilidad de que se den
puntualmente grandes deleciones. Nilsson et al. (2005), de hecho, muestran
en su elegante experimento con S. enterica que éstas pueden tener lugar y
nosotros detectamos bloques de pérdidas completas de hasta 37 genes. Sin
embargo, la frecuencia de éstas ha de ser limitada, dado que requiere la
agrupación contigua de numerosos genes no esenciales. La abundancia de
estos tramos en el genoma ha de ser restringida y por tanto, una vez
desaparezcan, el proceso de degradación estará dominado por pérdidas
graduales. De hecho, Nilsson y colaboradores sólo detectan una gran deleción
en cada uno de los mutantes con los que trabajan, y ninguna se localizaba en
aproximadamente 3 Mb alrededor del origen de replicación donde suelen
localizarse los genes esenciales.
Obviamente, al inicio de la reducción genómica es cuando existe un
mayor potencial de pérdida, que progresivamente va desapareciendo. La
229
……………………………………………………………………...................................Capítulo 6
velocidad del proceso puede por tanto ser mayor en etapas tempranas, pero
ello no implica necesariamente grandes deleciones que se extiendan a lo largo
de cientos de genes, especialmente si no hay evidencia de presión de
selección hacia un reducido tamaño genómico. Es posible que el proceso se
dé principalmente a través de pérdidas graduales, que poco a poco tienen una
menor probabilidad de fijarse, dado que cada vez la cantidad de información
que puede perderse es menor.
Nuestros resultados no descartan las grandes deleciones como
mecanismo de pérdida inicial. Éste puede participar en estadios tempranos de
la reducción, junto con una degradación gen a gen. Sin embargo, los datos
obtenidos ponen de manifiesto que la degradación génica gradual juega un
importante papel en el proceso de reducción genómica, incluso en las
primeras etapas del mismo.
6.3.4 Análisis de la desintegración génica de los pseudogenes de M. leprae
Los genes y pseudogenes de Mle fueron alineados tal y como se describe en
material y métodos (apartado 3.3.2). Para los pseudogenes de Mle que tenían
un correspondiente ortólogo en Mav y en Mtu(II), se llevó a cabo el cálculo
de los siguientes parámetros relacionados con la pseudogenización y
desintegración de genes:
a) ΔL: porcentaje de longitud perdido en la secuencia de Mle,
tomando como longitud original del gen el promedio de las longitudes de los
correspondientes ortólogos en Mav y en Mtu(II). Los valores negativos de ΔL
indican ganancia:
⎛
⎞
⎜
⎟
LMle × 100 ⎟
⎜
ΔL = 100 − ⎜
⎛ L + LMtu ( II ) ⎞ ⎟
⎜ ⎜⎜ Mav
⎟⎟ ⎟⎟
⎜
2
⎠⎠
⎝⎝
230
………………………………………………………………………...........Resultados y discusión
Donde LMle es la longitud del pseudogen en Mle, LMav es la longitud
del gen en Mav y LMtu(II) es la longitud del gen en Mtu(II).
b) ΔGC: porcentaje de pérdida de GC en la composición
nucleotídica de la secuencia de Mle, tomando como composición original del
gen el promedio de porcentaje en GC entre el gen ortólogo de Mav y el de
Mtu(II). Valores negativos de ΔGC indican ganancia:
⎛
⎞
⎜
⎟
%GCMle × 100
⎜
⎟
ΔGC = 100 − ⎜
⎛ %GCMav + %GCMtu ( II ) ⎞ ⎟
⎜ ⎜⎜
⎟⎟ ⎟⎟
⎜
2
⎝
⎠⎠
⎝
Donde %GCMle es el porcentaje de GC en el pseudogen de Mle,
%GCMav es el porcentaje de GC en el gen de Mav, y %GCMtu(II) es el
porcentaje de GC en el gen de Mtu(II).
c) ΔI: pérdida de la identidad tras la inactivación de un gen en Mle
respecto de la secuencia original del gen. Para el cálculo de este parámetro
hemos tomado como medida de identidad original, la frecuencia de
nucleótidos idénticos entre Mav y Mtu(II) para ese gen y como porcentaje de
pérdida el promedio de la pérdida entre el pseudogen en Mle y el gen en
Mav, y la pérdida entre el ps en Mle y el gen en Mtu(II):
⎡ ⎛ I Mle− Mav + I Mle− Mtu( II ) ⎞
⎤
⎟⎟ × 100 ⎥
⎢ ⎜⎜
2
⎝
⎠
⎥
ΔI = 100 − ⎢
⎢
⎥
I Mav− Mtu( II )
⎢
⎥
⎣
⎦
231
……………………………………………………………………...................................Capítulo 6
Donde IMle-Mav es el porcentaje de identidad entre el ps de Mle y el
ortólogo en Mav, IMle-Mtu(II) es el porcentaje de identidad entre el ps de Mle y
el ortólogo de Mtu(II), y IMav-Mtu(II) es el porcentaje de identidad entre el gen
en Mav y en Mtu(II).
d) Dcp: densidad de codones de paro a partir de los pseudogenes
alineados con GeneWise. Este programa contempla los posibles corrimientos
en la pauta de lectura. Además, el programa comienza el alineamiento desde
la primera posición del pseudogen que es posible alinear con el
correspondiente gen ortólogo. Ello hace que la salida de Genewise pueda
variar según se alinea el pseudogen con el correspondiente ortólogo de Mav o
de Mtu(II). Estos alineamientos que no son idénticos, pueden dar un número
de codones de paro distinto para el mismo pseudogen. En nuestro caso, para
el recuento del número de codones de paro del pseudogen, tomamos siempre
el alineamiento que implicaba una mayor longitud de la secuencia del
pseudogen, bien sea con Mav o con Mtu(II). La fórmula aplicada fue la
siguiente:
Dcp =
N º codones de paro
LMle
Todos los parámetros descritos se calcularon sobre los alineamientos
efectuados en base al algoritmo de Neddleman-Wusch, salvo el cálculo de la
densidad de codones de paro, que se llevó a cabo sobre los alineamientos
efectuados con Genewise. En el cálculo de todos ellos no se tuvieron en
cuenta aquellos pseudogenes que habían incrementado su longitud en más de
un 5%, dado que ello puede ser debido a la introducción en el mismo de una
secuencia de inserción, ni tampoco los pseudogenes formados por menos de
232
………………………………………………………………………...........Resultados y discusión
50 codones. Para tomar este criterio llevamos a cabo una reordenación al azar
del genoma de E. coli, con el fin de calcular la probabilidad de obtener por
azar una pauta abierta de lectura. Esta probabilidad es elevada para pequeñas
secuencias y sólo empieza a ser baja para secuencias de más de 150
nucleótidos.
A partir de estos datos, se llevaron a cabo todos los posibles análisis
de correlación entre estos parámetros, con el objetivo de estudiar la posible
variación conjunta de los mismos. Los valores para ΔGC e ΔI, mostraron una
distribución normal. En el caso del ΔL y Dcp la distribución no se ajustaba a
una curva normal. En caso de cumplirse tanto la normalidad de los datos
como la condición de relación lineal entre las variables a comparar, se aplicó
un test paramétrico: el test de correlación de Pearson. En el caso de no
cumplirse la normalidad de los datos se aplicó un test no paramétrico: el test
de Spearman.
Los parámetros que mostraron una mayor correlación fueron la pérdida de
GC y la pérdida de identidad (figura 6.9).
R =0,372
ΔGC (%)
Sig . 0,01
Δ I (%)
Figura 6.9. Correlación entre la pérdida de GC (%) y la pérdida
de identidad (%) de los pseudogenes de Mle.
Una vez que se produce la inactivación de un gen, por un lado la
falta de presión selectiva sobre el mismo permitirá que se acumulen
mutaciones a lo largo del tiempo que irán incrementando la pérdida de
233
……………………………………………………………………...................................Capítulo 6
identidad. Por otro lado, el sesgo hacia adenina y timina que muestran en su
genoma la mayor parte de patógenos obligados (Moran, 2002) se manifiesta
principalmente en regiones neutras. Por tanto, una vez se inactiva un gen se
espera que ambos procesos muestren una correlación, dado que aumentan
gradualmente a lo largo del tiempo. Se espera por tanto, que pseudogenes
más antiguos muestren valores de ambos parámetros más grandes que
pseudogenes más recientes.
La pérdida de GC (%) y la pérdida de identidad (%) mostraron
también correlación con la densidad de codones de paro, con una
significación del 0,01 (datos no mostrados). Sin embargo, el grado de
correlación es muy bajo en estos casos (R = 0,23-0,26 para la densidad de
codones con la pérdida de identidad y de GC, respectivamente). La densidad
de codones de paro se espera que incremente a lo largo del tiempo. No sólo
por la falta de presión de selección que actuaría contra la aparición de los
mismos, sino también porque al ser ricos en adenina y timina (por ejemplo:
TAG, TAA y TGA), a medida que aumenta la frecuencia de AT en una
secuencia, aumenta la frecuencia de codones de paro en la misma (Charles e
Ishikawa, 1999). La escasa correlación de la densidad de codones de paro con
otros parámetros se debe, entre otros factores, a que un elevado número de
pseudogenes pese a que poseen alguna mutación que los hace inactivos, no
han acumulado durante el tiempo que son pseudogenes codones de paro en su
secuencia.
La pérdida de longitud sólo mostró correlación con la densidad de
codones de paro y con un bajo coeficiente (datos no mostrados). La ausencia
de correlación con procesos como la pérdida de identidad o de GC puede
reflejar el ritmo diferente al que se suceden ambos eventos mutacionales. Sin
embargo, hay que indicar que el parámetro pérdida de longitud, toma como
longitud del pseudogen la establecida por los resultados de BLAST y que por
tanto, no hay que descartar que se halle sujeta a un elevado porcentaje de
error.
234
………………………………………………………………………...........Resultados y discusión
6.3.5 Estima de la edad de los pseudogenes
Hasta ahora se han llevado a cabo principalmente tres aproximaciones para
calcular la edad de los pseudogenes de M. leprae: midiendo la acumulación
de codones de paro en la secuencia del pseudogen (Babu, 2003), midiendo el
número de corrimientos de pauta generados por indels o codones de paro (Liu
et al. 2004) y calculando la distancia genética entre el pseudogen y el
ortólogo correspondiente (Dagan et al. 2006). El primer parámetro, como
hemos visto, evoluciona a un ritmo demasiado lento, por lo que no muestra
una resolución suficiente para discernir la edad de pseudogenes recientes. El
resto de parámetros que hemos calculado y que se relacionan con el tiempo
de pseudogenización de una secuencia presentan también problemas. La
pérdida de longitud es un parámetro que dará lugar a error a la hora de
estimar la edad de un pseudogen en el caso de que se den
inserciones/deleciones de tamaños diversos. Por ejemplo, un pseudogen que
haya perdido 10 nucleótidos a partir de 10 sucesos de deleción mostrará una
edad equivalente a la de otro pseudogen que sólo haya sufrido un único
evento de deleción que implique 10 nucleótidos, de modo que la evolución de
este parámetro no será gradual. La pérdida de porcentaje en GC de la
secuencia, es una medida que también presenta una resolución insuficiente,
dado que en principio el genoma de Mle ya posee, aún para genes activos, un
contenido en GC aproximadamente un 10% inferior al resto de
Mycobacterium. Además, aún cuando este contenido comenzara a reducirse a
partir de la inactivación de una secuencia, llegado a un determinado punto la
cantidad de GC no disminuirá. Respecto a la pérdida de identidad, es un
parámetro que evoluciona más lentamente que otros de los previamente
descritos y que, por tanto, tardará más en llegar a saturarse. Sin embargo, la
secuencia de nucleótidos de un pseudogen a medida que transcurra el tiempo
y acumule cambios llegará a presentar una elevada proporción de posiciones
saturadas, que incrementan el error de esta medida. Lo mismo ocurre si
medimos la edad de un pseudogen a partir de las distancias genéticas, aunque
235
……………………………………………………………………...................................Capítulo 6
en este caso la aplicación de modelos puede corregir el efecto de las
mutaciones recurrentes.
Para mejorar la estima de la edad de los pseudogenes hemos
desarrollado un método basado en el número de sustituciones no sinónimas.
Cada gen evoluciona a un ritmo de sustituciones no sinónimas diferente,
dependiendo de las restricciones funcionales de la molécula proteica
codificada. Podemos por tanto asumir que existirá una correlación entre el
número de sustituciones no sinónimas entre los linajes Mtu y Mav y el
número de sustituciones no sinónimas entre los linajes de Mtu y Mle, de
modo que para cada gen se podría inferir el segundo valor a partir del
primero. Así, podemos estimar el número de sustituciones no sinónimas que
hubieran ocurrido en los pseudogenes de Mle si no se hubieran inactivado y
hubieran evolucionado como un gen hasta el presente. Sin embargo, una vez
inactivado un gen en Mle, el ritmo de acumulación de sustituciones en los
sitios previamente no sinónimos habrá aumentado considerablemente. El
método que hemos empleado intenta deducir el tiempo de evolución como
pseudogen, a partir de la comparación del número de sustituciones no
sinónimas observado entre un gen del complejo Mtu y el pseudogen en Mle y
el valor esperado si hubiera evolucionado como un gen en Mle hasta el
presente.
El tiempo de evolución como pseudogen equivale a la edad relativa
del mismo y es el parámetro que queremos calcular y al que designamos
como p. Para el cálculo de p, en primer lugar, a cada uno de los tres linajes
principales de Mycobacterium definidos previamente lo designamos por una
letra: el formado por Mav a, el formado por Mtc(I), Mbo y Mtu(II) t y el
formado por Mle l, todos ellos divergentes desde un nodo común al que
designamos como intercepto i, y que sería el ancestro común a l y el grupo t.
Dentro de la rama de Mle diferenciamos un periodo de evolución como gen y
otro como pseudogen (figura 6.10).
236
………………………………………………………………………...........Resultados y discusión
dN it
i
Mtu (I)
Mtu (II))
Mbo
dN ilps
ps
g
Mle
gy
t
pz
Mav
l
a
Figura 6.10. Árbol filogenético de las especies de
Mycobacterium empleadas en el estudio. Las especies Mtu(I),
Mtu(II) y Mbo forman un grupo al que designamos con la letra t.
A las especies Mle y Mav les asignamos las letras l y a,
respectivamente. La letra i hace referencia al ancestro común a t y
l. En la rama que conduce a Mle diferenciamos un primer periodo
como gen y un segundo periodo a partir de la inactivación del gen
que conduce al pseudogen. El tiempo de evolución como
pseudogen se designa como p. El resto de parámetros se definen
como: y, número de sustituciones no sinónimas por sitio
nucleotídico si el gen hubiera evolucionado hasta el presente
como gen, desde la divergencia con el linaje de M. tuberculosis;
z, número de sustituciones no sinónimas por sitio nucleotídico si
el gen hubiera evolucionado como pseudogen desde el inicio de la
divergencia con el linaje de M. tuberculosis, dNit, número de
sustituciones no sinónimas entre el intercepto y el linaje de M.
tuberculosis y dNilps número de sustituciones no sinónimas entre el
intercepto y el ps en Mle.
Siguiendo la nomenclatura de la figura 6.10, cualquier estimación
entre cualquier par de secuencias será definida por este código de letras de
modo que por ejemplo, dNia hace referencia a la estima del número de
sustituciones no sinónimas producidas en la rama que conduce desde el
intercepto hasta la secuencia actual en el genoma de Mav. En el caso de Mle,
diferenciamos entre los genes, a los que nos referiremos con la letra l y los
pseudogenes a los que hacemos referencia con las letras lps. Por ejemplo,
dNtlps se referirá a la estima del número de sustituciones no sinónimas entre
un gen del grupo t y su correspondiente pseudogen ortólogo en Mle.
Así, para cada gen es posible estimar el número de sustituciones no
sinónimas desde el intercepto, como se muestra en el siguiente ejemplo para
t:
237
……………………………………………………………………...................................Capítulo 6
dN it =
(dN
tlps
+ dN ta − dN alps )
2
(1)
En el caso de los pseudogenes de Mle, hay que tener en cuenta que
desde el intercepto hasta l ha habido un primer periodo de evolución como
gen, seguido de un segundo periodo de evolución como pseudogen. El
método que hemos desarrollado tiene por tanto que predecir el número de
sustituciones no sinónimas que habrían ocurrido para cada gen entre i y Mle,
tanto si la pseudogenización hubiera ocurrido tras el nodo i (p = 1) como si
ésta no hubiera ocurrido y por tanto, la evolución hubiera sido siempre como
gen (p = 0). Conociendo ambos valores para cada gen podemos estimar
cualquier valor intermedio de p en base a la siguiente fórmula:
dN ilps = g × y + p × z
(2)
Sustituyendo g por (1-p):
dN ilps = (1 − p) × y + p × z
(3)
Despejando p de esta fórmula:
dN ilps − y = p × ( z − y )
p=
dN ilps − y
z−y
(4)
(5)
En base al diagrama de la figura 6.10 sabemos que:
dN ilps = dN tlps − dN it
238
(6)
………………………………………………………………………...........Resultados y discusión
Dado que dNilps se puede calcular para cada pseudogen tal y como se
ha descrito previamente, desarrollamos un método que nos permitiera
calcular tanto y como z basándonos en los valores de dN y dS.
Para estimar el número de sustituciones que ocurren en el linaje de
Mle si sigue una evolución como gen (y), se analizaron todos aquellos genes
ancestrales que siguen siendo funcionales en los tres linajes. Para estos 1281
genes ancestrales se calcularon dN y dS para cada una de las tres
comparaciones posibles: Mav-Mle, Mav-Mtu(II) y Mle-Mtu(II). Para el
cálculo de estos parámetros se aplicó el método aproximativo de Yang &
Nielsen (2000), implementado en el programa yn00 dentro del paquete de
programas PAML (Yang y Nielsen, 2000), tal y como se ha descrito
previamente en material y métodos. El problema hasta ahora de los métodos
aproximativos es que implican “tratamientos” ad hoc que no pueden ser
rigurosamente justificados. Frente a estos métodos, el método de máxima
verosimilitud desarrollado por Goldman y Yang (1994) no implica estas
aproximaciones ad hoc y además tiene en cuenta el sesgo de
transiciones/transversiones, el sesgo en el uso de codones, e incluso
diferencias químicas entre aminoácidos, lo que no ocurre en el caso de
métodos aproximativos (Smith y Eyre-Walker, 2001). Sin embargo, implica
un elevado tiempo de computación. La ventaja del método de Yang &
Nielsen (2000) es que a pesar de ser un método aproximativo, tiene en cuenta
el sesgo en el uso de codones y el ratio transición/transversión. De modo que
aunque el método ML es el que consigue mejores estimas de dN y dS, salvo
en el caso de secuencias muy cortas, el método de Yang & Nielsen (2000) es
útil cuando el número de secuencias a analizar es muy elevado y su
computación por ML requiere grandes cantidades de tiempo. Además, se ha
demostrado por simulaciones que las estimas obtenidas por este método están
menos sesgadas que las resultantes desde otros métodos aproximativos, y que
son muy similares a las obtenidas con ML (Yang y Nielsen 2000).
A continuación se obtuvo la distribución de frecuencias de los tres
parámetros. El cálculo se llevó a cabo tras la eliminación de 3 valores
239
……………………………………………………………………...................................Capítulo 6
extremos. En todos los casos los valores tanto dN como dS se ajustan a una
distribución normal. La media obtenida para estos parámetros fue la siguiente
(tabla 6.2).
Tabla 6.2. Media (desviación típica) de la estima del número de sustituciones sinónimas dS y no
sinónimas dN entre Mav, Mle y Mtu(II).
Mav-Mle
dN
dS
Mav-Mtu(II)
)
Mtu(II)-Mle
)-
0,11 (0,06)
0,09 (0,05)
0,11 (0,06)
2,2 (0,8)
2,01 (0,81)
1,54 (0,8)
Teniendo en cuenta el diagrama de la figura 6.10 sabemos que:
dS ai + dSil = 2,2
dN ai + dN il = 0,11
dS ai + dSit = 2,01
dN ai + dN it = 0,09
dSli + dSit = 1,54
dN li + dN it = 0,11
Despejando desde ambos sistemas de ecuaciones obtenemos los
valores medios de dN y dS desde el intercepto y a partir de éstos el cálculo
del ratio dN/dS, cuyos valores podemos ver en figura 6.11.
a) dN
i
0,045
i
t
0,065
0,045
c) dN //dS
b) dS
l
a
0,72
i
t
0,82
l
1,38
a
0,0625
t
0,079
0,033
l
a
Figura 6.11. Media del número de sustituciones no sinónimas (dN), sinónimas
(dS) y del cociente dN/dS desde el intercepto hasta cada una de las especies
empleadas, a partir de los genes ancestrales comunes a Mav, Mtu(II) y Mle.
Los modelos de sustituciones sinónimas y no sinónimas pueden
revelar información sobre mutaciones y presiones selectivas en genes, como
240
………………………………………………………………………...........Resultados y discusión
también información sobre la estructura poblacional y la recombinación. Los
valores obtenidos muestran un ratio dN/dS menor desde el intercepto hasta
Mav que desde el intercepto hasta Mle o Mtu(II). Este valor más inferior en
Mav, se debe a una tasa de sustituciones no sinónimas en Mav inferior a lo
esperado. Dado que el tiempo transcurrido entre el intercepto y Mav es
superior al transcurrido entre el intercepto y Mtu, a priori esperaríamos un
mayor número de sustituciones no sinónimas en Mav. Estos datos están en
concordancia con los bajos ratios dN/dS hallados en Mav en comparación con
Mtu(II) en estudios previos (Li et al. 2005) y que indican que la mayor parte
de genes de Mav están sometidos a mayores restricciones funcionales. De
hecho el ratio dN/dS puede ser un indicador de selección purificadora
actuando contra la acumulación de cambios no sinónimos, lo que llevaría a
una relativa acumulación de mutaciones sinónimas versus no sinónimas a lo
largo del tiempo. Esta selección purificadora puede estar relacionada con la
mayor capacidad de Mav para sobrevivir en un amplio rango de condiciones
ambientales, frente a Mle o las especies del complejo tuberculosis (Li et al.
2005). Estos resultados revelan la importancia de calcular la edad de los
pseudogenes, mediante un parámetro que contemple la evolución diferente
para cada una de las ramas que diverge desde el intercepto.
Si la tasa de sustitución no sinónima fuera la misma en el linaje de
Mtu y de Mle, entonces dNit sería equivalente a dNil y por tanto, podríamos
calcular y como dNit para cada gen. Este término se calcula empleando el
cálculo de sustituciones no sinónimas entre el intercepto y los genes de
Mtu(II), puesto que no disponemos de la secuencia de los genes que ahora
son pseudogenes, tal y como era ésta antes de la pseudogenización. Sin
embargo, a partir de los resultados de la figura 6.11 observamos que desde la
divergencia del intercepto, Mle ha acumulado un mayor número de
sustituciones no sinónimas. Dado que la evolución de los genes en Mtu(II) y
Mle no tiene por qué ser igual, es necesario corregir para esta diferencia. Para
ello intentamos ver la función que mejor se ajustaba a la relación entre dNit y
dNil, para los genes ancestrales que son genes en Mle y en Mtu(II) y tienen un
241
……………………………………………………………………...................................Capítulo 6
correspondiente gen ortólogo en Mav. Haciendo una transformación
logarítmica de los datos y eliminando algunos outliers se obtiene un buen
ajuste (figura 6.12).
0,4
dN il = 0.420 × (dN it )
0 .617
0,35
0,3
dNil
0,25
R 2 = 0.48
0,2
0,15
0,1
0,05
0
0
0,05
0,1
0,15
0,2
0,25
dNit
Figura 6.12. Relación y desarrollo de la función que mejor se ajusta a la relación entre el número
de sustituciones no sinónimas entre el intercepto y Mle (dNil) y el número de sustituciones no
sinónimas entre el intercepto y Mtu(II) (dNit). Ambos parámetros están calculados para aquellos
genes ancestrales que son genes activos tanto en Mav, como en Mle y en Mtu(II).
La función obtenida para la que vamos a utilizar el término f(dNit),
es una función de dNit , que permite obtener el valor de dNil en el caso de que
no se haya producido un evento de pseudogenización. Es decir, es una estima
del número de sustituciones no sinónimas en el caso de que un pseudogen
concreto de l hubiera evolucionado hasta el presente como un gen activo y
por tanto, y = f(dNit).
Únicamente para valores de dNit mayores que 0,1 el ajuste de la
función no es tan preciso. Para mejorarlo probamos el efecto de eliminar
alguno de estos puntos, lo cual no incrementó el ajuste puesto que se trata de
pocos puntos y su distribución es dispersa. Finalmente, estimamos que sólo
alrededor del 10% de los pseudogenes producen un valor de dNit superior a
0,1 y por tanto, consideramos apropiado mantener esta función pese a que el
242
………………………………………………………………………...........Resultados y discusión
ajuste para valores de dNit elevados no sea correcto. Por tanto, el término y de
nuestra fórmula equivale a la función:
f (dN it ) = 0,420 × ( dN it ) 0, 617
(7)
Para el cálculo de z es necesario conocer el número de sustituciones
no sinónimas que se hubieran producido en el gen, en el caso de que la
secuencia en Mle hubiera sido un pseudogen desde el intercepto. Puesto que
no es cierto que todos los pseudogenes de Mle hayan sido pseudogenes desde
el intercepto, para obtener este valor nos basamos en las sustituciones
sinónimas, dado que éstas son bastante similares a las sustituciones en
secuencias neutras. No obstante, hay genes que están sujetos a selección en
posiciones sinónimas y es posible que algunos de estos genes pertenezcan al
actual grupo de pseudogenes de Mle. Para disminuir al mínimo el error que
cometeríamos al estimar la tasa de sustituciones no sinónimas neutras desde
estos pseudogenes, no calculamos este valor para cada pseudogen, sino que
utilizamos el promedio de este valor para todos los pseudogenes de nuestra
muestra. De modo que en primer lugar calculamos dSilps para cada pseudogen
con la siguiente fórmula:
dSilps =
(dStl + dSal − dSta )
2
(8)
A continuación, calculamos el promedio de este valor obteniendo
dSilps = 0,94 y lo aplicamos como una constante en el cálculo de p para
cada pseudogen. De modo que z = 0,94.
Finalmente, sustituyendo y y z en la fórmula (5) tenemos que el
cálculo de p puede expresarse según la fórmula:
p=
dN ilps − f (dN it )
dS ilps − f (dN it )
243
(9)
……………………………………………………………………...................................Capítulo 6
Dada la fórmula, este parámetro p sólo puede calcularse para
aquellos pseudogenes que tienen un correspondiente ortólogo tanto en Mav
como en Mle.
De los pseudogenes de la tabla, sólo 714 cumplen este requisito.
Además, se eliminaron del cálculo aquéllos cuya puntuación en los
alineamientos previos llevados a cabo en base al algoritmo de NeddlemanWusch fue inferior a 65. Por lo que al final, la fórmula se aplicó para 611
pseudogenes. Los alineamientos se llevaron a cabo con el programa
GeneWise, que tiene en cuenta los posibles cambios en la pauta de lectura.
Para el cálculo tanto de dN como de dS, se aplicó el método de Yang &
Nielsen (2000), implementado en el programa yn00 dentro del paquete de
programas PAML (Yang y Nielsen, 2000).
La distribución de los valores de p obtenida, una vez eliminados
algunos puntos extremos, se puede observar en la figura 6.13.
100
p = 0,13 ± 0,08
80
60
40
20
0
-0,1
0
0,1
0,2
0,3
0,4
p
Figura 6.13. Distribución de frecuencias de la
edad de los pseudogenes de Mle p. El cálculo de p
se ha efectuado únicamente para aquellos
pseudogenes ancestrales que poseen un ortólogo
tanto en Mav como en Mle.
244
………………………………………………………………………...........Resultados y discusión
La distribución normal (prueba de Kolmogorov-Smirnov; p = 0.373)
está indicando que la mayor parte de los pseudogenes tienen una edad similar
y que por tanto, ha habido un gran evento de pseudogenización en un rango
temporal relativamente estrecho, lo que ha dado origen a un gran número de
pseudogenes en Mle. Estos resultados concuerdan con los obtenidos por
Dagan (2006) en el estudio llevado a cabo sobre los genomas de Mle, S.
flexneri y S. typhi, en el que se concluye que los eventos de inactivación han
ocurrido en cortos periodos de tiempo durante la evolución de los linajes. No
obstante, a diferencia de la distribución obtenida en el trabajo de Dagan,
nuestra distribución no está sesgada hacia la derecha, lo que indicaría que
existe una pequeña proporción de pseudogenes más antiguos que el resto. La
primera explicación a esta diferencia es que no trabajamos con la misma
muestra de pseudogenes, dado que en el trabajo de Dagan emplean
únicamente la señal de BLAST para detectar ortología, sin tener en cuenta el
contexto genómico. De este modo, detectan 556 pseudogenes que consideran
ortólogos entre Mle y Mtu(II), algunos de los cuales podría ser por tanto
parálogos. Además, Dagan estima la edad de los pseudogenes de Mle
mediante el cálculo de distancias genéticas, mientras que en nuestro caso para
calcular la edad de los pseudogenes nos basamos en los sitios no sinónimos
de la secuencia, evitando en mayor medida los errores debidos a sustituciones
recurrentes en una misma posición nucleotídica, que podrían llegar a
saturarla. Esto es especialmente apropiado en el caso de Mle, dado que se ha
postulado una elevada tasa de mutación en los pseudogenes (Liu et al. 2004).
La pérdida de dnaQ, que media la actividad correctora en la DNA polimerasa
III (Cole et al. 2001) podría contribuir a esta mayor tasa.
La distribución de p obtenida, no apoya los hallazgos de Babu
(2003) según los cuales en los pseudogenes de Mle diferenciamos dos grupos
cuya pseudogenización ha ocurrido en momentos diferentes, de acuerdo con
la inactivación en periodos distintos de los factores sigma que controlaban
dichos pseudogenes. En primer lugar, hay que indicar que en el estudio de
Babu la edad de los pseudogenes se estima mediante la acumulación de
245
……………………………………………………………………...................................Capítulo 6
codones de paro en las secuencias, basándose en alineamientos que no tienen
en cuenta posibles corrimientos de pauta en los mismos debido a indels. Ello
puede llevar a una sobreestimación del número de codones de paro
acumulados. Para conocer el alcance de dicha sobreestimación llevamos a
cabo una simulación del ritmo de acumulación de codones de paro bajo tres
escenarios: que sólo se introdujeran codones de paro por sustituciones
nucleotídicas, que sólo aparecieran codones de paro por indels y que ambos
procesos puedan dar lugar al surgimiento de codones de paro. La simulación
se llevó a cabo tomando como tasa de sustituciones 4,3 – 6,7 x 10
-9
sustituciones por sitio y año y de inserciones/deleciones 1,1 x 10-9 indels por
sitio y año (capítulo 5).
Indels
Número de codones de paro
Sustituciones
16000
Indels + sustituciones
14000
12000
10000
8000
6000
4000
2000
0
0
50
100
150
200
Número de generaciones
Figura 6.14. Evolución de la acumulación de codones de paro bajo tres
escenarios evolutivos: a) que sólo se introduzcan codones de paro mediante
inserciones y deleciones, b) que sólo las sustituciones den lugar al origen de
codones de paro y c) que se introduzcan codones de paro mediante ambos
procesos mutacionales.
Tal y como se observa en la figura 6.14, si incorporamos los indels
como mutaciones que generan codones de paro, el ritmo de acumulación de
los mismos incrementa notablemente, llegando en pocas generaciones a
saturarse. Esto es porque un único evento de inserción/deleción puede
introducir simultáneamente diversos codones de paro en el alineamiento, si
246
………………………………………………………………………...........Resultados y discusión
no se tienen en cuenta los posibles corrimientos en la pauta de lectura. Esta
simulación pone por tanto de manifiesto el error que puede cometerse al
calcular este parámetro a partir de este tipo de alineamientos.
Sin embargo, es posible que la incongruencia de nuestros resultados
y los de Babu sea debida al hecho de que nuestra estima de p sólo podamos
llevarla a cabo sobre un número limitado de pseudogenes, dado que es
necesario que tengan un ortólogo activo tanto en Mav como en Mtu(II). Por
tanto, es posible que los pseudogenes que quedan por analizar pertenezcan
justamente a otro de esos eventos de pseudogenización descritos por Babu.
Este autor diferencia dos grupos de pseudogenes de edades diferentes con una
media de densidades de codones de paro de 1/83 y 1/123, respectivamente.
Con el fin de confirmar los resultados de Babu, estudiando sólo los
pseudogenes con los que nosotros trabajamos, podemos diferenciar estos dos
grupos con distintas densidades. Esto siempre y cuando al igual que Babu,
estimemos el número de codones de paro a partir de alineamientos que no
corrigen para posibles corrimientos de pauta. Pero nosotros no encontramos
indicios de que estos dos grupos de pseudogenes pertenezcan a grupos de
edades diferentes, dado que no presentan diferencias respecto a factores que a
priori esperamos que estén relacionados con la edad del pseudogen, tales
como la pérdida de identidad o de GC (figura 6.15).
247
……………………………………………………………………...................................Capítulo 6
1,00
2,00
30,00
ΔGC (%)
20,00
10,00
0,00
-10,00
0,00
10,00
20,00
30,00
ΔI (%)
Figura 6.15. Relación entre la pérdida de GC (%) y la pérdida de
identidad (%) para pseudogenes con diferentes edades según la
estima propuesta por Babu. El grupo 1 contiene pseudogenes que
pertenecen a un conjunto con una densidad media de codones de
paro de (1/83) mientras que es de (1/123) para los pseudogenes del
grupo 2.
Tampoco encontramos diferencias en cuanto a la estima de p para
estos dos grupos (figura 6.16, apartado b)).
a)
A
A
A
A
AAAA
S
b)
A
AAA
A
A
A A
AA A A
0
0,01
0,02
Densidad de codones de paro
-0,1
0
0,1
p
0,2
0,3
0,4
Figura 6.16. Los pseudogenes de Mle pueden dividirse en dos grupos de edades diferentes, en
base a la estima de codones de paro calculada a partir de alineamientos que no tienen en cuenta
posibles cambios en la pauta de lectura (a). La diferencia entre estos dos grupos desaparece
cuando la edad de ambos grupos se mide mediante el parámetro p (b).
248
………………………………………………………………………...........Resultados y discusión
Además, cuando para estos mismos pseudogenes medimos la
densidad de codones de paro a partir de los alineamientos extraídos de
GeneWise, que sí contemplan estos posibles cambios debidos a indels, los
valores de densidad de codones de paro son muy inferiores a los obtenidos
por Babu, dado que sólo uno de estos pseudogenes posee una densidad
cercana a 1/123, mientras que el resto poseen densidades cercanas o
inferiores a 1/83.
Nuestros resultados no apoyan, por tanto, los eventos de
pseudogenización propuestos por Babu. Sin embargo, no podemos descartar
que se haya producido más de un gran evento de pseudogenización, dado que
nuestro análisis no permite llegar a estimar la edad de todos los pseudogenes
de M. leprae.
Si efectivamente el parámetro p refleja la edad de los pseudogenes,
debería existir una correlación entre p y el resto de parámetros afectados por
la degradación génica. De hecho p muestra correlación (figuras 6.17 y 6.18)
con el resto de parámetros relacionados con la desintegración génica, excepto
con la pérdida de longitud, al igual que ocurría con el resto de variables. No
obstante, esta correlación es limitada, dado que está restringida al reducido
intervalo temporal en el cual se dio la inactivación de la mayor parte de los
pseudogenes de M. leprae.
249
……………………………………………………………………...................................Capítulo 6
R = 0,329
ΔGC (%)
Sig . 0,01
p
Figura 6.17. Relación entre la pérdida de GC (%) y la edad
de los pseudogenes según el parámetro p.
R=0,545
ΔI (%)
sig. 0,01
p
Figura 6.18. Relación entre la pérdida de identidad (%) y la
edad de los pseudogenes según el parámetro.
La correlación de p con la densidad de codones de paro, basada en
los alineamientos de Genewise, (R = 0,091 con α = 0,05) aunque
significativa, era muy baja (datos no mostrados).
Una vez conocida la edad relativa de los pseudogenes podemos
intentar convertir este parámetro en una medida temporal. Establecer los
tiempos de divergencia entre especies bacterianas resulta difícil, debido a la
250
………………………………………………………………………...........Resultados y discusión
escasez de fósiles asociados. Es por ello, que para poder datar la separación
entre linajes bacterianos se recurre a otras aproximaciones, tales como
extrapolar desde tasas calculadas para organismos en los que la divergencia
ha podido ser bien establecida, a través de un registro fósil adecuado, o bien
mediante otras aproximaciones (Ochman et al. 1999). Siguiendo este
procedimiento se ha establecido por ejemplo, la edad del ancestro de las
cepas del complejo M. tuberculosis (Hughes et al. 2002b), basándose en este
caso en la divergencia entre E. coli y S. typhimurium. Ambas especies se
asume que se separaron hace 100 m.a., cuando tuvo lugar la diversificación
de los mamíferos (Doolittle et al. 1996) y la dS entre ambas, calculada por
ML, es de 1.36 (Smith y Walter, 2001). Basándonos también en estos mismos
datos, hemos estimado la divergencia entre los linajes empleados en este
estudio con el fin de obtener un valor de p en escala temporal, aunque es
preciso señalar que se trata de una aproximación muy imprecisa con un
elevado error asociado (figura 6.19).
Mtc(I)
Mle
Mav
m.a
154,41 105,88
Figura 6.19 Tiempo transcurrido en millones
de años (m.a.) desde el ancestro a cada una de
las especies empleadas en el estudio. El
cálculo se basa en los tiempos de divergencia
entre E. coli y S. typhimurium.
Hasta ahora, las únicas estimas de tiempo para la divergencia entre
especies del género Mycobacterium se han llevado a cabo sobre el complejo
de M. tuberculosis. La estima del ancestro del complejo M. tuberculosis ha
251
……………………………………………………………………...................................Capítulo 6
ido variando desde 15.000 años (Kapur et al. 1994) a 35.000 años en un
estudio posterior (Hughes et al. 2002), hasta la última estima de
aproximadamente 3 m.a. (Gutierrez et al. 2005). Inicialmente se tendió a
infraestimar el origen de estas especies debido a la alta similitud entre sus
secuencias resultante de expansiones clonales a partir de cuellos de botella.
Si tomamos como tiempo transcurrido desde el intercepto, el
obtenido para Mtu(II), dado que Mle está sujeto a aceleración, podemos
asumir que han transcurrido aproximadamente 100 m.a. desde la divergencia
entre Mle y Mtu(II). Si la media de p para los pseudogenes en los que ha
podido aplicarse el cálculo de este parámetro es de 0,13, entonces podemos
tomar 13 ± 8 m.a. como la edad aproximada de gran parte de los pseudogenes
de Mle. La alta fracción de pseudogenes en algunas especies patógenas se ha
sugerido previamente que es resultado de un cambio rápido de nicho
ambiental, que implica la pérdida de rutas metabólicas y respiratorias (Cole et
al. 2001). Por tanto, este gran evento de pseudogenización puede estar
asociado a un cambio importante en las condiciones de vida de Mle,
acontecido entre el presente y hace unos 20 m.a. Este cambio podría
corresponderse con la adaptación de Mle a la vida en células muy
especializadas como las células de Schawnn (Youn y Robertson, 2001). Por
otro lado, también se ha sugerido que la revolución neolítica, hace
aproximadamente 10.000 años, es el momento en el cual numerosos
patógenos humanos se especializaron en este hospedador (Mira et al. 2006).
El surgimiento de la agricultura y la domesticación animal proporcionaron
una mayor y más constante fuente de alimento, que derivó en un incremento
de las poblaciones humanas. Con este aumento poblacional, los humanos se
transformaron en hospedadores atractivos para muchas bacterias. M. leprae
es uno de los patógenos humanos que podría por tanto haber sufrido una
importante transformación durante esta etapa del Neolítico, que implicaría la
especialización, inactivación de numerosos genes e inicio de un proceso de
reducción genómica.
252
………………………………………………………………………...........Resultados y discusión
Por último, indicar que la aparición de un pequeño conjunto de
valores negativos de p se debe al error asociado al cálculo de este parámetro,
mayor para pseudogenes de origen muy reciente, como es nuestro caso.
6.3.6 Relación entre los genes perdidos y su distribución en operones
Para conocer la distribución en operones de los genes perdidos en Mle, nos
basamos en la distribución en operones de otro genoma de Mycobacterium:
Mtu(II), dado que éste es el más cercano a Mle y por tanto, podemos asumir
que compartían una distribución en operones similar. La disrupción de un
operón rompe la corregulación de los genes contenidos en el mismo, por lo
tanto los operones deben estar sujetos a selección purificadora (Jacob y
Monod, 1961). De hecho, muchas agrupaciones de genes pueden encontrarse
conservadas dentro de todas las mayores divisiones de los procariotas
(Overbeek et al. 1999; Huynen et al. 2000) y la mayoría de estos grupos
conservados se corresponden con operones (Ermolaeva et al. 2001; Price et
al. 2006). Asumimos por tanto, que podemos basarnos en la distribución de
los genes en operones de Mtu(II) para obtener una aproximación de esta
distribución en Mle.
La información acerca de qué operones encontramos en el genoma
de Mtu(II) y qué genes se distribuyen en los mismos fue extraída de la base
de datos MicrobesOnline (Alm et al. 2005) y se trata de una predicción
basada en la comparación de genomas (Price, 2005) con un alto porcentaje de
precisión (82%). El resultado fue el obtenido en la figura 6.20.
253
……………………………………………………………………...................................Capítulo 6
3000
Número de operones
2500
Número de genes
2000
1500
1000
500
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Unidades de transcripción clasificadas en base al número de genes que contienen
Figura 6.20. Distribución de frecuencias del número de unidades de transcripción de
cada tipo y del número de genes contenido en cada una de ellas. Las unidades de
transcripción se clasifican en base al número de genes que las conforman.
La mayor parte de genes de Mtu(II) no se agrupan en operones y
aquellos genes que se agrupan en operones lo hacen mayoritariamente en
operones de pocos genes. Esta distribución coincide con la distribución de la
longitud de los operones predicha para E. coli (Zheng et al. 2002).
Diversos modelos han sido propuestos hasta el momento para
explicar la agrupación de genes cuyos productos codifican para proteínas
implicadas en una misma función. La “teoría del operón egoísta” afirma que
la proximidad física de los genes puede ser considerada una propiedad
egoísta del operón, dado que este hecho aumenta la probabilidad de una
expansión con éxito de los mismos por transferencia horizontal, pese a que
puede no proporcionar un beneficio fisiológico al hospedador (Lawrence y
Roth, 1996). Sin embargo, en estudios posteriores (Price et al. 2006) se
afirma que la transferencia horizontal no explica el origen de los operones, el
cual se explica mejor porque es una manera de reducir la cantidad de
información reguladora necesaria para patrones de expresión óptimo. No
obstante, en este trabajo se concluye que, aunque la transferencia horizontal
no explica el origen del operón, sí explica el mantenimiento de los mismos.
254
………………………………………………………………………...........Resultados y discusión
A continuación, analizamos la misma distribución de frecuencias
únicamente para los operones de Mtu(II) que contienen genes que se han
perdido en Mle (figura 6.21).
800
Número de operones
Número de genes
600
400
200
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Operones clasificados en base al número de genes que contienen
Figura 6.21. Distribución de frecuencias del número de genes en cada tipo de
operón para los genes ancestrales de Mtu(II) que se han perdido en Mle. Los
operones se clasifican en base al número de genes que forman el mismo.
La distribución de frecuencias de los genes perdidos de Mle en los
distintos tipos de operón muestra que mayoritariamente se han perdido genes
que no forman parte de ningún operón, sino que son unidades
transcripcionales individuales. Ello puede ser debido a que son éstos
precisamente los más abundantes, como vimos en la figura previa, o es
posible que exista una mayor probabilidad de pérdida para los genes que no
se agrupan en operones. Para saber si, efectivamente los genes individuales
tienen más probabilidad de perderse, llevamos a cabo un test chi-cuadrado a
partir de los datos mostrados en la tabla 6.3.
Tabla 6.3. Número de genes agrupados en unidades transcripcionales de uno y más genes, para
todos los genes de Mtu (II) y para los genes perdidos. Entre paréntesis el valor esperado si la
distribución en ambos casos fuera la misma.
OPERONES
De 1 gen
De Mt(II)
2386(2333,4)
De Mt (II) que contienen genes
perdidos en Mle
735(787,6)
3121
TOTAL
255
De 2 o más genes
636(688,6)
TOTAL
3022
285(232,4)
921
1020
4042
……………………………………………………………………...................................Capítulo 6
A partir de los resultados obtenidos χ2 = 20,59 podemos por tanto
rechazar la hipótesis nula y afirmar que la distribución en ambos casos es
diferente y que se pierden menos unidades transcripcionales individuales en
Mle de lo esperado por azar. Ello puede deberse al hecho de que la pérdida de
un gen perteneciente a un operón desencadenará, en muchos casos, la pérdida
del resto de genes pertenecientes a la misma agrupación, mientras que la
pérdida de unidades transcripcionales individuales no posee este efecto de
arrastre.
Según la teoría del operón egoísta, son los genes débilmente
seleccionados los que tienden a agruparse en operones. De este modo,
disminuyen sus probabilidades de extinción, dado que tienen más
probabilidad de ser transferidos lateralmente a un nuevo genoma receptor,
donde su función tenga una mayor ventaja selectiva y puedan por tanto,
prolongar su existencia en una nueva cepa o especie. De hecho, los genes
esenciales no suelen encontrarse agrupados (Lawrence y Roth, 1996) y en los
casos excepcionales en los que ocurre, se asume que son genes ancestrales.
En base a esto esperaríamos que los genes agrupados en operones fueran más
susceptibles de perderse. Aunque en trabajos posteriores se ha visto que los
genes esenciales también se agrupan frecuentemente en operones y que
además, se trata en muchos casos de operones recientes (Price et al. 2006).
Puesto que los genes contenidos en un operón codifican para
proteínas implicadas en una misma ruta metabólica, a priori esperamos que
la pérdida de un gen que interviene en esa ruta y sea necesario para la misma,
implique la pérdida del resto de genes que forman parte de esa agrupación.
Esto es porque esperamos que la pérdida afecte a la función en la que pueden
intervenir conjuntamente los genes que pertenecen a una misma unidad
transcripcional. De modo que la inactivación de un gen que participa en una
ruta metabólica concreta tendrá un efecto de arrastre sobre el resto de genes
que codifican proteínas implicadas en ese proceso. Es lo que se conoce como
“la teoría del efecto dominó” (Dagan et al. 2006). Podríamos esperar por
tanto, que la mayor parte de operones que contienen genes perdidos, han
256
………………………………………………………………………...........Resultados y discusión
perdido todos o la mayor parte de los genes que los componen. Para
comprobar esta hipótesis, estudiamos cuántos operones habían perdido todos
sus genes, es decir cuántos operones habían sufrido lo que denominamos
“pérdida completa”, y cuántos sólo habían perdido parte de sus genes, lo que
denominamos una “pérdida parcial” (figura 6.22):
100
Operones que han perdido todos sus genes
80
Operones que han perdido parte de sus genes
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Operones clasificados en base al número de genes que contienen
Figura 6.22. Distribución de frecuencias en operones que han perdido todos
sus genes y operones que han perdido parte de sus genes, para cada tipo de
operón (clasificados por el número de genes que los componen).
Los resultados obtenidos muestran que, aunque un gran número de
operones han perdido todos sus genes, existe también un porcentaje elevado
de operones que sólo han perdido parte de sus genes. Excepto para los
operones formados por dos genes así como para los de mayor tamaño -de 10
y 14 genes, respectivamente- el resto sufren mayoritariamente pérdidas
parciales. La presencia de pérdidas incompletas puede reflejar el hecho de
que no ha transcurrido tiempo suficiente para la inactivación del resto de
genes implicados en esa ruta. De otra manera, la transcripción y traducción
de éstos está implicando un gasto celular desventajoso para el organismo,
salvo que la proteína en cuestión pueda participar en otros procesos
257
……………………………………………………………………...................................Capítulo 6
adicionales a aquél por el que se agrupaba con otros genes en una misma
unidad. Si efectivamente lo que ocurre en algunos casos es que no ha
transcurrido el tiempo suficiente para la inactivación de todos los genes del
operón, esperamos al menos que el estado de desintegración de genes
inactivos de un mismo operón sea similar. Cuando analizamos más en detalle
los resultados observamos que todos los genes contenidos en el operón de 14
genes son genes perdidos en Mle, para los que no se detecta de hecho ningún
resto génico. Es decir, que este operón que ha sufrido la inactivación de todos
sus genes, está formado por genes perdidos en Mle en un estado de
desintegración muy avanzado. Por lo tanto, en este caso podemos asumir que
ha transcurrido el tiempo necesario para la inactivación de todos los genes de
un mismo operón. Aunque no podemos descartar la posibilidad de que una
gran deleción eliminara en un único evento todos los genes de esta unidad
transcripcional. De igual modo ocurre en el operón de 10 genes, donde 9 son
pérdidas completas en Mle y sólo 1 gen mantiene el estatus de pseudogen. En
el caso de los operones de 8 genes, que hasta el momento sólo han sufrido la
inactivación de alguno de sus genes en Mle, los genes inactivos en Mle casi
todos están en estado de pseudogen, y por tanto pueden considerarse
inactivados más recientemente que en el caso de genes para los que no
detectamos ningún resto génico. Esta observación concuerda con la idea de
que la presencia de pérdidas parciales probablemente sólo refleja el hecho de
que no ha transcurrido tiempo suficiente para la pérdida del resto de genes
implicados en una misma ruta.
Si efectivamente, cuando un gen pierde su función ello conlleva a la
inactivación del resto de genes de la misma unidad, esperamos que la edad de
pseudogenes de un mismo operón sea más similar, que la de aquéllos que
pertenecen a operones diferentes. Para comprobar esta hipótesis comparamos
la diferencia de edad entre parejas de pseudogenes en Mle que pertenecen a
un mismo operón, frente a esa misma diferencia para parejas de pseudogenes
que pertenecen a operones diferentes. Dado que la distribución de esa
diferencia no es normal, aplicamos un test no paramétrico, el test de Mann-
258
………………………………………………………………………...........Resultados y discusión
Whitney. Aunque la media de esta diferencia era mayor para genes de
operones diferentes que para genes que pertenecen a un mismo operón (0,09
frente a 0,07), el resultado del test indica que esta diferencia no es
significativa (p = 0,08). Por lo tanto, no podemos afirmar que la edad de los
pseudogenes que pertenecen a un mismo operón sea más similar que la de
aquéllos que pertenecen a operones distintos. Es posible sin embargo, que
este resultado sea debido a que todos los pseudogenes que analizamos se han
inactivado en un margen de tiempo tan estrecho (como hemos obtenido
previamente) que no es posible detectar diferencias entre aquéllos que forman
parte o no, de una misma unidad transcripcional.
El hecho de que pseudogenes de un mismo operón tengan edades
más próximas que aquéllos que no están en una misma agrupación génica
sería otra prueba a favor de que la pérdida de un gen perteneciente a un
operón tenga probablemente un efecto de arrastre. En estudios previos
(Dagan, 2006) no se ha hallado esta relación entre edad de lo pseudogenes de
Mle y función. Sin embargo, en dicho estudio no trabajan con genes
pertenecientes a un mismo operón, sino con genes pertenecientes a la misma
o a diferente categoría funcional, lo cual no indica que necesariamente esos
genes estén implicados en una misma ruta metabólica.
6.3.7 Pérdida de nucleótidos en los genes perdidos
En el caso de un proceso de pérdida gradual, si el proceso de degradación y
pérdida no ha concluido, podemos detectar los nucleótidos que formaban
parte del gen original y que aún perduran en el genoma. Con el fin de ver si
es posible encontrar estos restos, llevamos a cabo el análisis de la pérdida de
nucleótidos sobre los pseudogenes y sobre las pérdidas totales (anexo 13).
Siguiendo el procedimiento descrito en material y métodos (apartado
3.7.2), pudimos calcular el % de DNA perdido en 262 pseudogenes y en 48
genes perdidos totalmente. La distribución de frecuencias de las pérdidas fue
la mostrada en la figuras 6.23 y 6.24. Sin tener en cuenta aquellos casos en
los que en lugar de perder DNA se ha ganado más de un 10% respecto del
259
……………………………………………………………………...................................Capítulo 6
tamaño original, el porcentaje medio de DNA perdido fue de un 11% para los
pseudogenes y de un 73% en el caso de las pérdidas totales. Estos valores
están ligeramente infravalorados, ya que no se ha tenido en cuenta que tras la
pérdida completa de un gen o varios genes adyacentes, quedaría una región
remanente de DNA correspondiente a una región intergénica. De este modo,
aunque todos los nucleótidos de un gen se hayan perdido, se mantendrá un
espacio entre los genes flanqueantes. Nosotros no hemos contemplado el
tamaño de este espaciador intergénico en los cálculos dado que como
previamente explicamos en material y métodos, el tamaño de las regiones
intergénicas en Mycobacterium muestra una alta variabilidad, que impide
tomar un tamaño estándar sin cometer un elevado error.
80
Número de pseudogenes
70
N = 262
60
50
40
30
20
10
0
-220
-100 -80 -60 -40 -20 0 20 40 60 80 100
% de DNA perdido en los pseudogenes
Figura 6.23. Porcentaje de DNA perdido en los genes ancestrales que
son pseudogenes en Mle respecto a la secuencia del gen ortólogo
correspondiente.
260
………………………………………………………………………...........Resultados y discusión
14
N = 48
12
10
Número de pérdidas
8
6
4
2
0
-220
-160
-80 -60-40 -20 0 20 40 60 80 100
% de DNA perdido en las pérdidas totales
Figura 6.24. Porcentaje de DNA perdido en los genes
ancestrales que han sufrido una pérdida completa en Mle
respecto al gen ortólogo correspondiente.
La pequeña pérdida de DNA de los pseudogenes se puede asociar al
corto tiempo transcurrido desde el inicio del proceso de inactivación.
Mientras que la mayor variación en el porcentaje de pérdida de DNA de los
genes con pérdida total de similitud indica que estamos ante los restos de
procesos de inactivación génica, que han tenido lugar en diferentes momentos
de la divergencia con M. tuberculosis.
También es posible detectar algunos casos de pseudogenes cuya
reducción de la longitud ha sido drástica, pese a que la secuencia remanente
de los mismos aún posee una similitud significativa con sus ortólogos en el
resto de genomas de Mycobacterium. Estos casos, aunque muy poco
frecuentes, podrían ser resultado de deleciones de mayor tamaño que pueden
darse puntualmente a lo largo del proceso de degradación.
261
……………………………………………………………………...................................Capítulo 6
En el caso de las pérdidas totales, también cabe destacar algunos
casos en los que la reducción del tamaño ha sido escasa. Esto puede ser
resultado del azar en el proceso de pérdida de DNA que actúa sobre todo el
genoma.
Es razonable pensar que exista una presión de selección contra los
pseudogenes, dado que la presencia de un elevado número de los mismos
puede implicar un elevado coste para la bacteria portadora. Ello es debido a
que muchos pseudogenes pueden seguir transcribiéndose e incluso
traduciéndose, lo que supone una inversión de energía en la producción de
una proteína que no será funcional. Incluso es posible que la proteína
finalmente sintetizada, aunque no sea capaz de llevar a cabo su función
original, interaccione con proteínas de otras rutas impidiendo que desarrollen
su función correctamente. Se ha observado que un modo de evitar esto es
mediante lo que se conoce como el “silenciamiento de los pseudogenes”
(Mira y Pushker, 2005), proceso que consiste en la degradación de las
secuencias Shine-Dalgarno. En el caso de Mle, éstas están profundamente
degradadas en los pseudogenes, lo que explica que el genoma pueda soportar
esa elevada carga de pseudogenes. De hecho, es posible incluso que los
cambios en las regiones reguladoras de los pseudogenes estén seleccionados
positivamente, de modo que se den con una tasa más elevada en estos que en
el propio pseudogen. De este modo, ya no harían falta tantas deleciones en
los pseudogenes que podrían alargar su vida media (Mira y Pushker, 2005).
No obstante, no siempre la degradación de las secuencias Shine-Dalgarno
impide el silenciamiento de los pseudogenes. De modo que, quizá la
respuesta más razonable al elevado numero de pseudogenes en Mle,
especialmente tras conocer que el origen de los mismos es reciente, es que no
ha transcurrido el tiempo suficiente para la desaparición de los mismos.
Es importante destacar además, que en algunos casos se ha
producido un incremento de longitud que incluso dobla el tamaño original, lo
que probablemente sea debido a la introducción de secuencias de inserción u
otros elementos génicos egoístas tales como transposones o profagos.
262
7. DISCUSIÓN GENERAL
263
264
………………………………………………………………………………...…Discusión general
7. DISCUSIÓN GENERAL
Caracterizar el proceso de reducción genómica requiere cuantificar tanto los
eventos de indels (tamaño y número de los mismos) como el ritmo al que
éstos se producen, así como adoptar diferentes estrategias de análisis según el
rango temporal o el momento de la evolución reductiva cuyo estudio
queremos abordar.
Los estadios más avanzados de la degradación genómica están
representados por genomas de bacterias altamente reducidos, con escasos
pseudogenes y numerosos síntomas de desintegración génica, como el
genoma de B. aphidicola. La disponibilidad actual de diversos genomas de
esta bacteria completamente secuenciados proporciona una oportunidad única
de llevar a cabo análisis comparativos para caracterizar las últimas etapas de
la reducción. Pero este análisis no ha de llevarse a cabo a través de una
comparación directa entre estos genomas. Esta aproximación errónea es la
que ha llevado por ejemplo a afirmar que, probablemente el genoma de B.
aphidicola había alcanzado una estasis en el tamaño genómico, al compararse
directamente el tamaño de los tres primeros genomas de B. aphidicola
completamente secuenciados (Wernegreen, 2002), y a sugerir una tasa de
pérdida tan escasa como 1 nt cada 10.000 años (Mira et al. 2001). Los
genomas actuales estrechamente emparentados, que son sujetos de reducción,
son muestras congeladas en el tiempo de procesos paralelos de evolución
reductiva, que sólo representan el estado actual de diferentes linajes. La
comparación entre los mismos, no aborda el intervalo temporal del proceso
de degradación progresivo que ha sufrido cada uno de estos organismos. El
análisis correcto requiere la comparación del genoma que está siendo sujeto
de evolución reductiva, con su correspondiente genoma ancestral tal y como
se ha hecho en otros estudios (Moran y Mira 2001; Silva et al. 2001;
Delmotte et al. 2006). Además, en el caso de B. aphidicola, la perfecta
conservación del orden génico y la ausencia de transferencia horizontal,
permiten una reconstrucción precisa y ajustada del ancestro tal y como hemos
descrito en el capítulo 4. La comparación de cada uno de los genomas con el
265
...........................................................................................................................................................
ancestral es lo que nos ha permitido establecer una tasa de pérdida basada en
el genoma completo de la bacteria y que es mucho más elevada que la
inicialmente propuesta. Adicionalmente, el disponer de los tiempos de
divergencia entre las especies estudiadas otorga la posibilidad de obtener una
estima en tiempo absoluto de estas tasas. Hasta el momento, en bacterias
obligadas intracelulares, esta tasa de pérdida sólo ha sido calculada en
Rickettsia (Andersson y Andersson, 1999). Sin embargo, en ésta, al igual que
otros organismos, la ausencia de dataciones no permite calcular tasas respecto
al tiempo, sino relativas a las sustituciones y por lo tanto no comparable entre
organismos. Por el contrario, la tasa de pérdida obtenida en nuestro estudio,
de 2,9 x 10-8 nucleótidos perdidos por sitio y año, sí que es una estima basada
en tiempo absoluto. Esta tasa ha mostrado que la vida media de un pseudogen
en B. aphidicola está en torno a 23,9 m.a. y que por tanto, en las etapas más
recientes de la evolución de esta bacteria el ritmo de pérdida de DNA es
mucho mayor a lo inicialmente sugerido. De hecho, el posterior
descubrimiento de un genoma de B. aphidicola mucho más reducido, el
genoma de B. aphidicola de C. cedri (Gil et al. 2002), es congruente con una
tasa de pérdida mayor a la propuesta por Mira y colaboradores y descarta la
estasis en el tamaño genómico de B. aphidicola previamente sugerido.
La comparación con el genoma ancestral nos permite por tanto,
saber qué cantidad de DNA se ha perdido o ganado. Sin embargo, esta
aproximación es limitada, dado que lo que vemos es el balance global
resultante de la acumulación de eventos, tanto de inserción como de deleción
a lo largo del tiempo. Si queremos caracterizar estos eventos mutacionales
para conocer el tamaño y número de los mismos, es necesario otro tipo de
aproximación. Dado que identificar correctamente los indels requiere que las
secuencias puedan alinearse, es preciso trabajar con cepas o especies muy
estrechamente emparentadas. Es por ello que, para abordar este análisis en B.
aphidicola, llevamos a cabo un estudio con bacterias pertenecientes a
diferentes clones de una misma especie de pulgón, R. padi. Mediante este
estudio pretendíamos obtener secuencias perfectamente alineables y que, al
266
………………………………………………………………………………...…Discusión general
mismo tiempo, presentaran polimorfismos a nivel de indels. Estos
polimorfismos eran esperables en base a estudios iniciales, que demuestran
que existe diferenciación genética entre poblaciones holocíclicas y
anholocíclicas de esta especie de pulgón y que sugerían un largo tiempo de
divergencia entre ambos linajes y un origen antiguo de los linajes asexuales
(Martinez-Torres et al. 1996; Simon et al. 1996). Sin embargo, nuestros
resultados mostraron una ausencia total de indels a nivel intraespecífico, lo
que es congruente con un estudio posterior, que muestra que la divergencia
entre linajes sexuales y asexuales, no es debida a un origen antiguo como se
había postulado previamente, sino a repetidos y recientes eventos de
hibridación entre R. padi y especies relacionadas desconocidas (Delmotte et
al. 2003). Los resultados obtenidos nos obligaron por tanto a trabajar con
secuencias más alejadas y a movernos en un nivel interespecífico con
diferentes especies del mismo género, el género de pulgones Rhopalosiphum.
A este nivel interespecífico hemos obtenido polimorfismos, tanto de indels
como de sustituciones y el análisis de los indels ha mostrado un sesgo hacia
las deleciones, en base tanto al número como al tamaño de los eventos. Este
resultado confirma el sesgo hacia la pérdida previamente descrito, tanto en
organismos procariotas como eucariotas (Ophir y Graur, 1997; Andersson y
Andersson, 1999; Mira et al. 2002; Blumenstiel et al. 2002; Petrov, 2002;
Witherspoon y Robertson, 2003; Zhang y Gerstein, 2003). La tasa de
deleción obtenida mostró, además, ser congruente con la previamente
establecida en el estudio llevado a cabo en el capítulo 4. No obstante, la
dificultad tanto de alinear las secuencias a nivel interespecífico como de
amplificar las regiones de interés en las diferentes especies, nos llevó a
buscar un modelo más adecuado. De modo que llevamos a cabo este mismo
análisis en otro organismo, B. floridanus. Esta bacteria, al igual que B.
aphidicola, se haya en las últimas etapas de la evolución reductiva. Su
tamaño genómico es similar al de B. aphidicola y al igual que ésta, presenta
un contenido en AT muy bajo, escasos pseudogenes y síntomas de
degradación génica como tasas aceleradas, ausencia de recA o pérdida de
267
...........................................................................................................................................................
sistemas de reparación (Gil et al. 2003). Además, las secuencias genómicas
completas de dos especies del género Blochmannia, B. floridanus y B.
pennsylvanicus, se encuentra actualmente disponibles (Gil et al. 2003;
Degnan et al. 2005). Las diferentes colonias de la hormiga C. floridanus son
por lo tanto, a priori, un sistema adecuado para estudiar a nivel
intraespecífico las últimas etapas de la reducción genómica, al igual que en B.
aphidicola. La proximidad filogenética entre éstas posibilita, también en este
caso, alineamientos precisos y el aislamiento genético previamente descrito
entre las mismas (Gadau et al. 1998), permite esperar de antemano
polimorfismos a nivel de indels. Además, la ventaja adicional en este estudio,
respecto al análisis de B. aphidicola de R. padi, es que disponemos del
genoma íntegro de B. floridanus. El acceso a las secuencia completa permite
un diseño más preciso de cebadores y un conocimiento previo de las regiones
neutras del genoma.
Tal y como esperábamos, las secuencias obtenidas de B. floridanus
son fácilmente alineables y presentan polimorfismos a nivel de indels.
Además los resultados de este análisis han confirmado los previamente
obtenidos en B. aphidicola, pese a que el tamaño muestral del estudio en
Buchnera era inferior. Ambos trabajos confirman un sesgo hacia la deleción,
cuyo principal responsable es el tamaño de los eventos, y dan como resultado
tasas de pérdida del mismo orden de magnitud. Las tasas, al igual que en el
capítulo 4, se han calculado en base a estimas temporales y por lo tanto
proporcionan una medida absoluta. El cálculo de las mismas ha sido posible
gracias al ajuste de relojes moleculares basados en inferencias derivadas del
registro fósil, un dato adicional que confirma que B. aphidicola y B.
floridanus son modelos adecuados para este tipo de estudio.
Adicionalmente, el estudio de las regiones neutras desarrollado en el
capítulo 5, tanto en B. aphidicola como en B. floridanus, muestra como el
sesgo hacia la pérdida en estas especies es consecuencia principalmente del
mayor tamaño de los eventos de deleción frente a las inserciones. De hecho,
en ambos análisis, aunque la reducción en estas últimas etapas está
268
………………………………………………………………………………...…Discusión general
protagonizada principalmente por eventos de muy pequeño tamaño
(mayoritariamente de 1 nt), hemos detectado eventos que implicaban un
mayor número de nucleótidos. Aunque en estas bacterias la recombinación
homóloga está impedida por la ausencia de recA y la carencia de largas
repeticiones, los mecanismos de recombinación ilegítima pueden actuar y
éstos pueden generar indels de tamaño considerable (más de 50 nucleótidos).
Un evento de este tamaño es, probablemente, irrelevante en etapas iniciales,
donde deleciones mucho más grandes que abarquen diversas pautas de
lectura pueden producirse. Sin embargo, en las últimas etapas de la
reducción, un evento moderado (entre 50 – 200 nucleótidos) es destacable.
En primer lugar, porque en estos últimos estadios las deleciones que abarcan
cientos de loci no pueden darse y en segundo lugar, porque el impacto del
tamaño de un evento de indel, es tanto mayor a medida que el genoma está
más reducido. Por lo tanto, la calificación de grande o pequeño que se asigna
a un indel, depende de su tamaño relativo a la etapa de la evolución reductiva
que se aborde en un estudio. Es por ello que sería aconsejable que los autores
indicaran siempre el tamaño relativo de referencia que emplean, cuando
hablan de grandes o pequeños eventos, dado que a menudo se utilizan estos
calificativos sin precisar el número de nucleótidos implicados en los mismos,
lo que da lugar a aproximaciones subjetivas.
El estudio sobre los indels desarrollado en el capítulo 5 ha
permitido, además, el análisis de las regiones flanqueantes a los mismos, lo
que puede mostrar indicios del mecanismo de pérdida implicado en la
generación de éstos. Así, tanto el tamaño de los indels detectados como las
repeticiones flanqueantes a los mismos, halladas en la mayoría de los casos,
demuestran que la recombinación ilegítima juega un importante papel en las
últimas etapas de la evolución reductiva. De hecho, el incremento en AT y la
pérdida de sistemas de reparación que sufren los genomas bajo degradación
génica, aumenta la frecuencia e inestabilidad de pequeñas repeticiones en
tándem, tal y como se ha mostrado en el capítulo 5. Éstas son las que
permiten actuar a los mecanismos de recombinación ilegítima, especialmente
269
...........................................................................................................................................................
al deslizamiento de la polimerasa. Así, aunque en las últimas etapas de la
evolución reductiva de B. aphidicola y B. floridanus la recombinación
homóloga ya no es posible, debido a la ausencia de recA y a la pérdida de
grandes repeticiones, la recombinación ilegítima probablemente está
intensificada respecto a estadios iniciales. De modo que aunque eventos que
cubran decenas de genes ya no se dan en genomas en avanzado estado de
reducción, el ritmo de producción de eventos de pequeño tamaño aumenta y
el impacto de éstos en las últimas etapas es mayor a medida que el genoma
está más reducido.
Al igual que en otros trabajos llevados a cabo para calcular tasas de
indels en diferentes organismos, las regiones escogidas han sido regiones
funcionalmente neutras: pseudogenes y regiones intergénicas. Las razones
principales para escoger esta clase de secuencias son dos: en primer lugar,
dado que los indels son potencialmente deletéreos en regiones codificantes, la
probabilidad de detectar éstos en genes es muy baja, dado que la mayoría no
se fijarán. En segundo lugar, las mutaciones en secuencias no codificantes a
priori son neutras y representan por tanto el espectro mutacional de indels
que queremos obtener. Sin embargo, esta última afirmación no es cierta si
existe selección a favor de un tamaño genómico óptimo, dado que en ese caso
ninguna región del genoma estaría exenta de efectos en la eficacia selectiva.
No obstante, a menudo se asume que el coeficiente de selección asociado a
estos eventos es nulo, debido a su escaso tamaño en los estadios finales de la
reducción y que por tanto, el sesgo calculado sobre estas regiones es neutro,
aunque este argumento se basa en una asumción no comprobada. Además,
nosotros hemos mostrado como siguen apareciendo indels de tamaño
considerable (>50 nucleótidos), que podrían tener efectos en la eficacia, e
inclusive los indels de menor tamaño (1 nucleótido) no podemos descartar
que afecten al coeficiente de selección, especialmente si tenemos en cuenta el
efecto simultáneo del conjunto de los mismos sobre todo el genoma. Otros
trabajos asumen directamente que, independientemente del tamaño de los
eventos, no existe selección a favor de un genoma reducido y por lo tanto el
270
………………………………………………………………………………...…Discusión general
sesgo delecional puede calcularse sobre regiones funcionalmente neutras. Sin
embargo, no se ha demostrado todavía si es la selección o la deriva quien
dirige principalmente el proceso de reducción. Además, la importancia
relativa de cada una de estas fuerzas puede variar entre linajes y a lo largo del
proceso. Diversos factores, como el tamaño efectivo poblacional, el carácter
poliploide o no del genoma, el coeficiente de selección asociado al tamaño de
los eventos, el ritmo al que éstos se producen, etc. dictaminarán cuál es la
fuerza evolutiva primaria. Estos factores tienen por tanto que ser
cuantificados en los diferentes linajes, pero las dificultades asociadas a una
medición exacta de los mismos no ha permitido por el momento obtener una
estima de todos ellos. Puesto que no sabemos si las regiones carentes de
función son neutras respecto a la evolución del tamaño genómico, la
aproximación más correcta para determinar las tasas de indels sería la
desarrollada en trabajos de evolución experimental, como los llevado a cabo
en Caenorhabditis elegans o S. enterica (Denver et al. 2004, Nilsson et al.
2005). Por ejemplo, Nilsson y colaboradores (2005) analizaron el genoma de
diversas cepas de S. enterica, tras cientos de pases sucesivos que crecen cada
vez a partir de una única colonia escogida al azar, con el fin de permitir a los
mutantes de crecimiento lento fijarse en la población. Sin embargo, este tipo
de análisis en bacterias que no pueden cultivarse fuera de su hospedador,
como las bacterias obligadas intracelulares, no podría llevarse a cabo de
manera precisa. En este caso sería necesario cultivar al hospedador y hacer un
cálculo indirecto de las generaciones de bacterias que equivalen a cada
generación de hospedador. Además, aún llevándolo a cabo, este estudio no
permitiría detectar la selección a nivel intracelular de organismos poliploides,
como B. aphidicola. De modo que la aproximación intraespecífica llevada a
cabo en nuestro estudio, aunque limitada, proporciona al menos una
cuantificación absoluta de los sucesos y demuestra que, independientemente
de que exista o no selección a favor de un reducido tamaño genómico, las
deleciones a pequeña escala, por sí solas, son suficientes para impedir la
expansión, dado que el número de nucleótidos implicados en éstas es mayor.
271
...........................................................................................................................................................
El análisis de las regiones neutras en el capítulo 5 ha permitido
también el cálculo de tasas neutras de sustitución nucleotídica en estos
organismos. Las tasas obtenidas en el caso de B. aphidicola (~4-7 x 10-9
sustituciones por sitio y año) son congruentes con estimas previas (Ochman et
al., 1999b; Brynnel et al. 1998). Del mismo modo las tasas obtenidas para B.
floridanus (~2 x 10-8 sustituciones por sitio y año) están en concordancia con
estudios anteriores (Degnan et al. 2004) y confirman la mayor tasa de
sustitución descrita en Blochmannia en comparación con bacterias entéricas y
también con B. aphidicola. El estudio de estas regiones también ha
confirmado la mayor frecuencia de transiciones frente a transversiones, así
como el sesgo hacia AT. Estos fenómenos han sido previamente descritos en
organismos tanto eucariotas como procariotas (Li et al. 1984; Petrov y Hartl,
1999; Andersson y Andersson, 1999). Además, hemos mostrado en el
capítulo 4 como la disminución de GC en la composición está correlacionada
con la pérdida de longitud en las últimas etapas de la evolución de B.
aphidicola. No obstante, esta correlación se da sólo en aquellos genes
inactivados más recientemente (hace 50-70 m.a.). La ausencia de correlación
para genes perdidos más tempranamente se debe, probablemente, a que la
pérdida de GC es un parámetro que se satura antes, especialmente en B.
aphidicola, donde el contenido en GC es ya muy bajo, incluso en regiones
codificantes (Shigenobu et al. 2000; Tamas et al. 2002 y van Ham et al.
2003). La ausencia de correlación entre estos dos parámetros, se da también
en el análisis llevado a cabo en el capítulo 6. En este capítulo analizamos la
pérdida en etapas tempranas de M. leprae, donde el contenido en GC es más
elevado y por tanto, está más lejos del nivel de equilibrio que se alcanza tras
la degradación. La falta de correlación en este caso es debida por un lado, a
que el parámetro pérdida de longitud varía de manera mucho más abrupta que
en B. aphidicola. La explicación más plausible es que en B. aphidicola el
rango de indels que pueden producirse es mucho más limitado, dado que se
encuentra en etapas tardías de la reducción y por tanto, la disminución de la
longitud se da de manera más gradual. Sin embargo, en M. leprae, que se
272
………………………………………………………………………………...…Discusión general
haya en etapas tempranas, la pérdida de longitud no ha mostrado correlación
con ninguno de los otros parámetros relacionados con la degradación génica
tales como: densidad de codones de paro, pérdida de identidad e incremento
en AT. La mayor cantidad de DNA que puede perderse y ganarse, el elevado
número de elementos repetidos y una maquinaria de recombinación intacta
permiten probablemente un mayor rango en la longitud de indels, lo que
produce una variación del tamaño más escalonada. Pero además, la ausencia
de correlación es también debida a que todos los pseudogenes de M. leprae
tienen una edad similar y por tanto, el rango temporal de inactivación que
representan es muy limitado.
Las mayores oportunidades para la aparición de indels de mayor
tamaño en genomas como el de M. leprae es lo que ha llevado a postular que
la etapas iniciales de la reducción estaban dominadas por eventos que
abarcaban cientos de loci (Moran 2001; Mira et al. 2001). Sin embargo,
nosotros hemos demostrado como, aunque las grandes deleciones pueden
darse, la pérdida gen a gen es la principal fuente de degradación génica en M.
leprae, aún cuando ésta se halle en estadios iniciales de la reducción. Saber si
este hecho es característico de las etapas iniciales de la reducción requiere
análisis similares en un mayor número de genomas en estadios tempranos. El
resultado que obtenemos en M. leprae puede explicarse porque, aunque en las
etapas tempranas existe la maquinaria para que emerjan indels que abarquen
cientos de loci y estos genomas presentan cientos de genes que son potencial
material de pérdida, la eliminación de los mismos a través de grandes eventos
-que implican decenas de pautas abiertas de lectura- es poco probable. Ello se
debe a que los genes que pueden perderse no están agrupados y separados de
aquéllos cuya pérdida tiene efectos negativos en la eficacia. Por el contrario,
los genes que se inactivan se distribuyen aleatoriamente, esparcidos por todo
el genoma. Este hecho hace que la probabilidad de que una deleción de
ingente tamaño alcance a genes necesarios y sea por tanto deletérea o
perjudicial, sea elevada. Una prueba a favor de este argumento es que Nilsson
(2005), aunque demuestra que se pueden dar delecciones de hasta más de 200
273
...........................................................................................................................................................
kb, en las cepas donde las detecta sólo encuentra uno de estos vastos eventos
por genoma.
Nuestro análisis de los bloques de pérdida en M. leprae, al igual que
en el estudio que hemos llevado a cabo en el capítulo 4 sobre B. aphidicola,
se ha basado también en la reconstrucción previa de un genoma ancestral y
no en la comparación directa de especies relacionadas, como se ha hecho en
otros casos. Por ejemplo, la comparación directa de diferentes clones de M.
tuberculosis, ha permitido detectar variabilidad a nivel de deleciones que
comprenden hasta 16 pautas abiertas de lectura (Kato-Maeda, 2001), pero
como ya indicamos previamente, esta aproximación es errónea. El estudio
correcto requiere la comparación del genoma afectado por la pérdida, con el
genoma ancestral. Esta reconstrucción ha de ser lo más precisa posible, dado
que diferentes genomas ancestrales no derivarán en los mismos resultados.
Por ejemplo, las distintas reconstrucciones del genoma ancestral de B.
aphidicola en estadios iniciales, en los trabajos de Silva et al. (2001) y Moran
y Mira (2001), desembocan en conclusiones opuestas. Así, mientras en el
primer caso se concluía que la pérdida gradual era la principal fuerza de
degradación, en el segundo la deleción a grandes pasos era aparentemente la
fuerza dirigente de la reducción en las primeras etapas.
La correcta reconstrucción del genoma ancestral constituye por tanto
un paso crítico en el estudio de la reducción génica. Sin embargo, en el caso
de M. leprae la reconstrucción del ancestro no es tan obvia como en el
capítulo 4, en el estudio de B. aphidicola. El genoma de M. leprae ha sufrido
numerosas reordenaciones respecto al ancestro que reconstruimos y presenta
un abundante exogenoma (secuencias de inserción, etc.) y restos génicos. A
pesar de ello, el acceso a diversos genomas completamente secuenciados,
muy próximos a M. leprae, como los escogidos en nuestro estudio en el
capítulo 6, provee la oportunidad de una reconstrucción muy ajustada del
ancestro. Ésta requiere la obtención de una filogenia previa, tal y como
hemos llevado a cabo y una búsqueda precisa de pseudogenes y restos
génicos en los genomas actuales. Dada la importancia de obtener un genoma
274
………………………………………………………………………………...…Discusión general
ancestral próximo al verdadero, hemos llevado a cabo un análisis lo más
completo posible, mediante la búsqueda de genes y restos ortólogos de todos
y cada uno de los genes de las especies empleadas. De este modo, analizamos
únicamente las pérdidas de genes ancestrales y eliminamos aquéllas que
provienen de genes que han podido incorporarse al genoma de M. leprae
posteriormente a la divergencia del ancestro por transferencia horizontal.
Los genomas en etapas tempranas de la degradación genómica,
como el de M. leprae, se caracterizan también por poseer abundantes
pseudogenes. La presencia de los mismos es otra prueba a favor de una
pérdida gradual frente a una pérdida por grandes deleciones. Algunos autores
proponen que la abundancia de pseudogenes en esta especie, así como en
otras bacterias obligadas intracelulares, demuestra que la fuerza de la
selección para reducir el tamaño genómico en estos genomas está reducida
(Bentley, 2004), respecto a otros más compactos como el de B. aphidicola.
Sin embargo, la fuerza de la selección podría ser igual de intensa en ambos
casos y la diferente cantidad de material no codificante puede tan sólo reflejar
momentos diferentes en la evolución reductiva. La presencia de un elevado
número de pseudogenes se explicaría sólo porque no ha transcurrido el
tiempo suficiente para poder eliminarlos. Para conocer realmente si la
velocidad del proceso es similar o no en dos linajes, es preciso cuantificar
tasas respecto al tiempo transcurrido.
Esta abundancia de pseudogenes, que aún son comparables a sus
ortólogos activos, permite calcular el grado de degradación de los mismos, a
partir del cual podemos inferir el momento de la inactivación. Puesto que
para poder calcular la edad de los pseudogenes es necesario trabajar con
parámetros relacionados con la desintegración génica, cuyo valor varíe
progresivamente a lo largo del tiempo, previamente estudiamos la variación
gradual de éstos. El parámetro que mostró una gradación menos abrupta fue
la pérdida de identidad. A partir de este dato desarrollamos un método para
calcular la edad de un pseudogen a partir de las posiciones más conservadas,
los sitios no sinónimos, que tiene en cuenta el distinto ritmo evolutivo de
275
...........................................................................................................................................................
cada linaje. Este análisis ha mostrado que los pseudogenes analizados de M.
leprae han surgido a partir de un evento de inactivación único y reciente. Este
resultado es por tanto congruente con la idea de que la abundancia de
pseudogenes en M. leprae es debida a una inactivación reciente y que por lo
tanto, no ha transcurrido tiempo suficiente para la eliminación de los mismos.
La ausencia de un registro fósil asociado al género Mycobacterium
no permite calcular con precisión la edad de los pseudogenes, en una escala
de tiempo absoluto. Mediante una aproximación indirecta hemos llegado a
inferir que la masiva inactivación de genes en M. leprae puede haber
acontecido dentro de un rango comprendido entre el presente y hace 20 m.a.
Este amplio intervalo comprende la revolución neolítica, hace unos 10.000
años, que ha sido sugerida como el momento más probable para que gran
parte de las bacterias patógenas iniciaran su especialización en nichos
restringidos como el hombre (Mira et al. 2006). Aunque también la
especialización en células específicas como las células de Shwann podría ser
responsable de esta pérdida masiva. La aparición de un ingente potencial de
pérdida sería el resultado de este cambio en el estilo de vida y en las
necesidades de la bacteria. Esto es congruente con el resultado que hemos
obtenido en el capítulo 4, en el análisis funcional de las pérdidas en B.
aphidicola. En este capítulo, la escasez de pérdidas convergentes demuestra
como la pérdida es, probablemente, específica de la particular dieta o ciclo de
vida del pulgón hospedador, de modo que cambios en estos factores
inducirán la pérdida de todos los genes, que a partir de este cambio dejan de
ser esenciales. Acorde con esto observamos como, aunque hay una ligera
reducción de las regiones intergénicas en la evolución reciente de B.
aphidicola, la miniaturización se debe principalmente a la pérdida de genes.
Estos resultados se han confirmado tras obtener la secuencia completa del
genoma de B. aphidicola de C. cedri (Pérez-Brocal et al. 2006), el más
pequeño de los genomas bacterianos descubiertos.
Los cambios en el estilo de vida que conllevan a la inactivación
génica pueden generar la pérdida no sólo de genes individuales sino de rutas
276
………………………………………………………………………………...…Discusión general
metabólicas completas mediante el denominado “efecto dominó”. De hecho,
el análisis de la pérdida en operones de M. leprae en el capítulo 6 ha
mostrado indicios de un efecto de arrastre de pérdida de genes implicados en
la misma unidad transcripcional.
El creciente auge de genomas completamente secuenciados
permitirá incrementar el número de estudios comparativos, para calcular el
tiempo y modo de la reducción en los distintos linajes y un estudio más
completo de las diferentes etapas del proceso, para conocer de manera más
precisa la evolución del mismo. A partir de esta muestra mayor será posible
inferir los hechos generales que caracterizan la evolución reductiva en sus
diferentes estadios.
277
278
8. CONCLUSIONES
279
280
......................................................................................................................................Conclusiones
8. CONCLUSIONES
En los últimos 150 m.a. de evolución de B. aphidicola de los pulgones
A.pisum, S. graminum y B. pistaciae:
1.
El genoma ancestral reconstruido de BAp, BSg y BBp contiene un
mínimo de 640 genes.
2.
Se han producido un mínimo de 164 eventos de pérdida
independientes. Esos sucesos implican sólo 135 genes distintos
inactivados, debido a las pérdidas convergentes que han tenido
lugar en estos linajes.
3.
La tasa de pérdida de DNA, para los genes inactivados
aproximadamente hace 100 m.a. se estima en 2,9 x 10-8 nucleótidos
perdidos por sitio y año. Este ritmo de reducción implica que la
vida media de un pseudogen en B. aphidicola está en torno a 23,9
m.a. En base a este resultado, podemos afirmar que la tasa obtenida
es lo suficientemente elevada como para producir la completa o casi
completa desintegración de genes en un corto periodo de tiempo, lo
que explicaría que los genes inactivados en los primeros estadios de
la evolución de B. aphidicola desde el LCSA, en el presente hayan
perdido prácticamente todos sus nucleótidos.
4.
El sesgo hacia AT y la pérdida de nucleótidos son procesos que
presentan algún grado de correlación, al menos para los genes
inactivados recientemente.
5.
Los espaciadores de B. aphidicola han sufrido una reducción ligera,
pero significativa respecto a los de E. coli, aunque la mayor
contribución a la reducción genómica proviene de la pérdida de
genes.
6.
Los genes perdidos se distribuyen en todas las posibles categorías
funcionales, aunque la mayoría son genes implicados en funciones
de transporte, metabolismo o biogénesis de membrana.
281
……………………………………………………………………………………………………...
7.
Existe un escaso número de pérdidas convergentes en relación con
la categoría funcional, lo que indica que las pérdidas probablemente
son específicas de cada hospedador y están relacionadas con su
particular dieta o ciclo de vida.
En las etapas más recientes de la reducción genómica en los
endosimbiontes B. aphidicola y B. floridanus:
8.
El tamaño más frecuente de inserciones y deleciones detectadas es
de 1 nucleótido. Sin embargo, aún pueden aparecer eventos de
tamaño considerable (más de 50 nucleótidos), que pueden estar
sujetos a la acción de fuerzas selectivas.
9.
Los nucleótidos perdidos por eventos de deleción superan a los
ganados por eventos de inserción, principalmente debido al tamaño
superior de las deleciones frente a las inserciones. De modo que
existe un sesgo hacia la pérdida de DNA. El principal responsable
de este sesgo es el elevado tamaño de algunos eventos de deleción,
frente al reducido tamaño de las inserciones.
10. Las tasas de pérdida de DNA son de 1,3 x 10-8 y 2,2 x 10-8
nucleótidos perdidos por sitio y año en B. aphidicola y B.
floridanus, respectivamente.
11. El análisis de las regiones flanqueantes a los eventos de indels
señala a los mecanismos de recombinación ilegítima como los
principales responsables de la aparición de los mismos,
concretamente al deslizamiento de la polimerasa, dada la
abundancia de repeticiones en tándem asociadas a indels.
12. Las regiones neutras muestran un mayor número de sustituciones
que incrementan la composición en AT frente aquéllas que
aumentan el contenido en GC así como un mayor número de
transiciones frente a transversiones.
282
......................................................................................................................................Conclusiones
13. La abundancia de repeticiones en tándem, asociada al sesgo en la
composición nucleotídica con un elevado porcentaje AT y la
ausencia de un eficaz sistema de reparación, aumentan la dinámica
asociada a los microsatélites.
14. La tasas neutras de sustitución estimadas en B. aphidicola y B.
floridanus son 4,3-6,7 x 10-9 y 1,5-1,8 x 10-8 sustituciones por sitio
y año, respectivamente.
En las etapas iniciales de la evolución reductiva que ha sufrido M.
leprae desde su divergencia del grupo de M. tuberculosis:
15. El genoma ancestral reconstruido de M. leprae y M. tuberculosis
contiene un mínimo de 2.977 genes.
16. El genoma de M. leprae ha perdido 1.537 genes, de los que
constituyen el mínimo del genoma ancestral. De los genes perdidos,
1.129 se hayan en estado de pseudogen y 408 son pérdidas
completas, cuya similitud con el ortólogo funcional ya no es
detectable.
17. La mayor parte de los genes que se han inactivado desde su
divergencia con el genoma ancestral se hayan en estado de
pseudogen o son pérdidas individuales completas y las pérdidas en
bloque detectadas son mayoritariamente de pocos genes. Así, la
pérdida gen a gen es el principal mecanismo de degradación
genómica en esta especie.
18. La mayor parte de los pseudogenes de M. leprae poseen una edad
similar y son por tanto, resultado de un evento de pseudogenización
único, acontecido en algún momento entre el presente y hace
aproximadamente unos 20 m.a.
19. Existen indicios de un “efecto de arrastre”, según el cuál la pérdida
de un gen perteneciente a un operón puede conllevar a la pérdida
283
……………………………………………………………………………………………………...
del resto de genes que pertenecen a esa misma unidad
transcripcional.
20. La mayor parte de pseudogenes han sufrido una escasa pérdida de
nucleótidos, lo que se haya en concordancia con su reciente origen.
Mientras, las pérdidas totales muestran un rango de estados de
desintegración mayor, que en algunos casos es total, lo que indica
que la pérdida de estos genes abarca un intervalo de tiempo más
amplio.
284
9. REFERENCIAS
285
286
…………………………………………………………………………………………Referencias
9. REFERENCIAS BIBLIOGRÁFICAS
Abascal, F., Zardoya, R., y Posada, D. (2005). ProtTest: selection of best-fit models of
protein evolution. Bioinformatics 21: 2104-2105.
Abbot, P. y Moran, N.A. (2002). Extremely low levels of genetic polymorphism in
endosymbionts (Buchnera) of aphids (Pemphigus). Mol Ecol 11: 2649-2660.
Akaike, H. (1974). New look at statistical-model identification. Trans Automat
Control 19: 716-723.
Akhtar, S., van Emden, H.F. (1994). Ultrastructure of the symbiontsandmycetocytes
of bird cherry aphid (Rhopalosiphum padi). Tissue & cell 26:44, 513-522.
Aksoy, S.(1995). Wigglesworthia gen. nov.andWigglesworthia glossinidia sp. nov.,
taxa consisting of the mycetocyte-associated, primary endosymbionts of
tsetse flies. Int J Syst Bacteriol 45: 848-851.
Albert, B., Godelle, B., Atlan, A., De, P.R., y Gouyon, P.H. (1996). Dynamics of plant
mitochondrial genome: model of a three-level selection process. Genetics
144: 369-382.
Allardet-Servent, A., Michaux-Charachon, S., Jumas-Bilak, E., Karayan, L., y Ramuz,
M. (1993). Presence of one linearandone circular chromosome in the
Agrobacterium tumefaciens C58 genome. J Bacteriol 175: 7869-7874.
Alm, E.J., Huang, K.H., Price, M.N., Koche, R.P., Keller, K., Dubchak, I.L.,y Arkin,
A.P. (2005). The MicrobesOnline Web site for comparative genomics.
Genome Res 15: 1015-1022.
Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. y
Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs. Nucleic Acids Res 25: 3389-3402.
Andersson, S.G.E.,y Kurland, C.G. (1995). Genomic evolution drives the evolution of
the translation system. Biochem Cell Biol 73: 775-787.
Andersson, S.G., Zomorodipour, A., Andersson, J.O., Sicheritz-Ponten,T.,
Alsmark,U.C., Podowski,R.M. et al. (1998). The genome sequence of
Rickettsia prowazekii and the origin of mitochondria. Nature 396: 133-140.
Andersson, J.O., y Andersson, S.G. (1999). Genome degradation is an ongoing
process in Rickettsia. Mol Biol Evol 16: 1178-1191.
287
…………………………………………………………………………………………………..
Andersson, J.O. (2000). Evolutionary genomics: is Buchnera a bacterium or an
organelle? Curr Biol 10: R866-R868.
Andersson, J.O. y Andersson, S.G. (2001). Pseudogenes, junk DNA, and the dynamics
of Rickettsia genomes. Mol Biol Evol 18: 829-839.
Astruc, C., Julien, J.F., Errard, C. y Lenoir, A. (2004). Phylogeny of ants (Formicidae)
based on morphology and DNA sequence data. Mol Phylogenet Evol 31: 880893.
Ayala, F.J. (1999). Molecular clock mirages. BioEassays 21: 71-75.
Babu, M.M. (2003). Did the loss of sigma factors initiate pseudogene accumulation in
M. leprae? Trends in Microbiology 11.
Barrette, R., Crease, T.J., Hebert, P. y Via, S. (1994). Mitochondrial DNA diversity in
the pea aphid, Acyrthosiphon pisum. Genome 37.
Baumann, P., Baumann, L., Lai, C.Y., Rouhbakhsh, D., Moran, N.A., y Clark, M.A.
(1995). Genetics, physiology, and evolutionary relationships of the genus
Buchnera: intracellular symbionts of aphids. Annu Rev Microbiol 49: 55-94.
Baumann, P. y Moran, N.A. (1997a). Non-cultivable microorganisms from symbiotic
associations of insects and other hosts. Antonie van Leeuwnhock 72:39-48.
Baumann, P., Moran, N.A. y Baumann, L. (1997b). The evolution and genetics of
aphid endosymbionts. Bioscience 47: 12-20.
Baumann, L., Baumann, P., Moran, N.A., Sandstrom, J. y Thao, M.L. (1999). Genetic
characterization of plasmids containing genes encoding enzymes of leucine
biosynthesis in endosymbionts (Buchnera) of aphids. J Mol Evol 48: 77-85.
Baumann, P., Moran, N.A. y Baumann, L. (2000). Bacteriocyte-Associated
Endosymbionts of Insects. In The prokaryotes. New York: Springer-Verlan,
pp. 1-55.
Beaumont, M.A. y Rannala, B. (2004). The Bayesian Revolution in Genetics. Nature
Genetics 5: 251-261.
Belda, E., Moya, A. y Silva, F.J. (2005). Genome rearrangement distances and gene
order phylogeny in gamma-Proteobacteria. Mol Biol Evol 22: 1456-1467.
Beletskii, A. y Bhagwat, A.S. (1996). Transcription-induced mutations: increase in C
to T mutations in the nontranscribed strand during transcription in
Escherichia coli. Proc Natl Acad Sci U S A 93: 13919-13924.
288
…………………………………………………………………………………………Referencias
Bennett, M.D. (1972). Nuclear DNA content and minimum generation time in
herbaceous plants. Proceedings of the Royal Society of London, Series B 181:
109-135.
Bensasson, D., Petrov, D.A., Zhang, D.X., Hartl, D.L. y Hewitt, G.M. (2001).
Genomic gigantism: DNA loss is slow in mountain grasshoppers. Mol Biol
Evol 18: 246-253.
Bentley, S.D. y Parkhill, J. (2004). Comparative genomic structure of prokaryotes.
Annu. Rev. Genet. 38: 771-91
Bergthorsson, U. y Ochman, H. (1998). Distribution of chromosome length variation
in natural isolates of Escherichia coli. Mol Biol Evol 15: 6-16.
Besra, G.S., Sievert, R., Lee, R.E., Slayden, R.A., Brenan, P.J. y Takayama, K.
(1994). Identification of the appaent carrier in mycolic acid synthesis. Proc
Natl Acad Sci U S A 91: 12735-12739.
Bi, X., y Liu, L.F. (1994). recA-independent and recA-dependent intramolecular
plasmid recombination. Differential homology requirement and distance
effect. J Mol Biol 235: 414-423.
Blackman, R.L. y Eastop, V. F. (1984). Aphids on the world’s crops. An identification
and information guide. John Wiley and Sons. New York. pp.
Blackman, R.L . y Eastop, V.F. (1994). Aphids on the world’s trees. An identification
and information guide. CAB International and The Natural History Museum.
London. pp 990.
Blattner, F.R., Plunkett, G., III, Bloch, C.A., Perna, N.T., Burland, V., Riley, M. et al.
(1997). The complete genome sequence of Escherichia coli K-12. SCIENCE
277: 1453-1474.
Blochmann, F. (1887). Uber das Vorkommen bakterinahnlicher Gebilde in den
Geweben und Eiern verschiedener Insekten. Zentbl Bakteriol 11: 234-240.
Blumenstiel, J.P., Hartl, D.L. y Lozovsky, E.R. (2002). Patterns of insertion and
deletion in contrasting chromatin domains. Mol Biol Evol 19: 2211-2225.
Bolton, B. (1995). A New General Catalogue of the Ants of the World. Cambridge,
MA: Harvard University Press.
Brady, S.G; Gadau, J. y Ward, P.S. (2000). Systematics of the ant genus Camponotus
(Hymenoptera:Formicidae): a preliminary analysis using data from the
mitochondrial gene cytochrome oxidase I. In: A.D. Austin y M. Dowton eds;
289
…………………………………………………………………………………………………..
Hymenoptera: Evolution Biodiversity and Biological Control. CSIRO. Pub;
Australia.
Brosch, R., Gordon, S.V., Marmiesse, M., Brodin, P., Buchrieser, C., Eiglmeier, K. et
al. (2002). A new evolutionary scenario for the Mycobacterium tuberculosis
complex. Proc Natl Acad Sci U S A 99: 3684-3689.
Brynnel, E.U., Kurland, C.G., Moran, N.A. y Andersson, S.G. (1998) Evolutionary
rates for tuf genes in endosymbionts of aphids. Mol Biol Evol 15: 574-582.
Bulman, S.R., Stufkens, M.A.W., Nichol, D., Harcourz, S.J., Harrex, A.L. y Teulon,
D.A.J. (2005) Rhopalosiphum in New Zealand. I RAPD marked reveal
limited variability in lineages of Rhopalosiphum padi. New Zealand Journal
of Zoology 32.
Birney, E; Clamp, M. y Durbin, R.(2004). GeneWise and Genomewise. Genome
Research 14:988-95.
Bzymek, M. y Lovett, S. (2001). Instability of repetitive DNA sequences: The role of
replication in multiple mechanisms. Proc Natl Acad Sci U S A 98: 83198325.
Campbell, B.C., Steffen-Campbell, J.D. y Gill, R.J. (1994). Evolutionary origin of
whiteflies (Hemiptera: Sternorrhyncha: Aleyrodidae) inferred from 18S
rDNA sequences. Insect Mol Biol 3: 73-88.
Caterino, M.S., y Sperling, F.A. (1999). Papilio phylogeny based on mitochondrial
cytochrome oxidase I and II genes. Mol Phylogenet Evol 11: 122-137.
Cavalier-Smith, T. (1978). Nuclear volume control by nucleoskeletal DNA, selection
for cell volume and cell growth rate, and the solution of the DNA C-value
paradox. J Cell Sci 34: 247-278.
Cavalier-Smith, T. (2003). Genomic reduction and evolution of novel genetic
membranes and protein-targeting machinery in eukaryote-eukaryote
chimaeras (meta-algae). Philos Trans R Soc Lond B Biol Sci 358: 109-133.
Cavalier-Smith,T. (2005). Economy, speed and size matter: evolutionary forces
driving nuclear genome miniaturization and expansion. Ann Bot (Lond) 95:
147-175.
Chambaud, I., Heilig, R., Ferris, S., Barbe, V., Samson, D., Galisson, F. et al. (2001).
The complete genome sequence of the murine respiratory pathogen
Mycoplasma pulmonis. Nucleic Acids Res 29: 2145-2153.
290
…………………………………………………………………………………………Referencias
Charles, H. y Ishikawa, H. (1999). Physical and genetic map of the genome of
Buchnera, the primary endosymbiont of the pea aphid Acyrthosiphon pisum.
J Mol Evol 48: 142-150.
Charles, H; Calevro, F; Vinuelas, J; Fayard, J.M; y Rahbe, Y. (2006). Codon usage
bias and tRNA over-expression in Buchnera aphidicola after aromatic amino
acid nutritional stress on its host Acyrthosiphon pisum. Nucleic Acid
Research 34:4583-4592.
Chen, J.L., Blasco, M.A. y Greider, C.W. (2000). Secondary structure of vertebrate
telomerase RNA. Cell 100: 503-514.
Ciudad, A., Escalante, N.Y., Seminario, N.V., Maita, R., García, R. y Ráez, E. (2002).
Identificación de M. leprae en piel y nervio sural de pacientes sometidos a
terapia por lepra. Folia Dermatológica Peruana 13.
Clark, M.A., Moran, N.A., y Baumann, P. (1999). Sequence evolution in bacterial
endosymbionts having extreme base compositions. Mol Biol Evol 16: 15861598.
Clark, M.A., Baumann, L., Thao, M.L., Moran, N.A. y Baumann, P. (2001).
Degenerative minimalism in the genome of a psyllid endosymbiont. J
Bacteriol 183: 1853-1861.
Cole, S.T., Brosch, R., Parkhill, J., Garnier, T., Churcher, C., Harris, D. et al. (1998).
Deciphering the biology of Mycobacterium tuberculosis from the complete
genome sequence. Nature 393.
Cole, S.T., Eiglmeier, K., Parkhill, J., James, K.D., Thomson, N.R., Wheeler, P.R. et
al. (2001). Massive gene decay in the leprosy bacillus. Nature 409: 10071011.
Comeron, J.M. y Kreitman, M. (2000). The correlation between intron length and
recombination in drosophila. Dynamic equilibrium between mutational and
selective forces. Genetics 156: 1175-1190.
Comeron, J.M. (2001). What controls the length of noncoding DNA? Curr Opin
Genet Dev 11: 652-659.
Cortopassi, G.A., Shibata, D., Soong, N.W. y Arnheim, N. (1992). A pattern of
accumulation of a somatic deletion of mitochondrial DNA in aging human
tissues. Proc Natl Acad Sci U S A 89: 7370-7374.
Cosmides, L.M. y Tooby, J. (1981). Cytoplasmic inheritance and intragenomic
conflict. J Theor Biol 89: 83-129.
291
…………………………………………………………………………………………………..
Dagan, T., Blekhman, R. y Graur, D. (2006). The "domino theory" of gene death:
gradual and mass gene extinction events in three lineages of obligate
symbiotic bacterial pathogens. Mol Biol Evol 23: 310-316.
Dasch, G., Weiss, E. y Chang, K. (1984). Endosymbionts of insects. In Bergey’s
Manual of Systematic Bacteriology , pp. 811-833. Edited by J. Holt & N.
Krieg. Baltimore:Williams & Williams
Davis, R.E. y Hodgson, S. (1997). Gene linkage and steady state RNAs suggest transsplicing may be associated with a polycistronic transcript in Schistosoma
mansoni. Mol Biochem Parasitol 89: 25-39.
Day, A. y Ellis, T.H. (1984). Chloroplast DNA deletions associated with wheat plants
regenerated from pollen: possible basis for maternal inheritance of
chloroplasts. Cell 39: 359-368.
De Bolle, X., Bayliss, C.D., Field, D., van de Ven, T., Saunders, N.J., Hood, D.W. y
Moxon, E.R. (2000). The length of a tetranucleotide repeat tract in
Haemophilus influenzae determines the phase variation rate of a gene with
homology to type III DNA methyltransferases. Mol. Microbiol. 35: 211-222
Degnan, P.H., Lazarus, A.B., Brock, C.D. y Wernegreen, J.J. (2004). Host-symbiont
stability and fast evolutionary rates in an ant-bacterium association:
cospeciation of camponotus species and their endosymbionts, Candidatus
Blochmannia. Syst Biol 53: 95-110.
Degnan, P.H., Lazarus, A.B. y Wernegreen, J.J. (2005). Genome sequence of
Blochmannia pennsylvanicus indicates parallel evolutionary trends among
bacterial mutualists of insects. Genome Res 15: 1023-1033.
Delmotte, F., Leterme, N., Bonhomme, J., Rispe, C. y Simon, J.C. (2001). Multiple
routes to asexuality in an aphid species. Proc Biol Sci 268: 2291-2299.
Delmotte, F., Rispe, C., Schaber, J., Silva, F.J. y Moya, A. (2006). Tempo and mode
of early gene loss in endosymbiotic bacteria from insects. BMC Evol Biol 6:
56.
Delmotte, F., Sabater-Munoz, B., Prunier-Leterme, N., Latorre, A., Sunnucks, P.,
Rispe, C. y Simon, J.C. (2003). Phylogenetic evidence for hybrid origins of
asexual lineages in an aphid species. Evolution Int J Org Evolution 57: 12911303.
Denver, D.R., Morris, K., Lynch, M. y Thomas, W.K. (2004). High mutation rate and
predomiance of insertions in the Caenorhabditis elegans nuclear genome.
Nature 430.
292
…………………………………………………………………………………………Referencias
Devulder, G., Perouse de, M.M. y Flandrois, J.P. (2005). A multigene approach to
phylogenetic analysis using the genus Mycobacterium as a model. Int J Syst
Evol Microbiol 55: 293-302.
Deyrup, M. y Tragger, J. (1986). Ants of the Archbold Biology Station, Highlands
Country, Florida. Florida Entomol 69: 206-228.
Deyrup, M., Tragger, J., Carlin, N. y Umphrey,G. (1988). A review of the ants of the
Florida keys. Florida Entomol 71: 163-176.
Dixon, A.F.G. (1975). Aphids and translocation. pp. 154-170. In : Encyclopedia of
plant physiology. Eds. Zimmermann, M.H; y Milburn, J.A. Vol 1, New
Series. Springer-Verlag, Berlín.
Dixon, A.F.G., Croghan, P.C., y Gowing, R.P. (1990). The mecahnism by which
aphids adhere to smooth surfaces. Journal of Experimental Biology 152: 243253.
Dixon, A.F.G. (1990). Ecological interactions of aphids and their host plants. En
“Aphid-plant genotype interactions”. Pag. 7-19. Editado por R.K. Campbell
and R.D. Eikenbary. Elsevier. Amsterdam
Doolittle, R.F., Feng, D.F., Tsang, S., Cho, G. y Little, E. (1996). Determining
divergence times of the major kingdoms of living organisms with a protein
clock. Science. 271: 470-477.
Doolittle, W.F. y Sapienza, C. (1980). Selfish genes, the phenotype paradigm and
genome evolution. Nature 284: 601-603.
Douglas, A.E., y Dixon, A.F.G. (1987). The mycetocyte symbiosis of aphids:
Variation with age and morph in virginoparae of Megoura viciae and
Acyrthosiphon pisum. Journal of Insect Physiology 33: 109-133.
Douglas, A.E. (1989). Micetocyte symbiosis in insect. Biol Rev 64: 409-434. Douglas,
A.E., y Prosser, W.A. (1992). Synthesis of the essential amino acid
tryptophan in the pea aphid (Acyrthosiphon pisum) symbiosis. J Insect
Physiol 38: 565-568.
Douglas, A.E. (1993). The nutritional quality of phloem sap utilized by natural aphid
populations. Ecol Entomol 18: 31-38.
Douglas, A.E. (1996). “Microorganisms in symbiosis: adaptation and specialization”
In Evolution of Microbial Life, eds. D. McL. Roberts, P. Sharp, G. Alderson,
y M.A. Collins, pp. 225-241. Cambridge: Cambridge University Press.
293
…………………………………………………………………………………………………..
Douglas, A.E. (1998). Nutritional interactions in insect-microbial symbioses: aphids
and their symbiotic bacteria Buchnera. Annu Rev Entomol 43: 17-37.
Drummond, A.J., Nicholls, G.K., Rodrigo, A.G. y Solomon, W. (2002). Estimating
Mutation Parameters, Population History and Genealogy Simultaneously
From Temporally Spaced Sequence Data. Genetics 161: 1307-1320.
Dufresne, A., Garczarek, L. y Partensky, F. (2005). Accelerated evolution associated
with genome reduction in a free-living prokaryote. Genome Biol 6: R14.
Ellegren, H. (2004). Microsatellites: simple sequences with complex evolution.
Nature Reviews Genetics 5: 435-445.
Emilsson, V. y Kurland, C.G. (1990). Growth rate dependence of transfer RNA
abundance in Escherichia coli. EMBO J 9: 4359-4366.
Erickson, B.W. y Seller, P.H. (1983). Recognition of patterns in genetic sequences. In
:Sankoff, D; Kruskal, J.B. editors. Time warps, string edits, and
macromolecules: the theory and practice of sequence comparison: AddisonWesley. pp. 55-91.
Ermolaeva, M.D., White, O. y Salzberg, S.L. (2001). Prediction of operons in
microbial genomes. Nucleic Acids Res 29: 1216-1221.
Fares, M.A., Ruiz-Gonzalez, M.X., Moya, A., Elena, S.F. y Barrio, E. (2002).
Endosymbiotic bacteria: groEL buffers against deleterious mutations. Nature
417: 398.
Felsenstein, J. (1974). The evolutionary advantage of recombination. Genetics 78:
737-756.
Felsenstein, J. (1985). Confidence Limits on Phylogenies: An Approach Using the
Bootstrap. Evolution 39: 783-791.
Ferdows, M.S., Serwer, P., Griess, G.A., Norris, S.J. y Barbour, A.G. (1996).
Conversion of a linear to a circular plasmid in the relapsing fever agent
Borrelia hermsii. J Bacteriol 178: 793-800.
Ferrari, J., Darby, A.C., Daniell, T.J., Godfray, H.C.J. y Douglas, A.E. (2004).
Linking the bacterial community in pea aphids with host-plant use and
natural enemy resistance. Ecological Entomology 29: 60-65.
Field,D. y Wills,C. (1996) Long, polymorphic microsatellites in simple organisms.
Proc Biol Sci 263: 209-215.
294
…………………………………………………………………………………………Referencias
Field, D. y Wills, C. (1998). Abundant microsatellite polymorphism in
Saccharomyces cerevisiae, and the different distributions of microsatellites in
eight prokaryotes and S. cerevisiae, result from strong mutation pressures and
a variety of selective forces. Proc Natl Acad Sci U S A 95: 1647-1652.
Fitch W. M. (1976). Molecular evolutionary clocks Pp. 160–178 in F. J. Ayala, ed.
Molecular evolution. Sinauer, Sunderland, Mass
Fleischmann, R.D., Alland, D., Eisen, J.A., Carpenter, L., White, O. y Peterson, J.
(2002). Whole-Genome Comparison of Mycobacterium tuberculosis Clinical
and Laboratoy Strains. Journal of Bacteriology.
Frank A.C., Haleh, A. y Andersson, S.G.E. (2002). Genome deterioration: loss of
repeated sequences and accumulation of junk DNA. Genetics 115: 1-12.
Fraser, C.M., Gocayne, J.D., White, O., Adams, M.D., Clayton, R.A., Fleischmann,
R.D. et al. (1995). The minimal gene complement of Mycoplasma
genitalium. Science 270: 397-403.
Fraser, C.M., Casjens, S., Huang, W.M., Sutton, G.G., Clayton, R., Lathigra, R. et al.
(1997). Genomic sequence of a Lyme disease spirochaete, Borrelia
burgdorferi. Nature 390: 580-586.
Fricke, J., Neuhard, J., Kelln, R.A. y Pedersen, S. (1995). The cmk gene encoding
cytidine monophosphate kinase is located in the rpsA operon and is required
for normal replication rate in Escherichia coli. J Bacteriol 177: 517-523.
Frothingham, R., Hills, H.G. y Wilson, K.H. (1994). Extensive DNA sequence
conservation throughout the Mycobacterium tuberculosis complex. J Clin
Microbiol 32: 1639-1643.
Fukatsu, T. y Ishikawa, H. (1993). Occurrence of chaperonin 60 and chaperonin 10 in
primary and secondary bacterial symbionts of aphids: implications for the
evolution of an endosymbiotic system in aphids. J Mol Evol 36: 568-577.
Fukatsu, T. (1998). Biological function, evolution and origin of endosymbiotic
microorganisms of homopteran insects. Tanpakushitsu Kakusan Koso 43:
1227-1236.
Fukatsu, T. (1999). Acetone preservation: a practical technique for molecular analysis.
Molecular Ecology. 8 :11.
Funk, D.J., Wernegreen, J.J. y Moran, N.A. (2001). Intraspecific variation in symbiont
genomes: bottlenecks and the aphid-buchnera association. Genetics 157: 477489.
295
…………………………………………………………………………………………………..
Gadau, J., Heinze, J., Holldobler, B. y Schmid, M. (1996). Population and colony
structure of the carpenter ant Camponotus floridanus. Mol Ecol 5: 785-792.
Garnier, T., Eiglmeier, K., Camus, J.C., Medina, N., Mansoor, H., Pryor, M. et al.
(2003). The complete genome sequence of Mycobacterium bovis. Proc Natl
Acad Sci U S A 100: 7877-7882.
Gatesy, J., DeSalle, R. y Wheeler, W. (1993). Alignment-ambiguous nucleotide sites
and the exclusion of systematic data. Mol Phylogenet Evol 2: 152-157.
Gil, R., Sabater-Munoz, B., Latorre, A., Silva, F.J. y Moya, A. (2002). Extreme
genome reduction in Buchnera spp.: toward the minimal genome needed for
symbiotic life. Proc Natl Acad Sci U S A 99: 4454-4458.
Gil, R., Silva, F.J., Zientz, E., Delmotte, F., Gonzalez-Candelas, F., Latorre, A. et al.
(2003). The genome sequence of Blochmannia floridanus: comparative
analysis of reduced genomes. Proc Natl Acad Sci U S A 100: 9388-9393.
Giovannoni, S.J., Tripp, H.J., Givan, S., Podar, M., Vergin, K.L., Baptista, D. et al.
(2005. Genome streamlining in a cosmopolitan oceanic bacterium. Science,
309: 1242-1245.
Glass, J.I., Assad-García, N., Alperovich, N., Yooseph, S., Lewins, M.R., Maruf, M.
et al. (2006). Essential genes of a minimal bacgterium. Proc Natl Acad Sci U
S A 103: 425-430.
Glover, D.M. y James, B.D. (1996). DNA cloning: A practical approach. 2nd Edition.
IRL Press, Oxford University Press.
Goldman, N. y Yang, Z. (1994). A codon-based model of nucleotide substitution for
protein-coding DNA sequences. Mol Biol Evol 11: 725-736.
Gomez-Valero, L; Latorre, A; Silva, F.J. (2004a). The evolutionary fate of nonfunctional DNA in the bacterial endosymbiont Buchnera aphidicola. Mol.
Biol. Evol. 21 (11):2172-81.
Gomez-Valero, L., Soriano-Navarro, M., Perez-Brocal, V., Heddi, A., Moya, A.,
Garcia-Verdugo, J.M. y Latorre, A. (2004b). Coexistence of Wolbachia with
Buchnera aphidicola and a secondary symbiont in the aphid Cinara cedri. J
Bacteriol 186: 6626-6633.
Graur, D., Shuali, Y. y Li, W.H. (1989). Deletions in processed pseudogenes
accumulate faster in rodents than in humans. J Mol Evol 28: 279-285.
Gregory, T.R. y Hebert, P.D. (1999). The modulation of DNA content: proximate
causes and ultimate consequences. Genome Res 9: 317-324.
296
…………………………………………………………………………………………Referencias
Gregory, T.R. (2003). Is small indel bias a determinant of genome size? Trends Genet
19: 485-488.
Gregory, T.R. (2004). Insertion-deletion biases and the evolution of genome size.
Gene.324: 15-34.
Griffiths, G.W. y S.D. Beck. (1973). Intracelullar symbiotes of the pea aphid,
Acyrthosiphon pisum. J. Insect. Physiol.19:75-84
Grimaldi, D. y Agosti, D. (2000). A formicine in New Jersey cretaceous amber
(Hymenoptera: formicidae) and early evolution of the ants. Proc Natl Acad
Sci U S A 97: 13678-13683.
Gross, M., Robinson, C.V., Mayhew, M., Hartl, F.U. y Radford, S.E. (1996).
Significant hydrogen exchange protection in GroEL-bound DHFR is
maintained during iterative rounds of substrate cycling. Protein Sci 5: 25062513.
Guindon, S. y Gascuel, O. (2003). A simple, fast, and accurate algorithm to estimate
large phylogenies by maximum likelihood. Syst Biol 52: 696-704.
Gur-Arie, R., Cohen, C.J., Eitan, Y., Shelef, L., Hallerman, E.M. y Kashi, Y. (2000).
Simple sequence repeats in Escherichia coli: abundance, distribution,
composition, and polymorphism. Genome Res 10: 62-71.
Gurvich, O.L., Baranov, P.V., Zhou, J., Hammer, A.W., Gesteland, R.F. y Atkins, J.F.
(2003). Sequences that direct significant levels of frameshifting are frequent
in coding regions of Escherichia coli. EMBO J 22: 5941-5950.
Gutierrez, M.C., Brisee, S., Brosch, R., Fabre, M., Omais, B., Marmieses, M. et al.
(2005). Ancien Origin and Gene Mosaicism of the Progenitor of
Mycobacterium tuberculosis. Plos Pathogens 1.
Hacker, J., Blum-Oehler, G., Muhldorfer, I. y Tschape, H. (1997). Pathogenicity
islands of virulent bacteria: structure, function and impact on microbial
evolution. Mol Microbiol 23: 1089-1097.
Hacker, J. y Kaper, J.B. (2000). Pathogenicity islands and the evolution of microbes.
Annu Rev Microbiol 54: 641-679.
Hall, T.A. (1999). BioEdit: a user-friendly biological sequence alignment editor and
analysis program for Windows 95/98NT. Nucl Acids-Symp Ser 41: 95-98.
Hansen, G. H. A. (1874). Undersogelser angaende spedalskhedens aasager. Norsk
Magazin for Laegervidenskaben 4 (Suppl.), 1-88
297
…………………………………………………………………………………………………..
Hedges, S.B. (1992). The number of replications needed for accurate estimation of the
bootstrap P value in phylogenetic studies. Mol Biol Evol 9: 366-369.
Hedges, S.B. y Kumar, S. (2004). Precision of molecular time estimates. Trends in
Genetics 20.
Heidelberg, J.F., Eisen, J.A., Nelson, W.C., Clayton, R.A., Gwinn, M.L., Dodson, R.J.
et al. (2000). DNA sequence of both chromosomes of the cholera pathogen
Vibrio cholerae. Nature 406: 477-483.
Heie, O.E. (1980). The Aphidoidea (Hemiptera) of Fennoscandia and Denmark. Vols
I, II, III, IV, V, VS.
Heie, O.E. (1987). Evolution. 367-413. In: World Crop Pests. Vol. 2A. Aphids: their
biology, natural enemies and control. Eds. Minks, A.K; Harrewijn, P.
Elsevier. Cambridge.
Heie, O.E. y Wegierek, P. (1998). A list of fossil aphids (Homoptera: Aphidinea) Ann.
Upp. Silesian Mus.(Entomol.) 8Ð9: 159Ð192
Heizmann, P. et al. (1982). Modifications of chloroplast DNA during streptomycin
induced mutagenesis in Euglena gracilis. Curr. Genet. 5, 9-15.
Hillier, L.W., Fulton, R.S., Fulton, L.A., Graves, T.A., Pepin, K.H., WagnerMcPherson, C. et al. (2003). The DNA sequence of human chromosome 7.
Nature 424: 157-164.
Himmelreich, R., Hilbert, H., Plagens, H., Pirkl, E., Li, B.C., y Herrmann, R. (1996).
Complete sequence analysis of the genome of the bacterium Mycoplasma
pneumoniae. Nucleic Acids Res 24: 4420-4449.
Hogenhout, S.A., van der,W.F., Verbeek, M., Goldbach, R.W. y van den Heuvel, J.F.
(1998). Potato leafroll virus binds to the equatorial domain of the aphid
endosymbiotic GroEL homolog. J Virol 72: 358-365.
Homma, K., Fukuchi, S., Kawabata, T., Ota, M. y Nishikawa, K. (2002). A systematic
investigation identifies a significant number of probable pseudogenes in the
Escherichia coli genome. Gene 294: 25-33.
Houk, E.J. y Griffiths, G.W. (1980). Intracelullar symbiotes of the homoptera. Ann
Rev Entomol 25: 161-187.
Hughes, A.L., Friedman, R., y Murray, M. (2002). Genomewide Pattern of
Synonymous Nucleotide Substitution in Two Complete Genomes of
Mycobacterium tuberculosis. Emerging Infectious Diseases 8.
298
…………………………………………………………………………………………Referencias
Hurvich, C.M. y Tsai, C.L. (1991). Bias of the corrected AIC criterion for underfitted
regression and time series models. Biometrika 78: 499-509.
Huynen, M., Snel, B., Lathe, W., III, y Bork, P. (2000). Predicting protein function by
genomic context: quantitative evaluation and qualitative inferences. Genome
Res 10: 1204-1210.
Itoh, T., Martin, W. y Nei, M. (2002). Acceleration of genomic evolution caused by
enhanced mutation rate in endocellular symbionts. Proc Natl Acad Sci U S A
99.
Jacob, F. y Monod, J. (1961). Genetic regulatory mechanisms in the synthesis of
proteins. J Mol Biol 3: 318-356.
Jiménez, N; Gonzalez-Candelas, F. y. Silva, F.J. (2000). Prophenate Dehydratase from
the aphid endosymbiont (Buchnera) display changes in the regulatory domain
that suggest its desensitization to inhibition by phenylalanine. Journal of
Bacteriology. 182:2967-2969.
Jin, Q., Yuan, Z., Xu, J., Wang, Y., Shen, Y., Lu, W. et al. (2002). Genome sequence
of Shigella flexneri 2a: insights into pathogenicity through comparison with
genomes of Escherichia coli K12 and O157. Nucleic Acids Res 30: 44324441.
Kapur, V., Whittam, T.S. y Musser, J.M. (1994). Is Mycobacterium tuberculosis
15,000 years old? J Infect Dis 170: 1348-1349.
Karonga Prevention Trial Group. (1996). Randomised controlled trial of single BCG,
repeated BCG, or combined BCG and killed Mycobacterium leprae vaccine
for prevention of leprosy and tuberculosis in Malawi. Lancet 348, 17-24
Kato-Maeda, M., Rhee, J.T., Gingeras, T.R., Salamon, H., Drenkow, J., Smittipat, N.,
y Small, P.M. (2001). Comparing genomes within the species
Mycobacterium tuberculosis. Genome Res 11: 547-554.
Kimura, M. (1968). Evolutionary rate at the molecular level. Nature 217: 624-626.
Kimura, M. (1983). The Neutral Theory of Molecular Evolution.Cambridge:
Cambridge University Press.
Komaki, K. y Ishikawa, H. (1999). Intracellular bacterial symbionts of aphids possess
many genomic copies per bacterium. J Mol Evol 48: 717-722.
Komaki, K. y Ishikawa, H. (2000). Genomic copy number of intracellular bacterial
symbionts of aphids varies in response to developmental stage and morph of
their host. Insect Biochem Mol Biol 30: 253-258.
299
…………………………………………………………………………………………………..
Krawiec, S. y Riley, M. (1990). Organization of the bacterial chromosome. Microbiol
Rev 54: 502-539.
Kullback, S. y Leibler, R.A. (1951). On information and sufficiency. Annals of
Mathematical Statistics 22: 79-86.
Kumar, S. y Hedges, S.B. (1998). A molecular timescale for vertebrate evolution.
Nature 392: 917-920.
Kumar, S. (2005). Molecular clocks: four decades of evolution. Nature 6.
Kurland, C.G. y Ehrenberg, M. (1987). Growth-optimizing accuracy of gene
expression. Annu Rev Biophys Biophys Chem 16: 291-317.
Langley, C.H. y Fitch, W. (1974). An estimation of the constancy of the rate of
molecular evolution. J Mol Evol 3.
Latorre, A; Moya, A. y Ayala, F.J. (1986). Evolution of mitochondrial DNA in
Drosophila suboscura. Proc. Natl. Acad. Sci.U.S.A. 83: 8649-8653.
Latorre, A; Gil, R; Silva, F.J. y Moya, A. (2005). Chromosomal stasis versus plasmid
plasticity in aphid endosymbiont Buchnera aphidicola. 95:339-47.
Lawrence, J.G. y Roth, J.R. (1996). Selfish Operons: Horizontal Transfer May Drive
the Evolution of Gene Clusters. Genetics 143: 1843-1860.
Lawrence, J.G., Hendrix, R.W. y Casjens,S. (2001). Where are the pseudogenes in
bacterial genomes? Trends Microbiol 9: 535-540.
Lee, M.S.Y. (2001). Unalignable sequences and molecular evolution. Trends in
Ecology and Evolution 16.
Lerat, E. y Ochman, H. (2004). Exploring the outer limits of bacterial pseudogenes.
Genome Research 10.11101.
Levinson, G. y Gutman, G.A. (1987). Slipped-strand mispairing: a major mechanism
for DNA sequence evolution. Mol Biol Evol 4: 203-221.
Lewin, R.A. (1995). Symbiotic algae: definition, quantification and evolution.
Symbiosis 19: 31-37.
Lewin, B. (1998). Genes VI. Oxford University Press
300
…………………………………………………………………………………………Referencias
Li, W.H., Wu, C.I. y Luo, C.C. (1984). Nonrandomness of point mutation as reflected
in nucleotide substitutions in pseudogenes and its evolutionary implications.
J Mol Evol 21: 58-71.
Liu, Y., Harrison, P.M., Kunin, V. y Gerstein, M. (2004). Comprehensive analysis of
pseudogenes in prokaryotes: widespread gene decay and failure of putative
horizontally transferred genes. Genome Biol 5: R64.
Li, L., Bannantine, J.P., Zhang, Q., Amonsin, A., May, B.J., Alt, D. et al. (2005). The
complete genome sequence of Mycobacterium avium subspecies
paratuberculosis. Proc Natl Acad Sci U S A 102: 12344-12349.
Lovett, S.T., Gluckman, T.J., Simon, P.J., Sutera, V.A., Jr. y Drapkin, P.T. (1994).
Recombination between repeats in Escherichia coli by a recA-independent,
proximity-sensitive mechanism. Mol Gen Genet 245: 294-300.
Lunt, D.H., Zhang, D.X., Szymura, J.M. y Hewitt, G.M. (1996). The insect
cytochrome oxidase I gene: evolutionary patterns and conserved primers for
phylogenetic studies. Insect Mol Biol 5: 153-165.
Lynch, M. (2006). Streamlining and Simplification of Microbial Genome
Architecture. Annual Review of Microbiology. 60:327-349.
Margulis, L. y Fester, R. (1991). Bellagio conference and book. Symbiosis as Source
of Evolutionary Innovation: Speciation and Morphogenesis. Conference-June 25-30, 1989, Bellagio Conference Center, Italy. Symbiosis 11: 93-101.
Martínez, D., Moya, A., Latorre, A. y Fereres, A. (1992). Mitochondrial DNA
variation in Rhopalosiphum padi (Homoptera:Aphididae) population from
four Spanish localities. Annals of the Entomological Society of America 85:
241-246.
Martinez-Torres, D., Simon, J.C., Fereres, A. y Moya, A. (1996). Genetic variation in
natural populations of the aphid Rhopalosiphum padi as revealed by
maternally inherited markers. Molecular Ecology 5: 659-670.
Martínez-Torres, D., Devonshire, A.L. y Williamson, M.S. (1997). Molecular studies
of knockdown resistance to pyrethroids: cloning of domain II sodium channel
gene sequences from insects. Pestic Sci 51: 265-270.
Martinez-Torres, D., Buades, C., Latorre, A. y Moya, A. (2001). Molecular
systematics of aphids and their primary endosymbionts. Mol Phylogenet Evol
20: 437-449.
301
…………………………………………………………………………………………………..
McLean, D.L. y E.J. Houk. (1973). Phase contrast and electron microscopy pf the
mycetocytes and symbiotes of the pea aphid, Acyrthosiphon pisum. J. Insect
Physiol. 19:625-633.
Metzgar, D. y Wills,C. (2000). Evidence for the adaptive evolution of mutation rates.
Cell 101: 581-584.
Metzgar, D., Thomas, E., Davis, C., Field, D. y Wills, C. (2001). The microsatellites
of Escherichia coli: rapidly evolving repetitive DNAs in a non-pathogenic
prokaryote. Mol Microbiol 39: 183-190.
Metzgar, D., Liu, L., Christian, H., Dybig, K. y Wills, C. (2002). Domain-Level
Differences in Microsatellite Distribution and Content Result from Different
Relative Rates of Insertion and Deletion Mutations. Genome 12: 408-413.
Michel, B. (1999). Illegitimate recombination in bacteria. In Organization of the
prokaryotic genome (ed. R.L. Charlebois), pp. 129–150. ASM Press,
Washington DC.
Michael, J. (2003).r8s: inferring absolute rates of molecular evolution, divergence
times in the absence of a molecular clock. Bioinformatics 19(2):301-303
Mikkola, R. y Kurland, C.G. (1991). Is there a unique ribosome phenotype for
naturally occurring Escherichia coli? Biochimie 73: 1061-1066.
Mira,A., Ochman,H. y Moran,N.A. (2001) Deletional bias and the evolution of
bacterial genomes. Trends Genet 17: 589-596.
Mira, A., Klasson, L. y Andersson, S.G. (2002). Microbial genome evolution: sources
of variability. Curr Opin Microbiol 5: 506-512.
Mira, A. y Pushker, R. (2005). The silencing of pseudogenes. Mol Biol Evol 22: 21352138.
Mira, A., Pushker, R. y Rodriguez-Valera, F. (2006). The Neolithic revolution of
bacterial genomes. Trends Microbiol 14: 200-206.
Mizrahi, V., Dawes, S. S. y Rubin, H. in Molecular Genetics of Mycobacteria (eds
Hatfull, G. F. y Jacobs, W. R. Jr) 159-172 (ASM, Washington DC, 2000).
Mirsky, A.E. y Rys, H. (1951). The DNA content of animal cells and its evolutionary
significance. Journal of General Physiology 34: 451-462.
Modrich, P. y Lahue, R. (1996). Mismatch repair in replication fidelity, genetic
recombination, and cancer biology. Annu Rev Biochem 65: 101-133.
302
…………………………………………………………………………………………Referencias
Montllor, C.B., Maxmen, A. y Purcell, A.H. (2002). Facultative bacterial
endosymbionts benefit pea aphids. Acyrthosiphon pisum uinder heat stress.
Ecol Entomol 27: 189-195.
Moran, N.A., Munson, M.A., Baumann, P. y Ishikawa, H. (1993). A molecular clock
in endosymbiotic bacteria is calibrated using the insect hosts. Proc R Soc
Lond 253: 167-171
Moran, N.A. y Baumann, P. (1994). Phylogenetics of cytoplasmically inherited
microorganisms of arthropods. Trends Ecol Evol 9: 15-20.
Moran, N.A. (1996). Accelerated evolution and Muller's rachet in endosymbiotic
bacteria. Proc Natl Acad Sci U S A 93: 2873-2878.
Moran, N.A. y Telang, A. (1998). Bacteriocyte-associated symbionts of insects.
Bioscience 48: 295-304.
Moran, N.A. y Baumann, P. (2000). Bacterial endosymbionts in animals. Curr Opin
Microbiol 3: 270-275.
Moran, N.A. y Mira, A. (2001). The process of genome shrinkage in the obligate
symbiont Buchnera aphidicola. Genome Biol 2: RESEARCH0054.
Moran, N.A. (2002). Microbial minimalism: genome reduction in bacterial pathogens.
Cell 108: 583-586.
Moran, N.A. (2003). Tracing the evolution of gene loss in obligate bacterial
symbionts. Curr Opin Microbiol 6: 512-518.
Moran, N.A. y Plague, G.R. (2004). Genomic changes following host restriction in
bacteria. Curr Opin Genet Dev 14: 627-633.
Moreau, C.S., Bell, C.D., Vila, R., Archibald, S.B. y Pierce, N.E. (2006). Phylogeny
of the ants: diversification in the age of angiosperms. Science. 312: 101-104.
Morel, P., Reverdy, C., Michel, B., Ehrlich, S.D., y Cassuto, E. (1998). The role of
SOS and flap processing in microsatellite instability in Escherichia coli.
Proc. Natl. Acad. Sci. 95: 10003-10008
Morrison, D.A. y Ellis, J.T. (1997). Effects of nucleotide sequence alignment on
phylogeny estimation: a case study of 18S rDNAs of apicomplexa. Mol Biol
Evol 14: 428-441.
Morton, B.R. (1995). Neighboring base composition and transversion/transition bias
in a comparison of rice and maize chloroplast noncoding regions. Proc Natl
Acad Sci U S A 92.
303
…………………………………………………………………………………………………..
Moxon, E.R., Rainey, P.B., Nowak, M.A. y Lenski, R.E. (1994). Adaptive evolution
of highly mutable loci in pathogenic bacteria. Curr Biol 4: 24-33.
Moya, A; Latorre, A; Sabater-Muñoz, B. y Silva, F.J. (2002). Comparative molecular
evolution of primary (Buchnera) and secondary symbionts of aphids based on
two protein-coding genes. J. Mol. Evol. 55:125-137.
Muller, H.J. (1964). The relation of recombination to mutational advance. Mutat Res
106: 2-9.
Munson, M.A., Baumann, P., Clark, M.A., Baumann, L., Moran, N.A., Voegtlin, D.J.
y Campbell, B.C. (1991). Evidence for the establishment of aphideubacterium endosymbiosis in an ancestor of four aphid families. J Bacteriol
173: 6321-6324.
Musser, J.M., Amin, A. y Ramaswamy, S. (2000). Negligible genetic diversity of
Mycobacterium tuberculosis host immune system protein targets: evidence of
limited selective pressure. Genetics 155: 7-16.
Nakabachi, A. y Ishikawa, H. (1997). Differential display of mRNAs related to amino
acid metabolism in the endosymbiotic system of aphids. Insect Biochem Mol
Biol 27: 1057-1062.
Nakabachi, A. y Ishikawa, H. (1999). Provision of riboflavin to the host aphid,
Acyrthosiphon pisum, by endosymbiotic bacteria, Buchnera. J Insect Physiol
45: 1-6.
Nakabachi, A; Yamashita, A; Toh, H; Ishikawa, H; Dunbar, H.E; Moran, N.A. y
Hattori, M. (2006): The 160-kilobase genome of the bacterial endosymbiont
Carsonella.134(5797):267.
Nel, A. (2003). Los insectos un éxito de la evolución. Investigación y ciencia.
Nicholas, K. y Nicholas, B.JR. (1997). Genedoc: a tool for editing and annotating
multiple sequence alignment. v 2.5.000. www. psc.edu/biomed/gened
Nilsson, A.I., Koskiniemi, S., Eriksson, S., Kugelberg, E., Hinton, J.C. y Andersson,
D.I. (2005). Bacterial genome size reduction by experimental evolution. Proc
Natl Acad Sci U S A 102: 12112-12116.
Ochman, H., Elwyn, S. y Moran, N.A. (1999). Calibrating bacterial evolution. Proc
Natl Acad Sci U S A 96: 12638-12643.
Ochman, H., Lawrence, J.G. y Groisman, E.A. (2000). Lateral gene transfer and the
nature of bacterial innovation. Nature 405: 299-304.
304
…………………………………………………………………………………………Referencias
Ochman, H. y Moran, N.A. (2001). Genes Lost and Genes Found: Evolution of
Bacterial Pathogenesis and Symbiosis. Science. 292.
Ochman, H. (2005). Genomes on the shrink. Proc Natl Acad Sci U S A 102: 1195911960.
Ochman, H. y Davalos, L.M. (2006). The Nature and Dynamics of Bacterial
Genomes. Science. 311.
Ogata, H., Audic, S., Renesto-Audiffren, P., Fournier, P.E., Barbe, V., Samson, D. et
al. (2001). Mechanisms of evolution in Rickettsia conorii and R. prowazekii.
Science. 293: 2093-2098.
Ohtaka, C., Nakamura, H. y Ishikawa, H. (1992). Structures of chaperonins from an
intracellular symbiont and their functional expression in Escherichia coli
groE mutants. J Bacteriol 174: 1869-1874.
Oliver, K.M., Russell, J.A., Moran, N.A. y Hunter, M.S. (2003). Facultative bacterial
symbionts in aphids confer resistance to parasitic wasps. Proc Natl Acad Sci
U S A 100: 1803-1807.
Olsen,G.J. (1988) Phylogenetic analysis using ribosomal RNA. Methods Enzymol 164.
Ohno S. (1972). So much ‘junk’ in our genome. In: Smith HH, ed. Evolution of
genetic systems, Brookhaven symposia in biology. New York: Gordon &
Breach, 366–370
Ophir, R. y Graur, D. (1997). Patterns and rates of indel evolution in processed
pseudogenes from humans and murids. GENE 205: 191-202.
Orgel, L.E., Crick, F.H. y Sapienza, C. (1980). Selfish DNA. Nature 288: 645-646.
Ortiz-Rivas, B., Moya, A. y Martinez-Torres, D. (2004). Molecular systematics of
aphids (Homoptera: Aphididae): new insights from the long-wavelength
opsin gene. Mol Phylogenet Evol 30: 24-37.
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G.D. y Maltsev, N. (1999). The use
of gene clusters to infer functional coupling. Proc Natl Acad Sci U S A 96:
2896-2901.
Palacios, C., y Wernegreen, J.J. (2002). A strong effect of AT mutational bias on
amino acid usage in Buchnera is mitigated at high-expression genes. Mol
Biol Evol 19: 1575-1584.
Palenik, B. (2002). The genomics of symbiosis: hosts keep the baby and the bath
water. Proc Natl Acad Sci U S A 99: 11996-11997.
305
…………………………………………………………………………………………………..
Paracer, S. y Ahmadkian, V. (2000). Symbiosis: An introduction to biological
associations. 2nd Edition. Oxford University Press. NY. 291pp
Parkhill, J., Achtman, M., James, K.D., Bentley, S.D., Churcher, C., Klee, S.R. et al.
(2000). Complete DNA sequence of a serogroup A strain of Neisseria
meningitidis Z2491. Nature 404: 502-506.
Parkhill,J., Wren,B.W., Thomson,N.R., Titball,R.W., Holden,M.T., Prentice,M.B. et
al. (2001). Genome sequence of Yersinia pestis, the causative agent of
plague. Nature 413: 523-527.
Parkhill,J., Sebaihia,M., Preston,A., Murphy,L.D., Thomson,N., Harris,D.E. et al.
(2003). Comparative analysis of the genome sequences of Bordetella
pertussis, Bordetella parapertussis and Bordetella bronchiseptica. Nat Genet
35: 32-40.
Pérez-Brocal,V., Latorre,A., Gil,R. y Moya,A. (2005). Comparative analysis of two
genomic regions among four strains of Buchnera aphidicola, primary
endosymbiont of aphids. Gene 345: 73-80.
Pérez-Brocal, V; Gil, R; Ramos, S; Lamelas, A; Postigo, M; Michelena, J.M; Silva,
F.J; Moya, A. y Latorre, A. (2006). A small microbial genome: the end of a
long symbiotic relationship? Science 314: 312-313.
Petrov, D.A., Lozovskaya, E.R. y Hartl, D.L. (1996). High intrinsic rate of DNA loss
in Drosophila. Nature 384: 346-349.
Petrov, D.A. y Hartl, D.L. (1998). High rate of DNA loss in the Drosophila
melanogaster and Drosophila virilis species groups. Mol Biol Evol 15: 293302.
Petrov, D.A. y Hartl, D.L. (1999). Patterns of nucleotide substitution in Drosophila
and mammalian genomes. Proc Natl Acad Sci U S A 96: 1475-1479.
Petrov, D.A. y Hartl, D.L. (2000). Pseudogene evolution and natural selection for a
compact genome. J Hered 91: 221-227.
Petrov,D.A., Sangster, T.A., Johnston, J.S., Hartl, D.L. y Shaw, K.L. (2000). Evidence
for DNA loss as a determinant of genome size. Science 287: 1060-1062.
Petrov, D.A. (2002). DNA loss and evolution of genome size in Drosophila. Genetica
115: 81-91.
Posada, D. y Crandall, K.A. (1998). MODELTEST: testing the model of DNA
substitution. Bioinformatics 14: 817-818.
306
…………………………………………………………………………………………Referencias
Powers,T.O., Jensen, S.G., Kindler, S.D., Stryker, C.J. y Sandall, L.J. (1989).
Mitochondrial DNA divergence among greenbug (Homoptera:Aphididae)
biotypes. Annals of the Entomological Society of America 82.
Price, M.N., Huang, K.H., Parkin, A. y Alm, E.J. (2006). Operon formation is driven
by co-regulation and not by horizontal gene transfer. Genome: 809-819.
Ranea, J.A., Grant, A., Thornton, J.M. y Orengo, C.A. (2005). Microeconomic
principles explain an optimal genome size in bacteria. Trends Genet 21: 2125.
Rastogi, N., Legrand, E. y Sola, C. (2001). The mycobacteria: an introduction to
nomenclature and pathogenesis. Rev Sci Tech 20: 21-54.
Raven, J.A. (1983). Phytophages of xylem and phloem: a comparison of plant sapfeeders. Adv Ecol Res 13: 136-234.
Remaudiêre, G. y Remaudiêre, M. (1997). Catalogue des Aphididae du Monde.
Homoptera Aphidoidea. INRA, París.
Rinsma-Melchert (1993). The expected number of matches in optimal global sequence
alignments. New Zealand Journal of Botany 31: 219-230.
Rispe, C., Delmotte, F., van Ham, R.C., y Moya, A. (2004). Mutational and selective
pressures on codon and amino acid usage in Buchnera, endosymbiotic
bacteria of aphids. Genome Res 14: 44-53.
Rocha, E.P. y Danchin, A. (2002). Base composition bias might result from
competition for metabolic resources. Trends Genet 18: 291-294.
Rocha, E.P.C. (2003). An Appraisal of the Potential for Illegitimate Recombination in
Bacterial Genomes and Its Consequences: From Duplications to Genome
Reduction. Genome.
Rogozin, I.B., Spiridonov, A.N., Sorokin, A.V., Wolf, Y.I., Jordan, I.K., Tatusov, R.L.
y Koonin, E.V. (2002). Purifying and directional selection in overlapping
prokaryotic genes. Trends Genet 18: 228-232.
Rouhbakhsh, D., Lai, C.Y., von Dohlen, C.D., Clark, M.A., Baumann, L., Baumann,
P. et al. (1996) The tryptophan biosynthetic pathway of aphid endosymbionts
(Buchnera): genetics and evolution of plasmid-associated anthranilate
synthase (trpEG) within the aphididae. J Mol Evol 42: 414-421.
Rozen, S. y Skaletsky, H. (2000). Primer3 on the WWW for general users and for
biologist programmers. Methods Mol Biol 132: 365-386.
307
…………………………………………………………………………………………………..
Runyon, E.H., Selin, M.J. y Harris, H.W. (1959). Distinguishing mycobacteria by the
niacin test; a modified procedure. Am Rev Tuberc 79: 663-665.
Sabater-Muñoz, B., van Ham, R.C.H.J., Moya, A., Silva, F.J. y Latorre, A. (2004).
Evolution of the Leucine Gene Cluster in Buchnera aphidicola: Insights from
Chromosomal Versions of the Cluster. Journal of Bacteriology 186: 26462654.
Saffo, M.B. (1992). Coming to terms with a field: words and concepts in symbiosis.
Symbiosis 14: 17-31.
Saini, D.K., Malhotra,V., Dey, D., Pant, N., Das, T.K. y Tyagi, J.S. (2004). DevRDevS is a bona fide two-component system of Mycobacterium tuberculosis
that is hypoxia-responsive in the absence of the DNA-binding domain of
DevR. Microbiology 150: 865-875.
Saitou, N. y Ueda, S. (1994). Evolutionary rates of insertion and deletion in noncoding
nucleotide sequences of primates. Mol Biol Evol 11: 504-512.
Salemi, M. y Vandamme, A.M. (2003). The Phylogenetic Handbook.A Practical
Approach to DNA and Protein Phylogeny. Cambridge University Press.
Sambrook, J; Fritsch, E.F., Maniatis, T. (1989). Molecular cloning. A laboratory
manula. 2nd Edition. Cold Spring Harbor Laboratory Press.
Sameshima, S., Sasegawa, E., Kitade, O., Minaka, N. y Matsumoto, T. (1999).
Phylogenetic comparison of endosymbionts with their host ants based on
molecular evidence. Zool Sci 16: 993-1000.
Sanchis, A., Michelena, J.M., Latorre, A., Quicke, D.L., Gardenfors, U. y Belshaw, R.
(2001). The phylogenetic analysis of variable-length sequence data:
elongation factor-1alpha introns in European populations of the parasitoid
wasp genus Pauesia (Hymenoptera: Braconidae: Aphidiinae). Mol Biol Evol
18: 1117-1131.
Sanderson, M.J. (1997). A nonparametric approach to estimating divergence times in
the absence of rate constancy. Molecular Biology and Evolution 14: 12181231.
Sasaki, T., Hayashi, H. y Ishikawa, H. (1991). Growht and reproduction of the
symbiont and aposymbiotic pea aphids, Acyrthosiphon pisum maintaned on
artificial diets. J Insect Physiol 37: 749-756.
Sasaki, S., Takeshita, F., Okuda, K. y Ishii, N. (2001). Mycobacterium leprae and
Leprosy: A Compendium. Microbiol Immunol 45: 729-736.
308
…………………………………………………………………………………………Referencias
Sauer, C., Stackebrandt, E., Gadau, J., Holldobler, B. y Gross, R. (2000). Systematic
relationships and cospeciation of bacterial endosymbionts and their carpenter
ant host species: proposal of the new taxon Candidatus Blochmannia gen.
nov. Int J Syst Evol Microbiol 50 Pt 5: 1877-1886.
Sauer, C., Dudaczek, D., Holldobler, B. y Gross, R. (2002). Tissue localization of the
endosymbiotic bacterium "Candidatus Blochmannia floridanus" in adults and
larvae of the carpenter ant Camponotus floridanus. Appl Environ Microbiol
68: 4187-4193.
Schröder, D., Deppisch, H., Obermayer, M., Krohne, G., Stackebront, E. y Hölldobler,
E. (1996). Intracellular endosymbiotic bacteria of Camponotus species
(carpenter ants): systematics, evolution and ultrastructural characterization.
Mol Microbiol 21: 479-489.
Selosse, M., Albert, B. y Godelle, B. (2001). Reducing the genome size of organelles
favours gene transfer to the nucleus. Trends Ecol Evol 16: 135-141.
Sharp, P.M. (1991). Determinants of DNA sequence divergence between Escherichia
coli and Salmonella typhimurium - codon usage, map position and concerted
evolution. J Mol Evol 33: 23-33.
Shigenobu, S., Watanabe, H., Hattori, M., Sakaki, Y. y Ishikawa, H. (2000). Genome
sequence of the endocellular bacterial symbiont of aphids Buchnera sp. APS.
Nature 407: 81-86.
Sia, E.A., Kokoska, R.J., Dominska, M., Greenwell, P. y Petes, T.D. (1997).
Microsatellite instability in yeast: dependence on repeat unit size and DNA
mismatch repair genes. Mol Cell Biol 17: 2851-2858.
Silva, F.J., van Ham, R.C., Sabater, B. y Latorre, A. (1998). Structure and evolution of
the leucine plasmids carried by the endosymbiont (Buchnera aphidicola)
from aphids of the family Aphididae. FEMS Microbiol Lett 168: 43-49.
Silva, F.J., Latorre, A. y Moya, A. (2001). Genome size reduction through multiple
events of gene disintegration in Buchnera APS. Trends Genet 17: 615-618.
Silva, F.J; Latorre, A. y Moya, A. (2003). Why are the genomes of endosymbiotic
bacteria so stable? Trends in Genetics 19:176-80.
Simon, J.C; Blackman, R. Le Gallic, J.F. (1991). Local variability in the life cycle of
the bird cheny-oat aphid, Rhopalosiphum padi (Homoptera:Ahididae) in
western France. Bulletin of Entomological Research 81:315-22.
309
…………………………………………………………………………………………………..
Simon, J.C., Hebert, P.D.N., Carrillo, C. y de Melo, R. (1995). Lack of clonal
variation among Canadian populations of the corn leaf aphid, Rhopalosiphum
maidis. The Canadian Entomologist 127.
Simon, J.C., Martinez-Torres, D., Latorre, A., Moya,A. y Hebert, P.D. (1996).
Molecular characterization of cyclic and obligate parthenogens in the aphid
Rhopalosiphum padi (L.). Proc Biol Sci 263: 481-486.
Simon, J.C., Leterme, N. y Latorre, A. (1999). Molecular markers linked to breeding
system differences in segregating and natural populations of the cereal aphid
Rhopalosiphum padi L. Mol Ecol 8: 965-973.
Simon, J.C., Carre, S., Boutin, M., Prunier-Leterme, N., Sabater-Mun, B., Latorre, A.
y Bournoville, R. (2003). Host-based divergence in populations of the pea
aphid: insights from nuclear markers and the prevalence of facultative
symbionts. Proc Biol Sci 270: 1703-1712.
Simonetti, S., Chen, X., DiMauro, S. y Schon, E.A. (1992). Accumulation of deletions
in human mitochondrial DNA during normal aging: analysis by quantitative
PCR. Biochim Biophys Acta 1180: 113-122.
Smith, N.G., y Eyre-Walker, A. (2001). Nucleotide substitution rate estimation in
enterobacteria: approximate and maximum-likelihood methods lead to
similar conclusions. Mol Biol Evol 18: 2124-2126.
Sreevatsan, S., Pan, X., Stockbauer, K.E., Connell, N.D., Kreiswirth, B.N., Whittam,
T.S. y Musser, J.M. (1997). Restricted structural gene polymorphism in the
Mycobacterium tuberculosis complex indicates evolutionarily recent global
dissemination. Proc Natl Acad Sci U S A 94: 9869-9874.
Staden, R., Beal, K.F. y Bonfield, J.K. (2000). The Staden package. Methods Mol Biol
132: 115-130.
Strand, M., Prolla, T.A., Liskay, R.M. y Petes, T.D. (1993). Destabilization of tracts
of simple repetitive DNA in yeast by mutations affecting DNA mismatch
repair. Nature 365: 274-276.
Swofford, DL. (1999). PAUP* phylogenetic analysis using parsimony (*and other
methods), ver. 4; Sunderland: Sinauer Associates. http://paup.csit.fsu.edu/
Tajima, F. (1993). Simple Methods for Testing the Molecular Evolutionary Clock
Hypothesis. Genetics 135: 599-607.
Tamas, I., Klasson, L.M., Sandstrom, J.P. y Andersson, S.G. (2001). Mutualists and
parasites: how to paint yourself into a (metabolic) corner. FEBS Lett 498:
135-139.
310
…………………………………………………………………………………………Referencias
Tamas, I., Klasson, L., Canback, B., Naslund, A.K., Eriksson, A.S., Wernegreen, J.J.
et al. (2002). 50 million years of genomic stasis in endosymbiotic bacteria.
Science.296: 2376-2379.
Tamura, K. y Nei, M. (1993). Estimation of the number of nucleotide substitutions in
the control region of mitochondrial DNA in humans and chimpanzees. Mol
Biol Evol 10: 512-526.
Tatusov, R.L., Koonin, E.V. y Lipman, D.J. (1997). A genomic perpective on Protein
Families. Science. 278.
Thomas, C.A. (1971). The genetic organization of chromosomes. Annual Review of
Genetics 5: 237-256.
Thompson, J.D., Gibson, T.J., Plewniak, F., Jeanmougin, F. y Higgins, D.G. (1997).
The CLUSTAL_X windows interface: flexible strategies for multiple
sequence alignment aided by quality analysis tools. Nucleic Acids Res 25:
4876-4882.
Tsuchida, T., Koga, R. y Fukatsu, T. (2004). Host plant specialization governed by
facultative symbiont. Science. 303: 1989.
Tyson, H. (1992). Relationships between amino acid sequences determined through
optimum alignments, clustering, and specific distance patterns: application to
a group of scorpion toxins. Genome 35: 360-371.
van Ham, R.C.H.J; Martinez-Torres, D; Moya, A. y Latorre, A. (1999). Plasmidencoded anthranilate synthase (TrpEG) in Buchnera aphidicola from aphids
of the family pemphigidae. Appl. Environ. Microbiol. 65:117-125.
van Ham, R.C., Gonzalez-Candelas, F., Silva, F.J., Sabater, B., Moya, A. y Latorre, A.
(2000). Postsymbiotic plasmid acquisition and evolution of the repA1replicon in Buchnera aphidicola. Proc Natl Acad Sci U S A 97: 10855-10860.
van Ham, R.C., Kamerbeek, J., Palacios, C., Rausell, C., Abascal, F., Bastolla, U. et
al. (2003). Reductive genome evolution in Buchnera aphidicola. Proc Natl
Acad Sci U S A 100: 581-586.
Vingron, M. y Waterman, M.S. (1994). Sequence alignment and penalty choice.
Review of concepts, case studies and implications. J Mol Biol 235: 1-12.
Vinogradov, A.E. (1998). Buffering: a possible passive-homeostasis role for
redundant DNA. J Theor Biol 193: 197-199.
von Dohlen, C.D. y Moran, N.A. (1995). Molecular phylogeny of the Homoptera: a
paraphyletic taxon. J Mol Evol 41: 211-223.
311
…………………………………………………………………………………………………..
von Dohlen, C.D. y Moran, N.A. (2000). Molecular data support a rapid radiation of
aphids in the Cretaceous and multiple origins of host alternation. Biol J
Linnean Soc 71: 689-717.
von Dohlen, C.D., Kohler, S., Alsop, S.T. y McManus, W.R. (2001). Mealybug betaproteobacterial endosymbionts contain gamma-proteobacterial symbionts.
Nature 412: 433-436.
Wallace, D.C. (1999). Mitochondrial disease in man and mouses. Science. 283. 14821488
Wang, D.Y., Kumar, S. y Hedges, S.B. (1999). Divergence time estimates for the
early history of animal phyla and the origin of plants, animals and funghi.
Proc R Soc Lond 266B.
Wayne, L.G. (1982). On the relationship of members of the tuberculosis complex to
other species of mycobacteria. Indian J Chest Dis Allied Sci 24: 118-126.
Wayne, L.G. y Sramek, H.A. (1992). Agents of newly recognized or infrequently
encountered mycobacterial diseases. Clin Microbiol Rev 5: 1-25.
Weber, M. (1996). Evolutionary plasticity in prokaryotes: A panglossian view. Biol
Phil 11: 67-88.
Wei, J., Goldberg, M.B., Burland, V., Venkatesan, M.M., Deng, W., Fournier, G. et
al. (2003). Complete genome sequence and comparative genomics of
Shigella flexneri serotype 2a strain 2457T. Infect Immun 71: 2775-2786.
Weiss, R. y Gallant, J. (1983). Mechanism of ribosome frameshifting during
translation of the genetic code. Nature 302: 389-393.
Wernegreen, J.J. y Moran, N.A. (1999). Evidence for genetic drift in endosymbionts
(Buchnera): analyses of protein-coding genes. Mol Biol Evol 16: 83-97.
Wernegreen, J.J. (2002a). Genome evolution in bacterial endosymbionts of insects.
Nat Rev Genet 3: 850-861.
Wernegreen, J.J., Lazarus, A.B. y Degnan, P.H. (2002b). Small genome of
Candidatus Blochmannia, the bacterial endosymbiont of Camponotus,
implies irreversible specialization to an intracellular lifestyle. Microbiology
148: 2551-2556
Wernegreen, J.J., Degnan, P.H., Lazarus, A.B., Palacios, C., y Bordenstein, S.R.
(2003). Genome evolution in an insect cell: distinct features of an antbacterial partnership. Biol Bull 204: 221-231.
312
…………………………………………………………………………………………Referencias
Wernegreen, J.J. (2005). For better or worse: genomic consequences of intracellular
mutualism and parasitism. Curr Opin Genet Dev 15: 572-583.
Wheeler, D.E. y Martinez, T. (1995). Storage proteins in ants
(Hymenoptera:Formicidae). Comp Biochem Physiol B Biochem Mol Biol
112: 15-19.
Wheeler, W.C. (1995). Sequence, alignment, parameter, sensitivity, and the
phylogenetic analysis of molecular data. Syst Biol 44: 321-331.
Wickham, S.A. y Lynn, D.H. (1990). Relation between growth rate, cell-size an DNA
content in colpodean ciliates (Ciliophora, Colpodea). Eur J Protistol 25: 345352.
Wilkinson, T.L. y Ishikawa, H. (1999). The assimilation and allocation of nutrients by
symbiotic an aposymbiotic pea aphids, Acyrthosiphon pisum. Entomol Exp
App 91: 195-201.
Wilson, E.O. (1985). Invasion and extinction in the West Indian ant fauna:evidence
from the Dominican amber. Science. 229: 265-267.
Witherspoon, D.J. y Robertson, H.M. (2003). Neutral evolution of ten types of
mariner transposons in the genomes of Caenorhabditis elegans and
Caenorhabditis briggsae. J Mol Evol 56: 751-769.
Wixon, J. (2001). Featured Organism:Reductive Evolution in Bacteria:Buchnera sp;
Rickettsia prowazeki and Mycobacterium leprae. Comparative and
Functional Genomics 2: 44-48.
Woese, C.R. (1987). Bacterial evolution. Microbiol Rev 51: 221-271.
Wojciechowski, W. (1992). Studies on the systematic system of aphids (Homoptera,
Aphidinea). 1-74. Katowice: U. Slaski.
Wolf, Y.I., Aravind, L. y Koonin, E.V. (1999). Rickettsiae and Chlamydiae: evidence
of horizontal gene transfer and gene exchange. Trends Genet 15: 173-175.
Wolschin, F., Holldobler, B., Gross, R. y Zientz, E. (2004). Replication of the
endosymbiotic bacterium Blochmannia floridanus is correlated with the
developmental and reproductive stages of its ant host. Appl Environ
Microbiol 70: 4096-4102.
Xia,X., y Xie,Z. (2001). DAMBE: software package for data analysis in molecular
biology and evolution. J Hered 92: 371-373.
313
…………………………………………………………………………………………………..
Xia, X., Xie, Z., Salemi, M., Chen, L. y Wang, Yo. (2003). An index of substitution
saturation and its application. Molecular Phylogenetics and Evolution 26: 17.
Yang, Z. y Nielsen, R. (2000). Estimating Synonymous and Nonsynonymous
Substitution Rates Under Realistic Evolutionary Models. Mol Biol Evol 0737:
32-43.
Yoder, A.D. y Yang, Z. (2000). Estimation of Primate Speciation Dates Using Local
Molecular Clocks. Mol Biol Evol 17: 1081-1090.
Young, D. y Robertson, B. (2001). A degenerative disease of the genome. Curr Biol.
15:R381-83
Zamudio, K.R., Jones, K.B. y Word, R.H. (1997). Molecular systematics of shorhorned lizards: Biogeography and taxonomy of a widespread species
complex. Syst Biol 46: 284-305.
Zhang, Z. y Gerstein, M. (2003). Patterns of nucleotide substitution, insertion and
deletion in the human genome inferred from pseudogenes. Nucleic Acids Res
31: 5338-5348.
Zharkikh, A. y Li, W.H. (1992). Statistical properties of bootstrap estimation of
phylogenetic variability from nucleotide sequences: II. Four taxa without a
molecular clock. J Mol Evol 35: 356-366.
Zheng, Y., Szustakowski, J.D., Fortnow, L., Roberts, R.J. y Kasif, S. (2002).
Computational identification of operons in microbial genomes. Genome Res
12: 1221-1230.
314

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download ¿Dónde está la sabiduría que hemos perdido en conocimiento