Download Análisis de genomas de bacteriófagos en bacterias simbiontes de

Document related concepts

Metagenómica wikipedia , lookup

Estadístico N50 wikipedia , lookup

Cóntigo wikipedia , lookup

Caudovirales wikipedia , lookup

Sulfolobus tengchongensis Spindle wikipedia , lookup

Transcript
Análisis de genomas de bacteriófagos en
bacterias simbiontes de esponjas marinas
(Polymastia y Scleritoderma) utilizando
herramientas bioinformáticas
Estudiante: Beatriz Cámara Gallego
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2014-2015
Centro de Investigaciones Biológicas (CIB)
Jose Luis García
FECHA: 1 de Febrero de 2016
Índice 1. Introducción 2 4 2. Material y Métodos 3. Resultados 7 4. Discusión 19 5. Referencias bibliográficas 22 6. Material Suplementario 26 1
1. Introducción La metagenómica es el estudio de microorganismos usando tecnología de secuenciación de ADN y análisis aplicada directamente a muestras ambientales, con el objetivo de entender la composición y funcionamiento de consorcios microbianos. En este tipo de estudios frecuentemente se intenta responder a las preguntas como '¿cuáles son los componentes de la comunidad microbiana?, ¿qué hace cada uno de ellos?, ¿cómo interaccionan para mantener un nicho ecológico en equilibrio?”. Estas preguntas pueden ser abordadas utilizando aproximaciones computacionales. Las técnicas de secuenciación utilizadas en metagenómica tienen la capacidad de secuenciar la mayoría de los genomas disponibles en muestras ambientales. Esto crea un perfil de biodiversidad que puede ser asociado a un análisis de composición funcional de organismos conocidos o desconocidos. La metodología metagenómica también puede ser usada de una forma comparativa para investigar diferencias de la comunidad microbiana entre ambientes, variaciones temporales o para comparar la respuesta frente a tratamientos experimentales. Los métodos utilizados para el análisis de datos metagenómicos permiten el agrupamiento de secuencias (lecturas o contigs) en genomas individuales y su asignación a géneros, especies o subespecies específicas. Estos métodos de agrupamiento pueden ser de dos tipos en función de la información utilizada para el agrupamiento de secuencias. Por un lado, los métodos basados en composición de la secuencia utilizan características propias de las secuencias como el contenido en G+C y la distribución única de k‐mer secuencias (e.g. tetranucleótidos) en sus respectivos genomas. Por otro lado, los métodos basados en similitud u homología de secuencia utilizan algoritmos de alineamiento tales como BLAST o perfiles de Modelos de Markov (hidden Markov Models, pHMMs) para obtener la información de similitud sobre secuencias o genes específicos de las bases de datos públicas disponibles (nonredundant database‐nr NCBI, PFAM). Posteriormente, dependiendo de los resultados obtenidos de cada metodología las secuencias pueden ser agrupadas en función de la información taxonómica asignada. El foco principal de la investigación de metagenomas de ambientes ha sido principalmente hábitats marinos (Suttle 2005; Breibart et al. 2007), en la mayoría de los cuales los virus bacteriófagos han constituido un punto clave en estos estudios. Los bacteriófagos o virus bacterianos constituyen la mayoría de las partículas víricas ambientales, y son las entidades biológicas más abundantes de la tierra (Breitbart and Rohwer 2005). Los fagos son considerados como los principales componentes en moldear las comunidades microbianas, facilitando la transferencia génica horizontal e interviniendo en muchos procesos ambientales (Hambly and Suttle, 2005), de manera que entender el impacto de la contribución de los fagos en dar forma a 2
estas comunidades en de gran relevancia. En los últimos años, las aproximaciones metagenómicas han adquirido como punto de mira la investigación en la composición de comunidades virales, eludiendo la necesidad de llevar a cabo aislamiento y crecimiento en medios de cultivo (Edwards and Rohwer, 2005). El uso de la metagenómica en la exploración de la diversidad de comunidades virales (metavirómica) también evita el inconveniente adicional de la inexistencia de firmas génicas universales que puedan ser utilizadas como marcadores filogenéticos en virus (Rohwer and Edwards 2002). De hecho, una de las características preponderantes de los metagenomas virales es la gran proporción de secuencias desconocidas, que pueden llegar a abarcar hasta el 90% de los datos de un metagenoma (Moliki et al. 2012). En comparación con otras aproximaciones para el estudio de fagos, la metavirómica es el único método que te permite tener acceso a la diversidad total presente en un hábitat (Thurder, 2009). Sin embargo, hoy en día todavía existen numerosos sesgos metodológicos que impiden que la diversidad total sea muestreada (Duhaime and Sullivan, 2012). Además, debido a los recientes avances en tecnología de secuenciación, las herramientas bioinformáticas dedicadas a metagenomas virales tienen que enfrentarse a nuevos desafíos como el creciente en el número de viromas y a fragmentos genómicos de mayor tamaño. Adicionalmente, las secuencias obtenidas de metaviromas son excelentes dianas para la bioprospección de genes y productos génicos nuevos, y para campos de investigación emergente como la metagenómica funcional de virus que investigan entre otras novedosas ADN polimerasas y endolisinas (enzimas catalíticas de virus que hidrolizan el peptidoglicano de la pared bacteriana) (Schmitz et al., 2010; Schoenfeld et al., 2010). Una de las comunidades virales más desconocidas e intrigantes es la que forma parte de la comunidad microbiana endosimbionte que se aloja en el interior de invertebrados marinos, como las esponjas. Las esponjas marinas frecuentemente alojan comunidades microbianas abundantes y diversas de considerable importancia ecológica y biotecnológica. Recientemente, se han iniciado nuevas líneas de investigación en el campo de la microbiología de esponjas, como los efectos del estrés ambiental y la biología de virus, especialmente en bacteriófagos. En este sentido, este trabajo se ha centrado en el estudio de la fracción viral, especialmente de bacteriófagos, que forma parte del metagenoma bacteriano de dos esponjas marinas, Scleritoderma y Polymastia mediante dos tipos de aproximaciones. Por un lado, los métodos basados en búsqueda de similitud/homología han permitido determinar el contenido taxonómico y funcional asociado a virus, y por otro lado, se ha llevado a cabo el aislamiento de genomas individuales de virus mediante una combinación de métodos independientes y 3
dependientes de secuencia. 2. Materiales y Métodos Los datos metagenómicos fueron obtenidos a partir dos tipos de esponja: Polymastia littoralis y Scleritoderma sp. Polymastia es un género de esponja (Porífera) que contiene alrededor de 30 especies pertenecientes a Polymastiidae (Clase Demospongiae, Subclase Tetractinomorpha, Orden Hadromerida). Para este estudio, Polymastia littoralis, fue recogida por la empresa PharmaMar de un fondo arenoso marino a 20 m de profundidad cerca de Kilifi, Kenia. En cada caso, previamente a la extracción de DNA de la comunidad microbiana endosimbionte, se llevó a cabo una lisis celular y eliminación de células eucarioticas del hospedador. Posteriormente, la mezcla de células microbianas resultantes se pasó a través de un filtro estéril de 0.8 mm de tamaño de poro y se centrifugó a 20,000 xg durante 30 min y 4ºC para separar físicamente los componentes virales y bacterianos siguiendo el protocolo descrito por Del Cerro et al. (2014). La extracción de ADN se llevó a cabo únicamente con la fracción microbiana. Finalmente, las muestras de ADN purificado procedentes de ambas esponjas fueron procesadas para generar metagenomas. Para ello, las muestras fueron enviadas a la compañía de secuenciación Life Sequencing (http://www.lifesequencing.com/, Valencia, España). De las muestras procedentes de Polymastia se obtuvo un metagenoma con la metodología de pirosecuenciación 454 con GS‐FLX TITANIUM (Roche, 454 Life Sciences, Branford, CT), mientras que para el metagenoma de Scleritoderma, además de la tecnología 454, también se utilizó la tecnología de Ion Torrent (Personal Genome Machine, Thermofisher). En todos los casos se obtuvieron secuencias de tipo single‐end. Análisis de calidad y ensamblaje Posteriormente, los metagenomas fueron analizados para determinar su calidad utilizando las herramientas PRINSEQ lite v.0.20.4 (Schmieder & Edwards 2011) y FastQC v.0.11.3 (Andrews 2010). Para el ensamblaje de novo de las secuencias filtradas de los metagenomas se utilizó el ensamblador MIRA v. 4.0.2 (Chevreux et al. 1999). El metagenoma ensamblado de Polymastia se ha denominado como Polymastia_454. En el caso de Scleritoderma se obtuvieron tres ensamblajes, uno correspondiente a la tecnología 454 (Roche) (Scleritoderma_454), otro correspondiente a la tecnología Ion Torrent (Scleritoderma_Ion) y finalmente, se llevó a cabo un último ensamblaje híbrido correspondiente a la combinación de metagenomas obtenidos por ambas tecnologías (Scleritoderma_hybrid). 4
Análisis bioinformáticos El primer paso computacional fue llevar a cabo una predicción de marcos abiertos de lectura (Open Reading Frames, ORFs) para cada contig utilizando la herramienta Prodigal (Hyatt et al. 2012), en su versión para análisis metagenómico (anonymous mode). Los ORFs determinados fueron posteriormente comparados con la base de datos de proteínas virales del NCBI (refseq viral proteins database) utilizando BLASTP (Altschul et al. 1990) con un cut‐off de 1e‐05 y un total de 50 hits para cada ORF. Posteriormente, utilizando los resultados de la comparación por BLASTP se determinó la composición taxonómica de los metagenomas con el programa MEGAN 6 (MEtaGenome Analyzer program, Huson et al. 2011), diseñado específicamente para llevar a cabo un análisis comparativo de datos metagenómicos basados en similitud BLAST de secuencias conocidas. Con este programa, también se llevó a cabo un análisis funcional comparativo basado en distintos sistemas de clasificación como InterPro2GO (Gene Ontology: Metagenomic GO Slim e InterPro), eggNOG (grupos de ortólogos y anotación funcional eggNOG, Powell et al., 2012), SEED (Overbeek et al. 2005) KEGG (Kyoto Encyclopedia for Genes and Genomes, Kanehisa & Goto 2000) y PFAM (Finn et al., 2014). Para las asignaciones taxonómicas, el programa utiliza el algoritmo LCA (lowest common ancestor), de forma que cada lectura, que contiene un gen de un organismo correspondiente, se compara con la base de datos NCBI‐NR para encontrar secuencias homólogas, asignando cada lectura al antecesor común más bajo en la taxonomía de NCBI de todos los organismos que se conocen que contienen el gen presente en la lectura. Para las asignaciones funcionales, MEGAN identifica el hit con el mayor score a una secuencia de referencia para la cual se conoce el correspondiente papel funcional, y por consiguiente, mapea esa lectura a ese papel funcional. Las secuencias ensambladas fueron también analizadas utilizando MetaVir (http://metavir‐meb.univ‐bpclermont.fr, Roux et al. 2011, 2014), servidor web diseñado específicamente para anotar secuencias metagenómicas de virus (tanto lecturas como secuencias ensambladas) y realizar análisis comparativos con metagenomas virales públicos procedentes de otros ambientes. El análisis de rarefacción de los metagenomas de este estudio se llevó a cabo utilizando un 75% de similitud como parámetro de agrupamiento (basándonos en la alta divergencia observada ente genes virales) aunque resultados similares fueron observados utilizando umbrales de 90 y 98 % de similitud. Además, también se hizo distinción entre metagenomas de lecturas y metagenomas ensamblados. Dentro de este último, los metagenomas se agruparon en función del tamaño de secuencia. En este análisis no se pudo incluir la librería de 5
lecturas de Scleritoderma_Ion, al encontrarse al límite de tamaño de secuencias permitido en el servidor web MetaVir (< 2,500,00 secuencias). Aislamiento de genomas individuales a partir de una muestra compleja Este método, adaptado del método descrito por Albertsen et al. (2013), permite la extracción de genomas individuales a partir de metagenomas, y consiste en una combinación de aproximaciones independientes y dependientes de composición de secuencia para recuperar genomas microbianos de alta calidad. Los contigs ensamblados de cada uno de los metagenomas se van a clasificar inicialmente atendiendo a sus características de abundancia y contenido en G+C, para ser esta clasificación complementada posteriormente con otros métodos como frecuencia de tetranucleótidos, taxonomía y genes esenciales de copia única. En esta dirección, http://madsalbertsen.github.io/multi‐metagenome/, es posible encontrar una guía que detalla el proceso utilizado en Albertsen et al. (2013), donde la mayor parte de la exploración e integración de los datos se realiza a través de Rstudio (http://www.rstudio.com/) con el paquete de mmgenome. Para llevar a cabo este procedimiento, se generaron los datos siguiendo el esquema mostrado en la Figura 1. ‐
El contenido en G+C y frecuencia de tetranucleótidos fueron calculados utilizando la función mmload del paquete mmgenome de R. ‐
La identificación de genes marcadores conservados se realizó con Prodigal, en su versión metagenómica. Seguidamente, se enfrentó un conjunto de 107 genes esenciales de copia única (proporcionados por Albertsen et al. 2013) a los ORFs predichos utilizando la herramienta HMMER3 (http://hmmer.janelia.org/). Las proteínas identificadas fueron taxonómicamente clasificadas mediante la comparación BLASTP frente a la base de datos de proteínas RefSeq del NCBI (ftp://ftp.ncbi.nlm.nih.gov/blast/db/refseq_protein00‐18), y los resultados de esta comparación se utilizaron para extraer el nivel taxonómico asignado mediante MEGAN. ‐
La asignación de contigs en niveles de bajo rango taxonómico se realiza con el programa PhyloPythiaS+ (Gregor et al. 2014), que hace un screenning de la muestra metagenómica en busca de secuencias que contengan copias de uno de los 34 genes marcadores taxonómicamente informativos. ‐
La cobertura de los contigs de cada metagenoma fue obtenida al mapear las lecturas a los contigs utilizando las herramientas bowtie2 (Langmead & Salzberg 2012) y SAMtools (Li et al. 2009).
6
Figura 1. Esquema de la metodología utilizada en la extracción de genomas individuales a partir de metagenomas complejos (Albertsen et al. 2013) Anotación de genomas El ensamblaje y anotación de los contigs se llevó a cabo únicamente en la selección realizada en el metagenoma de Polymastia_454. Los contigs extraídos fueron ensamblados manualmente utilizando el programa de análisis de secuencias BioEdit v.7.2.5 (Hall 1999) y el módulo Seqbuilder del paquete Lasergene7 (DNASTAR). La anotación de los contigs por separado se llevó a cabo utilizando la herramienta automática VirSorter (Roux et al. 2015), que identifica la presencia de genes que codifican funciones virales conocidas o por lo menos una característica genómica de los virus utilizando como referencia la base de datos Refseq de virus que infectan bacterias y arqueas (NCBI), completada con secuencias de viromas muestreados de ambientes de agua dulce, agua marina, intestino humano, pulmón y saliva. Esto hace que esta herramienta sea capaz de detectar nuevos virus para los que no están disponibles secuencias de referencia. 3. Resultados Las tres librerías metagenómicas obtenidas, una correspondiente a Polymastia y dos a Scleritoderma, muestran diferencias principalmente en cuanto al número de secuencias y a la longitud media de las mismas (Tabla S1). Estas diferencias se atribuyen principalmente a las distintas tecnologías utilizadas para su secuenciación. Los metagenomas de Polymastia y Scleritoderma obtenidos mediante pirosecuenciación presentan un rango de longitud de 7
secuencia mayor con valores máximos de hasta 1700 pb. Mientras que el metagenoma de Scleritoderma obtenido por tecnología de Ion Torrent muestra secuencias que pueden alcanzar longitud máximas no muy por encima de 500 pb. Sin embargo, en este último metagenoma es donde se ha obtenido el mayor número de secuencias. El contenido total de G+C es similar en las tres librerías metagenómicas (~50%). Estas diferencias también han quedado reflejadas en los metagenomas ensamblados (Figura S1). Polymastia_454 es el metagenoma ensamblado con el mayor N50, seguido de Scleritoderma_454, mientras que el mayor número de contigs se ha obtenido con el ensamblaje híbrido. La predicción de genes nos ha permitido determinar marcos abiertos de lectura (ORFs) en los contigs de los distintos metagenomas. Se han determinado 35,526 y 38,625 ORFs, en Polymastia_454 y Scleritoderma_454, respectivamente. Para Scleritoderma_Ion se detectaron 171,609 ORFs, y el mayor número de ORFs fue determinado en Scleritoderma_hybrid con 216,330 ORFs. La mayoría de las secuencias de los distintos metagenomas no mostraron similitudes significativas en la comparación BLASTp (e‐value ≥ 1.0E‐5) con la base de datos Refseq de proteínas virales del NCBI (~5‐10%). El mayor número de secuencias asignadas a virus fue mostrado por el metagenoma Polymastia_454 (9.58%, 3405 secuencias de 35,526), seguido de Scleritoderma_454 (8.55%, 3305 secuencias de 38,625). Solo el 6.27% (9182) y 5.45% (13,299) de las secuencias de Scleritoderma_Ion y Scleritoderma_hybrid, respectivamente, mostraron hits significativos con secuencias asignadas a virus. Análisis comparativo: composición taxonómica El análisis de rarefacción para comparar la riqueza genética de virus y verificar si el conjunto total de genes ha sido muestreado en los diferentes metagenomas ha demostrado que en casi todos los casos analizados (reads y ensamblaje de Polymastia_454 y Scleritoderma_454; ensamblaje de Scleritoderma_hybrid), no se ha llegado a alcanzar una asíntota (Figura S2), indicativo de no haber alcanzado la diversidad vírica total. Como excepción, Scleritoderma_454, parece mostrar una leve disminución en la pendiente de la curva de rarefacción. La comparación con metagenomas virales públicos, de tamaños similares, procedentes de la base de datos MetaVir permitió observar principalmente un comportamiento similar al de comunidades virales de ambientes marinos y de agua dulce caracterizados por una alta diversidad, como metagenomas del Mar Sargasso, Golfo de México, de corales y de lagos de agua dulce como el lago Michigan, Bourget y Pavin (Francia) (Tabla S2). Las curvas de rarefacción generadas con 8
MetaVir muestran la diversidad dentro de un metagenoma basándose en las secuencias agrupadas dentro de ese metagenoma y no basándose en semejanzas obtenidas por BLAST, lo que nos permite estudiar metagenomas como los del presente estudio donde existe una similitud muy baja con secuencias conocidas. Los tipos de virus que se han encontrado en cada uno de los metagenomas ensamblados están resumidos en la Figura 1. Se han podido observar que existe una distribución similar de los grupos predominantes, que parece ser proporcional al tamaño del metagenoma. Esto significa que Scleritoderma_hybrid muestra el mayor número de secuencias asignadas a un determinado nivel taxonómico, seguido de Scleritoderma_Ion, mientras que Polymastia_454 y Scleritoderma_454, mostraron similares asignaciones en cuanto al número absoluto de secuencias. En los cuatro metagenomas, la distribución de secuencias en los distintos grupos de virus es similar, mostrando la mayor proporción de secuencias asignadas a virus de ADN bicatenario (dsDNA) (~98%), y una menor proporción a virus de ADN monocatenario (ssDNA) (<1%). Asimismo, una pequeña proporción de las secuencias han sido asignadas a los grupos de fagos no clasificados (unclassified phages) y virus no clasificados (unclassified virus). Solamente en los metagenomas Scleritoderma_Ion y Scleritoderma_hybrid se ha detectado la presencia de virus de RNA de cadena positiva, y retrovirus en Scleritoderma_hybrid (<1%) (Figuras S3). Figura 2. Gráfico de los distintos tipos de virus detectados en los metagenomas de Polymastia y Scleritoderma estudiado, junto con el número correspondiente de secuencias asignadas. 9
Dentro del grupo de virus de ADN bicatenario (dsDNA), los cuatro metagenomas mostraron como predominante al orden Caudovirales, orden de virus que comprende la mayor parte de los bacteriófagos (Figura 3 y S3). Se han detectado miembros de las familias Myoviridae (26‐32%), Podoviridae (9‐12%) y Siphoviridae (18%), siendo la primera la más abundante de todas. Es importante destacar que en los metagenomas de ambas esponjas, el mayor número de secuencias han sido asignadas al nodo etiquetado como Bacillus phage G (7‐8% de todas las secuencias con hits significativos), dentro de la familia Myoviridae, que corresponde al bacteriófago G (‘giant’) de la bacteria Bacillus megaterium, el más grande conocido hasta el momento (15 nm de diámetro de cabeza, 410 nm de longitud de cola y un tamaño del genoma de  500 Mb, Donelli et al. 1972). Otro de los taxones que ha mostrado una alta proporción de secuencias asignadas (3‐5%), es un cianófago, PaV‐LD, de la familia Podoviridae, que infecta la cianobacteria filamentosa Planktothrix agardhii (Gao et al. 2012). Por otro lado, el fago de enterobacterias If1 (0.1‐0.4%) constituye uno de los taxones más abundante de virus ssDNA (0.2‐
0.9%). Entre los taxones que sólo aparecen en Polymastia destaca los cianofagos S‐TIM5 y S‐
CRM01, que infectan cianobacterias marinas (Sabehi et al. 2012) y de agua dulce (Dreher et al. 2011) del género Synechococcus. También el fago de enterobacteria HK022 (Juhala et al. 2000) y el fago phi10:1 del orden Cellulophaga (Holmfeld et al. 2013) son exclusivos del metagenoma Polymastia_454 (Tabla S3). Para llevar a cabo la comparación de los metagenomas se realizó un análisis de agrupamiento basándose en los perfiles taxonómicos mostrados en la Figura 4 y utilizando el índice de Bray‐Curtis para generar la matriz de distancias. El árbol filogenético obtenido por el método NJ (Neighbour‐joining) (Figura 4) muestra claramente como los metagenomas procedentes de Scleritoderma se encuentran más cercanos, especialmente Scleritoderma_hybrid y Scleritoderma_Ion, mientras que Polymastia aparece como el metagenoma más alejado de los cuatro. Esto puede ser debido a las diferencias observadas atribuibles a los taxones virales propios de cada esponja. En cuanto a Scleritoderma, el ensamblaje híbrido parece mostrar más similitud al ensamblaje obtenido por Ion Torrent, lo que pone de manifiesto su contribución mayoritaria ensamblaje híbrido. 10
Figura 3. Comparación del contenido taxonómico de los cuatro metagenomas procedentes de las esponjas Polymastia y Scleritoderma. Los cuatro metagenomas muestran colores distintos, cada nodo representa un taxón en la taxonomía de NCBI y muestra un gráfico de barras que indica el número de secuencias asignadas a cada nodo. El tamaño de cada barra está en escala de raíz cuadrada para representar el número de secuencias asignadas directamente al taxón. 11
Figura 4. Árbol filogenético generado mediante el método de Neighbour‐joining, basado en el perfil taxonómico de los cuatro metagenomas de este estudio (Figura 2) y en el índice de Bray‐Curtis para calcular la matriz de distancias. Análisis comparativo: asignación funcional Para el análisis del contenido funcional de los datos metagenómicos, el programa MEGAN utilizó los sistemas de clasificación InterPro2GO, SEED, KEEG y PFAM. La clasificación de InterPro2GO se despliega como un árbol basado en GO donde las secuencias son cartografiadas a las familias de proteínas de InterPro (Figura 5). Destaca especialmente, la familia ABC transporter A (IPR026082, GO: 0006810 transport), miembro de la subfamilia A de transportadores ABC, que consiste en una única cadena polipeptídica larga organizada en dos mitades dispuestas en tándem. Otra familia de proteínas que aparece de forma abundante en los cuatro metagenomas es la familia ClpA/B (IPR001270), forma parte de la superfamilia AAA+ (ATPasa asociada a diversas actividades celulares), la mayoría de los miembros están implicados en proteólisis y asociados con una subunidad proteolítica para formar una proteasa activa. Las familias Restriction/modification DNA‐methylase (IPR001091, GO:0006259 DNA metabolic process), DNA helicase UvD/REP type (IPR000212, GO:0000166 nucleotide binding) y DNA polymerase III, alpha subunit (IPR004805, GO:0006259 DNA metabolic process) también aparecen entre las familias de proteínas con el mayor número de secuencias asignadas en los metagenomas de Scleritoderma y Polymastia. 12
Figura 4. Análisis funcional comparativo de los cuatro metagenomas basado en el sistema de clasificación InterPro2GO. El gráfico de barras que aparece en cada nodo (escala de raíz cuadrada) muestra el número absoluto de secuencias asignadas, en escala de raíz cuadrada. La clasificación SEED está basada principalmente en el mapeo de genes en paneles funcionales de diferentes subsistemas. En la Figura 6, que muestra la proporción de características predichas asignadas a cada uno de los subsistemas SEED por metagenoma, se puede observar que las categorías funcionales SEED de RNA Metabolism, Protein Metabolism y DNA Metabolism son las anotaciones dominantes en los cuatro metagenomas. En estas categorías muchos proteínas podrían estar relacionadas con fagos (pero de origen celular), tales como enzimas RNA polimerasa II, DNA polimerasas, helicasas, ribonucleótido reductasas. Solamente el 1% de los genes funcionalmente anotados fueron clasificaron en el subsistema de phages, prophages and transposable elements. En la Figura 7 se puede observar la clasificación de KEGG, donde la mayor parte de los genes han sido mapeados a los siguientes grupos ortólogos KEGG: NitT/TauT family transport system ATP‐binding protein (K02049, Membrane transport), miembro de la familia de transportadores ABC en organismos procarióticos, DNA polymerase III subunit alpha [EC:2.7.7.7] (K02337, Nucleotide Metabolism) y DNA helicase II/ATP‐dependent DNA helicase PcrA [EC:3.6.4.12] (K03657, Replication and Repair). 13
Figura 6. Análisis funcional de MEGAN, basado en la clasificación de SEED, de los metagenomas de Polymastia (Polymastia_454) y Scleritoderma (Scleritoderma_454, Scleritoderma_hybrid, Scleritoderma_Ion) Figura 7. Comparación del contenido funcional de los metagenomas de las esponjas Polymastia y Scleritoderma en base a la clasificación funcional de KEGG. Los resultados de la anotación funcional generada por los sistemas de clasificación de InterPro2GO, KEGG y SEED han quedado reflejados en los hits de la base de datos PFAM. La Figura 8 muestra la fracción de dominios PFAM asignados a cada uno de los metagenomas, donde se puede observar que la mayor proporción de secuencias asignadas de los metagenomas de Polymastia y Scleritoderma están distribuidas principalmente en 3 dominios. Destaca la presencia 14
del dominio DNAB‐like helicase C terminal (PF03796), dominio C terminal de la enzima helicasa DnaB hexamérica, propia de bacterias cuya función es desenrollar el tenedor de replicación durante la replicación del ADN. En segundo lugar se encuentra, el dominio Thioredoxin (PF00085), que forma parte de las enzimas tiorredoxinas, presentes en todos los organismos, que participan en reacciones de reducción a través de la oxidación reversible de enlaces bisulfuro de un centro activo. El dominio Phage terminase large subunit (PF04466), especialmente destacado en Scleritoderma, constituye la subunidad grande de la enzima terminasa, proteína codificada por genes fágicos o por regiones profágicas de genomas bacterianos que interviene en el proceso de empaquetamiento de la doble hebra de ADN en la cabeza viral. Figura 8. Comparación del contenido funcional de los metagenomas de las esponjas Polymastia y Scleritoderma en base a las asignaciones a la base de datos PFAM. Aislamiento de Genomas Para cada uno de los metagenomas, se han representado gráficamente la estimación de cobertura (en escala logarítmica) frente al contenido en G+C de contigs con una longitud > 2500 pb, junto con la asignación taxonómica derivada de los genes esenciales (Figura 9‐12). En cada metagenoma, se han podido identificar subconjuntos de contigs que aparecen agrupados, con valores de cobertura y contenido en G+C similares (zonas seleccionadas en las Figuras 9‐12), que podrían representar potenciales genomas. 15
Figura 9. Representación gráfica de la abundancia frente al contenido en G+C del metagenoma de Polymastia_454. Los círculos representan contigs, en escala logarítmica, y coloreados en función de la asignación taxonómica de los genes esenciales. Solo se muestran los contigs con una longitud > 2500 pb. La selección indica los contigs extraídos por considerarse potenciales genomas de bacteriófagos. Figura 10. Gráfico donde se representa la abundancia frente al contenido en G+C de los contigs (>2500pb) del metagenoma de Scleritoderma_454. La selección indica contigs que forman parte de potenciales genomas de bacteriófagos La representación gráfica de los metagenomas, nos permite observar las diferencias existentes entre Scleritoderma y Polymastia, en cuanto a la totalidad de la comunidad microbiana existe. La mayoría de los contigs en Polymastia_454 se agrupan principalmente en tres subconjuntos con variaciones en el contenido en G+C de 55%, 45% y 35% (Figura 9). Dentro de cada subconjunto, los contigs presentan valores de abundancia similares. En cuanto a Scleritoderma_454, también muestra tres subconjuntos de contigs, equiparables a los observados 16
en Polymastia, aunque con niveles superiores en el contenido en G+C (70%, 55%, 30%) y valores de abundancia más variables dentro de cada uno (Figura 10). En relación a los metagenomas de Scleritoderma_Ion y Scleritoderma_hybrid, la representación gráfica una distribución de contigs similar a Scleritoderma_454. Cabe destacar la presencia de subconjuntos de contigs que no aparecen en Scleritoderma_454 con una abundancia muy elevada y valores de contenido en GC entre 30‐40%. Además, Scleritoderma_Ion no muestra el subconjunto de contigs asociados a un contenido en G+C 70%. Figura 11. Gráfico donde se representa la abundancia frente al contenido en G+C de los contigs (>2500pb) del metagenoma de Scleritoderma_hybrid. La selección indica contigs que forman parte de potenciales genomas de bacteriófagos. Figura 12. Gráfico donde se representa la abundancia frente al contenido en G+C de los contigs (>2500pb) del metagenoma de Scleritoderma_Ion. La selección indica contigs que forman parte de potenciales genomas de bacteriófagos. 17
Las franjas donde se agrupan la mayoría de los contigs, probablemente corresponden a genomas bacterianos. Teniendo en mente nuestro objetivo de aislar y extraer genomas de bacteriófagos, nuestro foco debe estar puesto en pequeñas agrupaciones aisladas de contigs, de tamaño grande (círculos grandes en las Figuras 9‐12) y valores altos de abundancia. Esto es debido a que en este rango de valores de abundancia y tamaño, alguno de los contigs ensamblados, corresponden a genomas completos o casi completos de bacteriófagos. Por ello, de cada uno de los metagenomas, se llevó a cabo la extracción de agrupaciones de contigs que potencialmente podrían formar parte del genoma de bacteriófagos (selección en Figuras 9‐12). Para determinar si los contigs corresponden a genomas de bacteriófagos es necesario llevar a cabo su ensamblaje y posterior anotación. Este análisis sólo se llevó a cabo en la selección realizada en el metagenoma de Polymastia_454 (Figura 9). Esta selección está constituida por tres contigs de tamaños 25,682 pb (contig 5209), 20,328 pb (contig 5217) y 12,048 (contig 5220). El ensamblaje manual de los contigs permitió determinar zonas que solapaban entre ellos, constituyendo un genoma completo y circular con un tamaño  54 kb (Figura 13). Los resultados obtenidos por MEGAN de la asignación taxonómica de estos contigs sólo han permitido determinar que pertenecen a un virus dsDNA del orden Caudovirales. Figura 13. Genoma ensamblado de virus bacteriófago aislado de la esponja Polymastia, donde se muestra la distribución de los contigs y las zonas de solapamiento entre ellos. La anotación de estos contigs se realizó utilizando la herramienta automática VirSorter (Roux et al. 2015). Sin embargo, consideramos necesario un análisis minucioso de estos resultados En la Tabla S4, se encuentra la distribución de genes y la correspondiente anotación de los 18
mismos en los tres contigs. En el contig 5209, el de mayor tamaño, se han predicho un total de 17 genes de los cuales solamente se ha obtenido la anotación de 11 de ellos. El contig 5217 es el contig donde se ha realizado la predicción del mayor número de genes, con un total de 27, de los cuales 15 obtuvieron anotación. Finalmente, el contig 5220, el de menor tamaño, mostró 9 genes, de los cuales 6 obtuvieron anotación. En la Tabla S4, se han anotado las zonas de solapamiento entre los distintos contigs. En la zona de solapamiento entre los contigs 5220 y 5209 (color verde en Tabla S4), se han anotado los dominios Phage_fiber_2 (PF03406), repetición que se encuentra en la fibra de la cola de los fagos, y T4_gp9_10 (PF07880.6). Este último corresponde a una familia de proteínas equivalente a los productos génicos 9 (gp9) y 10 (gp10) del bacteriófago T4. Ambas proteínas son componentes de la placa basal del virus. En cuanto a los contigs 5209 y 5217, las zonas de solapamiento (color azul en Tabla S4) se han anotado con dominios HTH_19/3/31/37 (PF12844.2, PF01381.17, PF13560.1, PF13744.1), que incorporan motivos hélice‐giro‐hélices, en su mayoría, con capacidad para unirse a la cadena de ADN. En esta zona de solapamiento, también se ha anotado un dominio correspondiente a familia de transposasas (DD_Tnp_ISL3 (PF01610), MULE (PF10551), Transposase_mut (PF00872)), estas enzimas son necesarias para la transposición de ADN de una parte a otra del genoma. Finalmente, en la zona de solapamiento entre los contigs 5217 y 5220 (color amarillo en Tabla S4), se observa la anotación de proteína DUF2829 (PF1195) de función desconocida propia de bacterias y bacteriófagos, y de Tail_P2_I (PF09684), familia de proteínas tipo I del fago P2 que forman parte de la cola en un número de fagos temperados de bacterias Gram‐negativas. 4. Discusión El estudio de la fracción viral de la comunidad microbiana endosimbionte de las esponjas marinas Polymastia y Scleritoderma ha revelado que se trata de un viroma completamente novedoso. Tan solo entre un 5‐9% de las secuencias (lecturas o contigs) fueron asignadas al grupo de virus, del cual más del 90% correspondía a bacteriófagos (Caudovirales) de ADN bicatenario (dsDNA). El orden Caudovirales (dsDNA) como taxón de virus dominante ha sido observado en metaviromas de otros ambientes como en el océano índico (Williamson et al. 2012), manantiales de agua caliente (Schoenfeld et al. 2008) y lagos antárticos (López‐Bueno et al. 2009). Sin embargo, un estudio sobre población natural de profagos inducidos en agua de mar mostró un enriquecimiento de virus de ADN monocatenario (ssDNA) (McDaniel et al. 2013), aunque estos datos parecen estar sesgados debido a la preparación de las librerías mediante la técnica de amplificación por desplazamiento múltiple (MDA), conocida por amplificar preferentemente ADN 19
de cadena simple. El contenido funcional de las secuencias virales de los metagenomas de esponjas, muestra que estos hábitats están enriquecidos de enzimas relacionadas con la replicación, transcripción y encapsulamiento del DNA, lo que podría indicar que en el momento de la extracción de ADN, la mayoría de los virus presentes corresponden a fagos que se encuentran utilizando la maquinaria de la bacteria hospedadora para replicar su material genético y sintetizar los componentes esenciales necesarios para hacer más partículas víricas. Se conoce esta fase del ciclo biológico de los fagos como ciclo lítico, donde una vez que los componentes proteicos se han ensamblado en la estructura adecuada, se produce la lisis celular de la bacteria hospedadora permitiendo la liberación de los nuevos viriones. Estos resultados claramente apuntan a que estos componentes podrían estar ejerciendo un papel determinante en la dinámica, diversidad y evolución de sus hospedadores bacterianos favoreciendo el equilibrio de la comunidad endosimbionte de las esponjas Scleritoderma y Polymastia. La mayor parte de las secuencias de los metagenomas que no mostraron hits, al compararse con la base de datos Refseq de virus (NCBI), probablemente corresponden con la fracción bacteriana de esta comunidad, aunque existe la duda de si dentro de ésta hay una fracción significativa de las secuencias que pertenezca a virus desconocidos. Este hecho es consecuencia de las dificultades a las que hay que enfrentarse a la hora de abordar el estudio de bacteriófagos. En este sentido, es especialmente arduo la asignación y anotación de las secuencias virales debido al bajo número de genomas virales de referencia disponibles y a la identificación y anotación errónea de proteínas virales como proteínas bacterianas en las bases de datos públicas, y a la prevalencia de genes metabólicos bacterianos llevados por virus. Por ello, la metodología de detección de virus debe de estar encaminada principalmente a la búsqueda de homologías remotas en proteínas. Por otro lado, los métodos utilizados en la preparación de muestras y en el aislamiento y extracción de ácidos nucleicos virales junto con las tecnologías de secuenciación empleadas, como se ha visto en otros estudios de metaviromas, constituyen una fase crítica porque afectan drásticamente a los ensamblajes virales obtenidos y a la interpretación de los resultados. En este estudio, las muestras fueron preparadas utilizando un método similar al método de “viral reduction”, utilizado por McDaniel et al. (2013) en un estudio comparativo de metagenomas de poblaciones naturales y poblaciones de profagos inducidos. Este método consiste en la separación física de los componentes virales y bacterianos de agua de mar, y la posterior recolección y concentración de células bacterianas mediante la utilización de un filtro. A diferencia, en el presente estudio no se utilizó adicionalmente ningún método de inducción de profagos, como 20
McDaniel y colaboradores (2013), que trataron posteriormente las muestras con mitomicina C. En consecuencia, consideramos que la alta densidad de secuencias de bacteriófagos identificadas en este estudio es probablemente un indicativo del alto nivel de actividad lítica viral en las fracciones microbianas secuenciadas de ambas esponjas, y no procedente de la fracción de profagos insertados en genomas bacterianos, lo que concuerda con los resultados obtenidos de la asignación funcional. Ghai y colaboradores (2010) llegaron a las mismas conclusiones al obtener una proporción significativa de secuencias con alta similitud a secuencias conocidas de virus en metagenomas bacterianos procedentes de la zona de máxima actividad fotosintética en el Mar Mediterráneo. La utilización de distintas tecnologías para la secuenciación del metagenoma de Scleritoderma ha puesto de manifiesto que los resultados obtenidos son claramente complementarios. Mientras que el metagenoma de Scleritoderma_454 muestra un menor número de secuencias con una longitud de las mismas  700 pb, el metagenoma Scleritoderma_Ion con longitudes media de secuencia 300 pb, presenta un número de secuencias siete veces mayor. Estas diferencias también quedaron reflejadas en los metagenomas ensamblados y en las asignaciones taxonómicas y funcionales de ambos. Especialmente destacable es el hecho de que el ensamblaje híbrido fue capaz de recoger las características de ambos metagenomas, permitiendo la detección de un mayor número de grupos taxonómicos de virus y de una mayor asignación del contenido funcional. El método de aislamiento de genomas individuales, adaptado de Albertsen et al. (2013), resultó ser de gran éxito ya que permitió aislar el genoma de un bacteriófago dsDNA. Esta herramienta presenta un gran potencial en la extracción de genomas individuales microbianos, ya tiene múltiples posibilidades al permite representar los contigs de los metagenomas en función de cualquier característica dependiente o independiente de secuencia como longitud, cobertura, contenido en G+C, contenido en genes esenciales de copia única o genes con una función específica de interés, frecuencia de tetranucleótidos, composición taxonómica. En cuanto al genoma extraído, se puede decir que pertenece a un bacteriófago del orden Caudovirales con doble cadena de ADN y con cola y es uno de los componentes dominantes en la comunidad microbiana endosimbionte de Polymastia. De los 53 genes que se han predicho en los contigs que forman parte de ese genoma, 32 obtuvieron anotación de la base de datos PFAM, algunos de los cuales están repetidos ya que corresponden a las zonas de solapamiento de contigs. Por ello, consideramos necesario llevar a cabo la comprobación de estos resultados mediante una anotación manual de forma minuciosa. 21
La caracterización taxonómica y funcional de las comunidades virales, como la del presente estudio, es de gran relevancia en el campo de la ecología microbiana ya que proporciona nuevas contribuciones en la dinámica y evolución de comunidades microbianas y permite determinar la existencia de una gran diversidad genética con potencial biotecnológico y ecológico, contenida en estas comunidades. Los estudios de metaviromas deben estar encaminados a la utilización de aproximaciones como las utilizadas en este trabajo, en el que se combina asignación taxonómica, funcional y anotación de los genomas de los componentes más abundantes con el objetivo de entender mejor el funcionamiento de estas comunidades. 5. Referencias bibliográficas Adriaenssens, E. M., Van Zyl, L., De Maayer, P., Rubagotti, E., Rybicki, E., Tuffin, M., & Cowan, D. A. (2015). Metagenomic analysis of the viral community in Namib Desert hypoliths. Environmental microbiology, 17(2), 480‐495. Albertsen, M., Hugenholtz, P., Skarshewski, A., Nielsen, K. L., Tyson, G. W., & Nielsen, P. H. (2013). Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes. Nature biotechnology, 31(6), 533‐538. (http://madsalbertsen.github.io/multi‐metagenome/, https://github.com/MadsAlbertsen/mmgenome) Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local alignment search tool. Journal of molecular biology, 215(3), 403‐410. Andrews, S. (2010) FastQC: A quality control tool for high throughput sequence data. (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, et al. (2000) Gene ontology: tool for the unification of biology. the gene ontology consortium. Nat Genet 25: 25–29. Breitbart, M., & Rohwer, F. (2005). Here a virus, there a virus, everywhere the same virus? Trends in microbiology, 13(6), 278‐284. Breitbart, M., L.R. Thompson, C.A. Suttle, and M.B. Sullivan. 2007. Exploring the vast diversity of marine viruses. Oceanography 20(2):135–139, http://dx.doi.org/10.5670/oceanog.2007.58. Chevreux, B., Wetter, T. and Suhai, S. (1999) Genome Sequence Assembly Using Trace Signals and Additional Sequence Information. Computer Science and Biology: Proceedings of the German Conference on Bioinformatics (GCB) 99, pp. 45‐56. Donelli, G., Guglielmi, F., & Paoletti, L. (1972). Structure and physico‐chemical properties of bacteriophage G: I. Arrangement of protein subunits and contraction process of tail sheath. Journal of molecular biology, 71(2), 113‐125. 22
Dreher, T. W., Brown, N., Bozarth, C. S., Schwartz, A. D., Riscoe, E., Thrash, C., ... & Maier, C. S. (2011). A freshwater cyanophage whose genome indicates close relationships to photosynthetic marine cyanomyophages. Environmental microbiology, 13(7), 1858‐1874. Duhaime, M. B., & Sullivan, M. B. (2012). Ocean viruses: rigorously evaluating the metagenomic sample‐to‐sequence pipeline. Virology, 434(2), 181‐186. Edwards, R. A., & Rohwer, F. (2005). Viral metagenomics. Nature Reviews Microbiology, 3(6), 504‐
510. Finn R.D., Bateman A., Clements J., Coggill P., Eberhardt R.Y., Eddy S.R., Heger A., Hetherington K., et al. (2014) The Pfam protein families database: Nucleic Acids Research. Database Issue 42:D222‐D230. Gao, E. B., Gui, J. F., & Zhang, Q. Y. (2012). A novel cyanophage with a cyanobacterial nonbleaching protein A gene in the genome. Journal of virology, 86(1), 236‐245. Gregor, I., Dröge, J., Schirmer, M., Quince, C., & McHardy, A. C. (2014). PhyloPythiaS+: a self‐
training method for the rapid reconstruction of low‐ranking taxonomic bins from metagenomes. arXiv preprint arXiv:1406.7123. Kanehisa M, Goto S (2000) Kegg: Kyoto ency‐ clopedia of genes and genomes. Nucleic Acids Res 28: 27–30. Hall, T.A. 1999. BioEdit: a user‐friendly biological sequence alignment editor and analysis program for Windows 95/98/NT. Nucl. Acids. Symp. Ser. 41:95‐98. Hambly, E., & Suttle, C. A. (2005). The viriosphere, diversity, and genetic exchange within phage communities. Current opinion in microbiology, 8(4), 444‐450. Holmfeldt, K., Solonenko, N., Shah, M., Corrier, K., Riemann, L., VerBerkmoes, N. C., & Sullivan, M. B. (2013). Twelve previously unknown phage genera are ubiquitous in global oceans. Proceedings of the National Academy of Sciences, 110(31), 12798‐12803. Huson D.H. et al, MEGAN 6: Metagenome analysis of hundreds of samples and billions of reads, in preparation. Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (2011) Integrative analysis of environmental sequences using MEGAN 4. Genome Research 21: 1552‐1560. Hyatt D, LoCascio PF, Hauser LJ, Uberbacher EC (2012) Gene and translation initiation site prediction in metagenomic sequences. Bioinformatics 28 (17): 2223‐2230. Juhala, R. J., Ford, M. E., Duda, R. L., Youlton, A., Hatfull, G. F., & Hendrix, R. W. (2000). Genomic sequences of bacteriophages HK97 and HK022: pervasive genetic mosaicism in the 23
lambdoid bacteriophages. Journal of molecular biology, 299(1), 27‐51. Kanehisa M and Goto S. (2000) KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Research 28(1):27–30. Kim, M. S., Park, E. J., Roh, S. W., & Bae, J. W. (2011). Diversity and abundance of single‐stranded DNA viruses in human feces. Applied and environmental microbiology, 77(22), 8062‐8070. Langmead B, Salzberg S. Fast gapped‐read alignment with Bowtie 2. Nature Methods. 2012, 9:357‐
359. Li, H., Handsaker, B., Wysoker, A., Fennell, T., Ruan, J., Homer, N., Marth G., Abecasis G., Durbin, R. and 1000 Genome Project Data Processing Subgroup (2009). The sequence alignment/map format and SAMtools. Bioinformatics, 25(16), 2078‐2079. Minot, S., Sinha, R., Chen, J., Li, H., Keilbaugh, S. A., Wu, G. D., ... & Bushman, F. D. (2011). The human gut virome: inter‐individual variation and dynamic response to diet. Genome research, 21(10), 1616‐1625. Minot, S., Wu, G. D., Lewis, J. D., & Bushman, F. D. (2012). Conservation of gene cassettes among diverse viruses of the human gut. PloS one, 7(8), e42342. Mitra S, Gilbert JA, Field D, Huson DH (2010) Comparison of multiple metagenomes using phylogenetic networks based on ecologi‐ cal indices. ISME J 4: 1236–1242. Mokili, J. L., Rohwer, F., & Dutilh, B. E. (2012). Metagenomics and future perspectives in virus discovery. Current opinion in virology, 2(1), 63‐77. Overbeek R, Begley T, Butler RM, Choudhuri JV, Chuang H‐Y, Cohoon M, Crécy‐Lagard V, Diaz N, et al. (2005) The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Research 33(17):5691–5702. (http://www.theseed.org/wiki/Home_of_the_SEED) Powell S, Szklarczyk D, Trachana K, Roth A, Kuhn M, Muller J, Arnold R, Rattei T, et al. (2012) eggNOG v3.0: orthologous groups covering 1133 organisms at 41 different taxonomic ranges. Nucleic Acids Research, 40 (Database‐Issue):284–289. Rohwer, F., & Edwards, R. (2002). The Phage Proteomic Tree: a genome‐based taxonomy for phage. Journal of bacteriology, 184(16), 4529‐4535. Roux, S., Enault, F., Robin, A., Ravet, V., Personnic, S., Theil, S., ... & Debroas, D. (2012). Assessing the diversity and specificity of two freshwater viral communities through metagenomics. PloS one, 7(3), e33641‐e33641. Roux S, Tournayre J, Mahul A, Debroas D, Enault F (2014) Metavir 2: new tools for viral metagenome comparison and assembled virome analysis. BMC Bioinformatics 15: 76. 24
Roux, S., Enault, F., Hurwitz, B. L., & Sullivan, M. B. (2015). VirSorter: mining viral signal from microbial genomic data. PeerJ, 3, e985. Sabehi, G., Shaulov, L., Silver, D. H., Yanai, I., Harel, A., & Lindell, D. (2012). A novel lineage of myoviruses infecting cyanobacteria is widespread in the oceans. Proceedings of the National Academy of Sciences, 109(6), 2037‐2042. Schmieder R, Edwards R (2011) Quality control and preprocessing of metagenomic datasets. Bioinformatics 27:863‐864. Schmitz, J. E., Schuch, R., & Fischetti, V. A. (2010). Identifying active phage lysins through functional viral metagenomics. Applied and environmental microbiology, 76(21), 7181‐
7187. Schoenfeld, T., Liles, M., Wommack, K. E., Polson, S. W., Godiska, R., & Mead, D. (2010). Functional viral metagenomics and the next generation of molecular tools. Trends in microbiology, 18(1), 20‐29. Suttle, C. A. (2005). Viruses in the sea. Nature, 437(7057), 356‐361. Thurber, R. V. (2009). Current insights into phage biodiversity and biogeography. Current opinion in microbiology, 12(5), 582‐587. Watkins, S. C., Kuehnle, N., Ruggeri, C. A., Malki, K., Bruder, K., Elayyan, J., ... & Romer, Z. (2015). Assessment of a metaviromic dataset generated from nearshore Lake Michigan. Marine and Freshwater Research. 25
6. Material Suplementario Figura S1. Características de las secuencias de las lecturas y ensamblajes de los metagenomas de Polymastia y Scleritoderma incluidos en este estudio. Graficos obtenidos por MetaVir (Roux et al. 2014). 26
Figura S1 (continuación) 27
Figura S2. Análisis de rarefacción de los metagenomas en comparación con metagenomas virales públicos disponibles en MetaVir. Los datos de este estudio están indicados en color rojo, mientras que el resto de los metagenomas están indicados por distintos colores en función del tipo de ecosistema, como se indica en la leyenda. En la Tabla S2 se muestran los datos de los metagenomas utilizados para las curvas de rarefacción. 28
Figura S2. (continuación) 29
Figura S2. (continuación) 30
Figura S3. Gráfico Krona obtenido mediante el servidor web MetaVir representando la clasificación taxonómica de virus identificada utilizando la comparación BLAST entre los contigs ensamblados de los metagenomas de Polymastia y Scleritoderma y la base de datos de proteínas virales RefSeq. 31
Figura S3. (Continuación) 32
Figura S3. (continuación) 33
Figura S3 (continuación) 34
Tabla S1. Tabla resumen comparativa de las características generales de los metagenomas bacterianos de las esponjas Polymastia y Scleritoderma. Tecnología Antes Filtrado Despues Filtrado
Longitu
Secuencias Longitud
d %GC
(nº) (pb)* (pb)* Secuencias (nº) Polymastia 454 371533 56‐1780 (1000‐
1049) 47 371477 Scleritoderma 454 513655 26‐1182 (750‐
799) 59 Ion 3633156 0‐567 (380) Metagenomas ensamblados
Contig de Maxima mayor N50 N90 N95 Cobertur
tamaño a %GC Nucleotidos
Reads Contigs 1‐890 (750) 47 Polymastia_ 454 20847539 215912 12357 27085 2274 787 684
1215 493748 1‐983 (540) 59 Scleritoderma
_454 23424968 209832 18398 26167 1422 677 590
137 55 3239350 1‐355 (319) 55 Scleritoderma
_Ion 77670235 1854020 108569 136873 824 366 317
232 Scleritoderma
111084633 2344743 116743 _hybrid 131874 1207 450 368
249 * en paréntesis se muestra el número medio de longitud de secuencia de cada metagenoma Tabla S2. Tabla resumen de los metagenomas virales públicos de la base de datos MetaVir utilizados para generar las curvas de rarefacción. Gráfica Freshwater Scleritoderma_
hybrid_assembl
y_75%_sampled 57th St 05‐Jun‐
13, Montrose 05‐
Jun‐13 (Watkins et al. 2015), Lough Neagh‐ 4pW contigs Lough Neagh‐ 4pW contigs Scleritoderma_
hybrid_assembl
y_75%_protein Scler_Poly_454
_assembly_75%
_whole Scler_Poly_454
_assembly_75%
_protein Scleritoderma_
Polymastia_rea
ds_75%_sample
d Lake Bourget contigs, Lake Pavin contigs, (Roux et al. 2012), Lake Bourget contigs, Lake Pavin contigs, (Roux et al. 2012), Lake Pavin Lake Bourge (Roux et al. 2012), Antartic Lake Spring, Antartic Lake Summer Anaerobic digester Hypera
rid Hypers
aline P5_Ng
allou, P2_Sal
oon, P6_Lak
e_Retb
a Hypolith
Coral
Namib_hypolith
_2012_reads. (Adriaenssenset al. 2015) P.acuta 2012 (Wood
‐
Charlso
n et al. 2015) Eukaryote Seawater
Dunk_Island_
TT, Fitzroy_Island
_F1 P.acuta
2012, (Wood
‐
Charlso
n et al. 2015) DNAVirome
Master Assembly Microb
ialites Antarct
ic open soil contigs Human gut‐ All subjects (Minot et al. 2012) ALOHA station deep abyss, B47_Bohai_S
ea_Sep_2010 Antarct
ic open soil contigs Human gut‐ All subjects (Minot et al. 2012) Human_Gu
t_L1d (Minot et al. 2011) Human_Lu
ng_CF6 (Willner et al. 2009) Human Feces A (Kim et al. 2011) Human Salivary_Su
b1_D3 Mic. Pozas Azules, Mic Rio Mesqui
tes, Mic. Highbo
urne Cay ALOHA station deep abyss, B47_Bohai_S
ea_Sep_2010 Sargasso Sea‐
2005, Gulf of Mexico‐96‐
01, Artic Vir‐
2002, Dunk_Island_
TT, Fitzroy_Island
_F1 Porites compr
essa pH P.aster
oides 2012, A.hycin
thus 2012, A.mille
pora 2012 (Wood
‐
Charlso
n et al. 2015) Saltern mediu
m‐
11160
5 Saltern low‐
11160
5 Saltern high‐
11160
5 Tabla S3. Tabla obtenida del análisis taxónómico realizado por MEGAN en el que se muestra el número de secuencias asignadas a los diferentes niveles taxonómicos en función del tipo de metagenoma o en función de la esponja de procedencia. Archivo comparación_comparación_metagenomas_taxon_path_counts.xlsx. 35
Tabla S4. Genes codificantes de proteínas predichos en los contigs 5209, 5217 y 5220. Inicio (nt) Fin (nt) Gene 1 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 Gene 7 Gene 8 Gene 9 Gene 10 Gene 11 Gene 12 Gene 13 5217 (20,328 pb) Hebra Size aa PFAM Annotation from the best hit E‐value 1386 + 461 PF03406.8 Phage_fiber_2 0.00026 1386 1947 2229 2891 3408 4190 4761 5422 6644 7583 8161 9568 1943 2225 2882 3406 4178 4477 5417 6012 7354 8164 9372 23397 +
+
+
185
92
217
PF07880.6
PF05792.8
PF07484.7
PF03335.8
PF09726.4
T4_gp9_10 Candida_ALS Collar
Phage_fiber Macoilin
3.4e‐10
0.0022
8.3e‐08
9,00E‐07
0.015
+
+
171
256
PF11851.3
PF02649.9
PF06333.7
PF12238.3
PF03058.9
PF03153.8
DUF3371
GCHY‐1
Med13_C
MSA‐2c
Sar8_2
TFIIA
0.01
6.4e‐05
0.0095
8.7
0.00078
0.024
+
+
‐
+
95
218
196
236
PF02799.10
PF01051.16
NMT_C
Rep_3
6.5e‐05
2.1e‐65
+
+
193
403
+
4609
Gene 14 Gene 15 Gene 16 Gene 17 23368 23948 24519 24891 23829 24217 24806 25682 ‐
153
PF06628.7
PF02724.9
PF12722.2
PF13401.1
PF00270.24
PF06584.8
PF07669.6
PF00271.26
PF13659.1
PF11458.3
PF05175.9
PF04851.10
PF00176.18
PF07794.6
PF12844.2
PF13443.1
PF01381.17
PF13560.1
PF13744.1
PF07022.8
Catalase‐rel CDC45
Hid1
AAA_22
DEAD
DIRP
Eco57I
Helicase_C Methyltransf_26 Mistic
MTS
ResIII
SNF2_N
DUF1633
HTH_19
HTH_26
HTH_3
HTH_31
HTH_37
Phage_CI_repr 3.5e‐05
5.1
0.0081
0.00017
4.6e‐06
0.021
2.7e‐12
1.1e‐07
3.8e‐20
5.4e‐05
7.7e‐07
2.1e‐12
2,00E‐15
0.00016
5.8e‐08
5.1e‐10
1.8e‐05
6,00E‐07
2.4e‐06
3.5e‐05
+
‐
‐
89
95
263
PF13610.1
PF01610.12
PF10551.4
PF00872.13
DDE_Tnp_IS240 DDE_Tnp_ISL3 MULE
Transposase_mut 5.5e‐05
2.3e‐09
2,00E‐15
3.7e‐89
Gen 1 496 681 ‐ 61 PF11195.3 DUF2829 3.7e‐13 PF09684.5
Tail_P2_I
2.1e‐05
Contig No ORF 5209 (25,682 pb) 36
Gen 2 Gen 3 Gen 4 Gen 5 Gen 6 Gen 7 Gen 8 Gen 9 Gen 10 Gen 11 Gen 12 Gen 13 Gen 14 Gen 15 Gen 16 Gen 17 1748 1903 2955 3968 4651 6831 7010 7373 8820 9454 9845 10114 10412 11201 11746 13167 1906 2934 3965 4306 6834 7010 7366 8848 9221 9714 10090 10401 11149 11704 12816 14144 ‐
‐
‐
52
343
336
‐
‐
‐
‐
‐
‐
‐
+
‐
112
727
59
118
491
133
86
81
95
‐
‐
‐
245
167
356
+
325
Gen 18 Gen 19 14730 14975 15082 15354 ‐
‐
81
90
Gen 20 15389 15613 ‐ 74 Gen 21 Gen 22 Gen 23 Gen24 15616 15844 16331 16915 ‐
‐
‐
74
167
191
‐
Gen 25 17852 18481 Gen 26 Gen 27 15840 16347 16906 17643 18490 18921 19011 20078 PF02607.12
PF04632.7
PF02686.10
PF07200.8
PF02304.10
PF07830.8
PF02840.10
B12‐binding_2 FUSC
Glu‐tRNAGln Mod_r
Phage_B
PP2C_C
Prp18
5.3e‐05
2.2
0.0048
3.3e‐05
0.17
0.0029
0.019
PF03938.9
PF11042.3
OmpH
DUF2750
0.13
1.3e‐05
PF03237.10
PF11728.3
Terminase_6 DUF939_C
3.2e‐09
8.7e‐05
PF06074.7
PF00126.22
PF12728.2
PF12844.2
PF13384.1
PF13443.1
PF13518.1
PF01381.17
PF13560.1
PF13744.1
PF02954.14
PF00376.18
PF05930.7
PF09035.5
DUF935
HTH_1
HTH_17
HTH_19
HTH_23
HTH_26
HTH_28
HTH_3
HTH_31
HTH_37
HTH_8
MerR
Phage_AlpA Tn916‐Xis
0.00015
0.00016
2.8e‐08
1.1e‐11
4.2e‐06
3,00E‐07
2.2e‐05
2.4e‐12
9.3e‐07
1.6e‐05
7.5e‐07
5.9e‐05
0.0001
4.1e‐05
PF07728.9
PF06406.6
PF01968.13
PF00589.17
PF02899.12
PF14659.1
PF13495.1
AAA_5
StbA
Hydantoinase_A Phage_integrase Phage_int_SAM_1 Phage_int_SAM_3 Phage_int_SAM_4 6.9e‐05
2.4e‐22
1.2e‐05
3.2e‐16
1.1e‐09
2.5e‐05
4.2e‐06
PF14226.1
PF05715.8
DIOX_N
zf‐piccolo
1.2e‐05
0.00032
242
PF09701.5
PF09731.4
PF01047.17
Cas_Cmr5
Mitofilin
MarR
2.1e‐05
6.2e‐05
6.5e‐05
+ 209 PF12844.2 HTH_19 1.5e‐05 PF13443.1 PF01381.17
PF13560.1
PF13744.1
PF00717.18
HTH_26
HTH_3
HTH_31
HTH_37
Peptidase_S24 8.2e‐10
2.1e‐10
4.8e‐10
0.00023
0.00018
PF01610.12
DDE_Tnp_ISL3 1,00E‐08
+
+
143
356
37
5220 (12,048 pb) Gen 1 1492 2382 + Gen 2 Gen 3 Gen 4 Gen 5 Gen 6 2570 5568 5781 6446 6718 2830 5768 6452 6718 6984 Gen 7 Gen 8 Gen 9 7134 10019 10012 10968 10965 12048 PF10551.4
PF00872.13
MULE
Transposase_mut 1.5e‐14
8.2e‐119
296 PF04986.8 Y2_Tnp 6.6e‐56 +
86
PF11195.3
PF09684.5
DUF2829
Tail_P2_I
4.6e‐27
1.4e‐05
+
+
‐
66
223
90
‐
88
PF02514.11
PF00630.14
PF05016.9
PF00598.14
PF01402.16
CobN‐Mg_chel Filamin
Plasmid_stabil Flu_M1
RHH_1
3.6e‐05
3.3e‐05
5.8e‐21
2.2e‐05
3.1e‐07
+
+
961
318
+
361
PF13799.1
PF03906.9
PF04582.7
PF07880.6
PF03406.8
DUF4183
Phage_T7_tail Reo_sigmaC T4_gp9_10 Phage_fiber_2 2.1e‐05
1.9e‐05
6,00E‐05
4.5e‐0
0.00012
Archivos adjuntos: ‐
mmgenome.R: Código en R utilizado para la extracción de genomas individuales a partir de muestras complejas de metaviromas, adaptado del método utilizado por Albertsen et al. (2013) 38