Document related concepts
Transcript
Thomas Risse Resumen de la ponencia La web se ha consolidado como soporte de comunicación e información en todo el mundo. Las nuevas tecnologías amplían constantemente su uso y permiten, asimismo, que usuarios sin experiencia puedan publicar contenido o contribuir en debates. Por lo tanto, se considera que la web es una buena fuente de documentación de la sociedad actual y el archivo y la conservación web se han convertido en una necesidad cultural para conservar el conocimiento. Precisamente, este es el caso de las publicaciones digitales no tradicionales, como las redes sociales, los espacios de colaboración o los libros de laboratorio digitales. El reto que plantean las nuevas formas de publicación es que puede haber una falta de alineación entre lo que las instituciones consideran que vale la pena conservar, lo que los propietarios ven como valor actual y el incentivo para conservar junto con la rapidez a la que deben tomarse las decisiones. Para las publicaciones efímeras como las de la web, a menudo esta falta de alineación da lugar a pérdidas irreparables. Dada la inmensa cantidad de información digital creada y esta situación de incerteza, uno de los primeros pasos que debería darse es poder responder con rapidez, aunque sea de forma preliminar, por la creación oportuna de archivos, con un gasto general mínimo que permita acciones de conservación más costosas más adelante. Un factor fundamental para permitir una nueva generación de archivos web son las arañas web (también conocidas como rastreadores o crawlers). Las arañas web son programas complejos que, sin embargo, implantan un proceso sencillo: seguir enlaces y recuperar páginas web. Junto a la recolección clásica orientada a dominios, se puede observar un interés creciente por los sistemas de rastreo actuales y su estudio desde disciplinas científicas diferentes. La tecnología web actual de crawlers se inspira o se basa principalmente en crawlers para motores de búsqueda. Por eso, tienen una idea limitada o nula sobre el contexto de temas, entidades, eventos o la web social. En esta ponencia nos gustaría presentar la arquitectura de un nuevo tipo de crawler que analizará y extraerá el rico tejido social de la web social para encontrar indicios que nos ayuden a decidir qué es lo que se debe conservar (basándonos en el reflejo que generan en la web social), para contextualizar el contenido de los archivos digitales a partir de su contexto en la web social y determinar la mejor manera de conservar dicho contexto. Además de la estrategia con crawlers, abordaremos algunos de los retos que plantean las nuevas tecnologías, como el JavaScript o los objetos incrustados. Debido a que la comunidad de archivos web tan solo ha realizado una primera aproximación a las cuestiones de rastreo y conservación de contenido web, el uso de archivos web está todavía en sus inicios. No obstante, numerosas disciplinas como las ciencias sociales, la ciencia histórica y el derecho, así como el periodismo o el marketing, muestran cada vez más interés por el uso de archivos web. En la segunda parte de la ponencia comentaremos algunos escenarios de uso y limitaciones de las herramientas existentes. Asimismo, repasaremos el trabajo de investigación actual que se lleva a cabo en el contexto de la subvención Alexandria del Consejo Europeo de Investigación (ERC 339233), que tiene por objeto desarrollar modelos, herramientas y técnicas necesarias para explorar y analizar archivos web a través del tiempo de una forma significativa.