Download Linked Data
Document related concepts
Transcript
Desafíos en Accesibilidad a la Información Loreto Bravo Universidad de Concepción Asimetrías de Información z El consejo de innovación de Chile ha destacado: { Es necesario pasar de una economía basada en recursos naturales a una basada en conocimiento e innovación { Un obstáculo para conseguirlo son las fallas de información. En particular: ª Asimetrías de información: problema encontrado en una transacción donde una parte tiene más o mejor información que otros. { Sugieren como solución: z generación de la información z publicación de la información Bases de Datos II, 2012 2 Qué se ha hecho? z Ley sobre documentos electrónicos, firma electrónica y servicios de certificación de dicha firma (N°19.799, 2002) z Ley de Transparencia (2009) { Reparticiones de gobierno deben publicar sus datos en la Web Bases de Datos II, 2012 3 Datos Públicos en Chile z z z z z z z z z z z z z z Biblioteca del Congreso Nacional Congreso Nacional Senado de Chile Cámara de Diputados Gobierno de Chile Diario Legislativo Oficial INE Servicio de Aduanas Dirección del trabajo Banco Central Ministerio de Hacienda CORFO Municipalidades Superintendencia de Valores y Seguros z z z z z z z z z z z z z SERNAC Ministerio de Educación Ministerio de Salud CONICYT Superintendencia de Salud FONASA ISAPRES Subtel Servicio Electoral CONAF SERNATUR Instituto Geográfico Militar Transantiago z Y muchos más! Bases de Datos II, 2012 4 Datos Públicos en Chile z Hay un creciente volumen de información que comienza a estar formalmente disponible z Sin embargo, para que sea realmente accesible debe ser posible: { localizar { consultar { agregar { navegar z Esto se ve dificultado en la situación actual por: { heterogeneidad de los formatos de datos { diferentes modelos de datos { grandes volúmenes de información Bases de Datos II, 2012 5 Congreso de Estudiantes, UBB 6 Buscando en la Web z Busqueda por palabras claves z Palabras claves + estructura { site: { filetype: { define: { intitle: colores filetype:ppt site:.cl Bases de Datos II, 2012 7 Buscando en la Web z Cual es la correlación entre partido político y voto a favor de proyectos de ley medioambientales? z Cual es la relación a lo largo del tiempo de la tasa de interés fijada por el banco central y la utilizada en los bancos? z Dado un código de un examen de salud y mi sueldo: que plan de salud me da una mejor cobertura? Bases de Datos II, 2012 8 Dificultad: heterogeneidad de datos Congreso de Estudiantes, UBB 9 Dificultad: estructura de la web menos estructurado <comida> <nombre> Pavo A </nombre> <ingredientes> <ingrediente>1 Pavo</ingrediente> <ingrediente>tomillo</ingrediente> <ingrediente>jugo de limon</ingrediente> </ingredientes> <preparacion> … </preparacion> </comida> Ingredientes Comida Recetas Ingrediente Comida Pavo A 1 Pavo Pavo A Pavo A Tomillo Pavo A Jugo limon Preparacion … Congreso de Estudiantes, UBB más estructurado 10 Dificultad: grandes volumenes de información web superficial web profunda Bases de Datos II, 2012 11 Dificultad: distintos tipos de usuario Bases de Datos II, 2012 12 Dificultad: semántica z Qué significa cada uno de los elementos de la tabla? z "IPM General Variación Porcentual"="Ipm gral-var." ? Bases de Datos II, 2012 13 Dificultad: semántica z Qué significan los códigos? z Qué unidades corresponden a los distintos montos? Bases de Datos II, 2012 14 Qué se puede hacer? z Muchos de estos problemas ya han sido investigados en forma aislada en el área de bases de datos y manejo de información z Sin embargo, el problema actual es a una escala, heterogeneidad y descentralización que no ha sido enfrentado antes Bases de Datos II, 2012 15 Publicación de datos z Publicar, hoy en día, no tiene ninguna regulación { Solo los protocolos básicos de la Web (HTML, HTTP, URL) { Recíen el 26 de Marzo del 2012 surgió una propuesta: z “Consulta pública Propuesta de Norma Técnica para Publicación de Datos en Chile” z Este problema puede (y debe!) ser tratado en forma sistemática z Es necesario crear estándares para: { publicar { protocolos de acceso { políticas de acceso { metadatos para guardar información de procedencia, uso y contenido Bases de Datos II, 2012 16 Vinculación de datos z Con la aparición de la Internet la información comenzó a ser una colección de islas de documentos y servicios conectados por enlaces sin semántica z Los primeros pasos hacia convertir la Web en una fuente de datos usables por aplicaciones es el enlace de datos en la Web con semántica entendible { Ejemplo: RDFa All content on this site is licensed under <a rel="license" href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License </a>. z Se necesita más: poder vincular datos no solo paginas! { Ejemplo: linked data Bases de Datos II, 2012 17 Consultas a los datos z La noción de consultar y obtener respuestas lógicas es el estándar en el campo de base de datos, pero no en la Web. z En la Web, no existe una forma de preguntar consultas estructuradas y lógicas a las fuentes de datos { Proveedores que tienen contratos sobre MM$10 con el Ministerio de Salud? z Los datos están disponibles, pero • En distintas localizaciones • En formatos tan diversos que hacen imposible cualquier procesamiento directo z Posible solución: contratar a un programador para escribir los scripts adecuados, construir una base de datos común, y un lenguaje como SQL para consulta Bases de Datos II, 2012 18 Consultas a los datos z La navegación a través de los datos es un compañero necesario a la consulta. { Para las fuentes de datos chilenas, esta es la forma de alcanzar los datos. z El problema de consultar/navegar no es simple! { La investigación en lenguajes de consulta como XQuery y SPARQL ha mostrado que no es imposible z La solución no esta allí aun, pero abren el camino... Bases de Datos II, 2012 19 Integración de datos z Si se quiere que la información este realmente disponible a un usuario común, integración es una meta inevitable y crucial. { Por ejemplo, información acerca de estudiantes de escuelas básicas y el sueldo por familia del Ministerio de Educación son necesarios en un proyecto de conectividad en la Agencia de Telecomunicación. z Muchas veces es necesario: { Tener una vista común { Tener una forma común de consulta { Agregar datos z eficiencia en servidores z necesidades del usuario, etc { Transferir datos de un esquema a otro Bases de Datos II, 2012 20 Qué se ha hecho? z Existen varios proyectos que han tratado de atacar algunos de estos problemas: { Publicación/Vinculación z Linked data (Datos Vinculados) z Freebase • Ley de transparencia en Chile z RDFa z… { Consulta/Integración z Técnicas tradicionales de integración de datos z Dataspaces z APIs z Lenguajes de consultas para grafos z… Bases de Datos II, 2012 21 Linked Data z Surge dentro de la Web semántica z Tiene cuatro principios (definidos por Tim Berners-Lee) { Utilizar URIs para identificar los recursos publicados en la Web { Utiliza HTTP URIs para que la gente pueda localizar y consultar estos recursos. { Cuando alguien busque una URI, proporciona información útil utilizando algún estándar (RDF) { Incluir enlaces a otras URI de forma que se potencie el descubrimiento de información en la Web. z Presentación en TED: http://www.youtube.com/watch?v=UUpw-7_SWds Bases de Datos II, 2012 22 Linked data z Información de los recursos se presenta usando el modelo de datos de RDF (resource description framework) { Basado en tripletes (sujeto-predicado-obecto) z Subject: http://data.linkedmdb.org/resource/film/77 z Predicate: http://www.w3.org/2002/07/owl#sameAs z Object: http://dbpedia.org/resource/Pulp_Fiction_%28film%29 owl:sameAs 77 Pulp Fiction Bases de Datos II, 2012 23 Navegando Linked Data z http://dbpedia.org/page/Concepci%C3%B3n,_Chile Congreso de Estudiantes, UBB 24 Navegando Linked Data z El URI de Concepción en la dbpedia es: { http://dbpedia.org/page/Concepci%C3%B3n,_Chile { Al acceder ese link el servidor identifica el formato requerido y redirecciona al documento correcto para representar esos datos: z html (por ejemplo si la solicitud viene de un navegador) • Lo que vemos al hacer click a http://dbpedia.org/page/Concepci%C3%B3n,_Chile z n3 (rdf) • http://dbpedia.org/data/Concepci%C3%B3n,_Chile.n3 z ttl (rdf) • http://dbpedia.org/data/Concepci%C3%B3n,_Chile.ttl z Y otros… • • • • • • http://dbpedia.org/data/Concepci%C3%B3n,_Chile.nt http://dbpedia.org/data/Concepci%C3%B3n,_Chile.xml http://dbpedia.org/data/Concepci%C3%B3n,_Chile.atom http://dbpedia.org/data/Concepci%C3%B3n,_Chile.json http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jrdf http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jsod 25 Navegando Linked Data z Se puede recorrer siguiendo los links de source, target o predicate 26 Linked Data z Los datos organizados de esa manera pueden ser explorados y procesados directamente por computadoras { ya no estan dentro de documentos en donde su significado, utilización, formato, relaciones, etcétera, no son visibles para motores de búsqueda o aplicaciones de computadora. Bases de Datos II, 2012 27 Como generar Linked data 1. Desde cero… 2. Utilizando herramientas para RDFizar desde otros formatos 3. Utilizando herramientas que genera vistas en Linked data para bases de datos relacionales { Ej: D2R 4. Wrappers para envolver APIs Bases de Datos II, 2012 28 Mayo 2007 Bases de Datos II, 2012 29 Abril 2008 Congreso de Estudiantes, UBB 30 Julio 2009 z 4.7 billiones de tripletes RDF vinculados por 142 million de links Congreso de Estudiantes, UBB 31 Septiembre 2011 Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ Septiembre 2011 Distribución de tripletas por dominio Distribución de links por dominio Bases de Datos II, 2012 33 Consultando Linked Data z Lenguaje de consulta para RDF: SPARQL { Recomendación de la W3C desde Enero 2008 { Tan expresiva como algebra relacional z No permite aprovecharnos de la estructura de grafo de linked data z Mejor que no tener lenguaje de consulta! Bases de Datos II, 2012 34 Freebase (http://www.freebase.com) z "Base de datos abierta, compartida con el conocimiento del mundo" z Esquema es fijo y al igual que linked data, los datos son guardados como un grafo z Construida por la gente z Tiene un lenguaje de consulta MQL (Metaweb Query Language) z Freebase es una empresa que genera ingresos a través de publicidad en su sitio. { En el futuro esperan también tener ingresos ordenando datos propietarios Bases de Datos II, 2012 35 Esquemas en Freebase z http://schemas.freebaseapps.com/ z Mas de 37 millones de temas z Cada tema tiene tipos y propiedades { Si se quiere ver como una base de datos relacional cada tipo es una tabla z Ejemplo: http://www.freebase.com/music/album { tema: /music { Tipo: /music/album { Propiedad; Artist Congreso de Estudiantes, UBB 36 Lenguaje de consulta Freebase z MQL { Metaweb Query Language { Ejemplo de consulta con API: z https://www.googleapis.com/freebase/v1/mqlread?query={"type" :"/music/artist","name":“Los Tres","album":[]} { Para consumo humano se puede usar el link: z http://www.freebase.com/query Bases de Datos II, 2012 37 Freebase z Los datos pueden ser accedidos a través de { API: utilizando lenguaje de consulta MQL { puntos RDF: entregan los datos en formato linked data { Volcado de una base de datos (database dump) Bases de Datos II, 2012 38 Web de datos vs Web de documentos Congreso de Estudiantes, UBB 39 Desafío Hacer este mundo de datos accesible a todos y procesable por todos, de la forma como las maquinas de búsqueda y los navegadores lo hicieron con el mundo de documentos. Bases de Datos II, 2012 40 Desafíos en Accesibilidad a la Información Loreto Bravo Universidad de Concepción