Download Linked Data

Document related concepts
Transcript
Desafíos en Accesibilidad a
la Información
Loreto Bravo
Universidad de Concepción
Asimetrías de Información
z El consejo de innovación de Chile ha destacado:
{ Es necesario pasar de una economía basada en recursos naturales
a una basada en conocimiento e innovación
{ Un obstáculo para conseguirlo son las fallas de información. En
particular:
ª Asimetrías de información: problema encontrado en una transacción
donde una parte tiene más o mejor información que otros.
{ Sugieren como solución:
z generación de la información
z publicación de la información
Bases de Datos II, 2012
2
Qué se ha hecho?
z Ley sobre documentos electrónicos, firma electrónica y servicios de
certificación de dicha firma (N°19.799, 2002)
z Ley de Transparencia (2009)
{ Reparticiones de gobierno deben publicar sus datos en la Web
Bases de Datos II, 2012
3
Datos Públicos en Chile
z
z
z
z
z
z
z
z
z
z
z
z
z
z
Biblioteca del Congreso Nacional
Congreso Nacional
Senado de Chile
Cámara de Diputados
Gobierno de Chile
Diario Legislativo Oficial
INE
Servicio de Aduanas
Dirección del trabajo
Banco Central
Ministerio de Hacienda
CORFO
Municipalidades
Superintendencia de Valores y Seguros
z
z
z
z
z
z
z
z
z
z
z
z
z
SERNAC
Ministerio de Educación
Ministerio de Salud
CONICYT
Superintendencia de Salud
FONASA
ISAPRES
Subtel
Servicio Electoral
CONAF
SERNATUR
Instituto Geográfico Militar
Transantiago
z Y muchos más!
Bases de Datos II, 2012
4
Datos Públicos en Chile
z Hay un creciente volumen de información que comienza
a estar formalmente disponible
z Sin embargo, para que sea realmente accesible debe
ser posible:
{ localizar
{ consultar
{ agregar
{ navegar
z Esto se ve dificultado en la situación actual por:
{ heterogeneidad de los formatos de datos
{ diferentes modelos de datos
{ grandes volúmenes de información
Bases de Datos II, 2012
5
Congreso de Estudiantes, UBB
6
Buscando en la Web
z Busqueda por palabras claves
z Palabras claves + estructura
{ site:
{ filetype:
{ define:
{ intitle:
colores filetype:ppt site:.cl
Bases de Datos II, 2012
7
Buscando en la Web
z Cual es la correlación entre partido político y voto a favor
de proyectos de ley medioambientales?
z Cual es la relación a lo largo del tiempo de la tasa de
interés fijada por el banco central y la utilizada en los
bancos?
z Dado un código de un examen de salud y mi sueldo: que
plan de salud me da una mejor cobertura?
Bases de Datos II, 2012
8
Dificultad: heterogeneidad de datos
Congreso de Estudiantes, UBB
9
Dificultad: estructura de la web
menos estructurado
<comida>
<nombre> Pavo A </nombre>
<ingredientes>
<ingrediente>1 Pavo</ingrediente>
<ingrediente>tomillo</ingrediente>
<ingrediente>jugo de limon</ingrediente>
</ingredientes>
<preparacion>
…
</preparacion>
</comida>
Ingredientes
Comida
Recetas
Ingrediente
Comida
Pavo A
1 Pavo
Pavo A
Pavo A
Tomillo
Pavo A
Jugo limon
Preparacion
…
Congreso de Estudiantes, UBB
más estructurado
10
Dificultad: grandes volumenes de
información
web superficial
web profunda
Bases de Datos II, 2012
11
Dificultad: distintos tipos de usuario
Bases de Datos II, 2012
12
Dificultad: semántica
z Qué significa cada uno de los elementos de la tabla?
z "IPM General Variación Porcentual"="Ipm gral-var." ?
Bases de Datos II, 2012
13
Dificultad: semántica
z Qué significan los códigos?
z Qué unidades corresponden a los distintos montos?
Bases de Datos II, 2012
14
Qué se puede hacer?
z Muchos de estos problemas ya han sido investigados en
forma aislada en el área de bases de datos y manejo de
información
z Sin embargo, el problema actual es a una escala,
heterogeneidad y descentralización que no ha sido
enfrentado antes
Bases de Datos II, 2012
15
Publicación de datos
z Publicar, hoy en día, no tiene ninguna regulación
{ Solo los protocolos básicos de la Web (HTML, HTTP, URL)
{ Recíen el 26 de Marzo del 2012 surgió una propuesta:
z “Consulta pública Propuesta de Norma Técnica para
Publicación de Datos en Chile”
z Este problema puede (y debe!) ser tratado en forma
sistemática
z Es necesario crear estándares para:
{ publicar
{ protocolos de acceso
{ políticas de acceso
{ metadatos para guardar información de procedencia, uso y
contenido
Bases de Datos II, 2012
16
Vinculación de datos
z Con la aparición de la Internet la información comenzó a
ser una colección de islas de documentos y servicios
conectados por enlaces sin semántica
z Los primeros pasos hacia convertir la Web en una
fuente de datos usables por aplicaciones es el enlace de
datos en la Web con semántica entendible
{ Ejemplo: RDFa
All content on this site is licensed under <a rel="license"
href="http://creativecommons.org/licenses/by/3.0/"> a
Creative Commons License </a>.
z Se necesita más: poder vincular datos no solo paginas!
{ Ejemplo: linked data
Bases de Datos II, 2012
17
Consultas a los datos
z La noción de consultar y obtener respuestas lógicas es
el estándar en el campo de base de datos, pero no en la
Web.
z En la Web, no existe una forma de preguntar consultas
estructuradas y lógicas a las fuentes de datos
{ Proveedores que tienen contratos sobre MM$10 con el
Ministerio de Salud?
z Los datos están disponibles, pero
• En distintas localizaciones
• En formatos tan diversos que hacen imposible cualquier procesamiento
directo
z Posible solución: contratar a un programador para escribir los
scripts adecuados, construir una base de datos común, y un
lenguaje como SQL para consulta
Bases de Datos II, 2012
18
Consultas a los datos
z La navegación a través de los datos es un compañero
necesario a la consulta.
{ Para las fuentes de datos chilenas, esta es la forma de
alcanzar los datos.
z El problema de consultar/navegar no es simple!
{ La investigación en lenguajes de consulta como XQuery y
SPARQL ha mostrado que no es imposible
z La solución no esta allí aun, pero abren el camino...
Bases de Datos II, 2012
19
Integración de datos
z Si se quiere que la información este realmente
disponible a un usuario común, integración es una meta
inevitable y crucial.
{ Por ejemplo, información acerca de estudiantes de escuelas
básicas y el sueldo por familia del Ministerio de Educación
son necesarios en un proyecto de conectividad en la Agencia
de Telecomunicación.
z Muchas veces es necesario:
{ Tener una vista común
{ Tener una forma común de consulta
{ Agregar datos
z eficiencia en servidores
z necesidades del usuario, etc
{ Transferir datos de un esquema a otro
Bases de Datos II, 2012
20
Qué se ha hecho?
z Existen varios proyectos que han tratado de atacar
algunos de estos problemas:
{ Publicación/Vinculación
z Linked data (Datos Vinculados)
z Freebase
• Ley de transparencia en Chile
z RDFa
z…
{ Consulta/Integración
z Técnicas tradicionales de integración de datos
z Dataspaces
z APIs
z Lenguajes de consultas para grafos
z…
Bases de Datos II, 2012
21
Linked Data
z Surge dentro de la Web semántica
z Tiene cuatro principios (definidos por Tim Berners-Lee)
{ Utilizar URIs para identificar los recursos publicados en la
Web
{ Utiliza HTTP URIs para que la gente pueda localizar y
consultar estos recursos.
{ Cuando alguien busque una URI, proporciona información útil
utilizando algún estándar (RDF)
{ Incluir enlaces a otras URI de forma que se potencie el
descubrimiento de información en la Web.
z Presentación en TED:
http://www.youtube.com/watch?v=UUpw-7_SWds
Bases de Datos II, 2012
22
Linked data
z Información de los recursos se presenta usando el
modelo de datos de RDF (resource description
framework)
{ Basado en tripletes (sujeto-predicado-obecto)
z Subject: http://data.linkedmdb.org/resource/film/77
z Predicate: http://www.w3.org/2002/07/owl#sameAs
z Object: http://dbpedia.org/resource/Pulp_Fiction_%28film%29
owl:sameAs
77
Pulp Fiction
Bases de Datos II, 2012
23
Navegando Linked Data
z http://dbpedia.org/page/Concepci%C3%B3n,_Chile
Congreso de Estudiantes, UBB
24
Navegando Linked Data
z El URI de Concepción en la dbpedia es:
{ http://dbpedia.org/page/Concepci%C3%B3n,_Chile
{ Al acceder ese link el servidor identifica el formato requerido y
redirecciona al documento correcto para representar esos datos:
z html (por ejemplo si la solicitud viene de un navegador)
• Lo que vemos al hacer click a http://dbpedia.org/page/Concepci%C3%B3n,_Chile
z n3 (rdf)
• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.n3
z ttl (rdf)
• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.ttl
z Y otros…
•
•
•
•
•
•
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.nt
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.xml
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.atom
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.json
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jrdf
http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jsod
25
Navegando Linked Data
z Se puede recorrer siguiendo los links de source, target o predicate
26
Linked Data
z Los datos organizados de esa manera pueden ser
explorados y procesados directamente por
computadoras
{ ya no estan dentro de documentos en donde su significado,
utilización, formato, relaciones, etcétera, no son visibles para
motores de búsqueda o aplicaciones de computadora.
Bases de Datos II, 2012
27
Como generar Linked data
1. Desde cero…
2. Utilizando herramientas para RDFizar desde otros
formatos
3. Utilizando herramientas que genera vistas en Linked
data para bases de datos relacionales
{ Ej: D2R
4. Wrappers para envolver APIs
Bases de Datos II, 2012
28
Mayo 2007
Bases de Datos II, 2012
29
Abril 2008
Congreso de Estudiantes, UBB
30
Julio 2009
z 4.7 billiones de tripletes RDF vinculados por 142 million de links
Congreso de Estudiantes, UBB
31
Septiembre 2011
Linking Open Data cloud
diagram, by Richard
Cyganiak and Anja Jentzsch.
http://lod-cloud.net/
Septiembre 2011
Distribución de tripletas
por dominio
Distribución de links por
dominio
Bases de Datos II, 2012
33
Consultando Linked Data
z Lenguaje de consulta para RDF: SPARQL
{ Recomendación de la W3C desde Enero 2008
{ Tan expresiva como algebra relacional
z No permite aprovecharnos de la estructura de grafo de linked
data
z Mejor que no tener lenguaje de consulta!
Bases de Datos II, 2012
34
Freebase (http://www.freebase.com)
z "Base de datos abierta, compartida con el conocimiento del mundo"
z Esquema es fijo y al igual que linked data, los datos son guardados
como un grafo
z Construida por la gente
z Tiene un lenguaje de consulta MQL (Metaweb Query Language)
z Freebase es una empresa que genera ingresos a través de
publicidad en su sitio.
{ En el futuro esperan también tener ingresos ordenando datos
propietarios
Bases de Datos II, 2012
35
Esquemas en Freebase
z http://schemas.freebaseapps.com/
z Mas de 37 millones de temas
z Cada tema tiene tipos y propiedades
{ Si se quiere ver como una base de datos relacional cada tipo es una tabla
z Ejemplo: http://www.freebase.com/music/album
{ tema: /music
{ Tipo: /music/album
{ Propiedad; Artist
Congreso de Estudiantes, UBB
36
Lenguaje de consulta Freebase
z MQL
{ Metaweb Query Language
{ Ejemplo de consulta con API:
z https://www.googleapis.com/freebase/v1/mqlread?query={"type"
:"/music/artist","name":“Los Tres","album":[]}
{ Para consumo humano se puede usar el link:
z http://www.freebase.com/query
Bases de Datos II, 2012
37
Freebase
z Los datos pueden ser accedidos a través de
{ API: utilizando lenguaje de consulta MQL
{ puntos RDF: entregan los datos en formato linked data
{ Volcado de una base de datos (database dump)
Bases de Datos II, 2012
38
Web de datos vs Web de documentos
Congreso de Estudiantes, UBB
39
Desafío
Hacer este mundo de datos accesible a
todos y procesable por todos, de la
forma como las maquinas de búsqueda
y los navegadores lo hicieron con el
mundo de documentos.
Bases de Datos II, 2012
40
Desafíos en Accesibilidad a
la Información
Loreto Bravo
Universidad de Concepción