Download data warehouse para la prestación del servicio público de

Document related concepts

Data mart wikipedia , lookup

Big data wikipedia , lookup

SAP HANA wikipedia , lookup

Administrador de base de datos wikipedia , lookup

Sistemas de información ejecutiva wikipedia , lookup

Transcript
147
DATA WAREHOUSE PARA LA PRESTACIÓN DEL
SERVICIO PÚBLICO DE INFORMACIÓN
ESTADÍSTICA
RICARDO LUJÁN SALAZAR
INSTITUTO NACIONAL DE ESTADÍSTICA, GEOGRAFÍA E INFORMÁTICA (INEGI)
MÉXICO
148
Data warehouse para la prestación...
ÍNDICE
Página
Resumen ......................................................................................................................................... 149
1.
Planteamiento....................................................................................................................... 149
2.
Acerca del Proyecto ............................................................................................................. 150
Objetivos............................................................................................................................... 150
Investigación de proyectos similares .................................................................................... 150
En qué consiste el proyecto .................................................................................................. 150
3.
Arquitectura de Información ................................................................................................ 151
Arquitectura de datos............................................................................................................ 151
Arquitectura de aplicaciones................................................................................................. 152
Arquitectura técnica.............................................................................................................. 152
4.
Contenido ............................................................................................................................. 152
5.
Desarrollo del Proyecto........................................................................................................ 153
Extracción, transformación y carga ...................................................................................... 153
Almacén de datos (data warehouse) ..................................................................................... 153
Mercado de datos (data marts).............................................................................................. 153
Herramientas de acceso ........................................................................................................ 153
Metadatos.............................................................................................................................. 155
Conclusiones................................................................................................................................... 155
Data warehouse para la prestación...
149
Resumen
El Instituto Nacional de Estadística, Geografía e Informática (INEGI) tiene la responsabilidad de
coordinar los Sistemas Nacionales Estadístico y de Información Geográfica de México, además de
promover y orientar el desarrollo informático en el país.
Este proyecto consiste en aplicar las tecnologías de bases de datos y data warehousing en el desarrollo de
un almacén integrado de datos definitivos con información estadística obtenida de los programas de
censos nacionales, encuestas y registros administrativos para la elaboración de productos, la toma de
decisiones y la planeación facilitando que el personal del Instituto pueda atender con mayor oportunidad
los requerimientos de información de los usuarios del INEGI en el marco del Sistema Nacional de
Información Estadística y Geográfica.
Palabras Claves: Información Estadística, censos, encuestas, bases de datos, data warehouse.
1. Planteamiento
El INEGI, como responsable de coordinar los Sistemas Nacionales Estadístico y de Información
Geográfica de México y de promover y orientar el desarrollo informático en el país ha incrementado de
forma sustantiva la capacidad de obtener y difundir información mediante la colaboración de personal
preparado profesionalmente, el uso de tecnología y su presencia en las 32 entidades federativas de la
República Mexicana.
Actualmente el INEGI cuenta con información proveniente de 56 distintos proyectos estadísticos, de los
cuales se tiene diferente control y flujo de información, lo que provoca las siguientes áreas de
oportunidad:
Concepto
Situación actual Área de oportunidad
Ubicación de Islas de
la información. información.
Única fuente de datos definitivos
con acceso distribuido mediante
aplicaciones independientes de la
base de datos.
Conocimiento Disperso en las Interpretación de la información
de la
áreas
asistida por metadatos y
información. generadoras.
documentación suficiente.
Congruencia Aparente
Obtener interpretaciones de los
de datos.
incongruencia datos considerando las
entre datos de características particulares de cada
distintas
evento.
fuentes.
Generación de Información
Información independiente de las
productos.
“amarrada” con aplicaciones.
las aplicaciones.
Aprovechamiento de la
información.
Parcial.
Total.
Dada esta situación se determinó la necesidad de aprovechar las tecnologías de data warehousing
(extracción, transformación y carga; bases de datos relacionales; bases de datos multidimensionales;
metadatos) para mejorar los procesos de generación y explotación de información estadística de modo que
la información esté disponible en línea de una manera ágil y entendible para quien lo requiera con el
objetivo de apoyar el servicio público de información estadística en beneficio de los diferentes sectores de
la sociedad mexicana.
150
Data warehouse para la prestación...
En el segundo trimestre del año 2002 se inició con el desarrollo de la primera etapa del proyecto que
comprendió el análisis, diseño y desarrollo de la base de datos para nueve proyectos estadísticos.
2. Acerca del Proyecto
Objetivos
•
Mejorar la oportunidad en la prestación del servicio público de información estadística.
•
Incrementar la confiabilidad de la información generada por el INEGI.
•
Lograr la satisfacción del cliente desarrollando nuevos y mejores servicios de información en
línea.
•
Faciltar el proceso de toma de decisiones basado en información estadística.
•
Reducir los costos de operación en el aprovechamiento de información.
Investigación de proyectos similares
Al inicio del proyecto y durante su desarrollo se ha mantenido un proceso de investigación permanente
para conocer y analizar proyectos de data warehouse en diferentes instituciones entre las que están:
•
Nacional Financiera
•
Banco de México
•
Comisión Federal de Electricidad
•
Buró de Censos de los EEUU
De esta forma se ha podido analizar las prácticas que han dado mejor resultado en estas instituciones para
aplicarlas en el proyecto.
En qué consiste el proyecto
Consiste en el análisis, diseño, desarrollo, implementación, mantenimiento y mejora continua del
repositorio de información estadística del país para consulta y análisis que permita a los usuarios tomar
mejores decisiones como parte del Sistema Nacional de Información Estadística y Geográfica.
Tiene tres elementos principales:
1. Procesos automáticos de extracción, transformación y carga para mantener la información
actualizada.
2.
Información (datos y metadatos)
•
Integrada
•
Validada
•
Documentada
•
Única
3. Facilidades de acceso a la base de datos desde cualquier punto de la red INEGI para la consulta,
explotación y análisis de la información.
El proyecto no se considera como un producto sino como un procedimiento para integrar y homogeneizar
la información proveniente de los proyectos de generación de información estadística, por lo que una
Data warehouse para la prestación...
151
parte esencial de su conceptualización es integrarlo en los procesos de generación de información
estadística, quedando entonces las etapas del proceso como sigue:
•
Planeación.
•
Diseño conceptual.
•
Diseño muestral.
•
Definición del procedimiento de captación y procesamiento.
•
Captación de la información.
•
Procesamiento.
•
Almacén de datos (data warehouse).
•
Presentación de resultados.
Entonces el almacén de datos o data warehouse estadístico se incorpora en el proceso convirtiéndose en
la fuente de datos única para la presentación de resultados que ahora no se limita a la generación de
publicaciones sino que además será la fuente de información para sistemas de consulta interna, desarrollo
de productos digitales comercializables y para el sitio del INEGI en Internet.
También es de gran utilidad este almacén de datos estadísticos como un insumo para la planeación, diseño
conceptual y diseño muestral de subsiguientes eventos estadísticos.
3. Arquitectura de Información
La arquitectura de información institucional considerada en el proyecto se compone de las arquitecturas
de datos, de aplicaciones y técnica.
Arquitectura de datos
Define el flujo de información desde los sistemas de captura y procesamiento de la información
estadística que a través de los procesos de extracción, transformación y carga se incorporan en la base de
datos relacional de información fuente y ésta a su vez es la fuente para información sumarizada y/o
consolidada. Todo esto apoyado en un repositorio de metadatos.
Interfaces de consulta
(Lenguajes, OLAP, etc.)
B.D. de consulta (estrella)
Metadatos
Base de datos
Relacional
(información a
nivel cuestionario)
Sistemas de generación de
Información estadística
152
Data warehouse para la prestación...
Arquitectura de aplicaciones
Define las relaciones del proceso del data warehouse estadístico con aplicaciones institucionales, entre las
que se encuentran:
!
Sistemas de procesamiento para generación de información estadística.
!
Sistema Integral Administrativo.
!
Sitio del INEGI en Internet.
!
Sistemas internos de consulta.
!
Sitios intranet.
!
Productos digitales comercializables.
Arquitectura técnica
Define la infraestructura de hardware que soporta el proyecto, dividida en cinco subsistemas:
!
Subsistema de seguridad.
!
Subsistema de bases de datos.
!
Subsistema de procesamiento.
!
Subsistema de aplicaciones.
!
Subsistema de almacenamiento.
4. Contenido
El proyecto tiene como objetivo abarcar toda la información estadística que genera el instituto y ser capaz
de conectarse a bases de datos generadas por otras instituciones.
Actualmente se tiene incorporados 11 eventos estadísticos en el proyecto:
•
XII Censo General de Población y Vivienda, 2000.
•
Censos Económicos 1999.
•
Estadística de Educación ciclo 1998-1999.
•
Encuesta sobre Seguridad y Orden Público 1998 a 2001.
•
Estadística de mortalidad 1985 a 2001.
•
Estadística de nacimientos 1985 a 2001.
•
Encuesta Nacional de Empleo Urbano 2001.
•
Encuesta Nacional de Ingreso Gasto de los Hogares 1996, 1998 y 2000.
•
Encuesta Industrial Mensual 1998 a 2002.
•
Censo de Población y Vivienda 1990.
•
Estadística de Comercio Exterior.
Y se tiene planeado continuar esta incorporación de proyectos, entre otros, con los siguientes:
•
Conteo de Población y Vivienda 1995.
Data warehouse para la prestación...
153
•
Censo Ejidal y de Comunidades Agrarias 2001 y 1991.
•
Censos Agropecuarios 1991.
•
Censos Económicos 1994.
•
Estadística de Cultura 1995-2001.
•
Estadística de Relaciones Laborales 1990-2001.
•
Estadística de Matrimonios y Divorcios 1985-2001.
•
Encuesta Nacional de Ingreso Gasto de los Hogares 2002.
5. Desarrollo del Proyecto
Extracción, transformación y carga
Son los módulos que cumplen la función de extraer la información de las fuentes de datos (dispersas y en
formatos varios) para cargarla en los modelos de base de datos previamente definidos.
Transformación de los datos
fuente
A
B
Filtros y carga
a la base de
datos
C
SERVIDOR
DTS – MS y SQL Loader - ORACLE
OWB - ORACLE
Almacén de datos (data warehouse)
Se compone de las bases de datos relacionales que contienen la información fuente (a nivel cuestionario)
de los proyectos estadísticos.
Actualmente se cuenta con la información de 11 proyectos estadísticos algunos de ellos con más de cien
millones de registros.
Mercados de datos (data marts)
Actualmente se realizan pruebas con diferentes diseños de modelos multidimensionales en esquema
estrella para los proyectos de censos de población y económicos.
Se pretende que estos modelos sean el primer contacto de los usuarios finales al consultar la información
estadística.
Herramientas de acceso
Debido a que se tiene una amplia diversidad de perfiles de usuario y necesidades de acceso, se ha definido
una gama de herramientas disponibles para extraer información de la base de datos.
154
Data warehouse para la prestación...
Análisis
estratégico
Análisis
táctico
Consultas
no planeadas
Programación
de reportes
Desarrollo
de aplicaciones
•
Oracle Discoverer
•
Excel
•
SQL
•
SQL
PL/SQL
•
Delphi
•
•
•
JSP
ASP
Herramientas
comerciales
Análisis
estratégico
Sistema de
Consulta en
•Intranet
•
Análisis
táctico
•
SCAI
Consultas
no planeadas
Programación
de reportes
Desarrollo
de aplicaciones
Desarrollos
INEGI
Data warehouse para la prestación...
Análisis
estratégico
Análisis
táctico
155
•
SAS
•
SPSS
Consultas
no planeadas
Programación
de reportes
Desarrollo
de aplicaciones
Herramientas
estadísticas
Metadatos
Por las características del proyecto es necesario poner especial atención en el desarrollo de un subsistema
de metadatos que cuente con toda la información necesaria para consultar e interpretar los datos del data
warehouse estadístico así como relacionar de manera efectiva cada dato con los metadatos
correspondientes.
Se han analizado los siguientes estándares internacionales para basar en ellos el subsistema de metadatos:
•
ISO-11179.
•
Document Data Interchange (DDI).
•
Survey Design and Statistical Methodology Metadata (SDSMM), del Buró de Censos de los
EEUU.
•
Common Warehouse Metamodel.
Este subsistema en desarrollo contará con tres módulos interrelacionados que permiten documentar los
datos y los modelos de datos desde diferentes puntos de vista:
•
Metamodelo del sistema
•
Modelo del negocio
•
Registro de elementos de dato
Conclusiones
•
El almacén de datos es un proyecto institucional que requiere del compromiso de todas las áreas
para poner en marcha los cambios necesarios en la cadena de valor.
•
Debe evaluarse en particular la forma en que cada proyecto se incorpora al almacén para
mantener la mejor relación costo-beneficio.
156
Data warehouse para la prestación...
•
Este proyecto requiere un enfoque general desde su inicio para que la integración sea óptima.
•
Lo importante es lo que está detrás de la tecnología: los procesos que soporta para generar valor.
•
El data warehouse del INEGI debe proveer la base de información para la prestación de nuevos y
mejores servicios en línea que proporcionen a nuestros usuarios mayor capacidad de consulta y
análisis para tomar mejores decisiones en beneficio de México.