Download 1. Data Warehouses

Document related concepts

Data mart wikipedia , lookup

Sistemas de información ejecutiva wikipedia , lookup

Almacén operacional de los datos wikipedia , lookup

Esquema en copo de nieve wikipedia , lookup

AQL wikipedia , lookup

Transcript
CAMPUS SANTIAGO
INGENIERÍA (E) EN INFORMÁTICA PARA TÉCNICOS
Avenida República N° 517, Santiago, RM
Teléfono: (2) 6753000
DATAWAREHOUSE
Profesor
Héctor Schulz Pérez
Integrantes
Luis Prieto Quezada
Claudio Biewer Mansilla
Rodrigo Arenas Aguirre
Santiago, 31 de Agosto 2011
2
Índice
D A T A W A R E H O U S E ...........................................................................................1
I. Introducción ......................................................................................................................3
II.
Definición .......................................................................................................................3
III.
Objetivos del Data Warehouse .................................................................................4
IV. Características del Data Warehouse ......................................................................5
A.
B.
C.
D.
V.
VI.
Orientado a temas ................................................................................................................ 5
Integrado................................................................................................................................. 7
De tiempo variante (Variable en el tiempo)..................................................................10
No volátil ...............................................................................................................................13
Por qué construir un DataWarehouse? ............................................................... 15
Ciclo de Desarrollo ....................................................................................................16
A.
B.
C.
Consideraciones previas al desarrollo de un DataWarehouse ..............................18
Alcance de un Data Warehouse .....................................................................................19
Redundancia de Datos ......................................................................................................19
VII.
Modelo de Planificación para un DataWarehouse ............................................21
A.
B.
C.
D.
E.
Requerimientos del Negocio ...........................................................................................22
Misión ....................................................................................................................................23
Decisiones ............................................................................................................................23
Decisiones clasificadas por clase de usuario, tipo y función de negocio ..........27
Planificación Tecnológica ....................................................................................................28
VIII.
Arquitectura del DataWarehouse .......................................................................30
A.
B.
C.
El motor del dataWarehouse ...........................................................................................32
Requisitos para que un DBMS trabaje con un Data Warehouse ..........................39
Herramientas de Acceso ó Herramientas de Usuario Final ....................................42
IX.
A.
B.
C.
D.
E.
X.
XI.
Explotación del Data Warehouse ..........................................................................47
Potencial del Data Warehouse ........................................................................................47
Extracción y manipulación de datos del Data Warehouse......................................47
Procesamiento Informático .............................................................................................48
Procesamiento Analítico ..................................................................................................49
Data Mining ..............................................................................................................................51
Glosario de Términos asociados con Data Warehouse ..................................52
Bibliografía ..................................................................................................................56
3
I. Introducción
El hombre, desde los orígenes de la civilización se ha interesado en la utilización
de la información, en el campo de batalla, en el proceso de edificación de las
grandes estructuras y para anticiparse a los eventos de la naturaleza; siempre ha
requerido cada vez más contar con mejores fuentes de información.
La Revolución de la información, ha provocado cambios fundamentales en la
elaboración y el uso de la información producidos a finales del siglo XX.
La
información dispuesta en el periódico y hasta la información almacenada en las
bases de datos han permitido que la información esté al alcance de todos y la
tecnología asociada a todos estos logros de nuestra sociedad han conducido a que
esta información empiece a adquirir importancia estratégica. gracias a que esa
información se interrelaciona como se ha estudiado en el tema de Data
Warehouse.
II. Definición
Como definición inicial para la compresión del término, Data Warehouse se traduce
al idioma español, como un almacén, depósito o bodega de datos, pero aplicando
el término a la vida cotidiana, tal como lo señala William Harvey Inmon, quien es
considerado como el padre de este concepto, “un Data Warehouse es un conjunto
de datos integrados orientados a una materia que varían con el tiempo y que no
son transitorios, los cuales soportan el proceso de toma de decisiones de una
administración."
De acuerdo con algunas organizaciones, el Data Warehouse es una arquitectura.
Para otras, es un depósito consistente en datos (separados y que no interfieren con
los sistemas operativos y de producción existentes) que Ilena por completo los
diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el Data
Warehouse es un proceso continuo que mezcla los datos de varias fuentes
4
heterogéneas, incluyendo datos históricos y adquiridos para soportar la constante
necesidad de consultas estructuradas y/o ad hoc, reportes analíticos y soporte de
decisiones.
Así como hay gran divergencia para establecer una definición precisa de un Data
Warehouse, hay un claro consenso de que la tecnología del Data Warehouse es un
ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en
una empresa.
III. Objetivos del Data Warehouse
Hacer que la información de la organización sea accesible: los contenidos del Data
Warehouse son entendibles y navegables, y el acceso a ellos son caracterizado por
el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites
fijos. Cuando hablamos de entendible significa, que los niveles de la información
sean correctos y obvios. Mientras que cuando hablamos de navegables, significa el
reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.
Rápido desempeño significa, cero tiempos de espera.
Hacer que la información de la organización sea consistente: la información de una
parte de la organización puede hacerse coincidir con la información de la otra parte
de la organización. Si dos medidas de la organización tienen el mismo nombre,
entonces deben significar la misma cosa. Y a la inversa, si dos medidas no
significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la información
es contabilizada y completada.
Ser información adaptable y elástica: el Data Warehouse está diseñado para
cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los
datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan
datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco
cambian ni se corrompen.
5
Ser un seguro baluarte que protege los valores de la información: el Data
Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los
dueños de la información gran visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data Warehouse.
Ser la fundación de la toma de decisiones: el Data Warehouse tiene los datos
correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data Warehouse: las decisiones que son hechas después de que el Data
Warehouse haya presentado las evidencias. La original etiqueta que preside el
Data Warehouse sigue siendo la mejor descripción de lo que queremos construir,
un sistema de soporte a las decisiones.
IV. Características del Data Warehouse
A. Orientado a temas
Una primera característica del Data Warehouse es que la información se
clasifica en base a los aspectos que son de interés para la empresa. Siendo así,
los datos tomados están en contraste con los clásicos procesos orientados a las
aplicaciones.
En la Figura se muestra el contraste entre los dos tipos de orientaciones.
FIG.1
6
El ambiente operacional se diseña alrededor de las aplicaciones y funciones
tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución
financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a
los datos sobre clientes, productos y cuentas. La base de datos combina estos
elementos en una estructura que acomoda las necesidades de la aplicación.
En el ambiente Data Warehousing se organiza alrededor de sujetos tales como
cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos
pueden ser clientes, productos, proveedores y vendedores. Para una universidad
pueden ser estudiantes, clases y profesores. Para un hospital pueden ser
pacientes, personal médico, medicamentos, etc.
La alineación alrededor de las áreas de los temas afecta el diseño y la
implementación de los datos encontrados en el Data Warehouse. Las principales
áreas de los temas influyen en la parte más importante de la estructura clave.
Las aplicaciones están relacionadas con el diseño de la base de datos y del
proceso. En Data Warehousing se enfoca el modelamiento de datos y el diseño
de la base de datos. El diseño del proceso (en su forma clásica) no es separado
de este ambiente.
Las diferencias entre la orientación de procesos y funciones de las aplicaciones
y la orientación a temas, radican en el contenido de la data a escala detallada.
En el Data Warehouse se excluye la información que no será usada por el
proceso de sistemas de soporte de decisiones, mientras que la información de
las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.
7
Otra diferencia importante está en la interrelación de la información. Los datos
operacionales mantienen una relación continua entre dos o más tablas basadas
en una regla comercial que está vigente. Las del Data Warehouse miden un
espectro de tiempo y las relaciones encontradas en el Data Warehouse son
muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones
de datos) se representan en el Data Warehouse, entre dos o más tablas.
B. Integrado
Integra datos recolectados de diferentes sistemas operacionales de la
organización y o fuentes externas.
FIG.2
El aspecto más importante del ambiente Data Warehousing es que la
información encontrada al interior está siempre integrada.
8
La integración de datos se muestra de muchas maneras: en convenciones de
nombres consistentes, en la medida uniforme de variables, en la codificación de
estructuras consistentes, en atributos físicos de los datos consistentes, fuentes
múltiples y otros.
El contraste de la integración encontrada en el Data Warehouse con la carencia
de integración del ambiente de aplicaciones, se muestran en la figura, con
diferencias bien marcadas.
A través de los años, los diseñadores de las diferentes aplicaciones han tomado
sus propias decisiones sobre cómo se debería construir una aplicación. Los
estilos y diseños personalizados se muestran de muchas maneras.
Se diferencian en la codificación, en las estructuras claves, en sus
características físicas, en las convenciones de nombramiento y otros. La
capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear
aplicaciones inconsistentes, es fabulosa. La figura mencionada, muestra algunas
de las diferencias más importantes en las formas en que se diseñan las
aplicaciones.
Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en
varias formas. Un diseñador representa GENERO como una "M" y una "F", otros
como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino"
y "femenino".
No importa mucho cómo el GENERO llega al Data Warehouse. Probablemente
"M" y "F" sean tan buenas como cualquier otra representación. Lo importante es
que sea de cualquier fuente de donde venga, el GENERO debe llegar al Data
Warehouse en un estado integrado uniforme.
Por lo tanto, cuando el GENERO se carga en el Data Warehouse desde una
aplicación, donde ha sido representado en formato "M" y "F", los datos deben
convertirse al formato del Data Warehouse.
9
Medida de atributos. Los diseñadores de aplicaciones miden las unidades de
medida de las tuberías en una variedad de formas. Un diseñador almacena los
datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies
cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas unidades
de medida usadas en las diferentes bases de datos para transformarlas en una
medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería llegue al Data
Warehouse necesitará ser medida de la misma manera.
Convenciones de Nombramiento. El mismo elemento es frecuentemente
referido por nombres diferentes en las diversas aplicaciones. El proceso de
transformación asegura que se use preferentemente el nombre de usuario.
Fuentes Múltiples. El mismo elemento puede derivarse desde fuentes múltiples.
En este caso, el proceso de transformación debe asegurar que la fuente
apropiada sea usada, documentada y movida al depósito.
Tal como se muestra en la figura, los puntos de integración afectan casi todos
los aspectos de diseño - las características físicas de los datos, la disyuntiva de
tener más de una de fuente de datos, el problema de estándares de
denominación inconsistentes, formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo - la información
necesita ser almacenada en el Data Warehouse en un modelo globalmente
aceptable y singular, aun cuando los sistemas operacionales subyacentes
almacenen los datos de manera diferente.
10
Cuando el analista de sistema de soporte de decisiones observe el Data
Warehouse, su enfoque deberá estar en el uso de los datos que se encuentre en
el depósito, antes que preguntarse sobre la confiabilidad o consistencia de los
datos.
FIG.3
C. De tiempo variante (Variable en el tiempo)
Los datos son relativos a un periodo de tiempo y estos deben ser integrados
periódicamente, los mismos son almacenados como fotos que se corresponden
a un periodo de tiempo.
11
FIG.4
Toda la información del data Warehouse es requerida en algún momento. Esta
característica básica de los datos en un depósito, es muy diferente de la
información encontrada en el ambiente operacional. En éstos, la información se
requiere al momento de acceder. En otras palabras, en el ambiente operacional,
cuando usted accede a una unidad de información, usted espera que los valores
requeridos se obtengan a partir del momento de acceso.
Como la información en el data Warehouse es solicitada en cualquier momento
(es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de
"tiempo variante".
Los datos históricos son de poco uso en el procesamiento operacional. La
información del depósito por el contraste, debe incluir los datos históricos para
usarse en la identificación y evaluación de tendencias. (Ver Figura).
12
FIG.5
El tiempo variante se muestra de varias maneras:
La más simple es que la información representa los datos sobre un horizonte
largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado
para el ambiente operacional es mucho más corto - desde valores actuales hasta
sesenta a noventa días. Las aplicaciones que tienen un buen rendimiento y
están disponibles para el procesamiento de transacciones, deben llevar una
cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las
aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño
de aplicaciones rígidas.
La segunda manera en la que se muestra el tiempo variante en el data
Warehouse está en la estructura clave. Cada estructura clave en el data
Warehouse contiene, implícita o explícitamente, un elemento de tiempo como
día, semana, mes, etc.
El elemento de tiempo está casi siempre al pie de la clave concatenada,
encontrada en el data Warehouse. En ocasiones, el elemento de tiempo existirá
13
implícitamente, como el caso en que un archivo completo se duplica al final del
mes, o al cuarto.
La tercera manera en que aparece el tiempo variante es cuando la información
del data Warehouse, una vez registrada correctamente, no puede ser
actualizada. La información del data Warehouse es, para todos los propósitos
prácticos, una serie larga de "snapshots" (vistas instantáneas). Por supuesto, si
los snapshots de los datos se han tomado incorrectamente, entonces pueden ser
cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos
no son alterados una vez hechos. En algunos casos puede ser no ético, e
incluso ilegal, alterar los snapshots en el data Warehouse. Los datos
operacionales, siendo requeridos a partir del momento de acceso, pueden
actualizarse de acuerdo a la necesidad.
D. No volátil
Los datos que son almacenados no sufren ninguna actualización solo son
incrementados. El período cubierto para un DW va de 2 a 10 años.
FIG.6
14
La información es útil sólo cuando es estable. Los datos operacionales cambian
sobre una base momento a momento. La perspectiva más grande, esencial para
el análisis y la toma de decisiones, requiere una base de datos estable.
En la Figura se muestra que la actualización (insertar, borrar y modificar), se
hace regularmente en el ambiente operacional sobre una base de registro por
registro. Pero la manipulación básica de los datos que ocurre en el data
Warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la
carga inicial de datos y el acceso a los mismos. No hay actualización de datos
(en el sentido general de actualización) en el depósito, como una parte normal
de procesamiento.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el
procesamiento operacional y del data Warehouse. En el nivel de diseño, la
necesidad de ser precavido para actualizar las anomalías no es un factor en el
data Warehouse, ya que no se hace la actualización de datos. Esto significa que
en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso
a los datos, particularmente al usar la normalización y desnormalización física.
Otra consecuencia de la simplicidad de la operación del data Warehouse está en
la tecnología subyacente, utilizada para correr los datos en el depósito. Teniendo
que soportar la actualización de registro por registro en modo on-line (como es
frecuente en el caso del procesamiento operacional) requiere que la tecnología
tenga un fundamento muy complejo debajo de una fachada de simplicidad.
15
FIG.7
V. Por qué construir un DataWarehouse?
Pueden darse algunas justificaciones para un emprendimiento de DataWarehouse:






Sistemas no integrados
Múltiples e incompatibles estructuras de datos
Muchos puntos de entrada a los datos
Manejo de información histórica
Para facilitar las actividades de reporteo y análisis de usuarios
Proveer una vista única del negocio
FIG.8
16
VI. Ciclo de Desarrollo
El Data Warehouse sigue el mismo ciclo de perfeccionamiento que todos los
desarrollos de software.
2°
3°
Modelizar
datos
Proceso
Iterativo de
construcción
1°
Análisis de
especificaciones
7°
Cargar y
replicar
Localizar
datos
4°
Localizar
datos
Construir
procedimientos
Replicación
Definir
data marts
5°
6°
FIG.9
Las fases del ciclo son las mismas, lo mismo que su secuencia, sólo existen
variantes únicas que se relacionan específicamente con el Data Warehouse para
tareas dentro de estas fases. La siguiente figura muestra el ciclo clásico de
desarrollo de software:
Prueba
Planeación
Desarrollo Requerimientos
Diseño
Análisis
Construcción
FIG.10
17
Planeación: La planeación es una fase importante de la implementación del Data
Warehouse. Las decisiones tomadas durante la fase de planeación tienen un
impacto significativo en el ámbito de implementación y en la magnitud del esfuerzo.
Las decisiones clave de planeación incluyen la selección de un enfoque de arriba
hacia abajo (de Io general a Io particular), de abajo hacia arriba (en sentido
opuesto) o combinado; la selección de la arquitectura apropiada de Data
Warehouse; la selección adecuada del ámbito de información, fuentes de datos y
tamaño del metamodelo; y la estimación de planes de programa y proyecto y
justificaciones de presupuesto.
Requerimientos: Durante la fase de requerimientos se debe considerar una
diversidad de ellos. Los requerimientos son conducidos por el negocio y por la
tecnología. La cuidadosa selección y especificación de requerimientos en esta
etapa proporciona un proyecto cimentado que arroja resultados con rapidez.
Análisis: La fase de análisis es importante ya que determina la forma en que se
cubrirán los requerimientos. Esta fase se enfoca principalmente en la conversión de
especificaciones de requerimientos a especificaciones de metamodelo para el Data
Warehouse. Después, estas especificaciones se usan para generar extractores del
Data Warehouse y software de transformación, integración, resumen y adición.
Construcción: La fase de construcción resalta los diversos intercambios "construir
en comparación con comprar". Mediante la selección adecuada de componentes
suministrados por fabricantes, es posible construir una primera implementación del
Data Warehouse rápida y eficaz.
Despliegue: La fase de despliegue en el ciclo de desarrollo del Data Warehouse
tiene un componente único denominado comercialización de información. Esto
reconoce que la mercancía que suministra el Data Warehouse a sus usuarios
finales (clientes) es la propia información. Como un producto de mercancía, la
información también debe comercializarse como los bienes de consumo. La
18
comercialización comprende la capacidad de hacer énfasis en la disponibilidad, los
beneficios y el empaque para hacerla atractiva al usuario final.
A. Consideraciones previas al desarrollo de un DataWarehouse
Hay muchas maneras para desarrollar data Warehouses como tantas
organizaciones existen. Sin embargo, hay un número de dimensiones diferentes
que necesitan ser consideradas:


Alcance de un data Warehouse
Redundancia de datos
La Figura muestra un esquema bidimensional para analizar las opciones
básicas. La dimensión horizontal indica el alcance del depósito y la vertical
muestra la cantidad de datos redundantes que deben almacenarse y
mantenerse.
Data
Warehouse
distribuido
Redundancia
de datos
Data
Warehouse
Centralizado
Data
Warehouse
Virtual
Warehouse
Virtual
Warehouse
proyecto
Warehouse
Departamento o
divisional
Alcance del
datawarehouse
Warehouse
funcional de la
empresa
FIG.11
19
B. Alcance de un Data Warehouse
El alcance de un data Warehouse puede ser tan amplio como toda la
información estratégica de la empresa desde su inicio, o puede ser tan limitado
como un data Warehouse personal para un solo gerente durante un año.
En la práctica, en la amplitud del alcance, el mayor valor del data Warehouse es
para la empresa y lo más caro y consumidor de tiempo es crear y mantenerlo.
Como consecuencia de ello, la mayoría de las organizaciones comienzan con
data Warehouses funcionales, departamentales o divisionales y luego los
expanden como usuarios que proveen retroalimentación.
C. Redundancia de Datos
Hay tres niveles esenciales de redundancia de datos que las empresas deberían
considerar en sus opciones de data Warehouse:



Data Warehouses "virtual" o "Point to Point"
Data Warehouses "centrales"
Data Warehouses "distribuidos"
No se puede pensar en un único enfoque. Cada opción adapta un conjunto
específico de requerimientos y una buena estrategia de almacenamiento de
datos, lo constituye la inclusión de las tres opciones.
1. Data Warehouses "Virtual" o "Point to Point"
Una estrategia de data Warehouses virtual, significa que los usuarios finales
pueden acceder a bases de datos operacionales directamente, usando
cualquier herramienta que posibilite "la red de acceso de datos".
Este enfoque provee flexibilidad así como también la cantidad mínima de
datos redundantes que deben cargarse y mantenerse. Además, se pueden
colocar las cargas de consulta no planificadas más grandes, sobre sistemas
operacionales.
20
Como se verá, el almacenamiento virtual es, frecuentemente, una estrategia
inicial, en organizaciones donde hay una amplia (pero en su mayor parte
indefinida) necesidad de conseguir la data operacional, desde una clase
relativamente grande de usuarios finales y donde la frecuencia probable de
pedidos es baja.
Los depósitos virtuales de datos proveen un punto de partida para que las
organizaciones determinen qué usuarios finales están buscando realmente.
2. Data Warehouses "Centrales"
El concepto de data Warehouses centrales es el concepto inicial que se tiene
del data Warehouse. Es una única base de datos física, que contiene todos
los datos para un área funcional específica, departamento, división o
empresa.
Los data Warehouses centrales se seleccionan por lo general donde hay una
necesidad común de los datos informáticos y un número grande de usuarios
finales ya conectados a una red o computadora central. Pueden contener
datos para cualquier período específico de tiempo. Comúnmente, contienen
datos de sistemas operacionales múltiples.
Los data Warehouses centrales son reales. Los datos almacenados en el data
Warehouse son accesibles desde un lugar y deben cargarse y mantenerse
sobre una base regular. Normalmente se construyen alrededor de RDBMS
avanzados o, en alguna forma, de servidor de base de datos informático
multidimensional.
21
3. Data Warehouses Distribuidos
Los data Warehouses distribuidos son aquellos en los cuales ciertos
componentes del depósito se distribuyen a través de un número de bases de
datos físicas diferentes.
Cada vez más, las organizaciones grandes están tomando decisiones a
niveles más inferiores de la organización y a la vez, llevando los datos que se
necesitan para la toma de decisiones a la red de área local (Local Area
Network - LAN) o computadora local que sirve al que toma decisiones.
Los data Warehouses distribuidos comúnmente involucran la mayoría de los
datos redundantes y como consecuencia de ello, se tienen procesos de
actualización y carga más complejos.
VII. Modelo de Planificación para un DataWarehouse
El proceso de planificación de un DW/DM debe considerar:

La diversidad de roles y responsabilidades de los usuarios

El rápido crecimiento de la población de usuarios, especialmente usuarios no
técnicos

El mejoramiento constante de las habilidades técnicas de los usuarios

La evolución de procesos de toma de decisión que son basados en
comunicaciones y colaboración extensiva
22
Modelo de planificación para un datawarehouse
Misión
Requerimientos
del negocio
Decisiones
Usuarios
Requerimientos de Información
Estrategia de
la base de
datos
Estrategia de
la base de
aplicación
Estrategia de
la base de
explotación
Planificación
Tecnológica
FIG.12
A. Requerimientos del Negocio
El diseño de un DW/DM debe ser consistente con la dirección estratégica de la
organización; por lo tanto el proceso de planificación debería empezar en el nivel
de alta gerencia con una definición completa de los requerimientos del negocio.
Contempla 3 capas:

Revisión de la misión corporativa, sus metas y objetivos

Identificando puntos de decisión y preguntas necesarias

Identificando a los usuarios
23
B. Misión

La especificación de la misión corporativa debe definir las metas de la
empresa en términos de negocios y haciéndolo así, también define un claro
propósito para invertir en Data Warehouse.

La especificación de la misión del negocio debe establecer metas
específicas para ayudar a alcanzar el crecimiento del negocio. Ejemplos de
metas

Llegar a ser un productor de bajo costo

Expandir geográficamente el mercado

Expandir el tamaño del mercado

Entrar en nuevos mercados

Construir mercados compartidos
Por ejemplo, la meta para expandir geográficamente debe traducirse hacia un
objetivo específico de incremento del beneficio desde las operaciones
internacionales en un 25 %. Mientras más claro y resumido sean establecidos la
misión, las metas y los objetivos del negocio, será mas fácil alinear el diseño del
Data Warehouse y de las aplicaciones con la misión de la organización.
C. Decisiones

Un enfoque útil para las necesidades de los usuarios es empezar definiendo
las decisiones que ellos deben realizar

Un Data Warehouse debe ser diseñado para soportar tres tipos de
decisiones

Operacional

Táctica

Estratégica
1. Decisiones Operativas
24
Son realizadas cada día, generalmente por los ejecutivos de primera línea.
Estas decisiones tienden a confiar en análisis repetitivo de nuevos datos y
generalmente requieren sistemas de reportes y análisis de datos que son
altamente orientados para un aspecto específico del negocio. Los tomadores
de decisiones operacionales desean información como contenido, ya
procesado, para la ayuda en la toma de decisión apropiada, mas que una
herramienta analítica que puede ser usada para generar contenido.
Un ejemplo de decisión operativa es la facultad que tiene el encargado o
gerente de un almacén de hacer nuevos pedidos de productos cuyo inventario
está a punto de agotarse ó a la inversa devolver aquellos productos que no
tienen el nivel de ventas esperado en lugar de esperar a que estos lleguen a
su fecha de caducidad.
2. Decisiones Tácticas
Requieren mayor flexibilidad que las decisiones operacionales en términos de
acceso a datos y las capacidades analíticas provistas a los usuarios.
Aunque aún muy centradas en entregar eficientemente contenido a los
usuarios, aplicaciones de soporte a la decisión táctica también proveen a los
usuarios con capacidades analíticas asociadas con el contenido.
Por ejemplo, una aplicación de soporte a la decisión táctica debe proveer al
usuario con un reporte que le permita desglosar en las dimensiones claves del
reporte o añadir elementos a la dimensión.
Una decisión táctica típica puede recaer en el hecho de poner productos en
oferta cuando su fecha de expiración se acerca ó cuando son productos
nuevos y se requiere de llamar la atención de los posibles clientes.
25
3. Decisiones Estratégicas
Requieren decisiones ad hoc de los datos contenidos en el Warehouse, así
como también recursos de datos que no son manejados como parte del
dataWarehouse. Soporte de decisiones estratégicas se centran en proveer a
los usuarios con herramientas potentes que pueden ser usadas para crear
contenidoEstas decisiones están orientadas a la gerencia alta de un negocio y
tienen que ver con la orientación o destino que se requiere dar al negocio,
algunos ejemplos de este tipo de decisión incluyen la apertura de nuevas
sucursales de un negocio, la aplicación de estudios de mercado para el
lanzamiento de nuevos productos, etc.
4. Usuarios
El siguiente paso en la planificación del dataWarehouse es identificar los
varios grupos de usuarios responsables de las decisiones operacionales,
tácticas y estratégicas.De la misma forma que hay una gran cantidad de
maneras para organizar un data Warehouse, es importante notar que también
hay una gama cada vez más amplia de usuarios finales.
Servicio a clientes
Ejecutivos
Producción
Ventas
Comercialización
Funciones
Analistas
Personal de
Apoyo
Usuarios
expertos
Usuarios
regulares
Usuarios
Ocasionales
Contabilidad y finanzas
Gerentes
Nivel de competencia de
usuarios
Jerarquía
26
Comúnmente hay 4 clases de usuarios finales del dataWarehouse:
FIG.13

Administradores (Power Users)

Autores (Analistas Financieros y de Negocios)

Usuarios activos (Usuarios de Soporte, de oficina, personal administrativo)

Usuarios casuales (Ejecutivos y Gerentes)
5. Administradores
Son los miembros del personal de soporte en Tecnología de Información
quienes ejecutan tanto tareas relacionadas con el negocio así como técnicas
tales como asegurar la calidad del contenido del dataWarehouse y de las
aplicaciones que lo accedan, manteniendo el meta dato para informar a los
otros usuarios acerca de los cambios en el dataWarehouse ó en las
aplicaciones.
6. Autores

Son quienes desarrollan las aplicaciones del negocio.

Los autores típicamente buscan las herramientas de análisis de datos
más potentes y de riqueza funcional ad hoc disponibles y a menudo tienen
las habilidades técnicas para usar estas herramientas óptimamente
7. Activos

Son menos hábiles técnicamente que los autores, generalmente gastan
mucho tiempo buscando información desde el dataWarehouse y
analizando las respuestas

Estos usuarios requieren rápidas y exactas respuestas a los aspectos del
negocio. Este grupo tiende a ser la clase de usuarios más impaciente
27
8. Casuales

El grupo menos técnico, son también los usuarios menos frecuentes del
dataWarehouse, pero el mas numeroso.

Este grupo generalmente incluye ejecutivos de nivel senior y ejecutivos de
primera línea, pero a menudo se extiende a todos los niveles de la
estructura administrativa de una organización, desde ejecutivos hasta el
campo de representantes de ventas

Debido a que los usuarios casuales, por definición, ingresan
infrecuentemente al sistema de dataWarehouse, simplicidad es un
requerimiento principal de diseño para este grupo. Ello necesitan
comandos y controles que son tanto fáciles a usar y fáciles a recordar
D. Decisiones clasificadas por clase de usuario, tipo y función de
negocio
El siguiente gráfico muestra la importancia de los usuarios y los tipos de
decisiones que ellos deben tomar
Estratégica
Técnica
Operacional
Administrador
Autor
Activo
Casual
Ventas
Marketing
Finanzas
Tipos de
Registro
Fabricación
Producción
Clases de
Usuarios
Funciones del
negocio
FIG.14
28
Requerimientos de Información
Hacen referencia a los requerimientos de Tecnología de Información que son
necesarios en los emprendimientos de DataWarehouse.
E. Planificación Tecnológica
1. Estrategia de la Base de Datos
Se trata de la creación de la base de datos. Entre otras cosas incluye

Contenido: Qué datos e información se requieren para solucionar las
preguntas y necesidades de los usuarios

Fuentes: Cuáles son los fuentes de la información y donde se encuentran
las fuentes.

Extracción: Cómo se extraen los datos y con que periodicidad se cargan
en el dataWarehouse.

Preparación: Qué se requiere para depurar y validar los datos fuentes

Diseño: Cuál es el diseño apropiado para la base de datos

Afinamiento: Qué aspectos de afinamiento y rendimiento se van a
considerar

Plataforma: Como será la plataforma en la que residirá el dataWarehouse,
como se compone la red, cuales son los componentes de hardware y
software.

Administración: Qué se requiere para administrar el dataWarehouse en
términos de seguridad, procesos de actualización, gestión de metadatos,
aseguramiento de la calidad, etc.
2. Estrategia de la Aplicación
La estrategia de aplicación trata con la tecnología en dos puntos: la capa de
lógica analítica y la capa de presentación. Identificando acceso a los datos y
análisis de requerimientos define el conjunto de requerimientos básicos del
usuario. Algunas preguntas de los usuarios pueden ser respondidas
simplemente recuperando los datos desde el Warehouse, pero muchas mas
29
preguntas requieren algún tipo de rutinas analíticas a ser ejecutadas sobre los
datos. Estas rutinas analíticas pueden ser clasificadas desde algo tal simple
como cálculo del porcentaje de cambio del volumen de ventas hasta la
creación de un modelo matemático complejo.
Se identifican las funciones de análisis de datos que se necesitan para
satisfacer las necesidades de los usuarios.

Acceso; Identificar que usuarios van a tener acceso a la información y
también que nivel de información podrá ver cada uno de ellos.

Análisis: Qué funciones de análisis de información serán necesarias para
satisfacer los requerimientos.

Modelamiento; Requerimientos para análisis estadísticos de datos,
minería de datos, u otro soporte de modelamiento matemático

Aplicaciones; Necesidades para aplicaciones específicas del negocio

Procesos: Cómo ayuda el dataWarehouse a los procesos de negocio,
Qué
mejoras
en
los
procesos
de
negocio
se
logran
con
el
dataWarehouse.

Soporte: Cómo los usuarios recibirán soporte y capacitación en el
dataWarehouse.
3. Estrategia de la Explotación
En la estrategia de explotación se consideran los siguientes aspectos

Interfaz: Cuales usuarios usarán aplicaciones cliente servidor y cuales
accederán a través de clientes web (browser)

Colaboración; Como se promoverá la colaboración entre los usuarios.

Agentes: Cómo se automatizarán los procesos de análisis y reportes.

Motor de búsqueda; Cómo los recursos del dataWarehouse serán
registrados en motores de búsqueda.
30

Seguridad: Cómo será garantizada la seguridad de la información y de la
base de datos.
VIII. Arquitectura del DataWarehouse
El siguiente gráfico muestra la arquitectura clásica de un DataWarehouse,
compuesto por:


Fuentes de Datos
Motor del DataWarehouse
o
o
o
o
o
o

Gestor de Carga
Metadatos
Agregaciones
Gestor del DataWarehouse
Gestor de Respaldos
DW Repositorio
Herramientas de Acceso
31
FIG.15
32
En forma resumida la arquitectura puede verse expresada en la siguiente figura:
DATA WAREHOUSE
ERP
DATAMART
COMERCIAL
OLTP
DATAMART
FINANZAS
DATAMART
RRHH
LEGACY
DATAMART
SERVICIO CLIENTE
USUARIOS
METADATA
INFORMACIÓN
EXTERNA
FIG.16
Fuentes de Datos
Cualquier origen de información que pueda ser considerado para el
dataWarehouse, aquí se incluye los siguientes elementos:

Los sistemas OLTP`s que son los sistemas de Legacy que actualmente
operan en la empresa.

Datos antiguos provenientes de migraciones.

Fuentes externas como otros sistemas de la compañía, sistemas de otras
empresas, sistemas de gobierno, internet, etc.

Datos de oficina, archivos en formato de Word, Excel, archivos planos,
PDF’s, mails, etc.
A. El motor del dataWarehouse
Está integrado por los siguientes componentes
33
1. Gestor de Carga
Quizá sea uno de los elementos más importantes para el dataWarehouse,
generalmente incluye las operaciones de

Extracción: Es el proceso que accesa a los datos OLTP existentes, en
cualquier forma que exista, desde cualquier DBMS en que exista.
Típicamente,
extracción
y
el
siguiente
paso,
propagación,
son
administrados por el mismo producto. No todas las herramientas de
extracción y propagación soportan todas las plataformas, de tal manera
que una faceta importante de la selección de herramientas es si la
herramienta soporta los sistemas operativos y las bases de datos que se
esté usando para el dataWarehouse.

Propagación: Es el proceso de mover datos desde los sistemas fuente
hacia el sistema objetivo que contendrá el data Warehouse. El proceso de
propagación toma lugar en tiempo real, o en un calendario predeterminado
(batch), o sobre demanda, y puede efectuar un refresco total del
Warehouse o justo un cambio neto. Cuando se selecciona una herramienta
de propagación, se aspira que ésta ofrezca la gestión de cambios netos
como también refresco total y permitirá tanto actualizaciones en tiempo real
y calendarizadas (batch).

Depuración (Limpieza): El nivel lógico cubre problemas de valores de
datos que son inconsistentes dentro de la información importada (ejemplo,
clientes con estado casado, pero con una edad de 3 años). El nivel técnico
evalúa problemas de información tales como campos no inicializados o
valores inválidos en los datos importados (ejemplo, valor de la fecha
Febrero 31).

Transformación: Convierte datos desde su formato OLTP al apropiado
formato
del
dataWarehouse
ejecutando
funciones
tales
como
desnormalización de datos, traduciendo códigos hacia texto significativo,
34
convirtiendo una variedad de formatos de fechas hacia un formato
estándar, convirtiendo texto tal como nombres de ciudades hacia texto
estándar y renombrando campos desde nombres técnicos no significativos
hacia nombres significativos que un usuario final entenderá.

Carga: Los datos fuentes normalmente son extraídos y almacenados en
archivos temporales tipo texto, los mismos que deben ser cargados a la
base de datos del data Warehouse. La figura resume el proceso de carga,
los archivos temporales finalmente son colocados en la base de data
Warehouse de destino.
DATOS
.TXT
TEMPORALES
DATA
WAREHOUSE
FIG.17
El módulo de Gestor de Carga también es conocido como Integrador, y es muy
importante tanto en la Fase de Construcción como en la Fase de Explotación de
un Data Warehouse.
35
Confiabilidad de los datos
La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las
formas de programar de los clientes proporcionan redes de seguridad.
FIG.18
No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se
alimenta mala información, se obtendrá resultados incorrectos o falsos.
Desafortunadamente, los datos que se usan satisfactoriamente en las
aplicaciones de línea comercial operacionales pueden ser basura en lo que
concierne a la aplicación data warehousing.
Los datos "sucios" pueden presentarse al ingresar información en una entrada
de datos (por ejemplo, "Sistemas S. A." en lugar de "Sistemas S. A.") o de otras
causas. Cualquiera que sea, la data sucia daña la credibilidad de la
implementación del depósito completo. A continuación, en la Figura se muestra
un ejemplo de formato de ventas en el que se pueden presentar errores.
36
Afortunadamente, las herramientas de limpieza de datos pueden ser de gran
ayuda. En algunos casos, puede crearse un programa de limpieza efectivo. En el
caso de bases de datos grandes, imprecisos e inconsistentes, el uso de las
herramientas comerciales puede ser casi obligatorio.
Decidir qué herramienta usar es importante y no solamente para la integridad de
los datos. Si se equivoca, se podría malgastar semanas en recursos de
programación o cientos de miles de dólares en costos de herramientas.
La limpieza de una data "sucia" es un proceso multifacético y complejo. Los
pasos a seguir son los siguientes:
1. Analizar sus datos corporativos para descubrir inexactitudes, anomalías y
otros problemas.
2. Transformar los datos para asegurar que sean precisos y coherentes.
3. Asegurar la integridad referencial, que es la capacidad del Data
Warehouse, para identificar correctamente al instante cada objeto del
negocio, tales como un producto, un cliente o un empleado.
4. Validar los datos que usa la aplicación del Data Warehouse
37
FIG.19
2. Meta Datos
Esta área del Warehouse almacena todas las definiciones de los meta datos
(datos acerca de los datos) usados por todos los procesos en el Warehouse.
Los meta datos son usados para una variedad de propósitos incluyendo:
38

Los procesos de extracción, transformación y carga (meta datos es
usado para mapear las fuentes de datos a una vista común de la
información dentro del Warehouse).

Los procesos de gestión del Warehouse (cada tabla es descrita
incluyendo su estructura, índices, vistas; meta datos es usado también
para automatizar la producción de tablas resumen).

Como parte de los procesos de gestión de consulta (meta datos es
usado para dirigir una consulta a la fuente de datos más apropiada)
3. Agregaciones
Este componente del Warehouse almacena todos los datos agregados,
predefinidos y generados por el gestor del Warehouse.
El propósito de información resumida es para mejorar el rendimiento de las
consultas. Aunque hay costos operacionales incrementados asociados con la
agregación inicial de los datos, esto debería ser compensado eliminando el
requerimiento para ejecutar continuamente operaciones de agregación (tales
como clasificación o agrupación) en las respuestas a las consultas de los
usuarios. El dato agregado es actualizado continuamente en la medida que
nuevos datos son cargados en al Warehouse.
4. Gestor del DataWarehouse
En algunos casos el gestor del Warehouse también genera perfiles de
consultas para determinar qué índices y agregaciones son apropiadas. Un
perfil de consulta puede ser generado para cada usuario, grupo de usuario, o
el Data Warehouse y está basada en la información que describe las
características de las consultas tales como la frecuencia, tablas objetivo, y
tamaño de los results set.
39
5. Gestor de Respaldos
Es el componente que se encarga de respaldar constantemente la
información del repositorio del Data Warehouse.
6. Repositorio del Data Warehouse
Es el repositorio en si o la base de datos física donde se almacena la
información del Data Warehouse.
B. Requisitos para que un DBMS trabaje con un Data Warehouse
1. Rendimiento de carga
Data Warehouse requiere de carga incremental de nuevos datos en una base
periódica dentro de ventanas de tiempo pequeñas
El rendimiento de procesos de carga debería ser medido en cientos de
millones de filas o gigabytes de datos por hora y no debería haber un límite
máximo que restringa al negocio
2. Procesamiento de carga
Muchos pasos deben ser dados para cargar un dato nuevo o actualizado
hacia el Data Warehouse incluyendo conversión de datos, filtrado,
reformateado, chequeos de integridad, almacenamiento físico, indexación y
actualización de los meta datos
Aunque cada paso en la práctica puede ser atómico, el proceso de carga
debería parecer que se ejecuta como una unidad de trabajo única.
3. Gestión de calidad de los datos
El Data Warehouse debe asegurar consistencia local, consistencia global e
integridad referencial a pesar de las fuentes "sucias" y tamaños masivos de
bases de datos
40
la preparación y carga son pasos necesarios, ellos no son suficientes. La
habilidad para responder a las consultas de los usuarios finales es la medida
del éxito para una aplicación de Data Warehouse.
Mientras más preguntas son respondidas, los analistas tienden a solicitar
preguntas más complejas y creativas
4. Rendimiento de consultas
Gestión basada en hechos y análisis ad hoc no deben ser retardadas o
inhibidas por el rendimiento del RDBMS Data Warehouse.
Consultas complejas y grandes para operaciones claves del negocio deben
ser completadas en un período de tiempo razonable.
5. Escalabilidad de terabytes
El tamaño de Data Warehouse está creciendo a enormes tasas con tamaños
en el rango de cientos de gigabytes hasta los terabytes y petabytes (1015).
Los RDBMS no deben tener ninguna limitación arquitectural para el tamaño
de la base de datos y deberían soportar gestión modular y paralela. En el
evento de fallas, el RDBMS debería soportar disponibilidad continua, y
proveer
mecanismos
para
recuperación.
El
RDBMS
debe
soportar
dispositivos de almacenamiento en masa tales como discos ópticos y
dispositivos de gestión de almacenamiento jerárquico.
Finalmente, rendimiento de consultas no debería ser dependiente del tamaño
de la base de datos, sino más bien de la complejidad de la consulta.
6. Escalabilidad de usuarios en masa
El pensamiento actual es que el acceso a un Data Warehouse es limitado a
un número de usuarios gerenciales relativamente bajo.
41
Se predice que en el futuro, el Data Warehouse RDBMS debería ser capaz de
soportar cientos, o aún miles de usuarios concurrentes mientras se mantiene
un aceptable rendimiento en las consultas
7. Trabajo en red
Sistemas de Data Warehouse deberían ser capaces de cooperación en un
gran red de Data Warehouse
El Data Warehouse debe incluir herramientas que coordinen el movimiento de
subsets de datos entre Data Warehouse
Los usuarios deberían ser capaces de mirar en y trabajar con múltiples Data
Warehouses desde una estación de cliente única
8. Facilidad de administración
La muy grande escala y naturaleza cíclica en el tiempo del Data Warehouse
demanda facilidad y flexibilidad administrativa
El RDBMS
debe proveer control
para
límites
de
recursos
en la
implementación
9. Análisis dimensional integrado
La potencia de vistas multidimensionales es ampliamente aceptada y soporte
dimensional debe ser inherente en el RDBMS Warehouse para proveer el
más alto rendimiento para herramientas OLAP relacional.
El RDBMS debe soportar creación rápida y fácil de resúmenes comunes
precalculados en grandes Data Warehouses, y proveer herramientas de
mantenimiento
para
automatizar
la
creación
de
estos
agregados
precalculados
10. Funcionalidad de consulta avanzada
Usuarios finales requieren cálculos analíticos avanzados, análisis secuencial y
comparativo, y accesos consistentes a datos detallados y resumidos.
42
Usando SQL en un ambiente cliente servidor y herramientas apunte y dispare
puede algunas veces ser no práctico o aún imposible debido a la complejidad
de las consultas de los usuarios.
El RDBMS debe proveer un completo y avanzado set de operaciones
analíticas.
C. Herramientas de Acceso ó Herramientas de Usuario Final
Estas herramientas pueden reunirse en 4 grupos




Herramientas de Reportes y Consultas
Herramientas de Desarrollo de Aplicaciones
Herramientas de Procesamiento Analítico en Línea (OLAP)
Herramientas de Minería de Datos
FIG.20
43
1. Herramientas de Reportes y Consultas
Simplifican la generación de código SQL. Los usuarios formulan consultas a la
base de datos sin tener que interactuar con el lenguaje de programación de
bases de datos SQL).
2. Herramientas de desarrollo de aplicaciones
Los requerimientos de usuarios finales pueden ser tales que las capacidades
pre-construidas de las herramientas de reportes y consultas son inadecuadas
ya sea debido a que el análisis requerido no puede ser ejecutado o debido a
que la interacción del usuario requiere un no razonable alto nivel de expertise
por parte del usuario
En esta situación el acceso de usuarios puede requerir el desarrollo de
aplicaciones usando ambientes gráficos de accedo de datos desarrollados
principalmente para ambientes cliente/ servidor.
Algunas de estas plataformas de desarrollo de aplicaciones se integran con
herramientas OLAP populares, y pueden accesar todos los sistemas de bases
de datos principales, incluyendo Oracle, SQL Server, Sybase, e Informix.
Ejemplos de estos ambientes de desarrollo de aplicaciones incluyen
PowerBuilder de PowerSoft, VisualBasic de Microsoft, y Bussines Objects.
3. Herramientas de Procesamiento Analítico en Línea (OLAP)
Típicas aplicaciones de negocios para estas herramientas incluyen evaluación
de la efectividad de una campaña de marketing, previsión de ventas de
productos, y planificación de la capacidad. Estas herramientas asumen que
los datos están organizados en un modelo multidimensional, el cual es
soportado por una base de datos multidimensional especial (MDDBMS) o por
44
una
base
de
datos
relacional
diseñada
para
permitir
consultas
multidimensionales.
Este tipo de herramientas permiten a los usuarios ingresar a un Data
Warehouse desde cualquier dimensión simple para empezar el análisis, luego
navegar a otra dimensión para un mayor análisis de la información.

OLAP es online analytical processing. Se trata de una forma de
almacenar la información en una Base de Datos que permita realizar de
forma más efectiva las queries. Es una definición abreviada, claro está, la
realidad es más compleja.

MOLAP, Multidimensional OLAP. Tanto los datos fuente como los datos
agregados o precalculados residen en el mismo formato multidimensional.
Optimiza las queries, pero requiere más espacio de disco y diferente
software. El primer punto está dejando ser un problema: el espacio de
disco cada vez es más barato.

ROLAP, Relational OLAP. Tanto los datos precalculados y agregados
como los datos fuente residen en la misma base de datos relacional. Si el
Data Warehouse es muy grande o se necesita rapidez por parte de los
usuarios puede ser un problema.

HOLAP, Hybrid OLAP: Es una combinación de los dos anteriores. Los
datos agregados y precalculados se almacenan en estructuras
multidimensionales y los de menor nivel de detalle en el relacional.
Requiere un buen trabajo de análisis para identificar cada tipo de dato.
Los datos se almacenan en una estructura de cubo (es como si estuviera
totalmente indexado) y la velocidad de acceso se hace mucho más eficiente.
45
En este caso, la primera consulta nos muestra los puntos que han acumulado los
titulares de la tarjeta clásica, en todos los tipos de cabinas y en todos los meses.
Mientras, que en la segunda filtramos el cubo para los que volaron en turista.
Este tipo de consultas devuelve los datos de forma instantánea.
4. Herramientas de Mineo de Datos
Mineo de datos es el proceso de descubrir nuevas correlaciones significativas,
patrones y tendencias por medio del mineo de grandes cantidades de datos
almacenados en un Data Warehouse o en un data Mart, usando técnicas
estadísticas, reconocimiento de patrones y algoritmos de aprendizaje para
identificar relaciones entre los elementos de datos.
Ejemplo de un Data Warehouse
En la Figura se muestra un ejemplo hipotético de un data Warehouse
estructurado para un centro de producción industrial.
Se muestra sólo el detalle actual, no así los niveles de esquematización ni los
archivos de detalle más antiguos.
Además, se observa que hay tablas del mismo tipo divididas a través del
tiempo. Por ejemplo, para el histórico de la fabricación de las piezas, hay
muchas tablas separadas físicamente, representando cada una un trimestre
diferente. La estructura de los datos es consistente con la tabla de la
elaboración de las piezas, aunque físicamente hay muchas tablas que
lógicamente incluyen el histórico.
Para los diferentes tipos de tablas hay diferentes unidades de tiempo que
físicamente dividen las unidades de información. El histórico de fabricación
está dividido por trimestres, el histórico de la orden de piezas está dividido por
años y el histórico de cliente es un archivo único, no dividido por el tiempo.
46
Así también, las diferentes tablas son vinculadas por medio de un identificador
común, piezas u órdenes de piezas (la representación de la interrelación en el
ambiente de depósito toma una forma muy diferente al de otros ambientes, tal
como el ambiente operacional).
FIG.21
47
IX. Explotación del Data Warehouse
A. Potencial del Data Warehouse
El
Data
Warehouse
no
produce
resultados
en
forma
mágica.
Los
administradores de empresas y los analistas deben acceder y recuperar los
datos del Data Warehouse y convertirlos en información y en hechos. Estos
hechos conforman los cimientos de una base de conocimientos que sirve para
determinar la salud de la empresa y la dirección futura del negocio. Como en las
granjas, los usuarios sólo cosecharán la información que se pueda derivar de los
datos que sembraron en el Data Warehouse, y sólo mediante el uso de las
herramientas de cosecha adecuadas. Algunas de las herramientas de cosecha
necesarias son: las de acceso y recuperación, las de reportes de base de datos,
las de análisis y las de data mining.
Uno de los retos al cosechar un Data Warehouse consiste en no convertir
montículos de información en montañas de datos. Es fácil caer en la trampa de
"entre más, mejor". No es esencial conocer todos los hechos, sólo los cruciales.
Como ejemplo, una campaña de ropa para niños necesita cosechar exacta y
rentablemente sólo aquellas familias que tienen niños.
B. Extracción y manipulación de datos del Data Warehouse
Herramientas de soporte de decisiones es el término genérico para referirse a
las aplicaciones y herramientas del Data Warehouse que se emplean para
recuperar, manipular y analizar los datos, y para presentar después los
resultados. Estas herramientas se usan en dos modalidades: verificación y
descubrimiento. En la modalidad de verificación, el usuario empresarial crea una
hipótesis -una cuestión empresarial- e intenta confirmarla accediendo a los datos
en el Data Warehouse. Las herramientas que implementan la modalidad de
verificación
son de consulta,
de
sistemas de
reporte
y de
análisis
multidimensional. En la modalidad de descubrimiento, las herramientas intentan
48
descubrir características en los datos como patrones de compra o la asociación
entre la adquisición de artículos diferentes. En la modalidad de descubrimiento, o
eureka, el usuario empresarial no conoce ni sospecha los patrones y
asociaciones descubiertos. La herramienta de Data Mining es un ejemplo de la
modalidad de descubrimiento.
FIG.22
Desde la perspectiva de disponibilidad de herramientas, las dos modalidades de
verificación y descubrimiento se clasifican en tres enfoques: Procesamiento
Informático, Procesamiento Analítico y Data Mining.
C. Procesamiento Informático
La recuperación de la inversión en un Data Warehouse se basa en la capacidad
de los usuarios empresariales para extraer los datos correctos del Data
Warehouse, convertirlos en información y luego utilizar esa información para
tomar mejores decisiones. Los usuarios empresariales pretenden extraer los
datos correctos con una mínima inversión en tiempo y sin complicaciones.
49
A los ejecutivos y gerentes de alto nivel les interesa ver los resultados de una
actividad de procesamiento informático en forma de reportes, cuadros y gráficas.
Los gerentes desean acceder a consultas estándar de rutina. Un ambiente de
'consulta administrativa' cubre la mayoría de sus necesidades. El procesamiento
informático apoya a la modalidad de verificación del soporte de decisiones.
Comprende técnicas como análisis estadísticos básicos y de datos, consultas y
reportes. Los datos que se acceden y procesan pudieran ser históricos o
bastante recientes, y pudieran estar un poco o muy resumidos. Los resultados se
presentan en forma de reportes o gráficas.
El procesamiento informático asiste a los usuarios empresariales en la búsqueda
de respuestas a cuestiones empresariales, como las siguientes:

¿Cuáles fueron los ingresos por ventas en el fin de semana del Día de
Acción de Gracias (nuestro mejor fin de semana de ventas) para todas las
tiendas del medio oeste, con corte por departamento?

¿Cuáles fueron los diez artículos más rentables durante la venta posterior
a la Navidad? ¿Cuáles fueron los diez menos rentables?

¿Cómo se comparan las ventas del Día de Acción de Gracias con las del
mismo fin de semana, en los últimos cinco años, por departamento y
tienda?
D. Procesamiento Analítico
También el procesamiento analítico apoya a la modalidad de verificación del
soporte de decisiones. Su meta consiste en hacer que los datos estén
disponibles para el usuario de la empresa en su perspectiva de las dimensiones
empresariales. Se pueden responder e interpretar preguntas complejas como
"¿Cuántos automóviles vendimos en Estados Unidos en el primer trimestre de
1995 que tuvieran un sistema de audio CD, con un precio de 25,000 dólares o
menos?'. Este procesamiento maneja capacidades de análisis de subconjuntos
(slice and dice), profundización (drill-down) y condensación y adición (roll-up).
Los datos que se emplean en el procesamiento analítico son, por Io general,
históricos tanto a nivel de resumen como al de detalle.
50
Los gerentes y analistas empresariales requieren la funcionalidad del
procesamiento analítico cuando deben responder preguntas complejas corno las
siguientes:

¿Cuántos esquíes de nieve, fabricados por SpeedSkiDown, Inc., se
vendieron a hombres en el mes de noviembre, en nuestras tiendas de las
regiones del medio oeste, del noroeste y de la Montaña?

¿Cómo se compara Io programando con Io real del mismo mes en los dos
últimos años?

¿Cuántas minivans azules teníamos en inventario (al fin del trimestre) con
un reproductor de discos compactos y un tercer asiento, cuando la lista de
precios era menor de $19,995? Se requieren totales por condado para
cada trimestre de los últimos cinco años, comparar Io real contra Io
planeado, y comparar el inventario de cada trimestre con el del anterior y
el del siguiente?
Los gerentes ejecutivos saben que "el futuro pertenece a quienes pueden verlo y
llegar ahí primero". Por tal razón, los ejecutivos y gerentes empresariales no sólo
comprenden "lo que pasa en el negocio", sino también "que va a suceder". El
procesamiento analítico se utiliza tanto para análisis históricos complejos, con
una extensa manipulación, como para la planeación a futuro y pronóstico -el
pasado como prólogo del futuro.
Los datos empresariales son, de hecho, multidimensionales. Se encuentran
relacionados y regularmente son jerárquicos; por ejemplo, los datos de ventas,
los
datos
del
inventario
y
los
pronósticos
de
presupuestos
están
interrelacionados y dependen entre si. En la práctica, para predecir las ventas de
un nuevo producto específico, se requiere analizar los patrones de compras
anteriores, la adopción de nuevos productos, las preferencias regionales y otros
factores empresariales similares. La proyección de ventas para nuestra cuestión
de los "esquíes de SpeedSkiDown, Inc.", requiere comprender los patrones de
ventas de los últimos años.
51
E. Data Mining
El Data Mining apoya la modalidad de descubrimiento del soporte de decisiones.
Las herramientas de Data Mining recorren los datos detallados de transacciones
para desenterrar patrones y asociaciones ocultos. Por lo regular los resultados
generan extensos reportes o se les analiza con herramientas de visualización de
datos descubiertos.
El procesamiento informático es excelente y rentable para el despliegue masivo
de consultas, análisis y reportes de datos de dos o tres dimensiones. Las
herramientas de procesamiento analítico permiten diversas visualizaciones de
los datos, como ventas por marca, tienda, temporada y periodos de tiempo, las
cuales se pueden definir, consultar y analizar. Las herramientas de Data Mining
son esenciales para comprender el comportamiento de los clientes.
Usuarios
del Data
Mining
Los usuarios clave en perspectiva del Data Mining son los analistas
empresariales, los peritos en estadística y los profesionales en
tecnología
de
la
información
que
auxilian
a
los
usuarios
empresariales. Quienes obtienen beneficios de los resultados del
Data Mining son los gerentes empresariales y los ejecutivos, que
desean entender los factores de éxito del negocio con base en
datos completos del cliente y, utilizar luego, este conocimiento para
afinar las estrategias de producción, precios y comercialización;
mejorar el nivel de éxito de las estrategias; e impulsar el balance.
Hasta la fecha, las empresas han dependido del procesamiento
informático y analítico para medir y comprender la estabilidad de un
negocio. El procesamiento informático -consultas y reportes- es más
sencillo de usar, pero requiere de una estrecha dirección del
analista (ver figura). Los analistas preguntan cuestiones específicas
y verifican las cuestiones o hipótesis con los datos. Para este fin, los
datos deben estar bien organizados. El procesamiento analítico
(OLAP) requiere de menos dirección del analista, aunque los datos
deben estar organizados en una forma especial (base de datos
52
multidimensional), o accederse bien de manera especial (visión
multidimensional). En ocasiones se utiliza una combinación de
técnicas de consulta y OLAP para comprender el comportamiento
del cliente o para construir perfiles de segmentos de mercado; pero
el proceso de aplicar estas técnicas es conducido esencialmente
por el analista empresarial. En estos casos, este proceso también
se conoce como Data Mining y se define como la modalidad de
descubrimiento del soporte de decisiones, la cual es conducida por
los datos y no por el analista empresarial.
FIG.23
X. Glosario de Términos asociados con Data Warehouse
Agregación
Actividad de combinar datos desde múltiples tablas para formar una unidad de
información más compleja, necesitada frecuentemente para responder consultas
del Data Warehouse en forma más rápida y fácil.
Data Mart (DM).
Es un conjunto de datos que son estructurados de una forma que facilite su
posterior análisis. Un Data Mart contiene información referente a un área en
particular, con datos relevantes que provienen de las diferentes aplicaciones
operacionales. Los Data Mart pueden ser de diversas bases de datos relacionales
o de diversas bases de datos OLAP dependiendo del tipo de análisis que se quiera
desarrollar.
53
Data mining de pronóstico.
Es un data mining que produce un modelo para ser usado con nuevos datos para
pronosticar un valor o predecir un probable resultado basado en patrones en la
data histórica.
Data mining descriptivo.
Es un tipo de data mining (minería de datos) que produce un modelo para describir
patrones de los datos históricos y requiere interacción humana para determinar la
significación y el significado de estos patrones.
Datos no depurados.
Datos que son ambiguos o que carecen de validez por ser inexistentes, ausentes,
incorrectos o duplicados.
Data Warehouse (DW)
Es un almacén o repositorio para los datos. Muchos expertos definen el Data
Warehouse como un almacén de datos centralizados que introduce datos en un
almacén de datos específico llamado data mart. Otros aceptan una amplia
definición de Data Warehouse, como un conjunto integrado de marts.
Descendiente.
Algún miembro de algún nivel inferior en relación a otro miembro específico.
Desktop online analytical processing (DOLAP).
Es un tipo de almacenamiento OLAP que mantiene los datos en una máquina
cliente y suministra análisis multidimensional de forma local.
Dimensión.
Es una vista de datos categóricamente consistente. Todos los miembros de una
dimensión pertenecen a un mismo grupo. Entidad independiente dentro del modelo
multidimensional de una organización, que sirve como llave de búsqueda (actuando
como índice), o como mecanismo de selección de datos.
54
Drill Down :
Exponer progresivamente más detalle (dentro de un reporte o consulta), mediante
selecciones de ítems sucesivamente.
Drill-Up : Es el efecto contrario a drill -down. Significa ver menos nivel de detalle,
sobre la jerarquía significa generalizar o sumarizar, es decir, subir en el árbol
jerárquico.
DSS :
Sistema de Soporte de Decisiones. Sistema de aplicaciones automatizadas que
asiste a la organización en la toma de decisiones mediante un análisis estratégico
de la información histórica.
ETT (Extracción, Transformación y Transporte de datos) :
Pasos por los que atraviesan los datos para ir desde el sistema OLTP ( o la fuente
de datos utilizada) a la bodega dimensional.

Extracción, se refiere al mecanismo por medio del cual los datos son leídos
desde su fuente original.

Transformación (también conocida como limpieza) es la etapa por la que puede
atravesar una base de datos para estandarizar los datos de las distintas fuentes,
normalizando y fijando una estructura para los datos.

Transporte,
que
consiste
básicamente
en
llevar
los
datos
leídos
y
estandarizados a la bodega dimensional (puede ser remota o localmente).
Generalmente, para un Data Mart no es necesario atravesar por todos estos pasos,
pues al ser información localizada, sus datos suelen estar naturalmente
estandarizados (hay una sola fuente).
Granularidad:

Indica el grado de detalle asociado a un hecho particular.
55

El primer gran factor decisivo de la granularidad es el tiempo, ya que mientras
menor sea el intervalo de tiempo, mayor será el grado de detalle obtenido.

La granularidad depende directamente del número de dimensiones que se
asocian a la tabla de hechos.

Se deben considerar otros factores como la carga del procesador, espacio de
almacenamiento y satisfacer a cabalidad los requerimientos del cliente.
Hechos (Medidas):
Son medidas numéricas, las cuales describen los resultados (rendimiento) del
negocio.
Un hecho debe ser un valor cuantificable ó medible. Por ejemplo el número de
unidades vendidas, ingreso por ventas, etc.
Jerarquía:
Es un conjunto de atributos descriptivos que permite que a medida que se tenga
una relación de muchos a uno se ascienda en la jerarquía. Por ejemplo : los
Centros de Responsabilidad están asociados a un Tipo de Unidad, el cual pueden
corresponder a una gerencia, subgerencia, superintendencia, etc.; por otro parte,
cada CR está asociado a otro CR a nivel administrativo y, también existe una
clasificación a nivel funcional.
Olap (On-line Analytical Processing):
Conjunto de principios que proveen una ambiente de trabajo dimensional para
soporte decisional.
Oltp (On-line Transaction Processing) :
Sistema transaccional diario (o en detalle) que mantiene los datos operacionales
del negocio.
Rollup:
56
Comando propio del lenguaje Oracle Express, que simboliza las sumas agregadas
de una variable a través de los niveles jerárquicos de las dimensiones que la
sustentan.
Snapshot:
Imagen instantánea de los datos en un tiempo dado.
Sumarización:
Actividad de incremento de la granularidad de la información en una base de datos.
La
sumarización reduce el nivel de detalle, y es muy útil para presentar los datos para
apoyar al proceso de Toma de Decisiones.
Tabla Dimensional:
Dentro del esquema estrella, corresponde a las tablas que están unidas a la tabla
central a través de sus respectivas llaves. La cantidad de estas tablas le otorgan la
característica de multidimensionalidad a esta estrategia.
XI. Bibliografía
BF System Definición de Data Warehouse
Modelamiento Dimensional, Carmen Gloria Wolf
IBM DB2 OLAP Server, Maria Ibarra, Documentación Técnica.
Data Warehousing Fácil, Programación en Castellano, Claudio Casares.
Todo BI, Características de Pentaho OPEN SOURCE
Manual para la Construcción de un Data Warehouse, Business Intelligence,
Transformando la Información en Decisiones, Octavio Licea
7. Data Warehouse, Monografías.com, Damián Gutíerrez
8. Apuntes de Data Warehouse, Presentaciones Ing, Victor Aguilar, Escuela
Politécnica Nacional Ecuador
9. Diseño y Optimización de Bases de Datos y Data Warehouse, Universidad
Politécnica de Madrid, Dr. Eusebio Santos
1.
2.
3.
4.
5.
6.