Download Diapositiva 1 - Docencia FCA-UNAM

Document related concepts

OLAP wikipedia , lookup

Cubo OLAP wikipedia , lookup

Data mart wikipedia , lookup

Base de datos en memoria wikipedia , lookup

MicroStrategy wikipedia , lookup

Transcript
UNIVERSIDAD LATINA
BASES DE DATOS
NUEVAS TECNOLOGÍAS
Qué es Business Intelligence (BI)
• (Inteligencia Empresarial). Business
Intelligence es la habilidad para
transformar los datos en información, y la
información en conocimiento, de forma
que se pueda optimizar el proceso de
toma de decisiones en los negocios.
2
Qué es Business Intelligence (BI)
• (Inteligencia Empresarial). Business
Intelligence es la habilidad para
transformar los datos en información, y la
información en conocimiento, de forma
que se pueda optimizar el proceso de
toma de decisiones en los negocios.
3
Definición de minería de datos
• Es la exploración y análisis de grandes
cantidades de datos con el objeto de
encontrar patrones y reglas significativas
que generen conocimiento.
4
Metas de la minería de datos
• Permitir a una organización
• MEJORAR sus decisiones a través de un
mejor CONOCIMIENTO de su información
de negocios
• Mejorar la ventaja competitiva
5
La minería de datos es un campo
multidisciplinario
Inteligencia
Artificial
(“Machine
Learning”)
Bases de
Datos
(VLDB)
Graficación y
visualización
Estadística
Minería de datos
Ciencias de
la información
Otras
disciplinas
6
La minería de datos es un subconjunto
de la inteligencia de negocios
7
Minería de datos nos permite
• Proceso de utilizar datos “crudos” para inferir
importantes relaciones entre ellos
• Colección de técnicas poderosas para analizar
grandes volúmenes de datos
• No existe un solo enfoque para minería de datos
sino un conjunto de técnicas que se pueden
utilizar de manera independiente o en
combinación
• Existe una relación con la estadística, aunque
frecuentemente se separan las técnicas que no
están basadas en métodos estadísticos
Tipos de aplicaciones de la minería
de datos
• Aplicaciones o problemas de minería de
datos pueden clasificarse en las
siguientes categorías
– Clasificación
– Estimación
– Pronóstico
– Asociación
– Agrupación o segmentación
9
Clasificación
• Examinar las características de un nuevo
objeto y asignarle una clase o categoría
de acuerdo a un conjunto de tales objetos
previamente definido
• Ejemplos:
– Clasificar aplicaciones a crédito como bajo,
medio y alto riesgo
– Detectar reclamos fraudulentos de seguros
10
Estimación
• Relacionado con clasificación
– Mientras clasificación asigna un valor
discreto, estimación produce un valor
continuo
• Ejemplos:
– Estimar el precio de una vivienda
– Estimar el ingreso total de una familia
11
Pronóstico
• Predecir un valor futuro con base a
valores pasados
• Ejemplos:
– Predecir cuánto efectivo requerirá un cajero
automático en un fin de semana
Asociación
• Determinar cosas u objetos que van juntos
• Ejemplo:
– Determinar que productos se adquieren
conjuntamente en un supermercado
13
Agrupación o segmentación
• Dividir una población en un número de
grupos más homogéneos
• No depende de clases pre-definidas a
diferencia de clasificación
• Ejemplo:
– Dividir la base de clientes de acuerdo con los
hábitos de consumo
Usos de la minería de datos
• Administración de la relación con los clientes:
– Identificar nuevos clientes potenciales para
aumentar ventas
– Ampliar la base de cliente con la mínima
inversión por parte de la empresa
– Retener clientes existentes evitando que se
vayan a la competencia (“attrition”)
– Vender más a clientes existentes (“ventas
cruzadas”)
Usos de la minería de datos
• Detección de fraudes en el uso de tarjetas
de crédito
• Determinar patrones que puedan estar
relacionados con lavado de dinero
• Determinar el precio de una casa con
base en sus características y el precio de
otras casas vendidas
Usos de la minería de datos
• Usos de la minería de datos se han
ampliado con el comercio electrónico
Justificación de la minería de datos
• Datos se encuentran disponibles
• Poder computacional es cada vez menos
costoso
• Las presiones competitivas son enormes
• Software para minería de datos se
encuentra disponible
Ciclo de vida de minería de datos
Principales técnicas de minería de
datos
•
•
•
•
•
•
•
Análisis de canasta de supermercado
K vecinos más cercanos
Detección de grupos
Análisis de encadenamiento
Árboles de decisión
Redes neuronales artificiales
Algoritmos genéticos
Que es el Dataware Housing.
• Un almacén de datos (del inglés data
warehouse) es una colección de datos
orientada a un determinado ámbito
(empresa, organización, etc.),
integrado, no volátil y variable en el
tiempo, que ayuda a la toma de
decisiones en la entidad en la que se
utiliza.
Introducción a los Almacenes
de Datos
• Se desea operar eficientemente con esos datos...
• los costes de almacenamiento masivo y conectividad se han
reducido drásticamente en los últimos años,
• parece razonable recoger los datos (información
histórica) en un sistema separado y específico.
NACE EL DATA-WAREHOUSING
• Data warehouses (Almacenes o Bodegas de Datos)
Introducción a los Almacenes
de Datos
Almacenes de Datos (AD) (data warehouse)
motivación
disponer de Sistemas de
Información de apoyo a la
toma de decisiones*
disponer de bases de datos que permitan extraer conocimiento de
la información histórica almacenada en la organización
objetivos
análisis de la
organización
previsiones de
evolución
* DSS: Decision Support Systems
diseño de
estrategias
Arquitectura de un Almacén de
Datos
Modelo multidimensional:
 en un esquema multidimensional se representa una actividad
que es objeto de análisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se
representa por un conjunto de indicadores (medidas o atributos de
hecho).
la información descriptiva de cada dimensión se representa por
un conjunto de atributos (atributos de dimensión).
Arquitectura de un Almacén de
Datos
hecho
Marca
Descripción
Semana
Categoría
Departamento
Mes
Nro_producto
Trimestre
Día
Año
Tipo
importe
unidades
dimensión
Almacén
medidas
Ciudad
Tipo
atributos
Región
Arquitectura de un Almacén de
Datos
• Se pueden obtener hechos a diferentes niveles de
agregación:
• obtención de medidas sobre los hechos parametrizadas por
atributos de las dimensiones y restringidas por condiciones
impuestas sobre las dimensiones
HECHO: “El primer
trimestre de 2004 la
empresa vendió en
Valencia por un importe
de 22.000 euros del
producto tauritón 33 cl.”
LUGAR:
Murcia
Alicante
ciudad Zaragoza
Ventas en
miles de
Euros
Madrid
Barcelona
Valencia
PRODUCTO:
artículo
Zumo Piña 1l. 17
Jerarquía de dimensiones:
PRODUCTO
Categoría
Cola 33cl. 57

Jabón Salitre 93
Gama
Tauritón 33cl 22
Cerveza Kiel 20 cl 5
\
Leche Entera Cabra 1l 12
1 2 3 4 1 2
2005
2004
/
Artículo
TIEMPO
País
Año

/
Ciudad
Trimestre \

Supermercado
\
/
\
Mes Semana
\
TIEMPO:
trimestre
 Un nivel de agregación para un conjunto de
dimensiones se denomina cubo.
Prov.
LUGAR
/
Día
|
Hora
26
Arquitectura de un Almacén de
Datos
 El almacén de datos puede estar formado por varios
datamarts y, opcionalmente, por tablas adicionales.
Data mart
subconjunto de un almacén de
datos, generalmente en forma de
estrella o copo de nieve.
 se definen para satisfacer las necesidades
de un departamento o sección de la
organización.
 contiene menos información de detalle y
más información agregada.
Herramientas OLAP
 OLAP procesamiento analítico en línea (On-Line
Analytical Processing).
 Es una solución utilizada en el campo de la llamada
Inteligencia de negocios (o Business Intelligence)
cuyo objetivo es agilizar la consulta de grandes
cantidades de datos.
 Para ello utiliza estructuras multidimensionales (o
Cubos OLAP) que contienen datos resumidos de
grandes Bases de datos o Sistemas
Transaccionales (OLTP).
 Se usa en informes de negocios de ventas,
marketing, informes de dirección, minería de datos y
áreas similares
28
Ventajas OLAP
 Las herramientas de OLAP presentan al usuario una
visión multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de análisis.
 El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema físico) del almacén de datos.
 La herramienta OLAP genera la correspondiente
consulta y la envía al gestor de consultas del
sistema (p.ej. mediante una sentencia SELECT).
29
Tipos de Sistemas OLAP
1. ROLAP (Procesamiento Analítico
Relacional en Línea).
Tipos
2. MOLAP (procesamiento Analítico
multidimensional en Línea).
3. HOLAP (Procesamiento Analítico
Híbrido en Línea).
ROLAP
• Son sistemas en
los cuales los
datos se
encuentran
almacenados en
una base de datos
relacional.
Ventajas
Desventajas
Seguridad e
integridad en la
base de datos.
Consultas más
lentas.
Escalable para
grandes
volúmenes.
Construcción
cara.
Los datos pueden
ser compartidos
con aplicaciones
SQL.
Cálculos
limitados a las
funciones de las
bases de datos.
Estructura más
dinámica.
MOLAP
• En estos sistemas los
datos se encuentran
almacenados en una
estructura de datos
multidimensional.
Ventajas
Desventajas
Mayor
rendimiento en el
procesamiento de
consultas.
Tamaño limitado
para la
arquitectura del
cubo.
Posibilita hacer
cálculos más
complicados.
No puede
acceder a datos
que no están en
el cubo.
No puede
explotar el
paralelismo las
bases de datos.
HOLAP
• En estos sistemas mantienen los registros
detallados en la base de datos relacional,
mientras que los datos resumidos o
agregados se almacenan en una base de
datos multidimensional separada.
Comparaciones
ROLAP
• Los datos son accedidos
directamente desde el
Datawarehouse u otra
fuente de datos relacional
y no son almacenados
por separado.
MOLAP
• Los datos son
precalculados y luego
son almacenados en
cubos de datos
multidimensionales.
Comparaciones
HOLAP
• Mantiene los volúmenes de datos mas grande en la
base de datos relacional y las agregaciones en una base
de datos MOLAP separada.
Utilidades de OLAP
• Tienen acceso a grandes cantidades de
datos.
• Analizan las relaciones entre muchos tipos
de elementos empresariales.
• Involucran datos agregados.
• Comparan datos agregados a través de
periodos jerárquicos.
Utilidades de OLAP
• Presentan datos en diferentes
perspectivas.
• Involucran cálculos complejos entre
elementos de datos.
• Pueden responder con rapidez a
consultas de usuarios.
Beneficios de OLAP
• Es de fácil uso y acceso flexible para los
usuarios.
• Los datos están organizados en diferentes
dimensiones, lo que permite un mejor
análisis.
• Permite encontrar la historia en los datos.
• Genera ciertas ventajas competitivas.
Requerimientos Funcionales de
los Sistemas OLAP
• Construir un Datawarehouse y/o
Datamart.
• Uso de herramientas de Almacenamiento
(bases de datos multidimensionales),
Herramientas de Extracción y Colección,
Herramientas para Reportes de Usuario
Final y Herramientas para Análisis
Inteligentes.
Requerimientos Funcionales de
los Sistemas OLAP
• Un servidor que sea altamente escalable.
• Un segundo servidor para las
herramientas de consulta de datos.
Operadores para el manejo de
cubos de datos
Operadores
1. CUBE
2. ROLLUP
3. DRILLDOWN
4. GROUPING SETS
5. SLICE (Rebanada)
6. PIVOT
7. Dado
8. Ascenso
9. Descenso
Utilización de Herramientas para
OLAP