Download Diapositiva 1 - Docencia FCA-UNAM
Document related concepts
Transcript
UNIVERSIDAD LATINA BASES DE DATOS NUEVAS TECNOLOGÍAS Qué es Business Intelligence (BI) • (Inteligencia Empresarial). Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios. 2 Qué es Business Intelligence (BI) • (Inteligencia Empresarial). Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios. 3 Definición de minería de datos • Es la exploración y análisis de grandes cantidades de datos con el objeto de encontrar patrones y reglas significativas que generen conocimiento. 4 Metas de la minería de datos • Permitir a una organización • MEJORAR sus decisiones a través de un mejor CONOCIMIENTO de su información de negocios • Mejorar la ventaja competitiva 5 La minería de datos es un campo multidisciplinario Inteligencia Artificial (“Machine Learning”) Bases de Datos (VLDB) Graficación y visualización Estadística Minería de datos Ciencias de la información Otras disciplinas 6 La minería de datos es un subconjunto de la inteligencia de negocios 7 Minería de datos nos permite • Proceso de utilizar datos “crudos” para inferir importantes relaciones entre ellos • Colección de técnicas poderosas para analizar grandes volúmenes de datos • No existe un solo enfoque para minería de datos sino un conjunto de técnicas que se pueden utilizar de manera independiente o en combinación • Existe una relación con la estadística, aunque frecuentemente se separan las técnicas que no están basadas en métodos estadísticos Tipos de aplicaciones de la minería de datos • Aplicaciones o problemas de minería de datos pueden clasificarse en las siguientes categorías – Clasificación – Estimación – Pronóstico – Asociación – Agrupación o segmentación 9 Clasificación • Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definido • Ejemplos: – Clasificar aplicaciones a crédito como bajo, medio y alto riesgo – Detectar reclamos fraudulentos de seguros 10 Estimación • Relacionado con clasificación – Mientras clasificación asigna un valor discreto, estimación produce un valor continuo • Ejemplos: – Estimar el precio de una vivienda – Estimar el ingreso total de una familia 11 Pronóstico • Predecir un valor futuro con base a valores pasados • Ejemplos: – Predecir cuánto efectivo requerirá un cajero automático en un fin de semana Asociación • Determinar cosas u objetos que van juntos • Ejemplo: – Determinar que productos se adquieren conjuntamente en un supermercado 13 Agrupación o segmentación • Dividir una población en un número de grupos más homogéneos • No depende de clases pre-definidas a diferencia de clasificación • Ejemplo: – Dividir la base de clientes de acuerdo con los hábitos de consumo Usos de la minería de datos • Administración de la relación con los clientes: – Identificar nuevos clientes potenciales para aumentar ventas – Ampliar la base de cliente con la mínima inversión por parte de la empresa – Retener clientes existentes evitando que se vayan a la competencia (“attrition”) – Vender más a clientes existentes (“ventas cruzadas”) Usos de la minería de datos • Detección de fraudes en el uso de tarjetas de crédito • Determinar patrones que puedan estar relacionados con lavado de dinero • Determinar el precio de una casa con base en sus características y el precio de otras casas vendidas Usos de la minería de datos • Usos de la minería de datos se han ampliado con el comercio electrónico Justificación de la minería de datos • Datos se encuentran disponibles • Poder computacional es cada vez menos costoso • Las presiones competitivas son enormes • Software para minería de datos se encuentra disponible Ciclo de vida de minería de datos Principales técnicas de minería de datos • • • • • • • Análisis de canasta de supermercado K vecinos más cercanos Detección de grupos Análisis de encadenamiento Árboles de decisión Redes neuronales artificiales Algoritmos genéticos Que es el Dataware Housing. • Un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Introducción a los Almacenes de Datos • Se desea operar eficientemente con esos datos... • los costes de almacenamiento masivo y conectividad se han reducido drásticamente en los últimos años, • parece razonable recoger los datos (información histórica) en un sistema separado y específico. NACE EL DATA-WAREHOUSING • Data warehouses (Almacenes o Bodegas de Datos) Introducción a los Almacenes de Datos Almacenes de Datos (AD) (data warehouse) motivación disponer de Sistemas de Información de apoyo a la toma de decisiones* disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización objetivos análisis de la organización previsiones de evolución * DSS: Decision Support Systems diseño de estrategias Arquitectura de un Almacén de Datos Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho). la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión). Arquitectura de un Almacén de Datos hecho Marca Descripción Semana Categoría Departamento Mes Nro_producto Trimestre Día Año Tipo importe unidades dimensión Almacén medidas Ciudad Tipo atributos Región Arquitectura de un Almacén de Datos • Se pueden obtener hechos a diferentes niveles de agregación: • obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones HECHO: “El primer trimestre de 2004 la empresa vendió en Valencia por un importe de 22.000 euros del producto tauritón 33 cl.” LUGAR: Murcia Alicante ciudad Zaragoza Ventas en miles de Euros Madrid Barcelona Valencia PRODUCTO: artículo Zumo Piña 1l. 17 Jerarquía de dimensiones: PRODUCTO Categoría Cola 33cl. 57 Jabón Salitre 93 Gama Tauritón 33cl 22 Cerveza Kiel 20 cl 5 \ Leche Entera Cabra 1l 12 1 2 3 4 1 2 2005 2004 / Artículo TIEMPO País Año / Ciudad Trimestre \ Supermercado \ / \ Mes Semana \ TIEMPO: trimestre Un nivel de agregación para un conjunto de dimensiones se denomina cubo. Prov. LUGAR / Día | Hora 26 Arquitectura de un Almacén de Datos El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales. Data mart subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve. se definen para satisfacer las necesidades de un departamento o sección de la organización. contiene menos información de detalle y más información agregada. Herramientas OLAP OLAP procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia de negocios (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares 28 Ventajas OLAP Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis. El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos. La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT). 29 Tipos de Sistemas OLAP 1. ROLAP (Procesamiento Analítico Relacional en Línea). Tipos 2. MOLAP (procesamiento Analítico multidimensional en Línea). 3. HOLAP (Procesamiento Analítico Híbrido en Línea). ROLAP • Son sistemas en los cuales los datos se encuentran almacenados en una base de datos relacional. Ventajas Desventajas Seguridad e integridad en la base de datos. Consultas más lentas. Escalable para grandes volúmenes. Construcción cara. Los datos pueden ser compartidos con aplicaciones SQL. Cálculos limitados a las funciones de las bases de datos. Estructura más dinámica. MOLAP • En estos sistemas los datos se encuentran almacenados en una estructura de datos multidimensional. Ventajas Desventajas Mayor rendimiento en el procesamiento de consultas. Tamaño limitado para la arquitectura del cubo. Posibilita hacer cálculos más complicados. No puede acceder a datos que no están en el cubo. No puede explotar el paralelismo las bases de datos. HOLAP • En estos sistemas mantienen los registros detallados en la base de datos relacional, mientras que los datos resumidos o agregados se almacenan en una base de datos multidimensional separada. Comparaciones ROLAP • Los datos son accedidos directamente desde el Datawarehouse u otra fuente de datos relacional y no son almacenados por separado. MOLAP • Los datos son precalculados y luego son almacenados en cubos de datos multidimensionales. Comparaciones HOLAP • Mantiene los volúmenes de datos mas grande en la base de datos relacional y las agregaciones en una base de datos MOLAP separada. Utilidades de OLAP • Tienen acceso a grandes cantidades de datos. • Analizan las relaciones entre muchos tipos de elementos empresariales. • Involucran datos agregados. • Comparan datos agregados a través de periodos jerárquicos. Utilidades de OLAP • Presentan datos en diferentes perspectivas. • Involucran cálculos complejos entre elementos de datos. • Pueden responder con rapidez a consultas de usuarios. Beneficios de OLAP • Es de fácil uso y acceso flexible para los usuarios. • Los datos están organizados en diferentes dimensiones, lo que permite un mejor análisis. • Permite encontrar la historia en los datos. • Genera ciertas ventajas competitivas. Requerimientos Funcionales de los Sistemas OLAP • Construir un Datawarehouse y/o Datamart. • Uso de herramientas de Almacenamiento (bases de datos multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes. Requerimientos Funcionales de los Sistemas OLAP • Un servidor que sea altamente escalable. • Un segundo servidor para las herramientas de consulta de datos. Operadores para el manejo de cubos de datos Operadores 1. CUBE 2. ROLLUP 3. DRILLDOWN 4. GROUPING SETS 5. SLICE (Rebanada) 6. PIVOT 7. Dado 8. Ascenso 9. Descenso Utilización de Herramientas para OLAP