Download Big Data
Document related concepts
Transcript
Aplicaciones de Inteligencia Computacional para el Minado de Conjuntos de Datos Integralmente Reducidos Angel Kuri-Morales Instituto Tecnológico Autónomo de México [email protected] Agenda Qué es Big Data 1. 1. 2. Solución Conceptual al dilema 2. 1. 2. 3. 3. 4. Big Data está aquí para quedarse El dilema tecnológico Información Entropía Modelado Solución Técnica al dilema Aplicación – Caso de Estudio Qué es Big Data En este seminario ya se ha definido el fenómeno Big Data. Datos Altamente distribuidos Sin estructura aparente De gran volumen Big Data está aquí para quedarse Grandes volúmenes de datos nacidos de: Ciencias Genómica Astronomía Finanzas Meteorología Física Biología Negocios Banca Economía Análisis Estadísticos Redes Sociales Facebook Twitter El Dilema Tecnológico En esencia, el fenómeno Big Data se suscita por dos razones históricas: Los sistemas de cómputo y telecomunicaciones (C&T) se han abaratado en órdenes de magnitud Los sistemas de C&T se han hecho más eficientes y poderosos Esto origina un efecto de “bola de nieve” Aumenta el número de usuarios Se invierte más en I&D Los sistemas se hacen mejores y más baratos… El efecto “Bola de Nieve” Lo anterior demanda mejores herramientas para el almacenamiento, transmisión y tratamiento de los datos Estas herramientas demandan mejores desarrollos Estos redundan en más datos… Soluciones tecnológicas Arquitecturas Procesamiento en paralelo en sistemas fuertemente conectados Redes de Benes Redes de Batcher Nuevas tecnologías Tecnologías: Cómputo paralelo Optimización de algoritmos de agrupamiento Cómputo distribuído Computación Grid Nuevos paradigmas Ópticas (Láser) Criogénicas (Supercondutores) Biológicas (Computación con ADN) Cuánticas (Qubits) Enfoque tecnológico En todos estos casos, sin importar qué tan eficientes sean las tecnologías implicadas, se alcanzará un límite físico y, eventualmente, será indispensable encontrar un nuevo enfoque para tratar Big Data No es lo mismo “Data” que Información Hay que exprimir los datos para obtener jugo… Pero una gran naranja no necesariamente implica mucho jugo La entropía y la información En las disciplinas de cómputo es necesaria una definición precisa de lo que entendemos por información. La definición de entropía (información promedio) es En donde “X” es el mensaje, pi es la probabilidad de que aparezca un símbolo, m es el número de símbolos y n es la cantidad de datos. Y es posible “exprimir” los datos para quedarnos con la información relevante H(bmp) Esta naranja “pesa” 369,994 bytes. H(jpg) Esta, en cambio, “pesa” solamente 21,895 bytes ¡17:1! Reducción de los Datos como Alternativa Práctica Una posible alternativa es tratar de ser más eficientes en el tratamiento de la información. En, prácticamente, todos los casos la información contenida en las bases de datos puede preservarse sin necesidad de usar todos los datos. La idea clave es “En vez de trabajar con una gran cantidad de datos, trabajemos con la información equivalente”. Extraigamos la muestra mínima que nos proporcione la misma información que los datos originales Determinación del tamaño de la muestra mínima Podemos entonces plantear la siguiente hipótesis: “La información contenida en una muestra aleatoria (tomada de una gran base de datos D) de tamaño M es aproximadamente igual a la de D cuando las entropías son similares”. Y “El comportamiento de las variables de M debe ser similar al de las variables de D”. Los dos pasos Paso 1: Encontrar una muestra reducida con las misma cantidad de información Paso 2: Modelar las variables del sistema para certificar que en ambos conjuntos de datos (D y M) las variables se inter-relacionan de manera análoga. Paso 1: Encontrar la entropía equivalente Paso 2: Modelar las variables Publicaciones académicas Kuri-Morales, A., "An Automated Search Space Reduction Methodology for Large DataBases", Springer, Editor(s)): Perner, Petra, ISBN: 9783642397356, ISSN: 0302-9743, 16/07/2013. Kuri-Morales, A., "Application of a Method Based on Computational Intelligence for the Optimization of Resources Determined from Multivariate Phenomena", MICAI 2012, Springer, Unpublished, Editor(s)): Batryshin, I. et al, ISBN: 9783642377976, ISSN: 03029743, 15/11/2012. Kuri-Morales, A., Lozano, A., "Sampling for Information and Structure Preservation when Mining Large Data Bases", Springer, 174-183, Editor(s)): Angel Kuri-Morales, ISBN: 3-64216951-1, ISSN: 0302-9743, 03/11/2010. Kuri-Morales, A., Erazo-Rodríguez, F., "A Search Space Reduction Methodology for Data Mining in Large Databases", Engineering Applications of Artificial Intelligence, Elsevier, 5765, ISBN: 9780769534411, ISSN: 0952-1976, 01/02/2009. Kuri-Morales, A., Rodríguez-Erazo, F., "A Search Space Reduction Methodology for Large Databases: A Case Study", Advances in Data Mining: Theoretical Aspects and Applications, LNAI 4597, Best Paper Award, Springer, 199-213, Editor(s)): Petra Perner, ISBN: 3-540-73434-1, ISSN: 0302-9743, 14/07/2007. CASO de Estudio Se efectuó un proyecto de minería de datos para una empresa multi-nacional (a la que nos referiremos como “La Compañía”). La Compañía tiene grandes bases de datos incluyendo datos acerca de servicios prestados, facturación (registrados en períodos de varios años) y otros muchos datos pertinentes. Validación Estadística Modelo 1: obtenido de la muestra Modelo 2: obtenido de los datos originales Clust. Modelo 1 (%) Modelo 2 Dif. (%) (%) A 30 27 3 B 21 20 1 C 15 18 3 D 12 15 3 E 12 12 0 F 10 8 2 Validación Estadística Identificación del conjunto de datos a partir del modelo muestral. Datos originales Diferencia (%) (%) Cluster Muestra (%) A 30.06 30.24 0.18 B 21.01 20.91 0.10 C 15.45 15.37 0.08 D 12.27 12.25 0.02 E 11.54 11.55 0.01 F 9.67 9.68 0.01 Aplicación Práctica A raíz del estudio descrito, la Compañía disminuyó los tiempos de proceso de sus datos de 35 días a 10. Consecuentemente, las decisiones estratégicas de la Compañía pueden efectuarse con mayor eficiencia. Los directivos de la Compañía pueden efectuar análisis personales sin necesidad de acceder a las bodegas de datos y/o a la red de servidores. Aplicación Práctica Una vez que se constató la efectividad del método propuesto, la determinación y uso de la muestra óptima se pusieron a prueba, a nivel internacional, durante 6 meses. Debido a los resultados positivos obtenidos, esta estrategia se adoptó como un estándar en la Compañía. Conclusiones La generación de Big Data es un proceso irreversible. Las tecnologías de punta irán siendo remplazadas conforme los volúmenes de datos se hagan cada vez mayores. Una alternativa interesante consiste en identificar la información valiosa cuando la toma de decisiones estratégicas así lo amerite. Conclusiones Al identificar solamente la información valiosa, es posible eficientar los procesos de manejo de información. Claramente, los detalles puntuales dejan de estar al acceso de los tomadores de decisiones. Típicamente estos detalles no influyen en el establecimiento de políticas de información. Como un beneficio adicional, se evitan problemas asociados a la confidencialidad y la privacía que subyacen a Big Data y se reduce el efecto Big Brother.