Download Analizando patrones de datos
Document related concepts
Transcript
Analizando patrones de datos SQL Server DM, Excel DM, Azure ML y R Ana María Bisbé York @ambynet http://amby.net/ Temario Introducción a Minería de datos MS Office Excel – Herramientas de tabla y Minería de datos SQL Server Data Tools – Analysis Services SQL Server Management Studio – Data Mining Extensions (DMX) Lenguaje R MS Azure Machine Learning 2 Introducción Minería de datos y Machine Learning Análisis de datos para conocer ¿por qué? Descubrir las razones del éxito y el fracaso de la gestión Entender los productos, clientes, y a nosotros mismos En resumen: Obtener el conocimiento para dirigir el negocio sobre la base del análisis de datos Riesgo de un crédito a un cliente Agrupación de clientes Productos o servicios que se adquieren juntos Previsión de ventas Previsión de clientes potenciales 4 La minería de datos en el proceso de búsqueda de conocimiento http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf - 1997 5 El modelo CRISP https://es.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining 6 Algoritmos Directos o supervisados Variable a predecir Clasificación Estimación Previsión Indirectos o no supervisados Patrones Agrupación por afinidad Clustering Descripción 7 Herramientas http://www.techrepublic.com/blog/big-data-analytics/data-scientists-can-find-big-money-inopen-source/ 8 Explorar con TSQL 9 Papel de las estadísticas Permiten tener una idea de los valores Media, mediana, MIN, MAX Descubrir correlaciones sencillas Validar algunas asunciones Visualizar con precisión Histogramas y gráficos de caja (boxplots) 10 Pasos en un proceso de minería de datos Definir (inicializar) el modelo Entrenar el modelo procesar un % de los casos conocidos Validar modelo para puntuar (score) procesar un % de los casos conocidos Comparar las predicciones con datos reales 11 MS Office Excel – Herramientas de tabla y Minería de datos Minería de datos con MS Excel Detección fraudes o anomalías con DM Excel SQL Server Analysis Services Data Tools Validar modelos Realizar predicciones en SSAS SQL Server Management Studio – Visores Naive Bayes en SSAS Redes neuronales en SSAS Clustering en SSAS Árbol de decisión en SSAS Contenido Genérico del modelo SQL Server Management Studio – Data Mining Extensions (DMX) Contenido del modelo Detección de fraudes o anomalías con DMX Realizar predicciones Lenguaje R Lenguaje R Código abierto, gratuito Disponible para Windows, Mac, Unix http://cran.r-Project.org Comunidad enorme y muy activa Todo incluido: lenguaje e IDE Más de 5000 paquetes Visible desde Azure ML 29 Explorar datos con R - Raffle Explorar datos con R - Raffle Correlación en datos con R - Raffle Modelado desde R - Rattle R para desarrollador SQL Paquete dplyr Ejemplos de comandos Filter Select Arrange Mutate Summarise Group_By Base de datos SQL Programación R Tabla Data frame Columna o campo Columna o variable Fila Observación 34 R – Estadísticas R para obtener gráficos Paquete ggplot ggplot (df_dm, aes(Región, fill=Educación)) + geom_bar() ggplot(df_dm, aes(Ocupación) ) + geom_histogram(color = "white") + facet_grid(EstadoCivil ~ .) 36 MS Azure Machine Learning Algoritmos MS Azure Machine Learning Microsoft Azure Machine Learning Azure ML - Cargar datos Azure ML - Experimento Azure ML – Explorar datos Azure ML – Seleccionar columnas Azure ML – Dividir la muestra Azure ML – Algoritmos de clasificación Azure ML – Entrenar modelos Azure ML – Medir (score) Azure ML – Evaluar modelos Azure ML – Visualizar resultados Conclusiones Minería de datos Búsqueda de conocimiento Mayor parte del proyecto Exploración de datos Limpieza Definición de atributos o variables Modelado Evaluación Implementación 50 Gracias por su atención Follow @pass24hop Comparta sus opinions con hashtags #pass24hop & #sqlpass ¿Preguntas?