Download Analizando patrones de datos

Document related concepts

Navicat wikipedia , lookup

Microsoft SQL Server wikipedia , lookup

Data Transformation Services wikipedia , lookup

SQL Server Compact wikipedia , lookup

SQL Server Integration Services wikipedia , lookup

Transcript
Analizando patrones de datos
SQL Server DM, Excel DM, Azure ML y R
Ana María Bisbé York
@ambynet
http://amby.net/
Temario
Introducción a Minería de datos
MS Office Excel – Herramientas de tabla y Minería de datos
SQL Server Data Tools – Analysis Services
SQL Server Management Studio – Data Mining Extensions (DMX)
Lenguaje R
MS Azure Machine Learning
2
Introducción Minería de datos y
Machine Learning
Análisis de datos para conocer ¿por qué?
Descubrir las razones del éxito y el fracaso de la gestión
Entender los productos, clientes, y a nosotros mismos
En resumen:
 Obtener el conocimiento para dirigir el negocio sobre la base del análisis de datos





Riesgo de un crédito a un cliente
Agrupación de clientes
Productos o servicios que se adquieren juntos
Previsión de ventas
Previsión de clientes potenciales
4
La minería de datos en el proceso de búsqueda de
conocimiento
 http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf - 1997
5
El modelo CRISP
 https://es.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
6
Algoritmos
Directos o supervisados
 Variable a predecir
 Clasificación
 Estimación
 Previsión
Indirectos o no supervisados
 Patrones
 Agrupación por afinidad
 Clustering
 Descripción
7
Herramientas
 http://www.techrepublic.com/blog/big-data-analytics/data-scientists-can-find-big-money-inopen-source/
8
Explorar con TSQL
9
Papel de las estadísticas
Permiten tener una idea de los valores
 Media, mediana, MIN, MAX
Descubrir correlaciones sencillas
Validar algunas asunciones
Visualizar con precisión
 Histogramas y gráficos de caja (boxplots)
10
Pasos en un proceso de minería de datos
Definir (inicializar) el modelo
Entrenar el modelo
 procesar un % de los casos conocidos
Validar modelo para puntuar (score)
 procesar un % de los casos conocidos
Comparar las predicciones con datos reales
11
MS Office Excel –
Herramientas de tabla y
Minería de datos
Minería de datos con MS Excel
Detección fraudes o anomalías con DM Excel
SQL Server Analysis Services
Data Tools
Validar modelos
Realizar predicciones en SSAS
SQL Server Management
Studio – Visores
Naive Bayes en SSAS
Redes neuronales en SSAS
Clustering en SSAS
Árbol de decisión en SSAS
Contenido Genérico del modelo
SQL Server Management
Studio – Data Mining
Extensions (DMX)
Contenido del modelo
Detección de fraudes o anomalías con DMX
Realizar predicciones
Lenguaje R
Lenguaje R
Código abierto, gratuito
 Disponible para Windows, Mac, Unix
 http://cran.r-Project.org
Comunidad enorme y muy activa
Todo incluido: lenguaje e IDE
Más de 5000 paquetes
Visible desde Azure ML
29
Explorar datos con R - Raffle
Explorar datos con R - Raffle
Correlación en datos con R - Raffle
Modelado desde R - Rattle
R para desarrollador SQL
Paquete dplyr
 Ejemplos de comandos






Filter
Select
Arrange
Mutate
Summarise
Group_By
Base de datos SQL
Programación R
Tabla
Data frame
Columna o campo
Columna o variable
Fila
Observación
34
R – Estadísticas
R para obtener gráficos
Paquete ggplot
 ggplot (df_dm, aes(Región, fill=Educación)) + geom_bar()
 ggplot(df_dm, aes(Ocupación) ) + geom_histogram(color = "white") +
facet_grid(EstadoCivil ~ .)
36
MS Azure Machine Learning
Algoritmos MS Azure Machine Learning
Microsoft Azure Machine Learning
Azure ML - Cargar datos
Azure ML - Experimento
Azure ML – Explorar datos
Azure ML – Seleccionar columnas
Azure ML – Dividir la muestra
Azure ML – Algoritmos de clasificación
Azure ML – Entrenar modelos
Azure ML – Medir (score)
Azure ML – Evaluar modelos
Azure ML – Visualizar resultados
Conclusiones
Minería de datos
 Búsqueda de conocimiento
Mayor parte del proyecto
 Exploración de datos
 Limpieza
 Definición de atributos o variables
Modelado
Evaluación
Implementación
50
Gracias por su atención
Follow @pass24hop
Comparta sus opinions con hashtags
#pass24hop & #sqlpass
¿Preguntas?