Download Minería de Datos - Beatriz Beltrán Martínez

Document related concepts

Minería de datos wikipedia , lookup

Aprendizaje basado en árboles de decisión wikipedia , lookup

Weka (aprendizaje automático) wikipedia , lookup

Neural Designer wikipedia , lookup

Aprendizaje automático wikipedia , lookup

Transcript
Otoño 2009

Cada vez es más frecuente el almacén
de información en bases de datos como
en:





Data Warehouse
Empresas de Marketing
Escuelas
Gobierno
Esto dificulta la realización de análisis de
aspectos relevantes.
MC Beatriz Beltrán Martínez
Otoño 2009
2
La búsqueda tradicional de datos se
realiza mediante análisis estadísticos.
 A finales de los 80’s la estadística se
amplió a técnicas como lógica difusa,
razonamiento
heurístico
y
redes
neuronales.
 Actualmente, las técnicas anteriores se
aprovechan
para
generar
conocimiento.

MC Beatriz Beltrán Martínez
Otoño 2009
3

La Minería de Datos es la extracción
automática de información predictiva
escondida desde bases de datos.

La Minería de Datos estudia métodos y
algoritmos que permiten la extracción
automática de información sintetizada
que permite caracterizar las relaciones
escondidas.
MC Beatriz Beltrán Martínez
Otoño 2009
4

En las aplicaciones de la Minería de
Datos se hace sobre datos previamente
recolectados.

Los datos no cambian mientras están
siendo analizados.

Por lo que los datos generados son
confiables y consistentes para éstos
datos.
MC Beatriz Beltrán Martínez
Otoño 2009
5

La Minería de Datos y las Bases de Datos
comerciales están disponibles para
resolver problemas de decisión de
negocios.

La Minería de Datos es una tecnología
que ayuda a enfocarse en la
información más importante en los
almacenes de datos.
MC Beatriz Beltrán Martínez
Otoño 2009
6

Minería de Datos:

Bases
de
Comerciales:
Datos
› No es una solución
a negocios.
› Es sólo tecnología.
› Encuentra
las
“gemas pérdidas”
en montañas de
información.
MC Beatriz Beltrán Martínez
› Involucra decisiones
de información.
› Da decisiones de
negocios.
Otoño 2009
7

Las Herramientas de la Minería de Datos:
› Predicen
tendencias
futuras
y
comportamientos.
› Pueden responder a preguntas que
consumarían demasiado tiempo para
resolverlas.

La
automatización,
herramientas típicas de
decisión.
MC Beatriz Beltrán Martínez
Otoño 2009
provee
soporte de
8

Las Herramientas obtienen de las bases de
datos patrones escondidos.

Las Técnicas de la Minería de Datos
pueden ser implementadas rápidamente
en software y en las plataformas de
hardware existente.

Las Herramientas de Minería de Datos
pueden ser implementadas en plataformas
cliente-servidor
o
computadoras
de
procesamiento paralelo.
MC Beatriz Beltrán Martínez
Otoño 2009
9
Las Técnicas de la Minería de Datos son el
resultado de un largo proceso de
investigación y desarrollo de productos.
 La Minería de Datos esta soportada por tres
tecnologías que son lo suficientemente
maduras:
Colección masiva de datos.
Computadoras con multiprocesamiento.
Algoritmos de minería de datos.

MC Beatriz Beltrán Martínez
Otoño 2009
10

En la siguiente tabla se muestra la
evolución del tipo de consultas.
Evolución
Colección de
datos
(Años 60)
Acceso a datos.
(Años 80)
Data Warehouse y
soporte a la toma
de decisiones.
(Años 90)
Data Mining (1995)
Preguntas de Negocios
Tecnologías permitidas
Cuales fueron los ingresos
en los últimos 5 años?
Computadoras, cintas y
discos.
(Procesamiento analítico
en línea, bases de datos
multidimensionales
y
almacenes de datos.
Liberación de datos
estáticos
retrospectiva.
Nivel de registro en
liberación de datos
dinámicos
retrospectiva.
Niveles múltiples en
liberación de datos
dinámicos
retrospectiva.
Algoritmos avanzados,
computadoras con
multiprocesador y bases
de datos masivas.
Liberación de
información
proactiva
prospectiva
Que rebajas se tuvieron en Bases
de
datos
Nueva Inglaterra en marzo? relacionales y lenguajes
de
consulta
estructurados (SQL)
Que rebajas se tuvieron en
Nueva Inglaterra en
marzo? Repetir para
Boston.
Que es lo más probable
que pase con las rebajas
en Boston el próximo mes?
MC Beatriz Beltrán Martínez
Características
Otoño 2009
11

El componente principal en la Tecnología
de la Minería de Datos ha sido desarrollado
en:
Estadística
Inteligencia Artificial
Máquinas de Aprendizaje

Actualmente, existe gran relevancia en:
Ambientes de negocios
Las descripciones básicas de las arquitecturas
de almacenes de datos.
MC Beatriz Beltrán Martínez
Otoño 2009
12

Las técnicas para la Minería de Datos
son:
 Redes Neuronales Artificiales.
 Árboles de Decisión.
 Algoritmos Genéticos.
 Modelos Lineales.
 Vecino más Cercano.
MC Beatriz Beltrán Martínez
Otoño 2009
13
La Minería de Datos ha surgido del
potencial
del
análisis
de
grandes
volúmenes de información.
 Su
fin
es
obtener
resúmenes
y
conocimiento para la toma de decisiones.
 Además se pretende construir experiencia
a partir de millones de transacciones.

MC Beatriz Beltrán Martínez
Otoño 2009
14
El conjunto de datos de donde la
minería intenta extraer conocimiento se
le llama conjunto de entrenamiento.
 La meta de la Minería es obtener
conocimiento válido no solo para la
base de datos considerada sino para
una muy similar.
 El conocimiento puede ser probado con
otro conjunto de entrenamiento.

MC Beatriz Beltrán Martínez
Otoño 2009
15

Algunas de las aplicaciones de la
Minería de Datos son:
›
›
›
›
›
›
Compañias Farmaceuticas.
Compañias de crédito.
Compañias de transporte.
Compañias de consumo.
Reacciones químicas.
Comercio, monitoreo.
MC Beatriz Beltrán Martínez
Otoño 2009
16

Facilidad con que se puede caer en
una falsa interpretación.

Es fácil equivocarse.

Tiempo y espacio.

Privacidad
MC Beatriz Beltrán Martínez
Otoño 2009
17
BD
Selección
Datos
Preprocesado
Selección de
características
Extracción de
conocimiento
Conocimiento
MC Beatriz Beltrán Martínez
Otoño 2009
Evaluación
Modelo
clasificador
18
Algoritmos de aprendizaje:
 Mediante una técnica de Minería de
Datos, se obtiene un modelo de
conocimiento.
 El modelo representa patrones de
comportamiento observados en los
valores de las variables o relaciones de
asociación.
 También pueden usarse técnicas para
generar distintos modelos.
MC Beatriz Beltrán Martínez
Otoño 2009
19

Los
métodos
descubren:
no
supervisados,
 patrones y
 tendencias en los datos actuales.

El descubrimiento de esa información
sirve para llevar a cabo acciones y
obtener un beneficio de ellas.
MC Beatriz Beltrán Martínez
Otoño 2009
20
Data Mining
Verification Driven DM
SQL
Discovery Driven DM
SQL Generator
Description
Visualization
Query Tools
OLAP
Prediction
Clasification
Clustering
Association
Secuential Association
MC Beatriz Beltrán Martínez
Decision Tree
Distillation
Otoño 2009
Statistical
Regression
Rule Induction
Neural Network
21

Agrupamiento.
› También se llama segmentación.
› Identifica tipologías de grupos, donde se
guarda similitud.
› Se requiere información sobre el colectivo a
segmentar.
› La información corresponde a valores
concretos.
› Se basan en herramientas de carácter
estadísticos, generación de reglas, redes
neuronales,etc.
MC Beatriz Beltrán Martínez
Otoño 2009
22

Métodos estadísticos.
› Técnica tradicional en el tratamiento de
grandes volúmenes de datos.
› Existen varios modelos:
ANOVA (Análisis de Varianza). Contrasta con
variables continuas.
Ji cuadrado. Contrasta con la independencia
de variables.
Componentes principales. Permite reducir el
número de variables.
MC Beatriz Beltrán Martínez
Otoño 2009
23

Métodos estadísticos.
Análisis
de
clústers.
Permite
clasificar
poblaciones.
Análisis de discrimante. Permite encontrar
reglas de clasificación de elementos en
grupos.
Regresión lineal. Se identifica una variable
dependiente de las independientes, con una
relación lineal.
Regresión logística. Trabaja con variables
discretas, se requiere que las variables sean
lineales.
MC Beatriz Beltrán Martínez
Otoño 2009
24

Árboles de decisión.
› Herramientas analíticas empleadas para el
descubrimiento de reglas y relaciones.
› Se construye partiendo el conjuntos de dos
(CART) o más (CHAID).
› Cada subconjunto a su vez es particionado.
› Se continua hasta no encontrar diferencias
significativas de influencia.
MC Beatriz Beltrán Martínez
Otoño 2009
25

Reglas de asociación.
› Derivan de un tipo de análisis que extrae
información por coincidencias.
› Permite descubrir correlaciones o coocurrencias en los sucesos de la base de
datos.
› Se formaliza la obtención de reglas del tipo
SI... ENTONCES.
MC Beatriz Beltrán Martínez
Otoño 2009
26

Redes neuronales.
› Son
capaces de detectar y aprender
patrones y características de los datos.
› Una vez adiestradas las redes pueden hacer
previsiones, clasificaciones y segmentación.
› Esto se realiza estructurando nivels o capas.
› Se tienen dos tipos de aprendizaje:
supervisado y no supervisado.
MC Beatriz Beltrán Martínez
Otoño 2009
27

Algorítmos genéticos.
› Hacen uso de técnicas de reproducción
(mutación y cruce) para ser utilizadas para
búsqueda y optimización.
› Se parte de una población inicial, y se altera
optimizándola.
› Esta herramienta se usa en las primeras fases
de la minería y después se aplica redes
neuronales o regresión logística.
MC Beatriz Beltrán Martínez
Otoño 2009
28

Lógica difusa.
› Surge de la necesidad de modelar la
realidad de forma mas exacta, evitando el
determinismo y exactitud.
› Permite el tratamiento probabilístico de
categorización colectiva.
› Trata la existencia de barreras difusas o
suaves entre grupos.
MC Beatriz Beltrán Martínez
Otoño 2009
29

Series temporales.
› Consisten en el estudio de una variable a
través del tiempo para que partiendo de
ese conocimiento y con el supuesto de no
cambios poder realizar predicciones.
› Se basan en ciclos, tendencias y estaciones.
› Se puede aplicar enfoques híbridos entre
métodos anteriores, o con otro tipo de
variables.
MC Beatriz Beltrán Martínez
Otoño 2009
30

Redes bayesianas.
› Son una alternativa para la minería.
› Se tiene las ventajas:
Permiten aprender sobre relaciones de
dependencia y causalidad.
Permiten combinar conocimiento de datos.
Evitan el sobre-ajuste de datos.
Permiten el manejo de bases de datos
incompletas.
MC Beatriz Beltrán Martínez
Otoño 2009
31

Inducción de reglas.
› Como información de entrada, se tiene un
conjunto de casos donde se ha asociado
una clasificación o evaluación.
› Con tal información se obtiene un árbol de
decisión, que soportan la evaluación o
clasificación.
› En caso de que la entrada tenga ruido, esta
técnica se puede habilitar con métodos
estadísticos.
MC Beatriz Beltrán Martínez
Otoño 2009
32

Sistemas basados en conocimiento y
sistemas expertos.
› Permiten la formalización de árboles y reglas
de decisión, extraídas del conocimiento de
expertos.
› Poseen
motores de inferencia, que
gestionan las preguntas.
› De esta forma el proceso de decisión es
eficiente y rápido.
MC Beatriz Beltrán Martínez
Otoño 2009
33

Selección de técnicas adecuadas.
 El
mínimo aceptable para elegir una
tecnología de MD y un producto depende
de qué tanto el producto beneficia al
negocio:
Ingresos.
Costos disminuidos.
Rendimiento de inversiones.
 Para desarrollar con éxito un negocio, el MD
debe buscar
deseados.
algo
MC Beatriz Beltrán Martínez
más
Otoño 2009
que
patrones
34

Se tienen tres medidas claves, para
una evaluación de las herramientas.
 Precisión: Se deben modelos precisos,
pero reconociendo pequeñas diferencias
en las técnicas.
 Explicación: Las herramientas deben
explicar al usuario final de manera clara
como funciona el modelo.
 Integración: Las herramientas deben
integrarse en el proceso real del negocio,
flujos de datos e información de la
empresa.
MC Beatriz Beltrán Martínez
Otoño 2009
35