Download Minería de Datos - Presentación de la asignatura

Document related concepts
no text concepts found
Transcript
Minerı́a de Datos
Presentación de la asignatura
Cristina Tı̂rnăucă
Dept. Matesco, Universidad de Cantabria
Fac. Ciencias – Ing. Informática – Otoño de 2012
Cuestiones Factuales
De ı́ndole práctica
Personal e infraestructura
I
I
Clases a cargo de:
Cristina Tı̂rnăucă ([email protected]) y
Domingo Gómez ([email protected])
Horario:
I
I
I
I
martes, 11:45 a 13:45, Laboratorio LSC I (ejercicios dirigidos,
principalmente sobre KNIME o Weka);
jueves, 9:30 a 10:30 y 10:45 a 11:45, Laboratorio LSC I (Grupo
“doble”: dedicado principalmente a los trabajos prácticos);
viernes, 11:45 a 12:45, Aula A11 (Teorı́a)
Información actualizada sobre el desarollo de la asignatura en:
moodle.unican.es
personales.unican.es/tirnaucac
Bibliografı́a, I
1. Jiawei Han, Micheline Kamber:
I
Data Mining: Concepts and Techniques
Pretende una orientación práctica.
2. David Hand, Heikki Mannila, Padrhraic Smyth:
I
Principles of data mining
Un “clásico”.
3. Michael Berthold, Christian Borgelt, Frank Höppner, Frank
Klawonn:
I
Guide to Intelligent Data Analysis
“Recién salido del horno” y basado en KNIME.
Bibliografı́a, II
4. Ian H. Witten, Eibe Frank:
I
Data mining: Practical machine learning tools and techniques
with Java implementations
Es el libro que acompaña a Weka.
5. Ricardo Baeza-Yates, Berthier Ribeiro-Neto:
I
Modern information retrieval
Para el poquitı́n que tocaremos de ese tema.
6. Trevor Hastie, Robert Tibshirani, Jerome Friedman:
I
The elements of statistical learning: data mining, inference,
and prediction
La base más estadı́stica de la minerı́a de datos.
Evaluación
Calificación: suma de dos partes, truncada a diez puntos.
I
Trabajos prácticos individuales: de cero a diez puntos.
(El último trabajo tendrá más peso)
I
Examen de problemas: de cero a cuatro puntos.
Los trabajos:
I
El enunciado de los primeros trabajos prácticos es el mismo
para todos.
I
El enunciado del último trabajo práctico es “negociable”: ha
de estar relacionado con la asignatura, pero puede estarlo en
mayor o menor grado, según el interés de cada alumno.
Trabajos Prácticos
Concepto de los trabajos
Los primeros:
Implementación guiada de varios algoritmos de Minerı́a de Datos.
El último: A partir de un “dataset” que acordemos (a iniciativa
tuya o mı́a), harás entrar en juego todo lo que hayas aprendido e
intentarás completar un miniproyecto de Minerı́a de Datos.
Ingrediente básico: iniciativa personal.
Según lo ambicioso que pueda ser, una extensión de este trabajo
puede dar lugar a un Proyecto de Fin de Carrera.
Análisis de Datos
Construcción de modelos descriptivos o predictivos
Objetivo:
Una ventaja económica o (menos frecuentemente) humana.
I
I
La intención es lograrla mediante predicciones acertadas, al
menos parcialmente.
Predecir al azar difı́cilmente proporciona ventajas: queremos
hacerlo mejor que al azar.
I
I
I
Para ello, habremos de basarnos en algo.
Por ejemplo, en datos disponibles.
Pero si tenemos todos los datos, no hay nada a predecir.
I
Ingrediente imprescindible: la incertidumbre.
I
De las muchas maneras de gestionar el conocimiento incierto,
la más relevante en data mining (que no la única) es el
enfoque estadı́stico, basado en la teorı́a de la probabilidad.
Minerı́a de Datos
Interés en realidades existentes
El proceso de minerı́a de datos incluirá fases de modelado a partir
de observaciones (datos) sobre una realidad compleja y existente.
Taxonomı́a:
Modelos descriptivos:
I
I
I
Segmentación,
Asociación.
I
Modelos supervisados,
Modelos predictivos:
I
Modelos no supervisados,
Regresión,
Clasificación,
Priorización.
I
Sistemas de recomendación...
I
I
I
I
(Nociones mutuamente no excluyentes.)
Ejemplos
Regresión, I
Figure: Precio según superficie (en metros cuadrados)
Ejemplos
Regresión, II
Figure: Precio según superficie (en metros cuadrados)
Ejemplos
Regresión, III
Figure: Precio según superficie (en metros cuadrados)
Otras variables: número de habitaciones, número de baños, si tiene
ascensor, calefacción, trastero, parking, si la comunidad tiene
piscina, si el piso está situado en el centro, ...
Ejemplos
Clasificación, I
Cáncer de mama (maligno / benigno)
1 (P)
¿Maligno?
0 (N)
Tamaño del tumor
Observaciones clínicas
Ejemplos
Clasificación, II
Cáncer de mama (maligno / benigno)
1 (P)
¿Maligno?
0 (N)
Tamaño del tumor
Observaciones clínicas
Ejemplos
Clasificación, III
Cáncer de mama (maligno / benigno)
1 (P)
¿Maligno?
0 (N)
Tamaño del tumor
Observaciones clínicas
Ejemplos
Clasificación, IV
Cáncer de mama (maligno / benigno)
-
1 (P)
¿Maligno?
0 (N)
Tamaño del tumor
Observaciones clínicas
La edad del paciente
El espesor del tumor
La homogeneidad del tamaño celular
La homogeneidad de la forma celular
Ejemplos
Priorización, I
Figure: PageRank para una red sencilla de páginas web
Fuente: Wikipedia
Ejemplos
Agrupación, I
Ejemplos
Segmentación, II
Ejemplos
Segmentación, III
Ejemplos
Asociación, I
ID
1
2
3
4
5
leche
1
0
0
1
0
pan
1
0
0
1
1
mantequilla
0
1
0
1
0
cerveza
0
0
1
0
0
Table: Análisis de canasta de mercado
Reglas de confianza 1:
{leche } ⇒ { pan }
{leche } ⇒ { pan, mantequilla }
{pan, mantequilla } ⇒ { leche }
Una regla de confianza 0,5: {leche } ⇒ { mantequilla }