Download Aprendizaje basado en instancias - Centro de Inteligencia Artificial

Document related concepts

Aprendizaje automático wikipedia , lookup

Hiperheurística wikipedia , lookup

Grupo de Ingeniería del Conocimiento y Aprendizaje Automático wikipedia , lookup

Inteligencia computacional wikipedia , lookup

Aprendizaje vago wikipedia , lookup

Transcript
Universidad
de Oviedo
Centro de
Inteligencia Artificial
SISTEMAS INTELIGENTES
T8: Aprendizaje basado en
instancias
www.aic.uniovi.es/ssii
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Índice
•  Aprendizaje basado en instancias
•  Métricas
•  NN Vecino más próximo:
° 
Regiones de Voronoi
° 
El parámetro K
•  Problemas de los algoritmos basados en
instancias
•  Técnicas de reducción de instancias
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Universidad
de Oviedo
Centro de
Inteligencia Artificial
Aprendizaje basado en instancias (IBL)
•  Idea: en situaciones parecidas se toman decisiones
similares
•  Si tenemos que tomar una decisión, buscaremos en
nuestra memoria el caso que más se parece a la situación
actual y repetiremos la misma (acertada) acción
•  Aprendizaje: la clase de un nuevo ejemplo será la misma
que la del ejemplo más similar de entre los que
conocemos
•  Quizás es la técnica de aprendizaje más intuitiva y
sencilla. Ha generado multitud de algoritmos
•  Case Base Reasoning (CBR): instancias con
representaciones simbólicas
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Similitud y distancia
•  Un concepto recurrente en todos las técnicas de
aprendizaje (supervisado y no supervisado) es el
concepto de similitud
•  Motivo: objetos similares tendrán clases/grupos
similares
•  Problema: Es difícil que dos cosas sean exactamente
iguales
• 
Más similar : ¿Cómo se mide la similitud?
•  La distancia es la inversa de la similitud
•  Muchas técnicas basan su aprendizaje en los métodos
que miden la similitud (distancia)
•  Los algoritmos basados en instancias depende casi
totalmente del concepto de distancia
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Métricas (I)
•  Es el aspecto clave de estos sistemas
•  No existe el ajuste exacto, como en las reglas o
árboles
•  El sistema hereda las desviaciones de su
métrica
° 
° 
cada métrica proporciona su sesgo de aprendizaje
no existe una métrica que funcione bien en todos los
problemas
•  Más empleadas: euclídea, HVDM....
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Métricas (II)
d(x,y) es una métrica si y solo si cumple:
° 
° 
° 
d(x,y) >= 0
d(x,y) = d(y,x)
d(x,y) >= d(x,w) + d(w,y)
para todo par de ejemplos x e y
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Métricas (III)
•  Atributos numéricos
° 
n
n
2
∑ (xi − yi )
Distancia Euclídea:
2
∑ wi (xi − yi )
i =1
i =1
n
° 
Distancia de Manhattan:
∑x −y
i
i
i =1
° 
Distancia de Chebychev:
maxi =1.. n xi − yi
•  Atributos discretos:
° 
° 
Solapamiento (atr. discretos): Si tienen el mismo valor
la distancia es 0, sino 1
VDM
2
⎛ N a , x ,c N a , y ,c ⎞
⎟
vdma (x, y ) = ∑ ⎜
−
⎜
N a , y ⎟⎠
c =1 ⎝ N a , x
C
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
VDM
⎛ N a , x ,c N a , y ,c ⎞
⎟
vdma (x, y ) = ∑ ⎜
−
⎜
N a , y ⎟⎠
c =1 ⎝ N a , x
C
2
Color
Peso
Manzana
Rojo
10
NO
Verde
145
SI
Rojo
120
SI
Verde
118
SI
Naranja
130
NO
Naranja
155
NO
Verde
130
SI
Rojo
135
SI
Naranja
140
NO
⎛ N Color , Rojo, SI N Color ,Verde, SI
vdmColor (Rojo, Verde ) = ⎜
−
⎜ N
N Color ,Verde
⎝ Color , Rojo
2
⎞
⎟ +
⎟
⎠
⎛ N Color , Rojo, NO N Color ,Verde, NO ⎞
⎜
⎟
−
⎜ N
N Color ,Verde ⎟⎠
⎝ Color , Rojo
2
2
vdmColor (Rojo,Verde) = (0.66 − 1) + (0.33 − 0) = 0.218
2
2
vdmColor (Rojo, Naranja) = (0.66 − 0) + (0.33 − 1) = 0.871
2
2
vdmColor (Naranja,Verde) = (0 − 1) + (1 − 0) = 2
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
2
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Algoritmo del vecino más próximo (NN)
•  Algoritmo simple y efectivo
•  Función de aprendizaje: almacena todos los ejemplos de
entrenamiento (lazy learning)
•  Difieren el trabajo hasta el momento de la clasificación
•  Función de evaluación: por mínima distancia
d ( x, q ) =
2
(
)
x
−
q
∑ a a
a∈ A
•  Ejemplos no vistos: clase del ejemplo (UNO) almacenado
(vecino) más próximo
•  Las regiones que se forman con 1-NN se denominan regiones de
Voronoi
•  Múltiples versiones variando la métrica y el número de vecinos
considerados (k-NN)
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Ejemplo
Atributo 2
Atributo 1
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Regiones de Voronoi
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
El parámetro K (I)
Para clasificar un nuevo ejemplo x, observamos
los K ejemplos más próximos y asignamos a x la
clase más frecuente
k=1
k=6
x
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
El parámetro K (II)
•  Parámetro clave
•  Se suele elegir impar para deshacer los posibles
empates
•  Sirve para reducir la sensibilidad al ruido
•  Hace un poco más lento el proceso de
clasificación de nuevos casos. Para solucionarlo
se pueden indexar los ejemplos
•  Ejemplos:
° 
° 
si k es muy bajo: sistema sensible al ruido
si k es muy alto: las zonas más densas pueden
acaparar las menos densas
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Problemas de los NN s (I)
1.  Almacenan demasiadas instancias
° 
° 
° 
° 
Se incrementa el tiempo de respuesta
Aumenta la sensibilidad frente al ruido
Sobreajuste
Soluciones ininteligibles
Solución: Técnicas de reducción de
instancias
° 
° 
° 
Incrementales
Decrementales
Por lotes
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Problemas de los NN s (II)
2.  Atributos: igual importancia
Solución: técnicas de selección de
atributos
° 
° 
Eliminación de atributos irrelevantes
Ponderar la importancia de cada atributo
3.  Problemas derivados de la métrica
utilizada
Solución: seleccionar la métrica que
mejor se adapta a cada problema
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Técnicas de reducción de instancias
•  Objetivo: dado un conjunto de instancias S se busca un
subconjunto R que resuelva el problema como S (o mejor)
y con menos ejemplos
•  El mayor o menor acierto, en determinadas situaciones, no
es lo más importante
•  Ventajas:
° 
° 
° 
Se reduce el tiempo de respuesta. Fundamental en problemas
en tiempo real
Menor sensibilidad al ruido
Conocimiento más inteligible ¿?
•  Se pueden utilizar no sólo para producir clasificadores
° 
° 
Eliminación de ruido
Elección de prototipos
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Tipos de algoritmos de reducción
•  Incrementales: R inicialmente vacío, y se añaden
instancias de S que cumplan alguna condición
° 
° 
Problema: influye el orden de presentación. Barajado
Ventaja: se pueden añadir nuevas instancias después de
aprender
•  Decrementales: R=S y se van eliminando aquellas
instancias que verifiquen algún criterio
° 
° 
Problema: Mayor coste computacional
Ventaja: Consiguen mayor reducción
•  Por lotes: La decisión de eliminar/incluir una instancia
depende de un lote de ejemplos.
° 
° 
Problema: Tamaño de los lotes?
Ventaja: No toman decisiones sin partir de una información
suficiente
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
Algoritmos de reducción
•  Incrementales:
° 
° 
CNN: añaden los ejemplos de S mal clasificados con los que
llevamos seleccionados en R
IB2: igual que CNN salvo inicializaciones
•  Decrementales
° 
° 
RNN: borra las instancias de R que no provocan que se
clasifiquen mal otras instancias de S
ENN: borra las instancias de R que no coinciden con la clase
mayoritaria de sus k vecinos (RENN repetir ENN)
›  Filtro de ruido
° 
Familia DROP: Borra una instancia de R si los k más cercanos
a ella pueden clasificarse correctamente sin ella
•  Lotes:
° 
SNN: demasiada complejidad
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Universidad
de Oviedo
Centro de
Inteligencia Artificial
RENN Repited Edited NN rule
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Universidad
de Oviedo
Centro de
Inteligencia Artificial
DROP 1
Sistemas Inteligentes - T8: Aprendizaje basado en instancias
Centro de
Inteligencia Artificial
Universidad
de Oviedo
RISE [Domingos, 96]
•  Es un sistema de aprendizaje híbrido
•  Combina
° 
° 
reglas
instancias
•  Las reglas se inducen mediante la
generalización de instancias
•  Una instancia puede considerarse como la regla
más específica
•  Para clasificar un nuevo ejemplo, aplica la regla
(o instancia) que se encuentra más cerca
Sistemas Inteligentes - T8: Aprendizaje basado en instancias