Download árbol valor -hay

Document related concepts
no text concepts found
Transcript
Seminari sobre Arbres de Decisió
27 de Març del 2006
Tomàs Aluja
Los árboles de decisión en la minería
de datos
Tareas centrales en minería de datos
“Pattern recognition” (modelización)
Clasificación
Regresión
Clustering
Asociación
Los árboles de decisión son una alternativa no
paramétrica de modelización.
Otras posibilidades: Regresión Logística, Análisis
Discriminante, Redes Neuronales, Support Vector Machines, ...
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
2
Objetivo
Segmentar la población para encontrar grupos
homogéneos según una cierta variable de respuesta.
Los resultados se dan
de forma visual.
Los árboles difieren según:
- Tipo de la variable de respuesta
- Tipos de variables de segmentación
- Árboles binarios o n-arios
- Criterio de partición
- Criterio de parada
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
3
Construcción de un árbol de decisión
Para la construcción de un árbol de decisión, el usuario
deberá siempre definir :
Var. de respuesta
–La variable de respuesta
–Continua
Árbol de regresión
–Categórica
Árbol de clasificación
–El conjunto de variables
explicativas (de cualquier tipo)
Vars. explicativas
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
4
Algoritmo de construcción del árbol
Situar toda los datos en el nodo raíz
Encontrar la partición óptima del nodo raíz en
nodos hijos.
En cada nodo hijo: Decidir si debemos parar el
proceso o volver al paso 2.
Necesitamos definir:
• un criterio de partición
• un criterio de parada
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
5
Número de particiones por nodo (t)
Se calculan todas las particiones posibles y
selecciona entre ellas la partición óptima.
Particiones posibles en un nodo:
Según la variable explicativa:
Árbol n-ario
Árbol binario
Binaria
1
1
Nominal
1
2q-1-1
Ordinal
1
q-1
Continua
nt-1
nt-1
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
6
Antecedentes
AID (Sonquist y Morgan, 1963)
–
–
–
–
Variable de respuesta continua
Árbol n-ario con reagrupamiento
Criterio de partición: F
Criterio de parada: umbral sobre la significación
CHAID (Kass, 1980)
–
–
–
–
Variable de respuesta categórica
Árbol n-ario con reagrupamiento
Criterio de partición: χ2
Criterio de parada: umbral sobre la significación
Tendencia al sobreajuste. No optimalidad del criterio de
parada. Falta de estimaciones honestas sobre la calidad del
árbol
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
7
AID Automatic Interaction Detection,
(Sonquist & Morgan 1963)
AID se basa en la descomposición de la variancia de la variable de respuesta
en los nodos hijos.
nt
q
q
2
(
y
−
y
)
=
n
(
y
−
y
)
+
(
y
−
y
)
∑ it t ∑ tk tk t ∑∑ itk tk
2
i =1
k =1
q
F=
Parámetros
– Stopping p-value (0.01).
k =1 i∈tk
∑n
k =1
tk
( ytk − y ) q − 1
q
2
y
−
y
(
)
∑∑ itk tk nt − q
∼ Fq −1,nt − q
k =1 i∈tk
Un nodo se considera terminal si ninguna partición da un p-valor inferior al
crítico (pre-pruning).
– Merging p-value (0.05).
Los nodos hijos no se reagrupan si la significación de su diferencia es inferior al
valor crítico especificado.
– Corrección de Bonferroni.
Corrección del p-valor de parada para tener en cuenta el diferente número
nodos hijos (modalidades de las variables explicativas categóricas).
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
8
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
9
CHAID (Kass, 1980)
nj
respuesta
CHAID se basa en el cálculo del
estadístico de entre la variable de
respuesta categórica y la partición en
nodos hijos.
partición
2
(
−
)
n
n
m
jk
k
2
n ∼χ
χ = ∑∑
(q−1)(m−1)
n
k=1 j=1
nk j
n
q
nk1
nkj
n⋅ j
nkp
nk ⋅
n
Parámetros
– Stopping p-value (0.01).
Un nodo se considera terminal si ninguna partición da un p-valor inferior al
crítico (pre-pruning).
– Merging p-value (0.05).
Los nodos hijos no se reagrupan si la significación de su diferencia es inferior al
valor cr´tico especificado.
– Corrección de Bonferroni.
Corrección del p-valor de parada para tener en cuenta el diferente número de
modalidades de las varaibles explicativas categóricas.
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
10
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
11
La solución CART (Friedman, Breiman,
Olshen, Stone, 1984)
Árboles binarios
Unifica la variable de respuesta continua y categórica bajo un
mismo marco.
• Árboles de clasificación
• Árboles de regresión
Variables de segmentación de todo tipo
Criterio de partición: Impureza del nodo
No utiliza criterio de parada
Da estimaciones honestas de la calidad del árbol
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
12
Impureza de un nodo
Para variables de respuesta categóricas:
Gini
i ( t ) = ∑ i ≠ j p ( j / t ) p (i / t )
Entropia
i(t ) = −∑ j p( j / t )log2 p( j / t )
Para variables de respuesta continuas:
Variancia
2
(
y
−
y
)
∑
i
t
i ( t ) = i ∈t
n
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
13
Selección de la partición óptima
Maximizar el decremento de impureza
t
tl
nt
tr
ntr
ntl
∆i(t ) = i(t ) −
ntl
nt
i(tl ) −
ntr
nt
i(tr )
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
14
SAAD
Criterio de partición SAAD:
Maximizar la distancia de Smirnov generalizada dS
Fi función acumulada de los individuos de la clase i en el nodo t
FT función acumulada de todos los individuos del nodo t
1
FT
F1
F2
0
dS =
k
∑ Fi ( x ) − FT ( x )
i =1
x
Selección de la partición óptima (SAAD)
Variable explicativa nominal
Variable explicativa ordinal
Variable explicativa continua
Criterio de parada
Construir un árbol máximo y podar en vez de aplicar un
criterio de parada.
Árbol máximo: nodos terminales puros
36000
31 min
Hombres
No Jubilados
14000
19
Autonomica
2000
12
17000
22
3000
Aut,Ambas 35
2000
40
13 o + años
19000
39
2000
17
Castellano
1000
23
12000
21
4-12 años
4-12 años
Jubilados
Cast,Ambas
Mujeres
17000
42
Aut,Ambas
5000
28
< 10m hab.
>10m hab.
Castellano
12000
46
13 a 44
13 o + años
2000
14
17000
22
No Jubilados
Autonomica
2000
12
14000
19
Cast,Ambas
3000
Aut,Ambas 35
1000
23
Castellano
2000
40
19000
39
2000
17
< 10m hab.
Castellano
10000
19000
22
39
2000
17
Aut,Ambas
< 10m hab.
2000
22
5000
28
2000
22
13 o + años
>10m hab.
3000
32
17000
42
8000
43
12000
46
17000
42
>10m hab.
Castellano
Castellano
3000
19000
8000
32 4-12 años
39
43
4000
53
2000
22
17000
42
5000
28
17000
42
>10m hab.
3000
19000
32
39
2000
22
45 o +
Castellano
12000
46
13 a 44
8000
13
o + años
43
Aut,Ambas
5000
< 10m hab. 28
Castellano
8000
43
13 o + años4000
53
Aut,Ambas
2000
Castellano 17
13 o + 4000
años
53
3000
32
2000
17
2000
22
4-12 años
45 o +
5000
12000
28
< 10m hab.
>10m hab.
13 a 44 46
45 o +
19000
8000
39
43
< 10m hab.
12000
46
13 a 44
2000
17 Aut,Ambas
Castellano
Castellano
13 a 44
5000
28
3000
4-12 años
32
13 o + años
Aut,Ambas
13 o + años
2000
14 4-12 años
2000
22
Mujeres
4-12 años
Jubilados
12000
21
4-12 años
10000
36000
22min
31
Hombres
45 o +
17000
42
4000
53
Castellano
>10m hab. 13 a 44
3000
32
45 o +
8000
43
12000
46
45 o +
4000
53
4000
53
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
17
Coste de un árbol
Coste de un nodo:
prob. de mal clasificación
Coste de un árbol:
(decreciente con el tamaño)
Árbol óptimo
r ( t ) = 1 − max j p( j / t )
R (T ) rel =
r (root ) − ∑t∈T~ p (t )r (t )
r (root )
× 100
Min R (T )
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
18
Coste de un árbol de regresión
El árbol de regresión segmenta la población en tantos
grupos como nodos terminales.
A cada individuo de un nodo terminal se le asigna el valor
medio de la variable de respuesta en este nodo.
Coste del árbol =
error de predicción (variancia residual)
r (t ) =
1 nt
2
(
y
−
y
)
∑ it t
nt i =1
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
19
Operación de podar
Se calcula el valor de R(T), para la secuencia de árboles
óptimos por complejidad:
1
t1
t0
Tmax
Tmax , Tmax − Tt0 , Tmax − Tt0 − Tt1 ,…,1
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
20
Selección del árbol podado óptimo
Muestra test
Dividimos la muestra aleatoriamente en:
una muestra para Aprender
otra muestra para Validar
Aprendizaje
Total
R ts (T ) rel =
r ts (root ) − ∑ t∈T p (t )r ts (t )
ts
r (root )
× 100
Valida
ción
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
21
Calidad del árbol según tamaño
Calidad
20
18
16
14
12
10
8
6
4
2
0
Aprendizaje
Validación
1
5
10
15
Árbol óptimo
20
30
40
50
60
70
80
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
90
Tamaño
22
Ventajas de los árboles de decisión
Fáciles de interpretar .
Las ramas del árbol simulan bastante bien el proceso humano
para la toma de decisiones.
Las ramas del árbol definen directamente las reglas de
asignación. Los resultados son operativos de forma inmediata.
Minimizan el pretratamiento, pueden trabajar con un cierto nivel
de ruido y datos faltantes.
Detectan de forma automática estructuras complejas entre
variables.
Computacionalmente eficientes
Aproximación por saltos a la función de respuesta (el error de
predicción puede ser mayor que en otros modelos más
flexibles)
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
23
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
24
Práctica en árboles de decisión
Inadecuación del criterio de calidad de los árboles.
La asignación de un nodo a una clase de respuesta
depende de las probabilidades iniciales de cada clase de
respuesta. Necesidad de partir de situaciones
equilibradas.
El poder de discriminación de un árbol debe medirse
relativa a la situación inicial de partida.
El interés del árbol es la ordenación de la población por
grupos según valores crecientes de la variable de
respuesta. Estos grupos somos capaces de entenderlos y
localizarlos en la base de datos.
Seminari Arbres de Decisió. CPSV. Tomàs Aluja
25