Download Algoritmo h brido de extracci on de reglas usando algoritmos gen

Document related concepts

Jordy Clasie wikipedia , lookup

Transcript
Algoritmo hbrido de extraccion de reglas usando algoritmos
geneticos y arboles de clasicacion
Marcelo Mendoza
Mayo del 2000
Resumen
Este reporte presenta un algoritmo hbrido de extraccion de reglas para la clasicacion de
patrones sonoros. Se considera como herramienta de clasicacion a los arboles binarios de clasicacion. Se usa a los algoritmos geneticos como una estrategia de busqueda de manera tal que
el arbol binario discrimine acertadamente los patrones sonoros. El integrar ambas herramientas
permite encontrar un desempe~no de clasicacion satisfactorio. Los resultados experimentales que
se muestran son fruto de la aplicacion de esta metodologa a un problema de clasicacion de
patrones de sonido en ambiente industrial del cual se desconocen modelos fsicos que permitan
implementar un metodo alternativo.
1 Introduccion
Un problema clasico de clasicacion de patrones radica en la busqueda de una tecnica eciente y
robusta que permita discriminar entre los patrones objetivos y otros elementos, satisfaciendo algunos
criterios de desempe~no. Este problema puede enfrentarse con distintas tecnicas, entre ellas los arboles
de clasicacion [ver Breinman y Friedman, 1984]. El problema no es como clasicar en s, sino el
como extraer reglas de clasicacion que son desconocidas. Existen una innidad de problemas de
clasicacion de patrones en los cuales es muy difcil establecer reglas, debido a la carencia de una
base de conocimiento acerca del comportamiento de los patrones ante cambios en las variables de
operacion del sistema. Estos problemas de alta complejidad han sido tratados desde el interes
existente para encontrar mejores tecnicas de clasicacion de textura de imagenes mediante el uso de
algoritmos hbridos basados en estrategias de busqueda como Algoritmos Geneticos [ver Michalewicz,
1996], siendo siempre un problema la minimizacion de las caractersticas usadas y el robustecimiento
de los resultados ante ruido [ver Vafaie y De Jong, 1994]. Esto genero el planteamiento del problema
de induccion de reglas usando Multiestrategias de Busqueda [ver Michalski, 1994]. Al determinar la
importancia de la data de entrenamiento se introdujeron algunas variaciones en el aprendizaje de
reglas secuenciales incluyendo pasos de entrenamiento intermedio aplicados al campo de la robotica,
planteando algoritmos de induccion de reglas como el AQ15 [ver De Jong et al, 1995]. Finalmente se
ha tratado el prolema de clasicacion de patrones en imagenes satelitales y faciales usando arboles
binarios y algoritmos geneticos [ver Bala et al, 1995]. El problema de clasicacion de patrones
sonoros en sistemas de alta complejidad y en presencia de ruido destructivo ha sido un problema no
abordado desde esta perspectiva.
Este informe tecnico propone una metodologa para encontrar reglas de clasicacion a partir de la
seleccion de caractersticas fsicas de los elementos. Mediante un algoritmo genetico se implementa
la busqueda de umbrales de caracterizacion de informacion clasicando con arboles de decision,
deteniendose la busqueda cuando se satisfaga un criterio de desempe~no. La integracion de arboles y
algoritmos geneticos permiten evaluar en cada poblacion el desempe~no de la clasicacion generada
por la poblacion de umbrales de caracterizacion y de acuerdo a esta evaluacion proseguir la busqueda.
Por lo anterior, el problema de extraccion de reglas se reduce a un problema standard de optimizacion
1
N
N1
N2
N4
N3
N7
N5
N6
N8
Figura 1: A rbol binario de clasicacion
sin restricciones. La caracterizacion de la data de entrenamiento se realiza usando Transformada
de Fourier y Transformada Wavelets. Los resultados son mostrados de acuerdo al desempe~no de
clasicacion que ha sido denido como criterio de parada.
2 Denicion del problema
El problema que se quiere solucionar es la busqueda y clasicacion de patrones sonoros generados
por impactos destructivos en una maquinaria industrial. La induccion de reglas que puedan diferenciar entre impactos destructivos y no destructivos constituye una valiosa informacion que perimtira
modicar las variables de operacion que gereran el comportamiento agresivo. El medio de adquisicion de datos es muy desfavorable ya que las se~nales de sonido presentan ruido destructivo causados
por los fenomenos de ruido ambiente y ruido de medicion (saturaciones). Por esto es muy difcil
deducir reglas de clasicacion del tipo de material que genera el impacto. Intuitivamente se tiene
alguna idea de cuales variables de operacion afectan los patrones de sonido pero este conocimiento
no es suciente para establecer reglas de clasicacion que permitan dise~nar arboles de decision con
un desempe~no aceptable.
Se propone como metodo de clasicacion a los A rboles Binarios, por su facilidad de implementacion
computacional y por su robusto desempe~no en clasicacion. Se utilizara como tecnica de busqueda
de umbrales de clasicacion un Algoritmo Genetico en su version standard.
3 Estrategias de solucion
3.1 A rboles Binarios de Clasicacion
Un individuo perteneciente a una poblacion es caracterizable a partir de un conjunto de medidas que
representan el valor de la caracterstica asociada al individuo. Esta informacion puede agruparse
como un vector de medidas Xi = (xi1 ; xi2 ; : : : ; xip ) asociado al individuo i-esimo. Una regla de
clasicacion es una funcion talque:
d(xi ) = j
(1)
de manera que xi 2 clasej asigna a cada individuo una clase en base a su vector de medidas. Una
regla se construye a partir de la division del espacio de informacion mediante particiones binarias,
como se muestra en la gura 1. Los nodos terminales se simbolizan con cuadrados y los nodos
intermedios con crculos. Cada nodo terminal contiene individuos que pertenecen a la misma clase.
Son etapas clave en el dise~no de un arbol la seleccion de las particiones y el criterio para determinar
nodos terminales. Una particion se realiza para disminuir la heterogeneidad en una poblacion. Para
ello se somete al individuo a una medicion que permite cuanticar la homogeneidad del nodo respecto
2
Figura 2: Algoritmo Genetico en su version standard
de la clase asociada. La cuanticacion se realiza mediante una medida de impureza considerando
una proporcion de elementos p( jt ) en el nodo t que pertenecen a la clase j, de manera que:
1
j
it(p( ); : : : ; p( )) 0
t
t
8p( kt ) 2 [0; 1]
it(1; 0; 0; : : : ; 0) = it(0; 1; 0; : : : ; 0) = : : : = it(0; 0; 0; : : : ; 1) = 0
(2)
(3)
donde it(p( 1t ); : : : ; p( jt )) es una medida de impureza maxima y simerica. La bondad de l;a particion
s se mide a traves del decrecimiento de impureza denido por:
i(s; t) = it ; (pl itl) ; (pr itr)
(4)
donde pl y pr son la proporcion de elementos asignados al nodo tl y tr y itl e itr son las medidas
de impureza asociadas a los nodos izquierdo y derecho, respectivamente. La particion optima del
nodo es aquella que es capaz de generar subregiones de informacion homogeneas y que causa un
decrecimiento de impureza maximo Di(s ; t). Un nodo sera declarado terminal si no reeja un
decrecimiento signicativo de la impureza, i.e.:
i(s ; t) < (5)
donde representa una medida de la frondosidad del arbol y siempre es positiva.
3.2 Algoritmos Geneticos
Los algoritmos geneticos son tecnicas de busqueda inteligente de soluciones posibles evaluadas en
cada iteracion con una funcion de desempe~no. Un algoritmo genetico en su version standard consiste
basicamente en:
Generar una poblacion inicial.
Evaluar cada individuo.
Mantener el mejor.
Seleccionar individuos para generar una nueva poblacion.
Cruzamiento de individuos.
Mutacion de genes.
3
Figura 3: Caracterizacion de la data de entrenamiento
La poblacion inicial consistira en un conjunto de reglas de clasicacion. Usaremos el algoritmo
genetico para originar reglas de clasicacion usando la evaluacion de los arboles a partir de las reglas
generadas. La funcion de evaluacion debe ser proporcional a la capacidad de discriminar entre
impactos objetivo y otros. A partir de la data de entrenamiento se conoce el numero de elementos
objetivo con que se cuenta. De acuerdo a lo anterior, la funcion de evaluacion esta dada por:
f (eval) =
PNn=1 coincidencias
individuosn
n
N
(6)
donde N es el numero de ramas del arbol, coincidenciasn es la cantidad de individuos bien clasicados
en la n-esima rama e individuosn es la cantidad total de individuos de la n-esima rama.
3.3 Caracterizacion de la data de entrenamiento
Se considerara un vector de medidas de tama~no 3. Sus componentes seran:
Amplitud de la se~nal.
Densidad de energa espectral de la se~nal.
Peak de la se~nal en el nivel d1 de la Transfortmada Discreta de Wavelets.
4
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
1: Posicion con un elemento
2: Posicion vacia
Figura 4: Clasicacion de se~nales de sonido con un arbol binario
Las razones para escoger estas componentes son que representan a la se~nal en tres espacios distintos:
espacio temporal, espacio frecuencial y espacio temporal/escalar.
El peak del impacto sera detectado y almacenado en un registro.
La densidad de energa espectral sera calculada implementando una algoritmo de FFT . La integral
de energa se implementara mediante el metodo de integracion numerica rectangular:
I
=
Zb
a
f (x)dx =
h
2 (F1 + 2f2 + 2f3 + : : : + 2fn + fn+1) + E
(7)
De acuerdo a los analisis con Wavelets realizados con la data de entrenamiento, seleccionaremos al
Wavelets de Daubechies 2. La descomposicion discreta de las se~nales se realizara con un nivel (banco
de ltros de un paso). Se detectara el peak de la se~nal d1 (detalle de primer nivel) y tambien se
almacenara en un registro.
4 Algoritmo hbrido de extraccion de reglas
Se utilizara un Algoritmo Genetico standard para la busqueda de coecientes de clasicacion que
maximicen la funcion de evaluacion. La funcion de evaluacion debe ser estricta de acuerdo al siguiente
criterio: nuestro problema de clasicacion consiste en la diferenciacion entre una clase
de patrones objetivo y otros elementos (impactos destrucitvos e impactos tolerables). Por lo
anterior, no es admisible clasicar fuera de esta clase a elementos objetivo. Sin embargo, en este
primer intento se aceptara clasicar dentro de esta clase a elementos que no lo son.
Si se forma una pila de elementos, el problema de clasicacion se reduce a lo expuesto en la gura 4.
En ella se muestra una clasicacion mediante un arbol binario. Las posiciones marcadas con un '1'
corresponden a impactos clasicados en esa rama y en ese orden. Las posiciones marcadas con '0'
5
Figura 5: Algoritmo hbrido de extraccion de reglas
estan vacias. A modo de ilustracion supongamos que a partir de las pruebas de laboratorio se sabe
que los 5 primeros elementos corresponden a patrones objetivo. De acuerdo a lo anterior, el arbol ha
clasicado erroneamente el elemento encerrado, ya que lo muestra como un elemento perteneciente
a la misma clase de los 5 primeros. Si consideramos como tness de cada individuo la evaluacion
de su clasicacion, podemos aplicar los metodos tradicionales de seleccion, cruzamiento y mutacion
para generar nuevas poblaciones de individuos que permitan encontrar arboles asociados capaces de
discriminar mas elementos de los patrones objetivo, como muestra la gura 5.
5 Resultados experimentales
Se utilizo un Algoritmo Genetico standard (elitismo, seleccion, cruzamiento y mutacion), con 100
individuos por generacion, 0.8 de probabilidad de cruce y 0.15 de mutacion. El objetivo del experimento es extraer una regla de clasicacion de impactos destructivos que permita detectar en
el total de los casos la presencia de impactos de este tipo, siendo tolerable los errores de clasicar
como impactos destructivos a algunos impactos que sean de otros elementos. La data original de
laboratorio conformo una base de datos de 70 impactos distribuidos de la siguiente manera:
TIPO DE MATERIAL
CANTIDAD
acero (destructivo)
20
magnetita (no destructivo)
25
huevillo (no destructivo)
15
otros (no destructivo)
10
Debido a la alta cantidad de individuos pertenencientes a cada poblacion, el algoritmo se estabilizo
en torno a una solucion tras solo 3 iteraciones. El tness del individuo mejor evaluado es de 0.86, lo
que quiere decir que de los 70 impactos, 7 fueron mal clasicados, o sea, confundidos con acero. La
distribucion de este error se muestra en la siguiente tabla:
6
TIPO DE MATERIAL BIEN CLASIFICADOS MAL CLASIFICADOS ERROR %
acero
20
0
0
magnetita
20
5
20
huevillo
15
0
0
otros
8
2
20
Como se puede observar en la tabla anterior, el mejor individuo ha generado un arbol de clasicacion
que es capaz de distinguir todos los impactos de acero. Sin embargo, ha clasicado como acero a 5
impactos de magnetita y 2 de otros elementos. Si bien este resultado no es el mmejor, es aceptable,
ya que a partir de esta experiencia se puede inferir una regla de clasicacion que permita detectar
todos los impactos destructivos.
6 Conclusiones
Dados los objetivos iniciales del problema de clasicacion, los resultados experimentales pueden
ser considerados como satisfactorios. La deteccion de impactos destructivos es buena y solo resta
disminuir aun mas la cantidad de impactos no diferenciados de la clase objetivo. Sin embargo, aun
hay muchos topicos que investigar como los siguientes:
Incluir busquedas inteligentes de parametros como Tabu Search o Simulted Annealing.
Incluir como una variable de optimizacion mas la cantidad de variables fsicas de caracterizacion de la data y su posicion relativa en el arbol.
Incluir modicaciones en la funcion de evaluacion como ndices de entropa e impureza.
La estrategia mostrada representa una alternativa interesante para la resolucion de muchos problemas
de clasicacion de patrones de alta complejidad, por lo que es de interes evaluar su desempe~no en
problemas como Imagen Satelital (GIS), Facial Image registration y Reconocimiento de Voz.
7 Referencias
[Bala et al, 1995] J. Bala, J. Huang, H. Vafaie, K. DeJong y H. Wechsler, Hybrid Learning Using
Genetic Algorithms and Decision Trees for Pattern Classication, en IJCAI conference, 19 al 25 de
Agosto de 1995.
[Breinman y Friedman, 1984] L. Breinman y J. Friedman, Clasication and regression trees, en
Wadsworth International Group Series, 1984.
[De Jong et al, 1995], K. De Jong, M. Potter y J. Grefenstette, A Coevolutionary Approach to
Learning Sequential Decision Rules, en Genetic Algorithms: Proceedings of the Sixth International
Conference (ICGA95), Julio 15-19, Pittsburg, Pennsylvania USA, Morgan Kaufmann, 1995.
[Michalewicz, 1996] Z. Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs,
Tercera Edicion, Springer, 1996.
[Michalski, 1994] R. Michalski, Inferential Theory of Learning: Developing Foundations for Multistrategy Learning en Machine Learning: A Multistrategy Approach, Vol. IV, R.S. Michalski y G.
Tecuci (Eds.), Morgan Kaufmann, San Mateo, CA, 1994.
[Vafaie y De Jong, 1994] H. Vafaie y K. De Jong, Improving the Performance of a Rule Induction
System Using Genetic Algorithms, en Machine Learning: A Multistrategy Approach, Vol. IV, R.S.
Michalski y G. Tecuci (Eds.), Morgan Kaufmann, San Mateo, CA, 1994.
7