Download un simulador del comportamiento de redes neuronales de kohonen
Document related concepts
Transcript
UN SIMULADOR DEL COMPORTAMIENTO DE REDES NEURONALES DE KOHONEN Álvarez Llorente, J.M.; Díaz Márquez, P.; Galeano Gil, G.; García García, F.J. Dpto. Informática. Escuela Politécnica de Cáceres. Universidad de Extremadura RESUMEN: En este trabajo presentamos los resultados experimentales obtenidos a partir de la simulación del comportamiento de determinadas organizaciones de una red de Kohonen (RDK). El simulador permite la especificación de la estructura de la red –número y disposición de las neuronas– así como el tipo de patrones manejados por la misma (espectros, caracteres, y puntos en el plano). Los parámetros de aprendizaje pueden ser modificados una vez empezada la etapa de aprendizaje. Usando el simulador como una herramienta didáctica, podemos analizar la influencia de los distintos parámetros de aprendizaje de la red tanto en la velocidad de aprendizaje como en la convergencia de la red. Los resultados obtenidos muestran la importancia de la forma de iniciar los pesos, de la elección adecuada de los parámetros α(t) y ∆(t) y de la función de vecindad, a fin de obtener clasificaciones óptimas en un menor tiempo de proceso. 1. INTRODUCCIÓN Podemos clasificar a la RDK como red analógica, heteroasociativa, con dos capas de neurona y aprendizaje off-line no supervisado de tipo competitivo (una sola “neurona vencedora” para cada patrón de entrada). El aprendizaje consiste en la presentación de todos los patrones a la red, realizándose una clasificación según la neurona activada o “vencedora” para cada uno de ellos. Las neuronas de salida se organizan espacialmente de forma que las neuronas más próximas entre sí representen a clases de patrones parecidos. Durante el aprendizaje la neurona vencedora tiende a almacenar las características de la clase que representa, modificando sus conexiones o “pesos”, así como las conexiones de las neuronas vecinas (éstas en menor medida) cada vez con incrementos menores hasta llegar a una convergencia. 2. CARACTERÍSTICAS DEL SIMULADOR Con miras a evaluar el funcionamiento de la RDK como clasificador y la influencia de las posibles especificaciones de la red, el simulador diseñado permite elegir el número de neuronas de las capas de entrada y de salida, que dependerá del tipo y número de patrones manejados (espectros, caracteres o puntos en el plano). Además, da la posibilidad de determinar la distancia entre neuronas de salida, la distancia de inicialización entre los pesos de las neuronas vecinas y la disposición de las neuronas de salida (red lineal, bidimensional o tridimensional). Uno de los aspectos más interesantes del simulador consiste en la posibilidad de modificar diferentes parámetros de aprendizaje, incluso durante el aprendizaje: • • Función de activación, que se emplea como función de vecindad. Se permite elegir entre una función gaussiana f(x)=e-x²/2 ∆² [2], una función “de sombrero mejicano” f(x)=((∆²-x²)e-x²/∆²)/∆² [4], o una función cuadrada (doble escalón) f(x)=|∆| si |x|<|∆| si no 0 [4], donde ∆ es un parámetro dado en función de ∆(t) dependiente del tiempo que también es configurable. Función ∆(t), es un “factor de vecindad” cuyos valores pueden ser: ∆(t)=1/t, ∆(t)=∆1 (1-t/10000), ∆(t)=1/4Ö t, ∆(t)=1-∆1 t, donde ∆1 es una constante en el intervalo [0,1]. • Función α(t), factor de aprendizaje, que puede ser [3]: α(t)=1/t, α(t)= α1 (1-t/10000), α(t)=1/4Ö t, α(t)=1-α1t, donde α1 es una constante configurable en el intervalo [0,1]. 3. ANÁLISIS DE RESULTADOS La siguiente tabla muestra los resultados de una serie de pruebas que han realizado con el simulador. En ella se reflejan los tiempos de convergencia y la calidad de la clasificación realizada, según la clave: 1=clasificación correcta (un patrón para cada neurona); 2 = menos de 20% de patrones mal clasificados; 3 = entre 20% y 50% de patrones mal clasificados; 4 = más de 50% de patrones mal clasificados. Las pruebas se realizaron sobre una organización TPM con 9 neuronas de salida, para 9 patrones (caracteres) de 25 componentes. α (t) τ (t) 1 4 t 1 4 t 1/t τ1(1-t/10000) 1 4 t 1 4 t 1/t α1(1-t/1000) 1-α1*t 1/t 1 4 t 1-τ1*t 1 4 t 1 4 t 1 4 t 1/t Gaussiana Núm. it. Calidad 20 3 40 4 190 2 18 4 2540 3 160 4 20 3 250 4 Sombr. Mejicano Núm. it. Calidad 25 3 40 4 15 3 150 3 1500 3 150 4 10 4 75 3 Cuadrada Núm. it. Calidad 25 3 50 4 30 3 60 4 25 3 100 4 100 4 25 3 4. CONCLUSIONES La iniciación de los pesos juega un papel muy importante en la convergencia. Los mejores resultados se obtuvieron iniciando los pesos de las neuronas al valor medio de los patrones, para las componentes de mayor varianza, distribuidas uniformemente en un plano alrededor del valor medio. Las funciones tradicionales de decrecimiento de la constante α no resultaron las más adecuadas. Un decrecimiento más lento de dicha constante proporcionaba mejores resultados tanto en la velocidad de aprendizaje como en la correcta clasificación de patrones. Una buena elección de la función α es α(t)=1/√ t, aunque se obtenían mejores resultados con α(t)=1/ 4 √ t. Aumentar más el índice de la raíz no proporcionaba mejores resultados. Utilizando estas mismas expresiones para el parámetro de vecindad ∆(t) se obtuvieron también buenos resultados. En cuanto a las funciones de vecindad, la gaussiana ha dado el mejor resultado, mientras que el sombrero mejicano tenía serios problemas de convergencia con valores de α y ∆ no óptimos. Finalmente, la función cuadrada funcionaba correctamente, aunque no tan bien como la gaussiana. 5. BIBLIOGRAFÍA [1] T. Kohonen. An Introduction To Neural Computing For Neural Networks, vol. 1. 1988. [2] S. Y. Kung. Digital Neural Networks [3] J. R. Hilera González y V. J. Martínez Hernando. Redes Neuronales Artificiales. Fundamentos, Modelos y Aplicaciones. Ed. Rama, 1995. [4] B. Müler, J. Reinhardt. Neural Networks, an Introduction. Springer-Verlag, 1991. [5] T. Kohonen. Self-Organization And Associative Memory, 3ed edition. Springer-Verlag, 1989.