Download Métodos de Poda en Redes Neuronales

Document related concepts

Propagación hacia atrás wikipedia , lookup

RNA de base radial wikipedia , lookup

Red neuronal artificial wikipedia , lookup

Perceptrón multicapa wikipedia , lookup

Método de agrupamiento para el manejo de datos wikipedia , lookup

Transcript
Selección de Arquitecturas de Redes de Multicapa mediante un
el criterio del Daño Cerebral Optimo
Héctor ALLENDE1,2, Rodrigo SALAS1, Iván SUAZO2
1
Universidad Técnica Federico Santa María – Departamento de Informática, Chile
Casilla 110-V; Valparaíso-Chile;
{hallende, rsalas} @inf.utfsm.cl
2
Universidad Adolfo Ibáñez – Facultad de Ciencias y Tecnología, Chile
Balmaceda 1625 Viña del Mar -Chile;
[email protected]
Resumen
El método de selección de la arquitectura de una red neuronal artificial (RNAs) es una
etapa importante en su diseño, ya que de ella depende su capacidad de generalización y la
complejidad computacional de sus algoritmos. En este trabajo se investiga el problema de
selección de la arquitectura de la red, Feedforward de multicapas (FNRAs) utilizando
método basados en el análisis de sensibilidad para podar dichas redes. Los métodos del tipo
Daño Cerebral Optimo (Optimal Brain Damage OBD) y sus variantes son utilizados para el
análisis de sensibilidad. Finalmente se desarrolla un estudio de monte-Carlo para comparar
estos métodos de selección de arquitectura.
Keywords: Redes Neuronales, Arquitectura neuronal, Daño Cerebral Optimo, Poda.
1
1.- Introducción
El problema de selección de la arquitectura de una red FRNAs será tratado mediante un
método de análisis de sensibilidad, que se denomina algoritmo OBD, utilizando como
función de desempeño el error cuadrático medio (ECM), ante cambios en la topología de la
red y perturbaciones de sus parámetros.
Una red del tipo Feedforward de multicapa de describe en la Figura 1:
La notación para este tipo de redes (FRNAs) a utilizar
Capa
Capa
Capa
será rn(I, H, O), donde rn se refiere a Red Neuronal, I
de
de
Oculta
Entrada
Salida
denota el número de neuronas en la capa de entrada,
H el número de neuronas en la capa oculta y O el
f1
Vpm
Wml
número de neuronas en la capa de salida. Si es la
Xi
Sl
f2
salida de la red de la unidad i:
 H  I


Si  f   f  Wmk  X k  Vpj 

 j 1  k 1

f1
Xj
f2
f1
bi
Figura 1: Red feedforward 3 capas
Sk
Xi corresponde a la entrada de la red, con i = 1,...,I.
Wml y Vpm corresponden a los pesos de las
conexiones, bi vector de umbral o sesgo. f i i  1,2
corresponde a la función de activación de las
neuronas de las capas oculta y de salida.
2.- Métodos de Selección basados en Sensibilidad
El análisis de sensibilidad busca determinar la diferencia de la función de desempeño E,
debido a la presencia o ausencia de un determinado peso o nodo. Las Variantes de estos
métodos dependen del tipo de función a considerar y de la medida de sensibilidad. Dentro
de este grupo de métodos de poda se consideran en este trabajo el algoritmo de Daño
Cerebral Mínimo (OBD) y el de Cirugía Cerebral Optima (OBS).
2.1 Daño Cerebral Mínimo (OBD)
La técnica de Daño Cerebral Mínimo (OBD por sus siglas en inglés de Optimal Brain
Damage) ha sido tratada por A. Engelbrecht (Ver [2] ; [3]) como un método para reducir el
número de pesos en una red neuronal y evitar así el sobreentrenamiento. El método consiste
en seleccionar aquellos pesos de la red cuya remoción tengan un pequeño efecto en la
medida de desempeño ECM, lo que permite mejorar el desempeño de la red.
El criterio de salida o eliminación de parámetros corresponde a una medida que representa
el incremento esperado de la función de error después de que uno de los parámetros ha sido
removido. Para ello, la medida de salida se calcula usando una aproximación de segundo
orden de la función de error cerca de un mínimo local. Se eliminan aquellos pesos con un
bajo valor de dicha medida.
El cambio en el error debido a una pequeña alteración de algún peso k,  k , se expresa
como:
E
1
2 E
3
E  
  k  
  k l  O   k 
2 k l  k l
k  k

2

Aplicando el método de convergencia de tipo Back Propagation, que define E  0 y
 k
despreciando los términos de mayor orden, vale decir, ( )  0 , la ecuación queda
3
2
reducida a: E  1   E   k l
2
k
l
 k l
Además, si  k y l no están correlacionados la ecuación se simplifica a:
E 
1 2 E
  k k
2 k  k2
Dado que lo que se busca es eliminar pesos, se puede calcular  k   k .
Por lo tanto, la medida de salida definida en OBD es: Sk  Ek  1  E2  k2
2  k
que corresponde a la medida del cambio del error cuadrático promedio cuando se remueve
un parámetro de la red llevando su valor a cero.
El procedimiento para la eliminación de los pesos consiste en generar un ranking de ellos
de acuerdo al valor de Sk obtenido, removiendo aquel o aquellos que presenten el valor más
bajo, luego se re-entrena la red y se repite nuevamente el proceso hasta satisfacer el
criterio de parada. Se acepta la red modificada solamente si el desempeño esperado es
mejorado de acuerdo con alguna medida determinada. En el presente trabajo se estudia una
variante al algoritmo OBD, que mantiene la convergencia del tipo Back Propagation
3
 E

 0  y que también desprecia los términos de mayor orden ( ( )  0 ), pero que ha

2
 k

diferencia del algoritmo OBD, admite la posibilidad que  k y l puedan estar
2
correlacionados   E  0 , k  l  con lo que la función de error quedaría:
 k l

1
2 E
  k l

2 k l  k l
Finalmente se presenta un estudio comparativo de los métodos de daño cerebral óptimo,
para las redes FRNAs con una capa oculta, utilizando un conjunto de datos sintéticos.
E 
3. Bibliografía
[1] L. Prechelt. ”Adaptive parameter pruning in neural networks”. Technical Report
95/009 International Computer Science Institute, 1995.
[2] A. Engelbrecht. “A new pruning heuristic based on variance analisis of sensitivity
information”. IEEE Transacctions on Neural Networks, Vol. 12, 2001.
[3] A.P. Engelbrecht, I. Cloete. “A sensitivity analysis algorithm for pruning feedforward
neural networks”. IEEE International Conference in Neural Networks, Vol. 2, 1996.
[4] G. Thimm, E. Fiesler. “Neural network pruning and pruning parameters”. 1st
Workshop on Soft Computing, 1996.
[5] G. Thimm, E. Fiesler. “Pruning of Neural Networks”. IDIAP Research Repot 97-03,
1997.
3