Download Gradiente descendiente con momento

Document related concepts

Propagación hacia atrás wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

Perceptrón multicapa wikipedia , lookup

Perceptrón wikipedia , lookup

RNA de base radial wikipedia , lookup

Transcript
UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO
CENTRO UNIVERSITARIO UAEM ATLACOMULCO
REPORTE DE INVESTIGACION
DANIEL STEVEN CARDENAS ALVA
OSCAR VELAZQUEZ LONGINOS
ROGELIO VALDEZ SANCHEZ
Página 1 de 6
RESUMEN
Las redes neuronales pueden contribuir con la clasificación de patrones de entrada,
para obtener una salida que sea factible y deseada, existen varios tipos de redes
neuronales, un ejemplo de ello pueden ser el perceptron, la red adaline, red
madaline entre otros, teniendo en cuenta que su proceso de aprendizaje puede
variar dependiendo de cómo puede aprender la red, en esta investigación se hablara
de una red backpropagation o red de propagación hacia atrás, y su funcionamiento
con y sin la presencia de una variable de aceleramiento del aprendizaje, el momento
puede ser de gran ayuda para dar una estabilidad y evitar los mínimos locales en el
que puede caer la red. Además de encontrar como aplicar esta variable a la función
de aprendizaje de la red.
INTRODUCCION
El método backpropagation (propagación del error hacia atrás), basado en la
generalización de la regla delta, a pesar de sus limitaciones, ha ampliado de forma
considerable el rango de aplicaciones de las redes neuronales. El funcionamiento de
la red backpropagation (BPN) consiste en el aprendizaje de un conjunto predefinido
de pares de entradas-salidas. Primero se aplica un patrón de entrada como estímulo
para la primera capa de las neuronas de la red, se va propagando a través de todas
las capas superiores hasta generar una salida, se compara el resultado en las
neuronas de salida con la salida que se desea obtener y se calcula un valor de error
para cada neurona de salida. Posteriormente, estos errores se transmiten hacia
atrás, partiendo de la capa de salida hacia todas las neuronas de la capa intermedia
que contribuyan directamente a la salida. Este proceso se repite, capa por capa,
hasta que todas las neuronas de la red hayan recibido un error que describa su
aportación relativa al error total. Basándose en el valor del error recibido, se
reajustan los pesos de conexión de cada neurona, de manera que en la siguiente
vez que se presente el mismo patrón, la salida esté más cercana a la deseada.
La importancia de la red backpropagation consiste en su capacidad de autoadaptar
los pesos de las neuronas de las capas intermedias para aprender la relación que
existe ente un conjunto de patrones de entrada y sus salidas correspondientes.
En una red Backpropagation existe una capa de entrada con n neuronas y una capa
de salida con m neuronas y al menos una capa oculta de neuronas internas. Cada
neurona de una capa (excepto las de entrada) recibe entradas de todas las
neuronas de la capa anterior y envía su salida a todas las neuronas de la capa
posterior (excepto las de salida). No hay conexiones hacia atrás feedback ni
laterales entre las neuronas de la misma capa.
La técnica Backpropagation requiere el uso de neuronas cuya función de activación
sea continua, y por lo tanto, diferenciable. Generalmente, la función utilizada será
del tipo sigmoidal.
Página 2 de 6
Momento
El elegir un incremento adecuado influye en la velocidad con la que converge el
algoritmo, se sabe que con este control se puede realizar mediante el parámetro
denominado ganancia, normalmente se le asigna un valor pequeño, para asegurar
que la red llegue asentarse en una solución. [1]
Esta variante añade un término que controla la velocidad de acercamiento al
mínimo, acelerándola cuando se está lejos del mínimo y deteniéndola cuando se
está cerca (influye en la velocidad del aprendizaje) y está dado por la expresión:
El cambio en el peso es proporcional al gradiente del error, siendo α (tasa de
aprendizaje) la constante de proporcionalidad
– Si α es grande, el error puede oscilar alrededor del mínimo
– Si α es pequeña, la convergencia de más lenta
Donde
es el incremento que sufrió el parámetro w en la
Iteración anterior y n es un numero positivo que controla la importancia dada al
Incremento anterior y se denomina momento. Aplicación la regla de
obtiene:
se
Este método trata de ser más estable ya que si la derivada parcial del error respecto
al peso tiene el mismo signo en iteraciones consecutivas, la utilización del momento
procura un cambio mayor en el peso, acelerando así la convergencia del algoritmo,
presenta problemas en proximidades del mínimo. [2]
Las mayores tasas de convergencia suelen lograrse para valores grandes tanto de h
(siempre que el aumento en dicho valor no produzca inestabilidades) como el
momento m. La elección de los pesos iniciales es también importante, ya que la
función de error para el PMC puede tener varios mínimos locales, y el punto final de
convergencia depende de las condiciones iniciales. Típicamente, dicho problema se
resuelve aplicando el algoritmo de retro propagaciones varias veces con diferentes
pesos iniciales hasta que se encuentra una solución adecuada.
Página 3 de 6
Gradiente descendiente con momento
El momento permite a la red responder no solo al gradiente local sino también a las
tendencias más recientes en la superficie de error. Actuando como un filtro pasa
bajos el omento permite a la red ignorar las pequeñas imperfecciones de la
superficie de error [3], sin un momento la red puede atascarse en un mínimo local
impidiendo su labor.
El momento puede añadirse al aprendizaje con retro propagación realizando
cambios en los pesos iguales a la suma de la fracción del último cambio de pesos y
el nuevo cambio sugerido por la regla de retro propagación. La magnitud del efecto
que último cambio de pesos permite tener es mediada por una constante de
momento, mc, que puede ser cualquier número entre 0 y 1. Cuando la constante de
momento es 0, el cambio de pesos es basado únicamente en la gradiente. Cuando
la constante de momento es 0, el nuevo cambio de pesos se iguala al último cambio
de pesos y el gradiente se ignora simplemente.
Después de calcular todos los valores de delta de ponderación y sesgo, se puede
actualizar cada ponderación y sesgo, al sumar el valor de delta asociado. Pero se ha
demostrado que, con ciertos conjuntos de datos, el algoritmo de propagación
inversa puede oscilar y pasar de largo y quedar corto repetidas veces del valor
esperado, sin converger jamás en un conjunto final de valores de ponderación y
sesgo. Una técnica para reducir esta tendencia consiste en agregar a cada
ponderación y sesgo nuevo un término adicional llamado momento. El momento de
una ponderación (o sesgo) es simplemente un valor pequeño (como 0,4 en el
programa de demostración), multiplicado por el valor del último delta de la
ponderación. [5]
Página 4 de 6
FORMULA DEL PROCESO DE APRENDIZAJE CON
MOMENTO
CONCLUSION
Para un red neuronal backpropagation, un problema son los mínimos locales, puesto
que cuando se obtienen los máximos y mínimos, más en este último hay un error en
donde la red neuronal termina las iteraciones, sin saber que aún hay más datos, la
red se vuelve inestable y los datos no son los deseados, para evitar este problema
se agrega una nueva variable en la ecuación a la función de transferencia que es el
momento, es muy similar al de la taza de aprendizaje pero en cambio esta lo que
hace es mostrar los mínimos de la red neuronal, Contrarresta las posibles
inestabilidades que se crean en la variación de los pesos, y es importante porque
reduce la posibilidad de caer en un mínimo local, además puede acelerar
enormemente el proceso de aprendizaje.
Página 5 de 6
BIBLIOGRAFIA
[1] Freeman“Tema 4: Perceptron Multicapa”Sistemas Conexionistas 1 Pagina 14.
[2] “algoritmos de apredizaje en retropropagacion para perceptron multicapa”
FTP:http://es.scrib.com/doc/98659734/Algoritmos-de-Aprendizaje-enRetropropagacion-para-Perceptron-Multicapa
[3] J.A.J. “Apuntes de inteligencia artificial”, “Tesis” pontificia universidad católica del
ecuador, facultad de ingeniería Pagina 9
[5] James McCaffrey “Propagacion inversa en redes neuronales para
programadores” “Publicacion” FTP:http://
http://msdn.microsoft.com/eses/magazine/jj658979.aspx
Página 6 de 6
Related documents