Download sesgo

Document related concepts

Propagación hacia atrás wikipedia , lookup

Perceptrón multicapa wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

RNA de base radial wikipedia , lookup

Redes neuronales probabilísticas wikipedia , lookup

Transcript
UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO
CENTRO UNIVERSITARIO UAEM ATLACOMULCO
REPORTE DE INVESTIGACION
SESGO
DANIEL STEVEN CARDENAS ALVA
OSCAR VELAZQUEZ LONGINOS
ROGELIO VALDEZ SANCHEZ
REDES NEURONALES
Página 1 de 7
Resumen
El funcionamiento de la red consiste en un aprendizaje de un conjunto predefinido
de pares de entradas-salidas dados como ejemplo, empleando un ciclo
propagación-adaptación de dos fases:
Se aplica un patrón de entrada como estímulo para la primera capa de las neuronas
de la red, se va propagando a través de todas las capas superiores hasta generar
una salida, se compara el resultado obtenido en las neuronas de salida con la salida
que se desea obtener y se calcula un valor del error para cada neurona de salida.
Estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas
las neuronas de la capa intermedia que contribuyan directamente a la salida,
recibiendo el porcentaje de error aproximado a la participación de la neurona
intermedia en la salida original. Este proceso se repite, capa por capa, hasta que
todas las neuronas de la red hayan recibido un error que describa su aportación
relativa al error total. Basándose en el valor del error recibido, se reajustan los pesos
de conexión de cada neurona, de manera que en la siguiente vez que se presente
el mismo patrón, la salida esté más cercana a la deseada, es decir, que el error
disminuya.
El sesgo tiene la función de hacer que el resultado varié , que este mismo comience
a acercarse más a cualquiera de los patrones de entrada que se necesiten separar
hablamos de el sego comola varianza en cada red neuronal, este mismo provocara
que la línea que grafica el resultado sea elevada conforme a los valores del vías
haciendo el deslizamiento de esta misma sobre el eje de las “y´s”,o moviéndose por
cada uno de los cuadrantes dados los valores de las ordenadas que el resultado
maneje,un nombre con el cual es mas conocido es por el bias este mismo
desempeñando un rol principal dentro de una red neuronal logrando este efecto en
la salida asi como colaborando para que este resultado sea favorable.
Página 2 de 7
INTRODUCCIÓN
La regla de aprendizaje del Perceptrón de Rosenblatt y el algoritmo LMS de Widrow
y Hoff fueron diseñados para entrenar redes de una sola capa. Estas redes tienen
la desventaja que solo pueden resolver problemas linealmente separables, fue esto
lo que llevo al surgimiento de las redes multicapa para sobrepasar esta dificultad en
las redes hasta entonces conocidas.
El primer algoritmo de entrenamiento para redes multicapa fue desarrollado por Paul
Werbos en 1974, este se desarrolló en un contexto general, para cualquier tipo de
redes, siendo las redes neuronales una aplicación especial, razón por la cual el
algoritmo no fue aceptado dentro de la comunidad de desarrolladores de redes
neuronales. Fue solo hasta mediados de los años 80 cuando el algoritmo
Backpropagation o algoritmo de propagación inversa fue redescubierto al mismo
tiempo por varios investigadores, David Rumelhart, Geoffrey Hinton y Ronal
Williams, David Parker y Yann Le Cun.
El algoritmo se popularizó cuando fue incluido en el libro "Parallel Distributed
Processing Group" por los psicólogos David Rumelhart y James McClelland. La
publicación de este libro trajo consigo un auge en las investigaciones con redes
neuronales, siendo la Backpropagation una de las redes más ampliamente
empleadas, aun en nuestros días.
El análisis sesgo-varianza es una herramienta fundamental para comprender el
comportamiento de cualquier algoritmo de estimación. Dicho análisis resulta una
técnica natural en el problema de regresión con pérdida cuadrática debido a las
propiedades de esta pérdida.
En relación con el problema de clasificación con pérdida 0-1, se han propuesto
diferentes descomposiciones del error de predicción tratando de emular la
descomposición sesgo-varianza del problema de regresión mínimo cuadrática. Sin
embargo, sólo recientemente ha surgido una propuesta unificadora inspirada en la
filosofía utilizada por la descomposición tradicional.
Página 3 de 7
SESGO:
El algoritmo Backpropagation emplea un ciclo propagación – adaptación de dos
fases. Una vez que se ha aplicado un patrón a la entrada de la red como estímulo,
este se propaga desde la primera capa a través de las capas superiores de la red,
hasta generar una salida. La señal de salida se compara con la salida deseada y se
calcula una señal de error para cada una de las salidas.
Las salidas de error se propagan hacia atrás, partiendo de la capa de salida, hacia
todas las neuronas de la capa oculta que contribuyen directamente a la salida. Sin
embargo las neuronas de la capa oculta solo reciben una fracción de la señal total
del error, basándose aproximadamente en la contribución relativa que haya
aportado cada neurona a la salida original. Este proceso se repite, capa por capa,
hasta que todas las neuronas de la red hayan recibido una señal de error que
describa su contribución relativa al error total. Basándose en la señal de error
percibida, se actualizan los pesos de conexión de cada neurona, para hacer que la
red converja hacia un estado que permita clasificar correctamente todos los
patrones de entrenamiento.
La importancia de este proceso consiste en que, a medida que se entrena la red,
las neuronas de las capas intermedias se organizan a sí mismas de tal modo que
las distintas neuronas aprenden a reconocer distintas características del espacio
total de entrada. Después del entrenamiento, cuando se les presente un patrón
arbitrario de entrada que contenga ruido o que esté incompleto, las neuronas de la
capa oculta de la red responderán con una salida activa si la nueva entrada contiene
un patrón que se asemeje a aquella característica que las neuronas individuales
hayan aprendido a reconocer durante su entrenamiento. Y a la inversa, las unidades
de las capas ocultas tienen una tendencia a inhibir su salida si el patrón de entrada
no contiene la característica para reconocer, para la cual han sido entrenadas, el
sesgo para una backpropagation se denota conforme a los siguientes pasos:
Sea el problema de clasificación con dos clases con codificación Y = {−1, 1} y con
pérdida 0-1, (y, g(x)) = 1{y6=g(x)} y riesgo R(g(x)) = EY/x[(Y/x, g(x))], en el cuál,
la predicción óptima viene dada por la regla de Bayes: g(x) = arg inf
g(x){R(g(x)) = EY/x[(Y/x, g(x))]}
TEOREMA 1:
En el problema de clasificación anterior, si D es un conjunto de muestras
aleatorias de entrenamiento obtenidas de la distribución PX,Y, y ˆgn es el
estimador obtenido a partir de una muestra aleatoria Zn = (Z1, ..., Zn), con Zi =
(Xi,Yi), i = 1 : n, se verifica la siguiente descomposición de la esperanza del error
Página 4 de 7
de predicción: MPE(ˆgn(x)) = EZn,Y/x[(Y/x, ˆgn(x))] = c1σ2(Y/x) + Sesgo(ˆgn(x))
+ c2 Var(ˆgn(x)) (1) donde:
c1 = c1(x) = 2PZn[ˆgn(x) = g(x)] − 1
c2 = c2(x) =½+1 si ˆg D (x) = g(x)
−1 en otro caso son constantes dependientes de x (y también del algoritmo), y:
Sesgo (ˆgn(x)).=(g(x), ˆg D(x))
Var(ˆgn(x)) .=EZn [(ˆg D(x), ˆgn(x)]
σ2(Y/x).=EY/x[(Y/x, g(x))] donde ˆg D es la predicción principal en D definida como:
ˆg D (x)= argming(x)
EZn [(g(x), ˆgn(x))] que, en el problema de clasificación, es la moda de las
predicciones de las hipótesis entrenadas con muestras de D.
Análogamente, puede definirse:
ME (ˆgn(x)) = Sesgo (ˆgn(x)) + c2 Var(ˆgn(x)) (3) y su
correspondiente valor medio (análogamente para MPE):
ME (ˆgn) = EX [ME(ˆgn(X))] = EX[Sesgo(ˆgn(X))] + EX[c2(X)Var(ˆgn(X))] (4) A
diferencia de la descomposición en regresión, el término de varianza, puede resultar
negativo debido a que c2(x) = −1 en los puntos donde existe sesgo:
Sesgo (ˆgn(x)) =(g(x), ˆg D(x)) = 1.
Ello significa que en estos puntos, cuanto más varianza menor error de
generalización. Claramente, esto no ocurre en el caso de regresión con pérdida
cuadrática.
Por otra parte, es peculiar el término del ruido, pero su expresión sigue
rigurosamente el paralelismo con la descomposición con pérdida cuadrática,
[Domingos, 2000]. Para la regla de Bayes, su valor resulta intuitivo al ser el riesgo
de Bayes en x:
c1(x)EY/x[(Y/x, g(x))] = (2PZn [g(x) = g(x)] − 1)EY/x[(Y/x, g(x))] = EY/x[(Y/x,
g(x))]
Sin embargo, para cualquier otro algoritmo entrenado con muestras de D, dicho
valor resulta menor que dicho riesgo si PZn[ˆgn(x) = g(x)] < 1 e, incluso negativo,
si PZn[ˆgn(x) = g(x)] < 0.5 con lo que, además, depende del algoritmo utilizado. Así,
si el estimador está lejos de ser óptimo, cuanto mayor ruido, mejor es su
comportamiento.
Página 5 de 7
[Domingos, 2000] estudia el comportamiento de su propuesta de descomposición
con árboles de regresión (regression trees) y con clasificadores k-nearest neighbors,
y anima a estudiar dicho comportamiento con otros estimadores.
ANEXOS:
Las siguientes graficas muestran los resultados que arroja el calculo de la varianza
en cada una de las iteraciones de una red neuronal observando cada uno de los
desplazamientos que realiza dicho sesgo:
Página 6 de 7
CONCLUCIONES:
El desplazamiento de una salida en forma de representación gráfica, el bias será el
encargado en marcar este intervalo de desplazamiento en el espacio en donde
estén ubicados los patrones, ubicándose conforme cada iteración lo marque y
dependiendo de la salida de los pesos, este sesgo juega un papel muy importante
ya que será el encargado en darle un patrón de entrada más en la red
backpropagation y en cualquier red de manera general haciendo que el resultado
cuente con una separabilidad donde l RNA tiene que arrojar su principal punto inicial,
esta investigación ayudará a comprender mejor las salidas en las presentes redes
neuronales que se han ido programando.
Las variaciones del número de iteraciones será en parte marcada por el cálculo de
la varianza en cada una de estas mismas, para realizar una codificación entorno a
los errores y así disminuirlos ya que en cada iteración arroja un valor cuadrático el
cual es necesario el decremento conforme la red lo requiera.
REFERENCIAS
[1] Chen, S., Billings, S. A., Luo. W. (1989). “Backpropagation". Int. J. Control,pp 1114.
[2] Domingos, P. (2000). " Bias-Varianza su Descomposición y sus Aplicaciones".
Morgan Kauffman, pp 231-238.
Página 7 de 7