Download Capítulo 3 - Departamento de Informática USM
Document related concepts
Transcript
REDES NEURONALES ARTIFICIALES
TEORÍA Y APLICACIONES
Dr. Héctor Allende
Departamento de Informática
Universidad Técnica Federico Santa María
Capítulo 3
SOM/KOHONEN Network
Mapas Autoorganizativos
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
2
Estructura de la Red
SOM (Self-Organization Map o Kohonen Network)
Teuvo Kohonen Rev. Information Science(1984)
– Red de aprendizaje no supervisado.
– Posee una única capa, la capa de salida.
• Posee un feedback lateral. En general es de forma indirecta
( tipo “Sombrero Mejicano”).
• Consiste en K neuronas.
• Puede ser unidimensional (K) o multidimensional ( KxK).
– La capa adicional de entrada solo distribuye la entrada en la
capa de salida.
• Consiste en N neuronas (dimensión de la entrada).
• No hay procesamiento
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
3
Estructura de la red de Kohonen
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
4
Sombrero mejicano
Las Neuronas cercanas reciben un feedback (+)
Las Neuronas a mediana distancia reciben feedback (-).
Las Neuronas lejanas no son afectadas.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
5
Estructura de la Red.
• Obervaciones:
– La distancia entre neuronas es discreta. 0 para la
neurona misma, 1 para las neuronas más cercanas etc.
– La función de feedback determina la velocidad de
aprendizaje.
– Vecindad Neuronal: Area afectada por el feedback
lateral.
– Para grandes vecindades, la distancia puede
considerarse función continua.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
6
El Proceso de aprendizaje
• Matriz de pesos: W {wij }ij11,..,,..,NK
• Vector de entrada: X {xi }i 1,.., N
– Entrada es una función paramétrizada x = x(t)
• Entrada total: a = W x
• La neurona k que tiene un peso asociado
W (k , :) N tal que:
|| W (k , :) T x || min || W ( j , :) T x ||
j 1,.., K
se declara ganadora.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
7
Proceso de aprendizaje
• Todas las neuronas incluidas en la vecindad neuronal
incluida ella misma participan en el proceso de
aprendizaje. Las otras neuronas no son afectadas.
• El proceso de aprendizaje consiste en cambiar el
vector de pesos en la dirección del vector de entrada
(feedback positivo).
• Existe también un proceso de olvido proceso que
retarda el progreso (feedback negativo)
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
8
Proceso de aprendizaje
• Aprendizaje lineal: cambios ocurren en direccion
de la combinación lineal de X y W(j,:) para cada
neurona:
dW
( x, W ) ( x, W )
dt
donde y son funciones escalares (no lineales).
: feedback positivo : feedback negativo
• A continuación se considera que la vecindad
neuronal es toda la red.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
9
Tipos de aprendizaje
• La ecuacion diferencial Trivial:
dW ( j , :)
x T W ( j , :) 0, 0
dt
forma matricial :
dW
1̂x T W
dt
Condición inicial : W(0) W0 .
Solución :
t T
t
t '
W (t ) 1̂ x (t ' )e dt ' W0 e
0
Para t, W(j,:) es un promedio exponencialmente ponderado de X.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
10
Tipos de Aprendizaje
• La ecuación simple:
dW ( j , :)
a j (t ) x T W ( j , :) 0, 0
dt
forma matricial, a Wx :
dW
1a (t ) x T W W (xxT I )
dt
Aprox. en tiempo discreto :
dW
W
W (t 1) W (t )
W (t )[x (t ) x T (t ) I ]
dt
t
(t 1) t
W (t 1) W (t )[x (t ) x T (t ) I I ]
Condición inicial : W(0) W0 .
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
11
Tipos de Aprendizaje
• La Solución de la ecuación simple:
t 1
W (t ) W0 [x(t ) x T (t ) I I ]
t ' 0
– La solución puede ser divergente o convergente
a cero, casos ambos casos son inaceptables.
– Para tiempos cortos la solución se aproxima a
procesos asintóticamente estables.
• Para t ; relativamente pequeños y 0:
t 1
T
W (t ) W0 I x(t ' ) x (t ' )
t ' 0
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
12
Tipos de Aprendizaje
• La Ecuación diferencial de Riccati:
dW ( j , :)
xT a jW ( j , :) 0, 0
dt
como a j W ( j , :) x xT W ( j , :) T
dW ( j , :)
xT [I W ( j , :) T W ( j , :)]
dt
En notación matricial :
dW
1̂xT (Wx1̂T ) W
dt
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
13
Tipos de Aprendizaje
• Ecuación de Riccati:
– Proposición: Considerando un acercamiento
estadístico a la ecuación de Riccati, si una
existe solución, la solución de W es de la
forma:
T
lim t W
x
1̂
|| x ||
si x 0̂
donde x E{x / W } cte
– Todo W(j,:) llega a estar paralelo a <x> y tendrá
|| W ( j, :) || /
la norma
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
14
Tipos de Aprendizaje
• Ecuaciones más generales:
Teorema: Sea > 0, a =Wx y (a) una función arbitraria tal
que E{(a)|W} existe. Sea x = x(t) un vector con
propiedades estadísticas estacionarias (e independiente de
W). Entonces, si el proceso de aprendizaje es del tipo:
dW ( j , :)
xT (a j )W ( j , :)
dt
en notación matricial :
j 1,.., K
dW
1̂xT [ (a )1̂T ] W
dt
tiene soluciones W acotada para t, entonces debe tener
la forma: lim t W 1̂ x T
donde <x> es la esperanza de x(t). ie., W(j,:) llega a ser
paralelo a <x>
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
15
Tipos de Aprendizaje
Teorema: Sea > 0, a = Wx y (a) una función arbitraria tal
que E{(a)|W} existe. Sea <xxT>=E{xxT|W}. Sea max=máxl
l el valor propio máximo de < xxT > y umax el vector propio
asociado. Entonces, si el proceso de aprendizaje es del tipo:
dW ( j , :)
a j xT (a )W ( j , :)
dt
en notación matricial :
dW
axT [ (a )1̂T ] W
dt
tiene soluciones no triviales W acotada para t, entonces
debe tener la forma: lim t W 1̂ x T
donde Wumax Ô, W(0) = W0 ; ie, W(j,:) llega a ser paralelo
a umax
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
16
Dinámica de la Red
• Función de ejecución de la red:
Para cada vector de entrada X , W ( j, :) T n
la neurona k para la cual
|| W (k , :) T X || min || W ( j , :) T X ||
j 1,.., K
se declara ganadora. El ganador es usado para
decidir que pesos serán cambiados. Todas las
neuronas pertenecientes a la vecindad neuronal
participan en el aprendizaje.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
17
Dinámica de la Red
• Función de aprendizaje de la red:
–
–
–
–
El proceso de aprendizaje es no-supervisado.
El aprendizaje se desarrolla en tiempo discreto.
W=W(t)
En t = 0 los pesos son inicializados con valores
aleatorios pequeños W(0) = W0 .
– Los pesos se actualizan de la siguiente forma:
• Para x(t) encontrar la neurona ganadora k.
• Actualizar los pesos según modelo elegido:
W W (t ) W (t 1) (dW / dt )
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
18
Dinámica de la Red
• Inicialización y condición de parada:
– Los pesos son inicializados con valores
aleatorios pequeños.
– La condición de parada del proceso de
aprendizaje puede ser:
• Elegir un número fijo de pasos.
• El proceso de aprendizaje continúa hasta que la
cantidad de ajuste: wji= wji(t+1)-wji (t)
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
19
El Algoritmo
• Para toda las neuronas en la capa de salida: inicializar los pesos con
2
valores aleatorios U (0,1)
• Si se trabaja con vectores normalizados, Normalizar vectores
• Elegir el modelo de aprendizaje ( Ecuación diferencial)
• Elegir un modelo de vecino neuronal ( fu. de feedback lateral).
• Elegir condición de parada.
• Construir a partir de la ED, la fórmula de adaptación de los pesos.
• Considerando tiempo discreto, repetir los pasos anteriores hasta que la
condición de parada se cumpla:
– Tomar la entrada x(t)
– Para todas las neuronas j en la capa de salida, encontrar la ganadora.
– Conociendo la ganadora, actualizar los pesos.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
20
Fórmula de adaptación de pesos
• La ecuacion diferencial Trivial:
dW
1̂x T W
dt
Dada la fu de feedback lateral h(k, j)
h(k, j) o, para , j N c ; 0,.etoc
h(k, j) h exp[ (k j ) 2 ]
Para t, W(j,:) es un promedio exponencialmente ponderado de X.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
21
Fórmula de adaptación de pesos
La ecuación Trivial:
h(k , j ) exp
(t ) 0 exp( f (t ))
W (t 1) W (t ) (t )[ h(normx)1̂T ] [ 1̂xT (t ) W ]
Condición
inicial : W(0) W0 .
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
22