Download Capítulo 3 - Departamento de Informática USM

Document related concepts

Mapa autoorganizado wikipedia , lookup

Perceptrón wikipedia , lookup

Red neuronal artificial wikipedia , lookup

Neuroph wikipedia , lookup

Propagación hacia atrás wikipedia , lookup

Transcript
REDES NEURONALES ARTIFICIALES
TEORÍA Y APLICACIONES
Dr. Héctor Allende
Departamento de Informática
Universidad Técnica Federico Santa María
Capítulo 3
SOM/KOHONEN Network
Mapas Autoorganizativos
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
2
Estructura de la Red
SOM (Self-Organization Map o Kohonen Network)
Teuvo Kohonen Rev. Information Science(1984)
– Red de aprendizaje no supervisado.
– Posee una única capa, la capa de salida.
• Posee un feedback lateral. En general es de forma indirecta
( tipo “Sombrero Mejicano”).
• Consiste en K neuronas.
• Puede ser unidimensional (K) o multidimensional ( KxK).
– La capa adicional de entrada solo distribuye la entrada en la
capa de salida.
• Consiste en N neuronas (dimensión de la entrada).
• No hay procesamiento
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
3
Estructura de la red de Kohonen
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
4
Sombrero mejicano
Las Neuronas cercanas reciben un feedback (+)
Las Neuronas a mediana distancia reciben feedback (-).
Las Neuronas lejanas no son afectadas.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
5
Estructura de la Red.
• Obervaciones:
– La distancia entre neuronas es discreta. 0 para la
neurona misma, 1 para las neuronas más cercanas etc.
– La función de feedback determina la velocidad de
aprendizaje.
– Vecindad Neuronal: Area afectada por el feedback
lateral.
– Para grandes vecindades, la distancia puede
considerarse función continua.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
6
El Proceso de aprendizaje
• Matriz de pesos: W  {wij }ij11,..,,..,NK
• Vector de entrada: X  {xi }i 1,.., N
– Entrada es una función paramétrizada x = x(t)
• Entrada total: a = W x
• La neurona k que tiene un peso asociado
W (k , :)   N tal que:
|| W (k , :) T  x || min || W ( j , :) T  x ||
j 1,.., K
se declara ganadora.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
7
Proceso de aprendizaje
• Todas las neuronas incluidas en la vecindad neuronal
incluida ella misma participan en el proceso de
aprendizaje. Las otras neuronas no son afectadas.
• El proceso de aprendizaje consiste en cambiar el
vector de pesos en la dirección del vector de entrada
(feedback positivo).
• Existe también un proceso de olvido proceso que
retarda el progreso (feedback negativo)
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
8
Proceso de aprendizaje
• Aprendizaje lineal: cambios ocurren en direccion
de la combinación lineal de X y W(j,:) para cada
neurona:
dW
  ( x, W )   ( x, W )
dt
donde  y  son funciones escalares (no lineales).
 : feedback positivo : feedback negativo
• A continuación se considera que la vecindad
neuronal es toda la red.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
9
Tipos de aprendizaje
• La ecuacion diferencial Trivial:
dW ( j , :)
 x T  W ( j , :)   0,   0
dt
forma matricial :
dW
  1̂x T  W
dt
Condición inicial : W(0)  W0 .
Solución :
 t T
  t

t '
W (t )   1̂  x (t ' )e dt '   W0  e
  0


Para t, W(j,:) es un promedio exponencialmente ponderado de X.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
10
Tipos de Aprendizaje
• La ecuación simple:
dW ( j , :)
 a j (t ) x T  W ( j , :)   0,   0
dt
forma matricial, a  Wx :
dW
  1a (t ) x T  W  W (xxT  I )
dt
Aprox. en tiempo discreto :
dW
W
W (t  1)  W (t )


 W (t )[x (t ) x T (t )  I ]
dt
t
(t  1)  t
 W (t  1)  W (t )[x (t ) x T (t )  I  I ]
Condición inicial : W(0)  W0 .
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
11
Tipos de Aprendizaje
• La Solución de la ecuación simple:
t 1
W (t )  W0  [x(t ) x T (t )  I  I ]
t ' 0
– La solución puede ser divergente o convergente
a cero, casos ambos casos son inaceptables.
– Para tiempos cortos la solución se aproxima a
procesos asintóticamente estables.
• Para t ;  relativamente pequeños y 0:
t 1


T
W (t )  W0  I    x(t ' ) x (t ' )
t ' 0


Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
12
Tipos de Aprendizaje
• La Ecuación diferencial de Riccati:
dW ( j , :)
 xT  a jW ( j , :)   0,   0
dt
como a j  W ( j , :) x  xT W ( j , :) T
dW ( j , :)
 xT [I  W ( j , :) T W ( j , :)]
dt
En notación matricial :

dW
 1̂xT   (Wx1̂T )  W
dt
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
13
Tipos de Aprendizaje
• Ecuación de Riccati:
– Proposición: Considerando un acercamiento
estadístico a la ecuación de Riccati, si una
existe solución, la solución de W es de la
forma:
T
lim t  W 
 x
1̂
 || x ||
si  x  0̂
donde  x  E{x / W }  cte
– Todo W(j,:) llega a estar paralelo a <x> y tendrá
|| W ( j, :) ||  / 
la norma
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
14
Tipos de Aprendizaje
• Ecuaciones más generales:
Teorema: Sea  > 0, a =Wx y (a) una función arbitraria tal
que E{(a)|W} existe. Sea x = x(t) un vector con
propiedades estadísticas estacionarias (e independiente de
W). Entonces, si el proceso de aprendizaje es del tipo:
dW ( j , :)
 xT   (a j )W ( j , :)
dt
en notación matricial :
j  1,.., K
dW
  1̂xT  [ (a )1̂T ]  W
dt
tiene soluciones W acotada para t, entonces debe tener
la forma: lim t  W  1̂  x T
donde <x> es la esperanza de x(t). ie., W(j,:) llega a ser
paralelo a <x>
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
15
Tipos de Aprendizaje
Teorema: Sea  > 0, a = Wx y (a) una función arbitraria tal
que E{(a)|W} existe. Sea <xxT>=E{xxT|W}. Sea max=máxl
l el valor propio máximo de < xxT > y umax el vector propio
asociado. Entonces, si el proceso de aprendizaje es del tipo:
dW ( j , :)
 a j xT   (a )W ( j , :)
dt
en notación matricial :
dW
 axT  [ (a )1̂T ]  W
dt
tiene soluciones no triviales W acotada para t, entonces
debe tener la forma: lim t  W  1̂  x T
donde Wumax Ô, W(0) = W0 ; ie, W(j,:) llega a ser paralelo
a umax
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
16
Dinámica de la Red
• Función de ejecución de la red:
Para cada vector de entrada X , W ( j, :) T  n
la neurona k para la cual
|| W (k , :) T  X || min || W ( j , :) T  X ||
j 1,.., K
se declara ganadora. El ganador es usado para
decidir que pesos serán cambiados. Todas las
neuronas pertenecientes a la vecindad neuronal
participan en el aprendizaje.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
17
Dinámica de la Red
• Función de aprendizaje de la red:
–
–
–
–
El proceso de aprendizaje es no-supervisado.
El aprendizaje se desarrolla en tiempo discreto.
W=W(t)
En t = 0 los pesos son inicializados con valores
aleatorios pequeños W(0) = W0 .
– Los pesos se actualizan de la siguiente forma:
• Para x(t) encontrar la neurona ganadora k.
• Actualizar los pesos según modelo elegido:
W  W (t )  W (t  1)  (dW / dt )
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
18
Dinámica de la Red
• Inicialización y condición de parada:
– Los pesos son inicializados con valores
aleatorios pequeños.
– La condición de parada del proceso de
aprendizaje puede ser:
• Elegir un número fijo de pasos.
• El proceso de aprendizaje continúa hasta que la
cantidad de ajuste: wji= wji(t+1)-wji (t) 
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
19
El Algoritmo
• Para toda las neuronas en la capa de salida: inicializar los pesos con
2
valores aleatorios U (0,1)
• Si se trabaja con vectores normalizados, Normalizar vectores
• Elegir el modelo de aprendizaje ( Ecuación diferencial)
• Elegir un modelo de vecino neuronal ( fu. de feedback lateral).
• Elegir condición de parada.
• Construir a partir de la ED, la fórmula de adaptación de los pesos.
• Considerando tiempo discreto, repetir los pasos anteriores hasta que la
condición de parada se cumpla:
– Tomar la entrada x(t)
– Para todas las neuronas j en la capa de salida, encontrar la ganadora.
– Conociendo la ganadora, actualizar los pesos.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
20
Fórmula de adaptación de pesos
• La ecuacion diferencial Trivial:
dW
  1̂x T  W
dt
Dada la fu de feedback lateral h(k, j)
h(k, j)   o, para , j  N c ;  0,.etoc
h(k, j)  h  exp[ (k  j ) 2 ]
Para t, W(j,:) es un promedio exponencialmente ponderado de X.
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
21
Fórmula de adaptación de pesos
La ecuación Trivial:
h(k , j )  exp
 (t )   0 exp( f (t ))
W (t  1)  W (t )   (t )[ h(normx)1̂T ]  [ 1̂xT (t )  W ]
Condición
inicial : W(0)  W0 .
Profesor: Dr. Héctor Allende
Redes Neuronales Artificiales
22