Download Redes Neuronales Aplicaciones industriales y de comunicaciones

Document related concepts

Perceptrón multicapa wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

Propagación hacia atrás wikipedia , lookup

Perceptrón wikipedia , lookup

Neuroph wikipedia , lookup

Transcript
Redes Neuronales
Introducción
José Manuel Quero Reboul
Dpto. Ingeniería Electrónica
Universidad de Sevilla
Indice
•
•
•
•
Motivación
Arquitectura
Leyes de Aprendizaje
Aplicaciones
CALCULO
• Aritmética
1 cerebro=1/10 calculadora de
bolsillo
• Visión
1 cerebro=1000 supercomputadores
MEMORIA
DILEMA
• Datos
cerebro mucho peor
• Direccionada por
contenido
cerebro mucho mejor
Arquitectura Von Newman
BUS
BUS
CPU
CPU
MEM
MEM
E/S
E/S
E/S
E/S
• Unico nodo de procesamiento (800Mhz)
Bus
de
• Memoria
pasivade
Bus
dedatos:
datos:Cuello
Cuello
deBotella
Botella(Secuencialidad)
(Secuencialidad)
• Baja conectividad
Cerebro
•
•
•
•
1010 neuronas (10ms)
104 dendritas
1014 pesos de conexión
Los pesos almacenan y
procesan
Definición
Computación neuronal:
Computación
Computación en
en redes
redes masivas
masivas paralelas
paralelas de
de
procesadores
procesadores simples
simples yy no
no lineales,
lineales, que
que
almacenan
almacenan todo
todo su
su contenido
contenido en
en los
los pesos
pesos
de
de conexión
conexión
Propiedades:
– Eliminación del cuello de botella
– Inteligencia artificial llevada al límite
Indice
•
•
•
•
Motivación
Arquitectura
Leyes de Aprendizaje
Aplicaciones
Neurona Artificial
Ley de Propagación
neti = ∑ Wij I j
j
Ley de Activación
a (t + 1) = F (a (t ), net1 (t ), net 2 (t ),...)
Función de Salida
o = f (a )
Patrón de Conectividad
Entorno
Ley de Aprendizaje
wij (t + 1) = g ( wij (t ), neti (t ), a (t ), o(t ))
Función de activación
σ(s)
1
s
Función sigmoidal: σ(x) =
1
__________
1 + e -x
Red neuronal
salidas
Topologías:
•Monocapa
neuronas
•Multicapa
•Redes forward
capas
•Redes recurrentes
pesos
•Redes realimentadas
•Redes de funciones
radiales
entradas
Indice
•
•
•
•
•
Motivación
Arquitectura
Clasificación
Leyes de Aprendizaje
Aplicaciones
Aprendizaje
• El conocimiento es obtenido a partir de la
experiencia y almacenado en los pesos
• Tipos de aprendizajes:
–
–
–
–
Preprogramadas
Ley de Hebbs
Aprendizaje competitivo
Aprendizaje supervisado
• La red extrae y copia la estructura interna del
conocimiento del entorno
Leyes de Aprendizaje
o = f (W T I )
W :Vector de pesos
I : Señales de entrada
dW
= W& = φ (⋅) I − γ (⋅)W
dt
φ (⋅), γ (⋅) :Funciones escalares (W,I,o)
o
:salida
Función de Tranferencia no lineal
Leyes de Aprendizaje
•Justificación
1) Ley de Hebb: Cuanto mayor sea la excitación,
mayor será el refuerzo de la conexión
φ (⋅) I
2) Factor de Olvido: Proporcional a la propia magnitud − γ (⋅)W
•Condiciones (estabilidad dinámica)
1) si o(t ) acotada ⇒ W (t ) finita ∀t
2)
si I ≠ 0 ⇒ W (t ) →
/ 0 t →∞
Indice
•
•
•
•
•
Motivación
Arquitectura
Clasificación
Leyes de Aprendizaje
Aplicaciones
Propiedades de las RN
•
•
•
•
Procesamiento de un gran conjunto de datos
Baja densidad de información
Robustez ante fallo en estructura
Robustez ante inconsistencia en los datos de
entrada
• Datos y reglas de procesamiento confundidos en
las conexiones
• Procesamiento altamente paralelo
• Capacidad de Autoorganización. Adaptabilidad
¿Cuando usar Redes Neuronales?
• Cuando se quiere desarrollar un modelo
(funcional, clasificador, predicción de serie
temporal,...)
• Ejemplos
– Finanzas: Modelos de mercado
– Ingeniería: Modelado de procesos y control
adaptativo
– Medicina: Diagnosis
¿Cuando usar Redes Neuronales?
• En análisis de datos con baja densidad de
información
• Ejemplos:
–
–
–
–
Reconocimiento de imágenes
Reconocimiento de firmas
Análisis de encuestas
Predicción meteorológica
Redes Neuronales
Aprendizaje Supervisado
Indice
• Perceptrón
– Regla delta
• Perceptrón Multicapa
– Retropropagación
• Ejemplos
Perceptrón
•Memoria Asociativa
i1
θ
w1
-
Σ
w2
i2
⎛ n
⎞
⎜
o = f h ⎜ ∑ w j i j − θ ⎟⎟
⎝ j =1
⎠
+
wn
in
i1
A
Interpretación Geométrica
i1 = −
w0
θ
i0 +
w1
w1
Recta de Decisión
A
B
A
A
A
B
B
i0
B
Perceptrón
•Aprendizaje Supervisado: Regla δ
dwi
= α [d (t ) −o(t )]ii (t )
dt
0 ≤ i ≤ n −1
d (t ), o(t ) ∈ {− 1,1}
Aprendizaje a partir de wi aleatorios
Problema: Oscilación ante entradas no separables
Ejemplo: función XOR
Patron de Entrada
00
01
10
11
Patron de Salida
0
1
1
0
1
0
0
1
Perceptrón
Solución: Añadir una dimensión adicional
Patron de Entrada Patron Intermedio Patron de Salida
00
0
000
01
1
010
10
1
100
11
0
111
0
Nodos de representación interna
0
1
1
Indice
• Perceptrón
– Regla delta
• Perceptrón Multicapa
– Retropropagación
• Ejemplos
Perceptrón Multicapa
Estructura
Una capa
Dos capas
Tres capas
Regiones de
Decisión
Semiespacios
limitados por
hiperplanos
Regiones
convexas
abiertas o
cerradas
Arbitrarias.
Complejidad
limitada por
el número
de nodos
Problema XOR
A
Clases
Complejas
B
A
B
B
A
A
B
A
B
B
A
A
B
A
B
B
A
Regiones de
Decisión Generales
Perceptrón Multicapa
oi = f ( neti − θ )
Capa de
Salida
n
neti = ∑ wij i j
j =1
OR
oi = f (neti )
AND
1
f ( x) =
Capas
Ocultas
1
1 + e−x
0
θ
HIPERPLANOS
Capa de
Entrada
1 − e− x
f ( x) =
1 + e− x
1
θ
-1
Indice
• Perceptrón
– Regla delta
• Perceptrón Multicapa
– Retropropagación
• Ejemplos
Perceptrón Multicapa
Capa de
Salida
Retropropagación
OR
(Regla δ generalizada)
Δ p wij (t + 1) = η δ j ii
AND
Capas
Ocultas
⎧⎪ f j′(net pj )(d j − o j ) Capa de Salida
δ j = ⎨ f ′(net ) δ w Capas Ocultas
pj ∑ k ij
⎪⎩ j
k
HIPERPLANOS
Capa de
Entrada
capa i previa a j
Perceptrón Multicapa
Retropropagación: Demostración
E ≡ ∑ Ep =
Error Cuadrático Médio
p
∂E p
Regla de la cadena
∂w ji
=
∂E p ∂net pj
∂net pj ∂w ji
1
2
(d pj − o pj )
∑∑
2 p j
(1)
Cambio del error al variar
la excitación en j
Segundo Término
∂net pj
∂w ji
=
∂
(∑ w ji o pi ) =o pi (2)
∂w ji i
Primer Término
Definamos δ pj ≡ −
∂E p
∂net pj
(3)
Cambio de la excitación la
variar el peso de conexión
Sustituyendo (2) y (3)en (1) ⇒ Δ p w ji = ηδ pj o pj
Queda determinar qué es δ pj para cada neurona
Perceptrón Multicapa
Regla de la cadena δ pj = −
∂E p
∂net pj
=−
∂E p ∂o pj
Cambio de la salida por
cambiar la excitación
∂o pj ∂net pi
Cambio del error al variar
la salida
Segundo Término
Dado que o pj = f (net pj ) ⇒
∂o pj
∂net pj
= f ′(net pj )
Derivada de la función de salida
Primer Término
∂E
Para neurona de salida. Dado que E p = 1 ∑ (d pj − o pj ) 2⇒ p = −(d pj − o pj )
2
j
∂o pj
⇒ δ pj = f ′(net pj )(d pj − o pj )
Perceptrón Multicapa
Para neurona oculta.
∂E p
∂o pj
=∑
k
∂E p ∂net pk
∂net pk ∂o pj
=∑
k
∂E p
∂net pk
Cómo afecta a la
capa previa
∂E p
∂ ⎛
⎞
w
o
=
wkj = −∑ δ pk wkj
⎜ ∑ ki pi ⎟ ∑
∂o pj ⎝ i
k ∂net pk
⎠
k
δ de la capa previa
Conexión con la
neurona previa
⇒ δ pj = f ′(net pj )∑ δ pk wkj
k
Particularizando o pj =
1
1+ e
− net j
⇒ o′pj = f ′(net j ) =
e
− net j
(1 + e )
− net j 2
= o pj (1 − o pj )
⎧⎪o j (1 − o j )(d j − o j ) Capa de Salida
⇒ δ j = ⎨ i (1 − i ) δ w
Capas Ocultas
j ∑ k ij
⎪⎩ j
k
Indice
• Perceptrón
– Regla delta
• Perceptrón
Multicapa
– Retropropagación
• Ejemplos