Download Redes Neuronales Aplicaciones industriales y de comunicaciones
Document related concepts
Transcript
Redes Neuronales Introducción José Manuel Quero Reboul Dpto. Ingeniería Electrónica Universidad de Sevilla Indice • • • • Motivación Arquitectura Leyes de Aprendizaje Aplicaciones CALCULO • Aritmética 1 cerebro=1/10 calculadora de bolsillo • Visión 1 cerebro=1000 supercomputadores MEMORIA DILEMA • Datos cerebro mucho peor • Direccionada por contenido cerebro mucho mejor Arquitectura Von Newman BUS BUS CPU CPU MEM MEM E/S E/S E/S E/S • Unico nodo de procesamiento (800Mhz) Bus de • Memoria pasivade Bus dedatos: datos:Cuello Cuello deBotella Botella(Secuencialidad) (Secuencialidad) • Baja conectividad Cerebro • • • • 1010 neuronas (10ms) 104 dendritas 1014 pesos de conexión Los pesos almacenan y procesan Definición Computación neuronal: Computación Computación en en redes redes masivas masivas paralelas paralelas de de procesadores procesadores simples simples yy no no lineales, lineales, que que almacenan almacenan todo todo su su contenido contenido en en los los pesos pesos de de conexión conexión Propiedades: – Eliminación del cuello de botella – Inteligencia artificial llevada al límite Indice • • • • Motivación Arquitectura Leyes de Aprendizaje Aplicaciones Neurona Artificial Ley de Propagación neti = ∑ Wij I j j Ley de Activación a (t + 1) = F (a (t ), net1 (t ), net 2 (t ),...) Función de Salida o = f (a ) Patrón de Conectividad Entorno Ley de Aprendizaje wij (t + 1) = g ( wij (t ), neti (t ), a (t ), o(t )) Función de activación σ(s) 1 s Función sigmoidal: σ(x) = 1 __________ 1 + e -x Red neuronal salidas Topologías: •Monocapa neuronas •Multicapa •Redes forward capas •Redes recurrentes pesos •Redes realimentadas •Redes de funciones radiales entradas Indice • • • • • Motivación Arquitectura Clasificación Leyes de Aprendizaje Aplicaciones Aprendizaje • El conocimiento es obtenido a partir de la experiencia y almacenado en los pesos • Tipos de aprendizajes: – – – – Preprogramadas Ley de Hebbs Aprendizaje competitivo Aprendizaje supervisado • La red extrae y copia la estructura interna del conocimiento del entorno Leyes de Aprendizaje o = f (W T I ) W :Vector de pesos I : Señales de entrada dW = W& = φ (⋅) I − γ (⋅)W dt φ (⋅), γ (⋅) :Funciones escalares (W,I,o) o :salida Función de Tranferencia no lineal Leyes de Aprendizaje •Justificación 1) Ley de Hebb: Cuanto mayor sea la excitación, mayor será el refuerzo de la conexión φ (⋅) I 2) Factor de Olvido: Proporcional a la propia magnitud − γ (⋅)W •Condiciones (estabilidad dinámica) 1) si o(t ) acotada ⇒ W (t ) finita ∀t 2) si I ≠ 0 ⇒ W (t ) → / 0 t →∞ Indice • • • • • Motivación Arquitectura Clasificación Leyes de Aprendizaje Aplicaciones Propiedades de las RN • • • • Procesamiento de un gran conjunto de datos Baja densidad de información Robustez ante fallo en estructura Robustez ante inconsistencia en los datos de entrada • Datos y reglas de procesamiento confundidos en las conexiones • Procesamiento altamente paralelo • Capacidad de Autoorganización. Adaptabilidad ¿Cuando usar Redes Neuronales? • Cuando se quiere desarrollar un modelo (funcional, clasificador, predicción de serie temporal,...) • Ejemplos – Finanzas: Modelos de mercado – Ingeniería: Modelado de procesos y control adaptativo – Medicina: Diagnosis ¿Cuando usar Redes Neuronales? • En análisis de datos con baja densidad de información • Ejemplos: – – – – Reconocimiento de imágenes Reconocimiento de firmas Análisis de encuestas Predicción meteorológica Redes Neuronales Aprendizaje Supervisado Indice • Perceptrón – Regla delta • Perceptrón Multicapa – Retropropagación • Ejemplos Perceptrón •Memoria Asociativa i1 θ w1 - Σ w2 i2 ⎛ n ⎞ ⎜ o = f h ⎜ ∑ w j i j − θ ⎟⎟ ⎝ j =1 ⎠ + wn in i1 A Interpretación Geométrica i1 = − w0 θ i0 + w1 w1 Recta de Decisión A B A A A B B i0 B Perceptrón •Aprendizaje Supervisado: Regla δ dwi = α [d (t ) −o(t )]ii (t ) dt 0 ≤ i ≤ n −1 d (t ), o(t ) ∈ {− 1,1} Aprendizaje a partir de wi aleatorios Problema: Oscilación ante entradas no separables Ejemplo: función XOR Patron de Entrada 00 01 10 11 Patron de Salida 0 1 1 0 1 0 0 1 Perceptrón Solución: Añadir una dimensión adicional Patron de Entrada Patron Intermedio Patron de Salida 00 0 000 01 1 010 10 1 100 11 0 111 0 Nodos de representación interna 0 1 1 Indice • Perceptrón – Regla delta • Perceptrón Multicapa – Retropropagación • Ejemplos Perceptrón Multicapa Estructura Una capa Dos capas Tres capas Regiones de Decisión Semiespacios limitados por hiperplanos Regiones convexas abiertas o cerradas Arbitrarias. Complejidad limitada por el número de nodos Problema XOR A Clases Complejas B A B B A A B A B B A A B A B B A Regiones de Decisión Generales Perceptrón Multicapa oi = f ( neti − θ ) Capa de Salida n neti = ∑ wij i j j =1 OR oi = f (neti ) AND 1 f ( x) = Capas Ocultas 1 1 + e−x 0 θ HIPERPLANOS Capa de Entrada 1 − e− x f ( x) = 1 + e− x 1 θ -1 Indice • Perceptrón – Regla delta • Perceptrón Multicapa – Retropropagación • Ejemplos Perceptrón Multicapa Capa de Salida Retropropagación OR (Regla δ generalizada) Δ p wij (t + 1) = η δ j ii AND Capas Ocultas ⎧⎪ f j′(net pj )(d j − o j ) Capa de Salida δ j = ⎨ f ′(net ) δ w Capas Ocultas pj ∑ k ij ⎪⎩ j k HIPERPLANOS Capa de Entrada capa i previa a j Perceptrón Multicapa Retropropagación: Demostración E ≡ ∑ Ep = Error Cuadrático Médio p ∂E p Regla de la cadena ∂w ji = ∂E p ∂net pj ∂net pj ∂w ji 1 2 (d pj − o pj ) ∑∑ 2 p j (1) Cambio del error al variar la excitación en j Segundo Término ∂net pj ∂w ji = ∂ (∑ w ji o pi ) =o pi (2) ∂w ji i Primer Término Definamos δ pj ≡ − ∂E p ∂net pj (3) Cambio de la excitación la variar el peso de conexión Sustituyendo (2) y (3)en (1) ⇒ Δ p w ji = ηδ pj o pj Queda determinar qué es δ pj para cada neurona Perceptrón Multicapa Regla de la cadena δ pj = − ∂E p ∂net pj =− ∂E p ∂o pj Cambio de la salida por cambiar la excitación ∂o pj ∂net pi Cambio del error al variar la salida Segundo Término Dado que o pj = f (net pj ) ⇒ ∂o pj ∂net pj = f ′(net pj ) Derivada de la función de salida Primer Término ∂E Para neurona de salida. Dado que E p = 1 ∑ (d pj − o pj ) 2⇒ p = −(d pj − o pj ) 2 j ∂o pj ⇒ δ pj = f ′(net pj )(d pj − o pj ) Perceptrón Multicapa Para neurona oculta. ∂E p ∂o pj =∑ k ∂E p ∂net pk ∂net pk ∂o pj =∑ k ∂E p ∂net pk Cómo afecta a la capa previa ∂E p ∂ ⎛ ⎞ w o = wkj = −∑ δ pk wkj ⎜ ∑ ki pi ⎟ ∑ ∂o pj ⎝ i k ∂net pk ⎠ k δ de la capa previa Conexión con la neurona previa ⇒ δ pj = f ′(net pj )∑ δ pk wkj k Particularizando o pj = 1 1+ e − net j ⇒ o′pj = f ′(net j ) = e − net j (1 + e ) − net j 2 = o pj (1 − o pj ) ⎧⎪o j (1 − o j )(d j − o j ) Capa de Salida ⇒ δ j = ⎨ i (1 − i ) δ w Capas Ocultas j ∑ k ij ⎪⎩ j k Indice • Perceptrón – Regla delta • Perceptrón Multicapa – Retropropagación • Ejemplos