Download federico Redes_Neuronales_Artificiales__ANN_

Document related concepts

Red neuronal prealimentada wikipedia , lookup

Perceptrón multicapa wikipedia , lookup

Perceptrón wikipedia , lookup

Propagación hacia atrás wikipedia , lookup

Adaline wikipedia , lookup

Transcript
Redes Neuronales
Artificiales (ANN)
Modelos Conexionistas
Consideraciones Humanas
• Tiempo de Conmutación de una
Neurona
~0.001s
• Número de Neuronas
~1010
• Conexiones por Neurona
~104-5
• Tiempo de reconocimiento de
escena
~0.1s
• Computación Paralela
Modelos Conexionistas
Propiedades de ANN
• Muchos unidades de conmutación como neuronas
• Muchas interconexiones pesadas entre unidades
• Necesidad de procesamiento en paralelo y
distribuido
• Énfasis en el ajuste de pesos automáticamente
¿Cuándo considerar la
ANN?
• La entrada es discreta con muchas
dimensiones o continua (ej. sensores)
• Salida discreta o continua
• La salida es un vector de valores
• Posibles datos ruidosos
• La forma de la función objetivo es
desconocida
• La compresión del modelo no es importante
¿Cuándo considerar la
ANN?
• Ejemplos:
– Reconocimiento de fonemas hablados
– Clasificación de Imágenes
– Predicción financiera
Proyecto ALVINN
Perceptrón
Escrita en notación vectorial
Superficie de decisión de
un Perceptrón
• Representa algunas funciones útiles
– Cuáles serían los pesos para representar
• Algunas funciones no son representables
– Ej. Funciones no separables linealmente
Superficie de decisión de
un Perceptrón
Regla de entrenamiento
del Perceptrón
donde
donde
es el valor objetivo
es la salida del perceptrón
es una constante pequeña (ej. 0.1) llamada
learning rate
Adaline (Unidad Lineal)
Gradiente Descendente
• Para entender, considere una unidad linear
simple donde
• Vamos a aprender las wi que minimicen
• Donde D es el conjunto de ejemplos de
entrenamiento
Gradiente Descendente
Gradiente
Regla de Aprendizaje
Gradiente Descendente
• La regla del perceptron garantiza su
convergencia si
– Los ejemplos de entrenamiento son
linealialmente separables
– La razón de aprendizaje sea
suficientemente pequeña
• La regla de entrenamiento de la unidad
lineal usan el gradiente descendente y
garantiza su convergencia a hipótesis
con el error cuadrático mínimo
– Dada una razón de aprendizaje sea
suficientemente pequeña
– Aún cuando los datos de entrenamiento sean
ruidosos
– Aun cuando los datos de entrenamiento no
sean separables por H
Cálculo del Gradiente
Descendente
En modo en lotes
•
Hacer hasta satisfacer
1. Calcular el Gradiente
2. Asignar
Cálculo del Gradiente
Descendente
En modo incremental
•
Hacer hasta satisfacer
– Para cada ejemplo de entrenamiento d en D
1. Calcular el Gradiente
2. Asignar
• El Gradiente Descendente
Incremental puede aproximar al
Gradiente Descendente en Lotes
si η es suficientemente pequeña
Redes Neuronales Multicapa
de Unidades Sigmoidales
Unidad Sigmoidal
=
y
Se puede derivar la regla
del Gradiente Descendente
para entrenar:
• Una unidad sigmoidal
• Redes Neuronales Multicapa 
Backpropagation
Gradiente del Error de
una unidad sigmoidal
Pero sabemos que:
Asi que: