Download Trabajo Warren McCulloch - Departamento de Sistemas Informáticos

Document related concepts

Walter Pitts wikipedia , lookup

Adaline wikipedia , lookup

Warren McCulloch wikipedia , lookup

Conexionismo wikipedia , lookup

Jerome Lettvin wikipedia , lookup

Transcript
Warren McCulloch
Walter Pitts
Por
FRANCISCO MARÍN MIRA
Introducción (I)






1899: Nacimiento de Warren Sturgis McCulloch
1923: Nacimiento de Walter Pitts
1927: McCulloch: Doctorado en psicología.
1943: Se propone uno de los primeros modelos
matemáticos de la neurona
McCulloch-Pitts. “A logical calculus of the ideas immanent in
nervous activity”
1947: McCullch-Pitts. “How we know universals: the
perception of visual and auditory forms”
1949: Donald Hebb propone una de las primeras reglas
de aprendizaje
Introducción (II)






1956: Se acuña el término de Inteligencia Artificial
1957: Frank Rosenblatt presentó el Perceptrón
Años 60: modelos basados en el Perceptrón: Adaline y
Madaline
1969: Mueren McCulloch y Pitts
1969: Back propagation
Posteriormente, otros modelos permiten un aprendizaje
no supervisado (mapa auto-organizativo de Kohonen,
los basados en la Teoría de Resonancia Adaptativa
(ART) de Grossberg y Carpenter, o los modelos de
control motor de Bullock, Gaudiano y Grossberg, entre
otros)
Introducción (III)



McCulloch y Pitts impulsaron el nacimiento de la I.A. proponiendo la
definición de la neurona
Con estas ideas nace la cibernética y más tarde el término Inteligencia
Artificial
McCulloch y Pitts. A logical calculus of the ideas immanent in nervous activity:







una Máquina de Turing podría ser implementada en una red finita de neuronas
formales
1947: aproximaciones para diseñar “redes nerviosas” para reconocer entradas
visuales
Las redes neuronales actuales se basan en el modelo de neurona descrito en este
artículo
Cada neurona consta de un conjunto de entradas y una sola salida. Cada
entrada está afectada por un coeficiente, denominado peso.
La cantidad calculada como la suma del producto de cada entrada multiplicada
por su respectivo peso se denomina activación de la neurona
Una de las primeras arquitecturas neuronales donde se aplica es el Perceptrón
Los pesos de las neuronas se modifican sometiendo a la red a un
entrenamiento, mediante una regla de aprendizaje.
La Inteligencia Artificial

Se puede decir que la Inteligencia Artificial empezó a
surgir en 1943 cuando Warren McCulloch y Walter
Pitts propusieron un modelo de neurona del cerebro
humano y animal, una abstracción que proporcionó una
representación simbólica de la actividad cerebral.

Podríamos situar el origen de los modelos conexionistas
con la definición de la neurona formal dada por
McCulloch y Pitts en 1943 como un dispositivo binario
con varias entradas y salidas.

Más adelante, Norbert Wiener elaboró con estas ideas
junto con otras, dentro del mismo campo, lo que se llamó
“cibernética”. De aquí nacería, sobre los años 50, la
Inteligencia Artificial.
McCulloch (I)





Warren Sturgis McCulloch
( 1899 - 1969 )
Nació en Orange, New Jersey el
16 de Noviembre de 1899.
Neurofisiólogo y Cibernético
Estudió en Yale (filosofía y
psicología hasta 1921)
y en Columbia (psicología, graduado en
1923). Recibiendo su doctorado en 1927 en Nueva
York.
McCulloch (II)

Recordado por su trabajo con Dusser de Barenne (en
Yale) y después con Walter Pitts (en Illinois) que
posibilitó la fundación de ciertas teorías de la inteligencia
en un número de artículos clásicos, incluyendo “A logical
calculus of the ideas immanent in nervous activity” (1943) y
“How we know universals: the perception of visual and auditory
forms” (1947), ambos en el “Bulletin of Mathematical
Biophysics”.

En el artículo de 1943 demostraron que una Máquina de
Turing podría ser implementada en una red finita de
neuronas formales, donde la neurona es la unidad base
lógica del cerebro. En el artículo de 1947 ofrecieron
aproximaciones para diseñar “redes nerviosas” para
reconocer entradas visuales a pesar de los cambios de
orientación o de tamaño.
McCulloch (III)

Desde 1952 trabajó en el Laboratorio de Investigación de
Electrónica del MIT (Instituto de Tecnología de
Massachusetts), principalmente en modelado de Redes
Neuronales.

Su equipo examinó el sistema visual de la rana, en
consideración con el artículo de 1947, descubriendo que
el ojo proporciona al cerebro información que es, en
cierto sentido, organizada e interpretada, en vez de
únicamente transmitir la imagen.

McCulloch fue miembro de la American Society for
Cybernetics y su primer presidente desde 1967 al 1968.
McCulloch (IV)

Conoció a Alan Turing, que discrepó con él
llegando a llamarle charlatán.

Warren McCulloch tiene un notable rango de
intereses y talentos. A parte de sus contribuciones
a la ciencia, escribió poesía (sonetos) y diseñó
edificios y un embalse para su granja de Old Lyme,
Conneticut.

Murió en Cambridge en 1969.
Pitts (I)






Walter Pitts
( 1923 - 1969 )
Nació en Detroit el 23 de Abril
de 1923.
Matemático que trabajó en el campo
de la psicología cognitiva.
Aparentemente escapó de su casa
a los 15 años.
Aprendió por su cuenta lógica y
matemáticas y era capaz de leer en
numerosos lenguajes, incluyendo
Griego y Latin.
Pitts (II)

Con 12 años pasó tres dias en una biblioteca leyendo
“Principia Mathematica” y mandó una carta a Bertrand
Russell indicandole lo que él consideraba problemas
serios en la primera mitad del primer volumen. Russell se
mostró agradecido y le invitó a estudiar en el Reino Unido.
Aunque esta oferta fue aparentemente rechazada, Pitts
decidió estudiar lógica.

Acudió a clases de la Universidad de Chicago, sin
inscribirse como estudiante.

Obtuvo un trabajo en la universidad gracias a un filósofo
alemán (Rudolf Carnap) al que le presentó su propio
libro de lógica lleno de correcciones. Pitts por ese tiempo
no tenía hogar ni ningún ingreso.
Pitts (III)




Más tarde Warren McCulloch llegó a la Universidad y, a principios
de 1942, invitó a Pitts, que seguía sin hogar, a vivir con su familia.
McCulloch y Pitts trabajaban juntos. Pitts estaba familiarizado con
el trabajo en informática de Gottfried Leibniz y consideraron la
cuestión de si el sistema nervioso podía ser considerado un tipo de
maquina de computación universal, como la describida por Leibniz.
Esto llevó a su determinante artículo de redes neuronales “A Logical
Calculus of Ideas Immanent in Nervous Activity”.
En 1943, Jerome Lettvin, con el que Pitts obtuvo una gran amistad
en la universidad, le presentó a Norbert Wiener en el MIT, quien
había perdido a su “mano derecha”. Su primer encuentro, en el que
estuvieron discutiendo el trabajo de Wiener, fue tan bien que Pitts
se trasladó a Boston para trabajar con Wiener.
En 1944 Pitts fue contratado por Kellex Corp., parte del Proyecto
de Energía Atómica.
Pitts (IV)

En 1951 Wiener convenció a Jerry Wiesner para contratar
algunos científicos del sistema nervioso. Un grupo fue
estrablecido con Pitts, Lettvin, McCulloch y Pat Wall.

Pitts escribió una larga tesis de las propiedades de las
redes neuronales conectadas en tres dimensiones. Lettvin
le describió como el genio del grupo.

Pitts también es descrito como un excéntrico, negando
que su nombre se hiciese público. Rechazó todas las
ofertas de graduados avanzados o posiciones oficiales en
el MIT ya que tendría que firmar con su nombre.
Pitts (V)

Wiener inesperadamente se puso en contra de McCulloch, a cuenta
de su mujer que odiaba a McCulloch, y separó las relaciones con
cualquiera que estubiese relacionado con él, incluido Pitts. Esto
empujó a Pitts a un “suicidio cognitivo”, un aislamiento social del
que nunca se recuperaría. Pitts quemó el manuscrito sobre las redes
tridimensionales y prestó poco más interés en el trabajo. La única
excepción fué una colaboración con Robert Gesteland que produjo
un artículo sobre el olfato.

Pitts murió en 1969.

El modelo matemático de una neurona se llama actualmente la
neurona de McCulloch-Pitts. La formulación teórica de la actividad
neuronal del cerebro es el legado permanente de Walter Pitts y
Warren McCullch a las ciencias cognitivas.
La Neurona McCulloch-Pitts (I)

McCulloch y Pitts propusieron en 1943 uno de los primeros
modelos matemáticos de una neurona, del que se basan las redes
neuronales actuales.

En este modelo, cada neurona consta de un conjunto de entradas,
Si, y una sola salida Sj. Cada entrada i está afectada por un
coeficiente que se denomina peso y que se representa por wij. El
subíndice i refleja que el peso afecta a la entrada i, y el subíndice j
que se trata de la neurona j.

La cantidad calculada como la suma del producto de cada entrada
multiplicada por su respectivo peso se denomina activación de la
neurona xj. La salida Sj de la neurona es una función de la
activación de ésta. Es decir:
xj = Si*wij + Qj
Sj = f(xj)

Donde el término Qj es un valor umbral y f(xj) es una función de la
activación de la neurona.
La Neurona McCulloch-Pitts (II)

Una de las primeras arquitecturas neuronales donde se aplica es el
Perceptrón, que utiliza la siguiente función de salida:
Sj=0
Sj=1
si xj < h
si xj>=h
donde la constante h se denomina umbral. Esta es una función de
salida de tipo binaria, y existen otras de tipo lineal puro, lineal con
umbral, y sigmoidea, entre otras.
La Neurona McCulloch-Pitts (III)

En este modelo tan sencillo puede verse que la activación de la
neurona depende del valor que tomen los pesos y las entradas, de
forma que la variación de éstos origina distintas salidas para la
misma entrada a la neurona.

En la práctica, los pesos de las neuronas se modifican sometiendo a
la red a un entrenamiento, permitiendo que la red realice una
función determinada. Esta es la característica que diferencia a una
red neuronal de una máquina algorítmica clásica: una red neuronal
no se programa, se «educa».

La red es capaz de retener y asociar el conocimiento a través de la
adaptación de los pesos de las neuronas siguiendo una regla de
aprendizaje. Estas reglas son ecuaciones expresadas en función de las
entradas y salidas de las neuronas y describen la forma de variación
de los pesos. En definitiva, son el instrumento empleado por las
neuronas para adaptarse a la información que se le presenta.
La Neurona McCulloch-Pitts (IV)

El aprendizaje de una red se puede producir de tres formas:

Aprendizaje supervisado: consiste en introducir una serie de patrones de
entrada a la red y a su vez mostrar la salida que se quiere tener. La red es
capaz de ajustar los pesos de las neuronas de forma que a la presentación
posterior de esos patrones de entrada la red responde con salida memorizada.

Aprendizaje no supervisado: se presentan los patrones de entrada a la red
y ésta los clasifica en categorías según sus rasgos más sobresalientes.

Aprendizaje autosupervisado: la propia red corrige los errores en la
interpretación empleando una realimentación.

Una de las primeras reglas de aprendizaje fue propuesta por
Donald Hebb en 1949.

Esta se basa en un hecho biológico constatado: cuando dos
neuronas se activan simultáneamente su conexión se refuerza.
Historia Redes Neuronales (I)

Partiendo de que las redes neuronales se fundamentan en el sistema
nervioso humano deberíamos remontarnos a los tiempos de
Galeno en los que ya se tenía un conocimiento considerable de éste.
Sin embargo, los verdaderos avances en neurología se produjeron a
partir de la segunda mitad del siglo XIX. Investigadores ilustres de
esta época son Jackson, Ramón y Cajal y Golgi entre otros.

Fue en 1943 cuando Warren McCulloch y Walter Pitts propusieron
el clásico modelo de neurona en el que se basan las redes
neuronales actuales. Seis años después, en 1949, en su libro The
Organization of Behavior, Donald Hebb presentaba su conocida regla
de aprendizaje.
Historia Redes Neuronales (II)

En 1957, Frank Rosenblatt presentó el Perceptron, una red
neuronal con aprendizaje supervisado cuya regla de aprendizaje era
una modificación de la propuesta por Hebb. El Perceptron trabaja
con patrones de entrada binarios, y su funcionamiento, por tratarse
de una red supervisada, se realiza en dos fases: una primera en la
que se presentan las entradas y la salidas deseadas; en esta fase la
red aprende la salida que debe dar para cada entrada.

La principal aportación del Perceptron es que la adaptación de los
pesos se realiza teniendo en cuenta el error entre la salida que da la
red y la salida que se desea.

En la fase siguiente, de operación, la red «es capaz» de responder
adecuadamente cuando se le vuelven a presentar los patrones de
entrada. Se crearon grandes expectativas sobre sus aplicaciones, que
posteriormente se tornaron en gran decepción cuando en 1969
Minsky y Papert demostraron las grandes limitaciones de esta red.
Historia Redes Neuronales (III)

En los años 60 se propusieron otros dos modelos, también
supervisados, basados en el Perceptron de Rosenblatt denominados
Adaline y Madaline.

En estos, la adaptación de los pesos se realiza teniendo en cuenta el
error, calculado como la diferencia entre la salida deseada y la dada
por la red, al igual que en el Perceptron.

Sin embargo, la regla de aprendizaje empleada es distinta. Se define
una función error para cada neurona que da cuenta del error
cometido para cada valor posible de los pesos cuando se presenta
una entrada a la neurona. Así, la regla de aprendizaje hace que la
variación de los pesos se produzca en la dirección y sentido
contrario del vector gradiente del error. A esta regla de aprendizaje
se la denomina Delta.
Historia Redes Neuronales (IV)

La era moderna de las redes neuronales artificiales surge con la técnica de
aprendizaje de propagación hacia atrás o Back Propagation.

La contribución de Minsky y Papert fue la de demostrar que una red del tipo
Perceptron no es capaz de aprender todas las posibles combinaciones entre
entradas y salidas.

La solución del problema consiste en añadir capas intermedias de neuronas,
introduciendo de esta forma el problema de cómo enseñar a estas capas
intermedias. Aquí es donde tiene importancia el algoritmo de propagación hacia
atrás.

En éste se compara la salida real con la salida deseada. La diferencia entre ambas
constituye un error que se propaga hacia atrás desde la capa de salida hasta la de
entrada permitiendo así la adaptación de los pesos de las neuronas intermedias
mediante una regla de aprendizaje Delta. Sin embargo, también tiene sus
limitaciones.

Posteriormente se han desarrollado otros modelos que permiten un aprendizaje
no supervisado como el mapa auto-organizativo de Kohonen, los basados en la
Teoría de Resonancia Adaptativa (ART) de Grossberg y Carpenter, o los
modelos de control motor de Bullock, Gaudiano y Grossberg, entre otros.
Referencias (I)




http://www.wikipedia.org
McCulloch, Warren S. (1965), Embodiments of Mind,
MIT Press, Cambridge, MA.
Talking Nets: An Oral History of Neural
Networks, Edited by James A. Anderson and
Edward Rosenfeld, 1998. The interview with
Jerome Lettvin discusses Walter Pitts.
Pitts, Walter, MIT Encyclopedia of Cognitive
Science.
(http://cognet.mit.edu/MITECS/Entry/lettvin1)
Referencias (II)
PERCEPTRÓN:






Freund, Y. and Schapire, R. E. 1998. Large margin classification using the
perceptron algorithm. In Proceedings of the 11th Annual Conference on
Computational Learning Theory (COLT' 98). ACM Press.
Gallant, S. I. (1990). Perceptron-based learning algorithms. IEEE Transactions
on Neural Networks, vol. 1, no. 2, pp. 179-191.
Rosenblatt, Frank (1958), The Perceptron: A Probabilistic Model for
Information Storage and Organization in the Brain, Cornell Aeronautical
Laboratory, Psychological Review, v65, No. 6, pp. 386-408.
Minsky M L and Papert S A 1969 Perceptrons (Cambridge, MA: MIT Press)
Novikoff, A. B. (1962). On convergence proofs on perceptrons. Symposium on
the Mathematical Theory of Automata, 12, 615-622. Polytechnic Institute of
Brooklyn.
Widrow, B., Lehr, M.A., "30 years of Adaptive Neural Networks: Peceptron,
Madaline, and Backpropagation," Proc. IEEE, vol 78, no 9, pp. 1415-1442,
(1990).
Referencias (III)

Introducción a las redes neuronales artificiales. Alfredo Catalina Gallego.
(www.gui.uva.es/login/login/13/redesn.html)
PUBLICACIONES:







Warren McCulloch and Walter Pitts, A Logical Calculus of Ideas Immanent in Nervous Activity,
1943, Bulletin of Mathematical Biophysics 5:115-133.
Warren McCulloch and Walter Pitts, On how we know universals: The perception of auditory and
visual forms, 1947, Bulletin of Mathematical Biophysics 9:127-147.
Howland, R., Jerome Lettvin, Warren McCulloch, Walter Pitts, and P. D. Wall, Reflex
inhibition by dorsal root interaction, 1955, Journal of Neurophysiology 18:1-17.
Wall, P. D., Warren McCulloch, Jerome Lettvin and Walter Pitts, Effects of strychnine with
special reference to spinal afferent fibres, 1955, Epilepsia Series 3, 4:29-40.
Jerome Lettvin, Humberto Maturana, Warren McCulloch, and Walter Pitts, What the Frog's
Eye Tells the Frog's Brain, 1959, Proceedings of the Institute of Radic Engineers 47: 19401959
Humberto Maturana, Jerome Lettvin, Warren McCulloch, and Walter Pitts, Anatomy and
physiology of vision in the frog, 1960, Journal of General Physiology, 43:129--175
Robert Gesteland, Jerome Lettvin and Walter Pitts, Chemical Transmission in the Nose of the
Frog, 1965, J.Physiol. 181, 525-529.