Download Protocolo_de_Redes_n..

Document related concepts

Red neuronal artificial wikipedia , lookup

Red neuronal de impulsos wikipedia , lookup

Red neuronal estocástica wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

Redes neuronales convolucionales wikipedia , lookup

Transcript
Protocolo de Investigación
Héctor Paniagua Guerrero
Las redes neuronales artificiales aplicadas a los riesgos de
negocios de las PYME’s de servicios en la Ciudad de México
Índice
1. Proyecto de Investigación ………………………………………….….
1.1 Antecedentes……………………………………………………..…
1.2 Planteamiento del problema de investigación…………………..
1.3 Preguntas de investigación……………………………………….
1.4 Justificación de la Investigación…………………………………..
1.5 Objetivos de la investigación……………………………………...
1.6 Hipótesis de investigación…………………………………………
1.7 Alcance de la Investigación………….…………………………....
1.8 Marco teórico de la investigación…………………………………
1.9 Metodología de la investigación…………………………………..
1.10 Aportaciones……………………………………………………….
1.11 Índice tentativo…………………………………………………….
2. Fuentes de información disponibles………………………………………..
1.1 Antecedentes
1
Protocolo de Investigación
1.1.1
Héctor Paniagua Guerrero
Introducción1
Uno de los problemas más antiguos de la ciencia experimental es encontrar funciones que
ajusten, o expliquen, datos que se observan de fenómenos naturales. La principal ventaja de la
existencia de tales funciones es la posibilidad de predecir el comportamiento del sistema natural
en el futuro y controlar sus salidas mediante la aplicación de las entradas adecuadas. Algunos
ejemplos podrían ser la predicción de valores en bolsa, la predicción meteorológica o la
clasificación de formas tumorales.
En este sentido, el hombre se ha caracterizado siempre por su búsqueda constante de nuevas
vías para mejorar sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo
en aquellas operaciones en las que la fuerza juega un papel primordial. Los progresos obtenidos
han permitido dirigir estos esfuerzos a otros campos, como por ejemplo, a la construcción de
máquinas calculadoras que ayuden a resolver de forma automática y rápida determinadas
operaciones que resultan tediosas cuando se realizan a mano.
Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas
como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia
artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden
ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos
años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas,
procesamiento de información expresada mediante lenguajes humanos... etc.
Las redes neuronales son más que otra forma de emular ciertas características propias de los
humanos, como la capacidad de memorizar y de asociar hechos. Si se examinan con atención
aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos
ellos tienen una característica en común: la experiencia. El hombre es capaz de resolver estas
situaciones acudiendo a la experiencia acumulada. Así, parece claro que una forma de
aproximarse al problema consista en la construcción de sistemas que sean capaces de
reproducir esta característica humana. En definitiva, las redes neuronales no son más que un
modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que
disponemos para un sistema que es capaz de adquirir conocimiento a través de la experiencia.
Una red neuronal es “un nuevo sistema para el tratamiento de la información, cuya unidad básica
de procesamiento está inspirada en la célula fundamental del sistema nervioso humano: la
neurona”
Todos los procesos del cuerpo humano se relacionan en alguna u otra forma con la (in)actividad
de estas neuronas. Las mismas son un componente relativamente simple del ser humano, pero
cuando millares de ellas se conectan en forma conjunta se hacen muy poderosas.
1.1.2
La neurona clásica2
Una gran cantidad de terminología biológica se ha introducido a la literatura de las redes
neuronales. Vale la pena conocer estos términos, en cualquier caso, junto con las otras partes
esenciales de una buena educación liberal, tales como la mecánica cuántica, la siguiente figura
1.1 es un diagrama de la neurona genérica. La neurona genérica esta modelada con base en las
neuronas motoras o motoneuronas espinales, una de las neuronas mejor caracterizadas en los
mamíferos. Las neuronas son células, y tienen un núcleo y el aparato metabólico celular
relacionado.
1
Inteligencia artificial, Ed.McGraw Hill, José T. Palma Méndez, Roque Marín Morales, pág.650-651
2
Redes neuronales, Ed.Alfaomega, James A. Anderson, Año 2007, pág. 27
2
Protocolo de Investigación
Héctor Paniagua Guerrero
Figura 1.1 Neurona genérica etiquetada
Un extremo de la célula, el de entrada, tiene un número de finas ramificaciones, llamadas
dendritas, por su parecido, por su parecido a un árbol (dendro – es una raíz griega para significar
“árbol”, de ahí dendrita, dendrocronología, etc.). La figura 1.2 las formas dendríticas de un
número de neuronas reales. La variabilidad en formas y tamaños refleja el procesamiento
analógica de información que realiza la neurona. El cuerpo celular se conoce como soma.
Figura 1.2 Árboles dendríticos de varias neuronas reales.
La mayoría de las neuronas tienen una larga y delgada ramificación, el axón, que se aparta del
cuerpo celular y puede extenderse por metros. El axón es la línea de transmisión de la neurona.
Los axones pueden dar lugar a ramificaciones colaterales, junto con la rama principal, por lo que
la conectividad real de una neurona puede ser bastante complicada. Las neuronas se encuentran
3
Protocolo de Investigación
Héctor Paniagua Guerrero
entre las células más grandes del cuerpo humano, y ciertamente son las más extendidas. Por
ejemplo, las motoneuronas espinales en la parte baja de la espalda pueden tener axones que
llegan a su destino final, se ramifican nuevamente en lo que se conoce como arborización
terminal (arbor es la palabra latina para “árbol”, de ahí día arbor, arboretum, arbóreo, etc.).
En los extremos de las ramas axonales hay unas complejas estructuras altamente
especializadas llamadas sinapsis figura 1.3. En la imagen normal de la neurona, las dendritas
reciben entradas desde otras células, el soma y las dendritas procesan e integran las entradas, y
la información se retransmite por el axón hacia la sinapsis cuyas salidas proporcionan entradas a
otras neuronas u órganos efectores.
Las sinapsis que una célula influya en la actividad de las otras. El dogma recibido en la teoría de
las redes neuronales dice que la sinapsis varía en fuerza, y que éstas, esto es, las detalladas
interacciones entre muchas neuronas, son la clave de la naturaleza de los cómputos que realizan
las redes neuronales. La mayoría de los neurofisiólogos concuerdan con este supuesto, pero,
excepto por algunos casos especiales, como el ganglio abdominal de la Aplysia y el ojo del
Limulus, la evidencia detallada de esto es sorprendentemente escasa. Es difícil pensar en
alternativas plausibles. Sin embargo:
El núcleo y maquinaria circundante tienen el trabajo de enviar nutrientes, enzimas y materiales
de construcción por el axón hacia el resto de la célula, que puede encontrarse a alguna distancia.
Paul Weiss, en la década de los cuarentas, demostró un significativo flujo axoplasmático al
simplemente constreñir el axón y señalar que se hinchaba en el lado entre el núcleo y la
constricción. El flujo retrógrado de materiales de regreso hacia el núcleo también ocurre. Parece
haber un número de mecanismos de transporte intracelular con diferentes velocidades y
características. La neurona es un sitio muy ocupado.
Figura 1.3 Árborización terminal.
Como en todas las células animales, la neurona está cubierta por una delgada membrana con
sorprendentes propiedades. La función de la membrana consiste en separar el interior del
exterior. En las neuronas, el interior y el exterior son bastante diferentes en cuanto a sus
propiedades químicas y eléctricas. La membrana tiene apenas un grosor de 60 a 70 A, y está
4
Protocolo de Investigación
Héctor Paniagua Guerrero
compuesta principalmente por lípidos y proteínas. Los lípidos están distribuidos en una capa
doble en la que se incrustan proteínas; las proteínas flotan en una especie de “mar” de lípidos.
La figura 1.4 Criofractura
La figura 1.4 muestra una imagen de una fractura por congelamiento o criofractura de la
membrana de una neurona con las proteínas incrustadas en ella tomada con un microscopio
electrónico.
Las proteínas pueden estar ubicadas en la cara interior o exterior de la membrana, o pasar a
través de ella, lo hacen por pasajes continuos o poros. Iones particulares pueden pasar a través
de de los poros y, por lo mismo, a través de la membrana. Los poros pueden cambiar su
conformación bajo control ya sea eléctrico o químico, por lo que el flujo de iones puede ser
regulado; esto es, la permeabilidad de la membrana está bajo control del ambiente eléctrico o
químico.
Figura 1.5 Diagrama esquemático de un canal iónico. 1 - Dominios de canal (normalmente son cuatro por canal), 2 vestíbulo exterior, 3 - filtro de selectividad, 4 - diámetro del filtro de selectividad, 5 - sitio de fosforilación, 6 - membrana
célula.
La figura 1.5 un dibujo de dicho canal, que cambia su conformación y su permeabilidad a los
iones cuando encuentra a la substancia química llamada acetilcolina. Este mecanismo para la
conductancia iónica variable, forma bases de las propiedades eléctricas de la neurona.
5
Protocolo de Investigación
1.1.3
Breve introducción biológica a una red neuronal3
1.1.3.1
Tipos de Neuronas
Héctor Paniagua Guerrero
Aunque hay muchos tipos diferentes de neuronas, hay tres grandes categorías basadas en su
función:

Las neuronas sensoriales son sensibles a varios estímulos no neurales. Hay neuronas
sensoriales en la piel, los músculos, articulaciones, y órganos internos que indican
presión, temperatura, y dolor. Hay neuronas más especializadas en la nariz y la lengua
que son sensibles a las formas moleculares que percibimos como sabores y olores. Las
neuronas en el oído interno nos proveen de información acerca del sonido, y los conos y
bastones de la retina nos permiten ver.

Las neuronas motoras son capaces de estimular las células musculares a través del
cuerpo, incluyendo los músculos del corazón, diafragma, intestinos, vejiga, y glándulas.

Las interneuronas son las neuronas que proporcionan conexiones entre las neuronas
sensoriales y las neuronas motoras, al igual que entre ellas mismas. Las neuronas del
sistema nervioso central, incluyendo al cerebro, son todas interneuronas.
La mayoría de las neuronas están reunidas en “paquetes” de un tipo u otro, a menudo visible a
simple vista. Un grupo de cuerpos celulares de neuronas, por ejemplo, es llamado un ganglio o
un núcleo. Una fibra hecha de muchos axones se llama un nervio. En el cerebro y la médula
espinal, las áreas que están compuestas en su mayoría por axones se llaman materia blanca, y
es posible diferenciar vías o tractos de esos axones. Las áreas que incluyen un gran número de
cuerpos celulares se llaman materia gris.
1.1.4
¿Qué es una red neuronal4
Las neuronas (del griego νεῦρον, cuerda, nervio) son un tipo de células del sistema nervioso
cuya principal característica es la excitabilidad de su membrana plasmática; están especializadas
3
Redes neuronales y sistemas borrosos, Ed.Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.3-10
4
Redes neuronales y sistemas borrosos, Ed.Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.3-10
6
Protocolo de Investigación
Héctor Paniagua Guerrero
en la recepción de estímulos y conducción del impulso nervioso (en forma de potencial de
acción) entre ellas o con otros tipos celulares, como por ejemplo las fibras musculares de la
placa motora. Altamente diferenciadas, la mayoría de las neuronas no se dividen una vez
alcanzada su madurez; no obstante, una minoría sí lo hace. Las neuronas presentan unas
características morfológicas típicas que sustentan sus funciones: un cuerpo celular llamado
soma o «pericarion», central; una o varias prolongaciones cortas que generalmente transmiten
impulsos hacia el soma celular, denominadas dendritas; y una prolongación larga, denominada
axón o «cilindro-eje», que conduce los impulsos desde el soma hacia otra neurona u órgano
diana.
La neurogénesis en seres adultos, fue descubierta apenas en el último tercio del siglo XX. Hasta
hace pocas décadas se creía que, a diferencia de la mayoría de las otras células del organismo,
las neuronas normales en el individuo maduro no se regeneraban, excepto las células olfatorias.
Los nervios mielinados del sistema nervioso periférico también tienen la posibilidad de
regenerarse a través de la utilización del neurolema, una capa formada de los núcleos de las
células de Schwann.
Existen numerosas formas de definir a las redes neuronales; desde las definiciones cortas y
genéricas hasta las que intentan explicar más detalladamente qué son las redes neuronales. Por
ejemplo:
1) Una nueva forma de computación, inspirada en modelos biológicos.
2) Un modelo matemático compuesto por un gran número de elementos procesales organizados
en niveles.
3) Un sistema de computación compuesto por un gran número de elementos simples, elementos
de procesos muy interconectados, los cuales procesan información por medio de su estado
dinámico como respuesta a entradas externas.
4) Redes neuronales artificiales son redes interconectadas masivamente en paralelo de
elementos simples (usualmente adaptativos) y con organización jerárquica, las cuales intentan
interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso
biológico.
1.1.5
Acerca de las redes neuronales artificiales (RNA) 5.
Las Redes Neuronales Artificiales (RNA) o sistemas conexionistas son sistemas de
procesamiento de la información cuya estructura y funcionamiento están basados en las redes
5
Redes neuronales artificiales, Ed. Limusa Noriega, Carlos Alberto Ruíz, Marta Susana Basualdo, año 2004, pág. 17
7
Protocolo de Investigación
Héctor Paniagua Guerrero
neuronales biológicas. Las RNA’s consisten en un conjunto de elementos simples de
procesamiento que se llamarán nodos o neuronas conectadas entre ellas por conexiones que
tienen un valor numérico que será modificable y llamado peso.
Uno de los primeros en acometer esta empresa fue Charles Babbage, quien trató
infructuosamente de construir una máquina capaz de resolver problemas matemáticos.
Posteriormente otros tantos intentaron construir máquinas similares, pero no fue hasta la
Segunda Guerra Mundial, cuando ya se disponía de instrumentos electrónicos, que se
empezaron a recoger los primeros frutos. En 1946 se construyó la primera computadora
electrónica. Desde entonces los desarrollos en este campo han tenido un auge espectacular.
Estas máquinas permiten implementar fácilmente algoritmos para resolver multitud de problemas
que antes resultaban engorrosos de resolver. Sin embargo, se observa una limitación importante,
por ejemplo ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento
algorítmico, como es el caso de la clasificación de objetos por rasgos comunes? Este ejemplo
demuestra que la construcción de nuevas máquinas más versátiles requiere un enfoque del
problema desde otro punto de vista.
Los desarrollos actuales de los científicos se dirigen al estudio de las capacidades humanas
como una fuente de nuevas ideas para el diseño de las nuevas máquinas. Así, la inteligencia
artificial es un intento por descubrir y describir aspectos de la inteligencia humana que pueden
ser simulados mediante máquinas. Esta disciplina se ha desarrollado fuertemente en los últimos
años teniendo aplicación en algunos campos como visión artificial, demostración de teoremas,
procesamiento de información expresada mediante lenguajes humanos... etc.
Las redes neuronales son más que otra forma de emular ciertas características propias de los
humanos, como la capacidad de memorizar y de asociar hechos. Si se examinan con atención
aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos
ellos tienen una característica en común: la experiencia.
El hombre es capaz de resolver estas situaciones acudiendo a la experiencia acumulada. Así,
parece claro que una forma de aproximarse al problema consista en la construcción de sistemas
que sean capaces de reproducir esta característica humana. En definitiva, las redes neuronales
no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más
perfecto del que disponemos para un sistema que es capaz de adquirir conocimiento a través de
la experiencia. Una red neuronal es “un nuevo sistema para el tratamiento de la información,
cuya unidad básica de procesamiento está inspirada en la célula fundamental del sistema
nervioso humano: la neurona”.
1.1.6
Generación y transmisión de las señal nerviosa6
La unión entre dos neuronas se denomina sinapsis. En el tipo de sinapsis más común no existe
un contacto físico entre las neuronas, sino que estas permanecen separadas por un pequeño
vacío de unas 0.2 micras. En relación a la sinapsis, se habla de neuronas presinápticas (las que
envían señales).
1.1.7

Evolución histórica7
1936 - Alan Turing. Fue el primero en estudiar el cerebro como una forma de ver el mundo de la
computación. Sin embargo, los primeros teóricos que concibieron los fundamentos de la
computación neuronal fueron Warren McCulloch, un neurofisiólogo, y Walter Pitts, un
6
Redes neuronales artificiales, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina ,año 2007, pág.6-10
7
Redes neuronales artificiales, Ed. Limusa Noriega, Carlos Alberto Ruíz, Marta Susana Basualdo, año 2004, pág. 6
8
Protocolo de Investigación
Héctor Paniagua Guerrero
matemático, quienes, en 1943, lanzaron una teoría acerca de la forma de trabajar de las
neuronas (Un cálculo lógico de la inminente idea de la actividad nerviosa - boletín de matemática
biofísica 5: 115-133). Ellos modelaron una red neuronal simple mediante circuitos eléctricos.

1949 - Donald Hebb. Fue el primero en explicar los procesos del aprendizaje (que es el elemento
básico de la inteligencia humana) desde un punto de vista psicológico, desarrollando una regla
de como el aprendizaje ocurría. Aun hoy, este es el fundamento de la mayoría de las funciones
de aprendizaje que pueden hallarse en una red neuronal. Su idea fue que el aprendizaje ocurría
cuando ciertos cambios en una neurona eran activados. También intentó encontrar semejanzas
entre el aprendizaje y la actividad nerviosa. Los trabajos de Hebb formaron las bases de la
Teoría de las Redes Neuronales.
 1950 - Karl Lashley. En sus series de ensayos, encontró que la información no era almacenada
en forma centralizada en el cerebro sino que era distribuida encima de él.
 1956 - Congreso de Dartmouth. Este Congreso frecuentemente se menciona para indicar el
nacimiento de la inteligencia artificial.

1957 - Frank Rosenblatt. Comenzó el desarrollo del Perceptron. Esta es la red neuronal más
antigua; utilizándose hoy en día para aplicación como identificador de patrones. Este modelo era
capaz de generalizar, es decir, después de haber aprendido una serie de patrones podía
reconocer otros similares, aunque no se le hubiesen presentado en el entrenamiento. Sin
embargo, tenía una serie de limitaciones, por ejemplo, su incapacidad para resolver el problema
de la función OR-exclusiva y, en general, era incapaz de clasificar clases no separables
linealmente.

1959 - Frank Rosenblatt: Principios de Neurodinámica. En este libro confirmó que, bajo ciertas
condiciones, el aprendizaje del Perceptron convergía hacia un estado finito (Teorema de
Convergencia del Perceptron).

1960 - Bernard Widroff/Marcian Hoff. Desarrollaron el modelo Adaline (ADAptative LINear
Elements). Esta fue la primera red neuronal aplicada a un problema real (filtros adaptativos para
eliminar ecos en las líneas telefónicas) que se ha utilizado comercialmente durante varias
décadas.

1961 - Karl Steinbeck: Die Lernmatrix. Red neuronal para simples realizaciones técnicas
(memoria asociativa).

1969 - Marvin Minsky/Seymour Papert. En este año casi se produjo la “muerte abrupta” de las
Redes Neuronales; ya que Minsky y Papert probaron (matemáticamente) que el Perceptrons no
era capaz de resolver problemas relativamente fáciles, tales como 7 el aprendizaje de una
función no-lineal. Esto demostró que el Perceptron era muy débil, dado que las funciones nolineales son extensamente empleadas en computación y en los problemas del mundo real.

1974 - Paul Werbos. Desarrolló la idea básica del algoritmo de aprendizaje de propagación hacia
atrás (backpropagation); cuyo significado quedó definitivamente aclarado en 1985.

1977 - Stephen Grossberg: Teoría de Resonancia Adaptada (TRA). La Teoría de Resonancia
Adaptada es una arquitectura de red que se diferencia de todas las demás previamente
inventadas. La misma simula otras habilidades del cerebro: memoria a largo y corto plazo.

1985 - John Hopfield. Provocó el renacimiento de las redes neuronales con su libro:
“Computación neuronal de decisiones en problemas de optimización.”
9
Protocolo de Investigación

1.1.8
Héctor Paniagua Guerrero
1986 - David Rumelhart/G. Hinton. Redescubrieron el algoritmo de aprendizaje de propagación
hacia atrás (backpropagation). A partir de 1986, el panorama fue alentador con respecto a las
investigaciones y el desarrollo de las redes neuronales. En la actualidad, son numerosos los
trabajos que se realizan y publican cada año, las aplicaciones nuevas que surgen (sobre todo en
el área de control) y las empresas que lanzan al mercado productos nuevos, tanto hardware
como software (sobre todo para simulación).
Ventajas de las redes neuronales artificiales8
Se ha comprobado que es una ciencia multidisciplinaria donde ingenieros, psicólogos, médicos,
matemáticos y físicos teóricos han aportado algún elemento a estas teorías, pero, ¿por qué ese
interés en esos sistemas?, ¿qué tienen en especial frente a otros que podríamos denominar
clásicos?, ¿qué cosas nuevas nos ofrecen?.
Por tanto, se comenta que la potencia computacional de una red neuronal deriva, principalmente,
de su estructura de cálculo distribuido paralelo. Esta estructura le permite la resolución de
problemas que necesitarían gran cantidad de tiempo en ordenadores clásicos. Pero aparte de
este hecho aparecen otras propiedades que le hacen especialmente atractivas para ser usadas
en una gran cantidad de problemas prácticos.
a) Son sistemas distribuidos no lineales: Una neurona es un elemento no lineal por lo que
una interconexión de ellas (red neuronal) también será dispositivo no lineal. Esta
propiedad permitirá la simulación de sistemas no lineales y caóticos, simulación, que,
con los sistemas lineales, no se puede realizar.
b) Son sistemas tolerantes o fallos: Una red neuronal, al ser un sistema distribuido, permite
el fallo de algunos elementos individuales (neuronas) sin alterar significativamente la
respuesta total del sistema. Este hecho las hace especialmente atractivas frente a las
computadoras actuales que, por lo general, son sistemas secuenciales de tal forma que
un fallo en uno de sus componentes conlleva que el sistema total no funcione.
c) Adaptabilidad: una red neuronal tiene la capacidad de modificar los parámetros de los
que depende su funcionamiento de acuerdo con los cambios que se produzcan en su
entorno de trabajo (cambios en las entradas, presencia de ruidos, etc.). Con respecto a
la capacidad de adaptación hay que tener en cuenta que ésta no puede ser tampoco
excesivamente grande ya que conduciría a tener un sistema inestable respondiendo a
pequeñas perturbaciones. Este es el problema conocido como plasticidad-estabilidad.
d) Establecen relaciones no lineales entre datos: las redes neuronales son capaces de
relacionar dos conjuntos de datos. Comparando con los métodos estadísticos clásicos
que realizan la misma misión tienen como principal ventaja que lo datos no tienen por
qué cumplir las condiciones de linealidad, gausianidad y estacionariedad.
e) Posibilidad de implementación: Esta posibilidad permite que estos sistemas puedan ser
aplicados en sistemas de tiempo real, simulando sistemas biológicos mediante
elementos de silicio.
Todas estas ventajas hacen el uso de las redes neuronales especialmente atractivo en un gran
número de aplicaciones. Sin embargo antes de enunciar algunas (no todas) de estas
8
Redes neuronales artificiales, Ed. Alfaomega, Antonio J. Serrano, Emilio Soria, José D. Martín , pág.14
10
Protocolo de Investigación
Héctor Paniagua Guerrero
aplicaciones pasaremos a describir los diferentes modelos conexionistas que podemos
encontrar.
En el campo de las redes neuronales se conoce con el nombre de arquitectura la forma en que
se unen los diferentes elementos, neuronas, mediante una serie de conexiones, pesos
sinápticos. En principio podemos distinguir tres niveles, en cuanto a arquitectura se refiere, que
los podemos definir como:
a. Microestructura: Este nivel hace referencia al elemento más pequeño que nos podemos
encontrar en un modelo conexionista: La neurona. Este es el nivel más pequeño que nos
podemos pero no por ello es el menos importante, aquí se fijan características tan importantes
como la función de activación.
b. Mesoestructra: Una vez sobrepasado el nivel neuronal llegamos a este nivel donde se fija la
forma de conexión y la disposición de los elementos explicados anteriormente.
c. Macreoestructura: Las diferentes redes planteadas en el nivel anterior se pueden combinar
entre sí para dar estructuras mayores alcanzándose mejores prestaciones.
1.1.9
Introducción a las PYME’s9
1.1.10 La administración de las Pymes10.
En cada momento los administradores, los economistas y en general todas las personas que
buscan obtener mejores resultados en la operación de las empresas se preocupan por idear
nuevas técnicas administrativas que conduzcan a la obtención de mayores rendimientos,
eficacia, calidad, y por supuesto, mayores unidades, por lo general estas técnicas se dirigen
hacia empresas grandes, lo cual origina que no se preste la debida atención a las pequeñas y
medianas empresas. Todo esto ocurre porque no se considera el hecho de que toda empresa
alguna vez fue pequeña o mediana y también por subestimar o desconocer la ayuda que la
Pyme proporciona a la sociedad, señalada en muchas formas en estadísticas.
Desgraciadamente, cada instante inician en todo el país cientos de pequeños negocios que
luchan en la difícil prueba de su iniciación y subsistencia; muchos de ellos sucumben debido a la
multitud de problemas y riesgos con que se encuentran, así como la falta de capacitación
técnica y administrativa para resolverlos.
La pequeña y mediana empresa constituye, en la actualidad, el centro del sistema económico de
nuestro país. El enorme crecimiento de la influencia actual de estas empresas se debe a la
masificación de la sociedad, a la necesidad de concentrar grandes capitales y enormes recursos
técnicos para el adecuado funcionamiento de la producción y servicios, así como el alto nivel de
perfección logrado ya por muchas normas de dirección. Estas empresas lo investigan todo, lo
planean y se someten a procedimientos y métodos exhaustivos y científicos.
9
Redes neuronales artificiales, Ed.Alfaomega, Antonio J. Serrano, Emilio Soria, José D. Martín , pág.14
10
Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición, Rodríguez Valencia Joaquín, 2007, pág.27-40
11
Protocolo de Investigación
Héctor Paniagua Guerrero
Por tanto, las tareas directivas son cada vez más complejas y al mismo tiempo de gran
trascendencia social, porque sus efectos se transmiten y multiplican en cadena en cualquier
actividad de los pueblos.
1.1.11 La importancia de las Pymes11.
Las micro, pequeñas y medianas empresas (MIPYMES), tienen una gran importancia en la
economía, en el empleo a nivel nacional y regional, tanto en los países industrializados como en
los de menor grado de desarrollo. Las empresas MIPYMES representan a nivel mundial el
segmento de la economía que aporta el mayor número de unidades económicas y personal
ocupado; de ahí la relevancia que reviste este tipo de empresas y la necesidad de fortalecer su
desempeño, al incidir éstas de manera fundamental en el comportamiento global de las
economías nacionales; de hecho, en el contexto internacional se puede afirmar que el 90% o un
porcentaje superior de las unidades económicas totales está conformado por las PYMES.
Los criterios para clasificar a la micro, pequeña y mediana empresa son diferentes en cada país,
de manera tradicional se ha utilizado el número de trabajadores como criterio para estratificar los
establecimientos por tamaño y como criterios complementarios, el total de ventas anuales, los
ingresos y/o los activos fijos.
1.1.12 Características generales de las Pymes
De manera muy general todas las pequeñas y medianas empresas (Pymes) comparten casi
siempre las mismas características, por lo tanto, se podría decir, que estas son las
características generales con las que cuentan las Pymes
El capital es proporcionado por una o dos personas que establecen una sociedad. Los propios
dueños dirigen la marcha de la empresa; su administración es empírica.
Su número de trabajadores empleados en el negocio crece y va de 16 hasta 250 personas.
Utilizan más maquinaria y equipo, aunque se sigan basando más en el trabajo que en el capital.
Dominan y abastecen un mercado más amplio, aunque no necesariamente tiene que ser local o
regional, ya que muchas veces llegan a producir para el mercado nacional e incluso para el
mercado internacional.
Está en proceso de crecimiento, la pequeña tiende a ser mediana y está aspira a ser grande.
Obtienen algunas ventajas fiscales por parte del Estado que algunas veces las considera
causantes menores dependiendo de sus ventas y utilidades.
Su tamaño es pequeño o mediano en relación con las otras empresas que operan en el ramo.
1.1.12.1
Características generales y particulares de las empresas en México.
La definición de una empresa sin importar su tamaño, ni su lugar de origen, es igual en cualquier
parte del mundo, ya que dentro de su definición, siempre gozará de los mismos componentes
necesarios para que pueda decirse que es una empresa.
Por consiguiente se definirá a la empresa como:
11
Administración y Dirección, Ed. McGraw Hill, Díez de Castro Emilio Pablo, 2007, pág.20
12
Protocolo de Investigación
Héctor Paniagua Guerrero
“Una unidad económica de producción y decisión que, mediante la organización y coordinación de una
serie de factores (capital y trabajo), persigue obtener un beneficio produciendo y comercializando
productos o prestando servicios en el mercado”
Una vez ya definida a la empresa, podemos ampliarnos más en sus características, observando,
la relación que posee con su definición.
Por tanto cualquier empresa contará con las siguientes características:
a) Cuentan con recursos humanos, de capital, técnicos y financieros.
b) Realizan actividades económicas referentes a la producción, distribución de bienes y
servicios que satisfacen necesidades humanas.
c) Combinan factores de producción a través de los procesos de trabajo, de las relaciones
técnicas y sociales de la producción.
d) Planean sus actividades de acuerdo a los objetivos que desean alcanzar.
e) Son una organización social muy importante que forman parte del ambiente económico y
social de un país.
f) Son un instrumento muy importante del proceso de crecimiento y desarrollo económico y
social.
g) Para sobrevivir debe de competir con otras empresas, lo que exige: modernización,
racionalización y programación.
h) El modelo de desarrollo empresarial reposa sobre las nociones de riesgo, beneficio y
mercado.
i) Es el lugar donde se desarrollan y combinan el capital y el trabajo, mediante la
administración, coordinación e integración que es una función de la organización.
j) La competencia y la evolución industrial promueven el funcionamiento eficiente de la
empresa.
k) Se encuentran influenciadas por todo lo que suceda en el medio ambiente natural, social,
económico y político, al mismo tiempo que su actividad repercute en la propia dinámica
social.
1.1.13 Entorno empresarial de las empresas familiares12.
Las empresas familiares son analizadas tomando en cuenta su importancia en México y el
mundo, la participación e influencia de los accionistas, los miembros integrantes del consejo de
administración y/o aquellos directivos que son representantes clave dentro de las compañías.
Por su parte, las definiciones y contextos de las empresas familiares, sus ventajas y limitaciones,
así como la representación de modelos, las resoluciones de conflictos y los retos que enfrentan
estas organizaciones son considerados para determinar y facilitar su gestión y desarrollo.
Hoy las empresas Pymes enfrentan el gran reto del cambio generacional para procurar la
permanencia, continuidad y crecimiento de los negocios a través de estructuras y funciones
familiares y empresariales.
A. Las empresas familiares en el mundo.
Las empresas familiares son importantes en las economías de primer mundo y en las economías
emergentes. En términos generales, las empresas familiares a nivel global poseen dos
características:
12
Gobierno corporativo en la empresa familiar, Centro de excelencia en gobierno corporativo, Ed. Lid Editorial Mexicana, 2009, pág.18-30
13
Protocolo de Investigación
Héctor Paniagua Guerrero
1. La participación de la familia en la prioridad de la empresa, es decir, el porcentaje de acciones
que tiene en la empresa o en el grupo de empresas.
2. La participación de la familia en la administración de la empresa, es decir, cuando está
involucrada en la dirección, gerencia u operación de la empresa familiar.
Atendiendo la primera característica, podemos darnos cuenta de que los patrones de propiedad
en empresas familiares alrededor del mundo, representan un 30% de las veinte empresas más
grandes listadas en la bolsa de cada país, siendo esto un reflejo de la importancia de estas
organizaciones dentro de la economía global (Lopez de Silanes 2004).
El National Bureau of Economic Research, emitido en 2004 por la Universidad de Yale, índica
que América Latina, Uruguay ocupa el primer lugar de empresas familiares con 78% de
propiedad familiar de acciones, seguido de México con 64%, Colombia con 63% en tercero,
Brasil con 57% en cuarto y Perú con 56% en el quinto sitio. El criterio a considerar fue de tres
accionistas de las más grandes empresas privadas.
En términos de operación, el porcentaje de administración familiar es de 95% en México y
Estados Unidos, 62% en Argentina y 100% en Canadá. En Europa por ejemplo, Italia representa
100%, mientras que en Alemania y Bélgica significa 50% y en Austria 33%. En Asía,
específicamente Hong Kong cuenta con 86% y Singapur con 67%.
Se concluye lo siguiente:
a) Las empresas familiares representan en promedio 34% del total de empresas.
b) La administración de la empresa en manos de miembros de la familia el 71%.
c) La propiedad de las empresas más importantes listadas en los mercados internacionales (en
manos de tres accionistas) representan en promedio 39% del total.
B. Las empresas familiares en México13
Las empresas pequeñas y medianas representan alrededor del 90% del total y, según analistas
empresariales, 95% de estas compañías operan bajo una estructura familiar. También hay
empresas grandes que operan bajo dicha estructura y se calcula que generan más del 50% del
PIB.
Una de las contribuciones más importantes de la empresa familiar es la estabilidad del empleo.
Por su naturaleza social, los trabajadores adquieren continuidad, afecto y confianza, los cual
genera e impacta considerablemente en la creación de cadenas de valor de productos y
servicios.
La empresa familiar aporta valores al desarrollo, a la generación de una sociedad más justa, a la
estabilidad del empleo, a la responsabilidad hacia los trabajadores, al fomento a la superación y
a la transmisión de principios y valores éticos de una generación a otra.
La definición de empresa familiar es el resultado de la fusión de dos sistemas: el familiar y el
empresarial. Estos sistemas se superponen llegando a ser interdependientes (Steckerl 2005).
a) Clasificaciones del tamaño de las empresas PYME
Para este punto, se comparará las diferencias que hay en la definición del tamaño de la empresa, según su
número de trabajadores que laboren en ella, tomando en cuenta las siguientes instituciones:
13
Administración de pequeñas empresas, Ed. McGraw Hill, Anzola Rojas Sérvulo, 2010, pág.28
14
Protocolo de Investigación
Héctor Paniagua Guerrero
FALTA CUADRO???
1.1.14 Introducción a los riesgos empresariales14.
El tema de los riesgos empresariales ha ganado gran popularidad en los años recientes y su
importancia se ha establecido de manera firme. En el ámbito internacional, la evolución de la
disciplina ha sido vertiginosa debido a la experiencia derivada de las crisis empresariales y
financieras que se registraron en los últimos 10 años.
1.1.14.1
Introducción a los riesgos
La necesidad de entender los riesgos y las oportunidades es ineludible cuando se trata de
alcanzar el progreso de cualquier empresa. Proporcionarle dirección estratégica a un negocio,
significa entender qué genera la creación de valor y qué la destruye. Esto alternativamente
significa que la búsqueda de oportunidades debe exigir comprensión de los riesgos a tomar y de
los riesgos a evitar. Por lo tanto, el crecimiento de cualquier negocio exige la evaluación del
riesgo y la aceptación del riesgo implícito.
La capacidad de un negocio de prosperar al afrontar los riesgos, al mismo tiempo que responde
a acontecimientos imprevistos, buenos o malos, es un indicador excelente de su capacidad para
competir. Sin embargo, la exposición al riesgo es cada vez mayor, más compleja, diversa y
dinámica. Esto se ha generado en gran parte por los rápidos cambios en la tecnología, la
velocidad de la comunicación, la globalización de los negocios y las fluctuaciones en los tipos de
cambio dentro de los mercados financieros.
Los negocios ahora operan en un entorno completamente diferente comparado con hace apenas
10 años. La fuente del riesgo también puede gestarse dentro de la organización mientras los
negocios luchan por lograr su crecimiento. La adopción de estrategias de expansión, como las
adquisiciones de empresas, las inversiones en nuevos mercados internacionales, las grandes
reestructuraciones organizacionales, el outsourcing de los procesos clave, los grandes proyectos
de inversión y el desarrollo de nuevos productos, se pueden convertir en elementos que
aumentan la exposición al riesgo de un negocio.
Como consecuencia de la diversidad de riesgos, la gerencia requiere un acercamiento más
profundo a la administración de riesgos. La mayoría de los accionistas y los organismos
reguladores están requiriendo a las juntas directivas una administración de riesgos más
comprensivos, rigurosos y sistemática. Las compañías que consideraban la administración de
riesgos solo una cuestión de cumplimiento de los principios contables y legales, están
aumentando bastante su exposición y eso provocará que reporten estados financieros afectados
seriamente por los riesgos.
1.1.14.2
Riesgo y Oportunidad
No debería haber una preocupación por los inconvenientes de los riesgos. La administración de
riesgo lo considera de doble dirección, teniendo en cuenta siempre que riesgo y rentabilidad son
directamente proporcionales, así tanto los riesgos favorables (oportunidades) como los riesgos
desfavorables (amenazas) están en el centro del crecimiento del negocio y de la creación de la
riqueza.
14
Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición, Rodríguez Valencia Joaquín, 2007, pág.27-40
15
Protocolo de Investigación
Héctor Paniagua Guerrero
Una vez que la junta directiva haya determinado su visión, su misión y los valores, debe
establecer la estrategia corporativa y las políticas para transmitir la visión del negocio. El
establecimiento de la estrategia está basado en el pensamiento estratégico. Definir la estrategia,
es señalar la dirección que muestra el estilo de liderazgo para lograr los objetivos empresariales.
Sin embargo, cualquiera que sea la estrategia, la junta directiva debe decidir qué oportunidades,
presentes y futuras, desea alcanzar y qué riesgos está dispuesta a tomar para desarrollar las
oportunidades seleccionadas. La administración tanto de oportunidades debe recibir igual
atención y es importante que las juntas directivas seleccionen un balance correcto. Esto se ha
expresado en una resolución de la National Audit Office como: “el enfoque de la administración
de riesgos empresarial ofrece la posibilidad de lograr una equilibrio razonablemente juicioso y
sistemáticamente discutido, entre los riesgos y las oportunidades, en forma que maneje las
presiones contradictorias de emprender retos que representen mejores beneficios por un lado y
limite las amenazas de los riesgos por la otro”. Exagerar en los inconvenientes de los riesgos y
su manejo puede ser dañino para cualquier empresa.
Knight y Perry señalan que la administración de riesgos pretende buscar los riesgos favorables u
oportunidades, no solamente tratar de librarse de los riesgos que amenazan las fuentes de
creación del valor y el potencial de la empresa. Cualquier procedimiento que intente librarse del
riesgo completamente conducirá al menos a una decisión racional, que el no hacer nada. Los
riesgos son importantes, pues todos los negocios hacen frente al riesgo de sus inicios, no son
motivos para la acción sino restricciones en la acción. Por lo tanto, la gerencia trata de controlar
los riesgos lo más lejos posible para permitirle al negocio maximizar sus oportunidades. El
desarrollo de una política del riesgo debe ser una iniciativa creativa, exponiendo las
oportunidades para el crecimiento del valor y el manejo innovador del riesgo, no es una tarea que
deprima, llene de ambigüedades, de advertencias y de pesimismo. La administración de riesgo
empresarial entonces es manejar de ambos, oportunidades y riesgos.
1.1.14.3
El concepto del riesgo.
Son múltiples las formas que se han dado a la definición del concepto de riesgo. Riesgo se
puede definir como la incertidumbre que existe de que un hecho ocurra, durante un período y
bajo condiciones determinadas, reportando pérdidas económicas. Se habla de riesgo tanto para
crédito, como en operación, mercadeo, tasas de interés, productos, tanto para entidades de
crédito como para seguros e industria.
Igualmente, el riesgo ha sido definido como la variación de los posibles réditos o resultados que
existen en una situación económica dada. Además, riesgo es la variación de los resultados
esperados bajo las condiciones dadas en un período de tiempo.
Se considera que las variaciones no necesariamente son en un resultado final, sino en el
conjunto de variables intervinientes que afectan el resultado. Así mismo, el estudio de riesgo
involucra el análisis de las consecuencias de la ocurrencia del evento, no sólo se limita a la
medida sino a la protección, prevención, precaución en las actividades económicas y sociales.
De la misma forma los individuos se clasifican, según su actitud ante el riesgo, en neutrales, esto
es, cuando mantienen constante su utilidad marginal; en tomadores de riesgo cuando la utilidad
marginal crece, y en adversos al riesgo cuando la utilidad marginal decrece. En cada categoría
se encuentran casos, como puede ser el de inversionistas que emprenden proyectos de riesgo
por negocios nuevos, el cual es un caso de tomadores de riesgo, pero en el caso más
generalizado se presenta aversión al riesgo. Se buscará reducir la posible variación de
resultados esperados a cambio de un pago por cobertura, o adicionalmente por la posible
administración de las variables que optimizan el proceso de selección y adopción del riesgo.
16
Protocolo de Investigación
Héctor Paniagua Guerrero
En forma adicional, la gestión de riesgo es un conjunto de metodologías estandarizadas,
probadas en muchos mercados que también tienen su aplicación en diferentes niveles de
desarrollo de los medios empresariales, a pesar de los escépticos.
Sin embargo, la gestión de riesgos no reemplazará nunca el buen sentido común; lo importante
es preguntarse qué es un buen sentido común y cómo podría complementarse con la valoración
óptima del riesgo.
Los mercados son independientes y en nada les afectan las opiniones ni los conocimientos de
los expertos. La gestión de riesgo debe ser independiente y, por tanto, separada de las
instancias que toman decisiones; en caso de conflicto debe primar el criterio del gestor de
riesgos. (Los desaciertos impactan más en una organización que los aciertos).
Toda actividad está sometida a riesgo, los mayores crecimientos son en muchos casos
posiciones a riesgo muy grandes, en casi todos los negocios. La actividad bancaria, por
definición, es un negocio de administración y transformación de riesgos.
1.2 Planteamiento del problema
En este tema de investigación se desea observar la evolución, mejora y supervivencia a la
gestión de riesgos de negocios, financieros y económicos que pudieran impactar: “Las redes
neuronales artificiales aplicadas al riesgo de negocios de las PYME’s de servicios
en la Ciudad de México”, por lo que se propone el desarrollo de un modelo con redes
neuronales artificiales que sea capaz de ajustar y predecir la tendencia de los riesgos
empresariales, que permita evaluar el desempeño y apoye a lograr la permanencia de la
empresa; el crecimiento sustentable a través de la creación de valor; así como optimizar la
reducción del riesgo empresarial, disminuir la incertidumbre en la toma de decisiones y que
mejore la competitividad de la empresa en su mercado.
1.2.1
Preguntas de Investigación
1) Determinar si es posible que se logre que la compañía pueda crear valor en el mercado
mediante la aplicación de una red neuronal artificial en la administración de riesgo de negocios.
2) Con la construcción de un modelo de redes neuronales artificiales para los riesgos de las
empresas Pyme, ¿Se podrán controlar sus costos y gastos, disminuirá el riesgo empresarial,
permitiendo elevar la posición financiera y competitiva del negocio?
3) ¿Con la implantación de un modelo de redes neuronales artificiales para los riesgos de las
empresas Pyme, permitirá a la compañía crecer de manera sustentable y disminuir su
incertidumbre?
1.3 Justificación de la Investigación
Se propone orientar la estrategia y el esfuerzo de las redes neuronales artificiales a la
administración del riesgo corporativo en dirección a la maximización de valor de la empresa y de
su rentabilidad. Por lo que las redes neuronales artificiales y la toma de decisiones aplicadas al
riesgo de la empresa para disminuir su incertidumbre, se han convertido en una pieza central de
la teoría de la misma, y en el eje de la vida de las sociedades mercantiles.
17
Protocolo de Investigación
Héctor Paniagua Guerrero
1.4 Objetivos de la Investigación
El objetivo general de esta investigación se centra en la creación de un modelo de administración
del riesgo de negocios con redes neuronales artificiales aplicadas a las Pymes de servicios que
se encuentran localizadas en la Ciudad de México, y que permita evaluar la competitividad y
desempeño en un periodo mayor a 3 años, implantando análisis y evaluación de diagnósticos en
periodos mensuales.
1.4.1
Objetivos específicos de la investigación
En el campo de la gestión financiera empresarial, las redes neuronales artificiales intentan
resolver en forma eficiente problemas en la predicción de la bancarrota de una empresa,
evaluación y predicción de su capacidad financiera, absorber un préstamo y con el fin de decidir
el otorgamiento del mismo, el análisis y evaluación de los riesgos empresariales y la
implementación de un simulacro de riesgos corporativos, así como la inferencia de reglas que
indiquen las mejores decisiones sobre la asignación de recursos con base en información
histórica de varios años. Obteniendo un diagnóstico con un modelo de alerta temprana que
permita detectar una situación de riesgo empresarial.
1.5 Hipótesis de la Investigación
 ¿Cómo será la toma de decisiones bajo incertidumbre en cuanto a riesgos
corporativos se refiere para empresas de servicios aplicando un modelo basado
en redes neuronales artificiales que sea capaz de ajustar y predecir la tendencia
de los riesgos, y que le permitan crear valor, crecer de manera sustentable, así
como elevar su posición financiera y competitiva?
1.6 Alcance de la Investigación
Se pretende desarrollar un modelo con una red neuronal artificial a través del cual sea posible
obtener una solución factible y satisfactoria al problema de la incertidumbre del riesgo
empresarial. La red neuronal artificial incluirá un nuevo planteamiento de la función de aptitud
tradicionalmente empleada para resolver estos problemas, permitiendo obtener una solución más
ajustada a la realidad.
Esta plataforma constituirá una herramienta con un adecuado grado de funcionalidad, pues no
solo presentará una sencilla forma de utilización, sino que permitirá abarcar una amplia gama de
tareas relacionadas con el diseño e implementación de redes neuronales artificiales.
Se propone utilizar los métodos de redes neuronales artificiales que nos apoyen a tener una
solución de problemas, utilizando creativos modelos de planteamiento de problemas para la
industria de servicios.
Por lo que se propone realizar el desarrollo de modelo de red neuronal artificial, como una
herramienta que cumpla los objetivos planteados tales como el observar gráficamente y entender
mejor las soluciones generadas por la red, en otras palabras “decodificar” la información en
diagramas e interpretarla.
Por consiguiente, se pretende aplicar el modelo de red neuronal artificial a una muestra de
empresas mexicanas que se encuentren ubicadas como “Pequeñas y Medianas Empresas” del
área de servicios en el área de la Ciudad de México. Y que dicho modelo de red neuronal
18
Protocolo de Investigación
Héctor Paniagua Guerrero
artificial nos ayude a identificar, medir y monitorear la administración de riesgo empresarial y los
modelos financieros del negocio; alineación de los riesgos, modelos y retornos de inversión, así
como fortalecer el ambiente de control en la administración y reportes.
El periodo de diagnostico del programa de simulacro es de 3 años, revisando el comportamiento
del modelo de red neuronal artificial en periodos mensuales, y si es posible de manera semanal.
1.7
Marco Teórico de la Investigación.
1.7.1 Definición de una Red Neuronales Artificial15
Las RNA se definen como sistemas de mapeos lineales cuya estructura se basa en principios
observados en los sistemas nerviosos humanos y animales. Constan de un número grande de
procesadores simples ligados por conexiones de pesos. Las unidades de procesamiento se
denominan neuronas. Cada unidad recibe entradas de otros nodos y genera una salida simple
escalar que depende que depende de la información local disponible, guardada internamente o
que llega a través de las conexiones con pesos. Pueden realizarse muchas funciones complejas
dependiendo de las conexiones.
Las neuronas artificiales simples fueron introducidas por McCulloch y Pitts en 1943. Una red
neuronal se caracteriza por los siguientes elementos:
1. Un conjunto de unidades de procesamiento o neuronas.
2. Un estado de activación para cada unidad, equivalente a la salida de la unidad.
3. Conexiones entre las unidades, generalmente definidas por un peso que determina el
efecto de una señal de entrada en la unidad.
4. Una regla de propagación, que determina la entrada efectiva de una unidad a partir de
las entradas externas.
5. Una función de activación que actualiza el nuevo nivel de activación basándose en la
entrada efectiva y la activación anterior.
6. Una entrada externa que corresponde a un término determinado como vías para cada
unidad.
7. Un método para reunir la información, correspondiente a la regla de aprendizaje.
8. Un ambiente en el que el sistema va a operar, con señales de entrada e incluso señales
de error.
En muchas redes las unidades de proceso tienen respuesta de la forma:
𝑦 = (∑ 𝜔𝑘 𝑥𝑘 )
𝑘
Donde:
𝑥𝑘 :
Señales de salida de otros nodos o entradas externas.
𝜔𝑘 : Pesos de las ligas de conexión.
𝑓 (. ) : Función no lineal simple.
La función 𝑓 puede ser sigmoidal, tangente hiperbólica, escalón, entre otras. Cada unidad de
proceso tiene una tarea simple: recibe la entrada de otras unidades o de fuentes externas y
procesa la información para obtener una salida que se propaga a otras unidades.
15
Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz , Ed. Alfaomega, Año 2010. Páginas 198-202.
19
Protocolo de Investigación
Héctor Paniagua Guerrero
Una red puede tener una estructura arbitraria, pero las capas que contienen estas estructuras
están definidas de acuerdo con su ubicación en la topología de la red neuronal. Las entradas
externas son aplicadas en la primera capa, y las salidas se consideran la última capa. Las capas
internas que no se consideran como capa porque no realizan procesamiento.
La entrada total “u” de una unidad “k” es la suma de los pesos de las entradas conectadas, más
bien θ:
𝑢 = ∑ 𝜔𝑗 𝑥𝑗 + 𝜃
𝑗
Si el peso 𝜔 es positivo se habla de una excitación y si el peso es negativo se considera una
inhibición de la entrada. Si consideramos a las entradas como funciones del tiempo, la expresión
anterior se convierte en:
𝑢(𝑡) = ∑ 𝜔𝑗 (𝑡)𝑥𝑗 (𝑡) + 𝜃(𝑡)
𝑗
b) Funciones de activación
La regla que logra establecer el efecto de la entrada total u(t) en la activación de la unidad k se
denomina función de activación (𝐹𝑘 ):
𝑢(𝑡 + 1) = 𝐹𝑘 (𝑦(𝑡), 𝑢(𝑡))
En muchas ocasiones esta función es de la forma no decreciente respecto a la entrada total de la
unidad:
𝑢(𝑡 + 1) = 𝐹𝑘 (∑ 𝜔𝑗 (𝑡)𝑥𝑗 (𝑡) + 𝜃(𝑡))
𝑗
Algunas de las funciones de activación más usadas son las siguientes:
i.
Función escalón.
La función de activación escalón se asocia a neuronas binarias en las cuales, cuando la suma de
las entradas es mayor o igual que el umbral de la neurona, la activación es 1; si es menor la
activación es 0 (o – 1).
20
Protocolo de Investigación
1 𝑠𝑖 𝑥 ≥ 0
𝐹𝑘 (𝑥) = {
}
0 𝑠𝑖 𝑥 < 0
ii.
Héctor Paniagua Guerrero
1 𝑠𝑖 𝑥 ≥ 0
𝐹𝑘 (𝑥) = {
}
−1 𝑠𝑖 𝑥 < 0
Función lineal mixta.
La función lineal mixta o identidad responde a la expresión 𝐹𝑘 (𝑢) = 𝑢. En las neuronas con
función mixta, si la suma de las señales de entrada es menor que un límite inferior, la función se
define como 0 (o – 1). Si dicha suma es mayor o igual que el límite superior, entonces la
activación es 1. Si la suma de entrada está comprendida entre ambos límites, superior e inferior,
entonces la activación se define como una función lineal de la suma de las señales de entrada.
𝐹𝑘 (𝑥) = 𝑥:
21
Protocolo de Investigación
Héctor Paniagua Guerrero
0
1
𝐹𝑘 (𝑥) = { 𝑥 1
+
2𝑐 2
−1
𝐹𝑘 (𝑥) = { 1
𝑎𝑥
iii.
𝑠𝑖 𝑥 < −𝐶
𝑠𝑖 𝑥 > 𝐶
}
𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
𝑠𝑖 𝑥 < −𝐶
𝑠𝑖 𝑥 > 𝐶 }
𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Función tangente hiperbólica.
La función de activación tangente hiperbólica se emplea en los casos que presentan variaciones
suaves de valores positivos y negativos de la señal a clasificar. Como se puede ver en su
descripción es una de las funciones más empleadas en entrenamientos supervisados, como en
el caso del entrenamiento de retropropagación del error.
Debe de tenerse cuidado de emplear esta figura entre los umbrales positivos y negativos antes
de la saturación, de otra forma la salida siempre generará valores saturados iguales a 1 y -1.
𝐹𝑘 (𝑢) =
iv.
𝑒 𝑢 − 𝑒 −𝑢
𝑒 𝑢 + 𝑒 −𝑢
Función sigmoidal.
22
Protocolo de Investigación
Héctor Paniagua Guerrero
Con la función sigmoidal el valor dado por la función es cercano a uno de los valores asintóticos.
Esto hace que en la mayoría de los casos, el valor de salida esté comprendido en la zona alta o
baja del sigmoide. De hecho, cuando la pendiente es elevada, esta función tiende a la función
escalón. Sin embargo, la importancia de la función sigmoidal es que su derivada siempre es
positiva y cercana a cero para los valores grandes positivos o negativos; además, toma su valor
máximo cuando x = 0. Esto hace que se puedan utilizar reglas de aprendizaje definidas para las
funciones escalón, con la ventaja, respecto a esta función, de que la derivada está definida en
todo intervalo.
𝐹𝑘 (𝑢) =
v.
1
1 + 𝑒 −𝑢
Función de Gauss.
Los mapeos ocultos algunas veces pueden realizarse con un solo nivel de neuronas mediante el
uso de funciones de activación tipo Gauss, en lugar de funciones tipo sigmoidales.
𝐹𝑘 (𝑋) =
1
𝜎 √2𝜋
𝑒
(
𝑥2
)
2𝜎 2
c) Topologías de las redes neuronales
Dos de las topologías más usadas, de acuerdo con las diferencias en la manera de realizar las
conexiones, son:
23
Protocolo de Investigación
Héctor Paniagua Guerrero
a. Redes de propagación hacia adelante (feed-forward): el flujo de información de las
entradas a las salidas es exclusivamente hacia adelante, extendiéndose por capas
múltiples de unidades, pero no hay ninguna conexión de retroalimentación.
b. Redes recurrentes: contienen conexiones de retroalimentación, lo que puede derivarse
en un proceso de evolución hacia un estado estable en le que no haya cambios en el
estado de activación de las neuronas.
d) Elementos de una red neuronal artificial
Una RNA consta de un conjunto de elementos de procesamiento conectados entre sí y entre los
que se envían información a través de conexiones. Un esquema básico de una red neuronal
artificial se observa en la siguiente figura, la cual presenta las diferentes capas que tiene esta
topología, que es una estructura que se conoce con el nombre de feed-forward (hacia adelante)
debida al flujo de la información.
Esquema básico de una RNA

Los elementos básicos de una RNA son:



Conjunto de unidades de procesamiento (neuronas).
Conexiones entre unidades (asociado a cada conexión un peso o valor)
Funciones de salida o activación para cada unidad de procesamiento
El modelo de la neurona y la arquitectura de la red describen cómo esta última transforma sus
entradas y salidas. Los elementos individuales de cálculo que forman la mayoría de los modelos
de sistemas neuronas artificiales, se conocen como neuronas artificiales.
1.7.2 Entrenamiento de las Redes Neuronales16
Se denomina entrenamiento al proceso de configuración de una red neuronal para que las
entradas produzcan las salidas deseadas a través del fortalecimiento de las conexiones. Una
forma de llevar esto a cabo es a partir del establecimiento de pesos conocidos con anterioridad, y
otro método implica el uso de técnicas de retroalimentación y patrones de aprendizaje que
cambian los pesos hasta encontrar los adecuados.
Además, el aprendizaje puede dividirse en supervisado o asociado y no supervisado o autoorganizado. En el primer caso se introducen entradas que corresponden a determinadas salidas,
16
Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz, Ed. Alfaomega, Año 2010. Páginas 203.
24
Protocolo de Investigación
Héctor Paniagua Guerrero
ya sea por un agente externo o por el mismo sistema. En el segundo caso el entrenamiento se
enfoca a encontrar características estadísticas entre agrupamientos de patrones en las entradas.
Un tipo de regla que se usa para el entrenamiento mediante el ajuste de pesos es la Hebbiana,
propuesta por Hebb en 1949 y que ha dado pie a diversas variantes propuestas en el transcurso
del tiempo. Si dos unidades j y k están activas al mismo tiempo, la conexión entre las dos debe
de ser fortalecida mediante la modificación del peso
𝛥𝜔𝑗𝑘 = 𝛾 𝑦𝑗 𝑦𝑘
Donde 𝛾 es una constante de proporcionalidad positiva que representa la tasa de aprendizaje.
Otra regla usada comúnmente implica el ajuste de los pesos a través de la diferencia entre la
activación actual y la deseada; se le conoce como regla Delta:
𝛥𝜔𝑗𝑘 = 𝛾 𝑦𝑗 (𝑑𝑘 − 𝑦𝑘 ).
Donde 𝑑𝑘 es la activación deseada.
1.7.2.1 Proceso de entrenamiento o aprendizaje.
Como se menciono, las RNA reciben unos datos de entrada que se transforman para producir
una salida con el objeto de clasificarlos o ajustar una función. La justificación teórica para este
tipo de aplicaciones es que, suponiendo que la red tenga un número suficiente de neuronas,
podrá ajustar cualquier función continua con una cierta precisión con tan solo escoger los valores
adecuados para los parámetros ajustables de dicha red. Estos parámetros son; en general, los
pesos sinápticos y son, por tanto, el medio que la red emplea para almacenar sus conocimientos
sobre el problema a resolver.
Este conocimiento se almacena en la RNA a través de un proceso de aprendizaje o
entrenamiento, que no es más que la modificación de los parámetros de la RNA mediante un
conocimiento preestablecido, al objeto de conseguir una mejora en su rendimiento. Como el
proceso de aprendizaje humano, el de las RNA está basado en el uso de ejemplos que
representan el problema. A este conjunto se le conoce como conjunto de entrenamiento. Es
importante recalcar que el objetivo del aprendizaje no es memorizar las relaciones entrada/salida
que hay en el conjunto de entrenamiento, sino modelar el proceso que ha generado estos datos
para ello es conveniente que el número y tipo de ejemplos disponibles para el entrenamiento de
la red sean suficientemente representativo de la relación que desea aprender. De este modo,
una vez entrenada, la red será capaz de manejar no solo los datos de entrenamiento, sino
nuevos datos distintos de los primeros, sin que por ello se degrade su rendimiento. Esto se
conoce como la capacidad de generalización de la red.
En función de cómo este constituido el conjunto de entrenamiento se distinguen básicamente dos
tipos de aprendizaje: supervisado y no supervisado. En el aprendizaje supervisado se parte de
una serie de observaciones o entradas y unas salidas deseadas que la red debería de obtener, y
el objetivo es aprender la correspondencia entre ambas. Es decir, el conjunto de entrenamiento
estará compuesto por pares de la forma:
𝑋 = {(𝑥 𝑛 , 𝑡 𝑛 }𝑁
𝑛=1
Donde “𝑥” es el vector de entradas, “𝑡” el de salidas deseadas y “𝑁” es el tamaño del conjunto de
entrenamiento. La aproximación que se sigue es partir del modelo genérico 𝑓 (∙) que representa
la red, totalmente definido excepto por una serie de parámetros o pesos “𝑤”, y con él producir
una buena aproximación a “𝑡”.
𝑦 = 𝑓 (𝑥 |𝑤)
25
Protocolo de Investigación
Héctor Paniagua Guerrero
Donde “𝑦” representa la salida proporcionada por la red. El algoritmo de aprendizaje optimizará
los parámetros de manera que la salida producida por el modelo sea los más parecida posible a
la del conjunto de entrenamiento. Es decir, se trata de encontrar el conjunto de parámetros 𝑤 ∗
que minimiza el error “𝐸” que, en cada paso del aprendizaje, indique lo cerca que está de la
solución.
De nuevo existe una serie de funciones de error que, por sus características, se utilizan más
frecuentemente. Todas ellas toman la forma de una suma del error que, para cada ejemplo “𝑛”
de aprendizaje, mide la diferencia entre la salida 𝑡 𝑛 que se debería haber obtenido. La forma de
medir dicho error dependerá del tipo de problema que se intente resolver. Así, si se trata de un
problema de regresión, la salida de la red es una variable continua y la función de error más
utilizada es el “Error Cuadrático Medio” (en adelante EMC):
𝑁
1
𝐸=
∑(𝑦 𝑛 − 𝑡 𝑛 )2 .
𝑁
𝑛=1
El uso de esta función permitirá que las salidas reales de la red modelen la función de
distribución media de las salidas deseadas utilizadas durante el entrenamiento.
Por otro lado, si hablamos de problemas de clasificación, la salida de la red no será única sino
que deberá de estar formada por tantas neuronas como clase posibles “𝐶”, y la salida deseada
estará codificada como un vector 𝑡 = (𝑡1 , 𝑡2 , … , 𝑡𝐶 ) de valores binarios (0,1) en el que solo el bit
correspondiente a la clase adecuada tomará el valor 1. En este caso, el objetivo a conseguir que
las salidas de la red modelen las probabilidades de pertenencia de las entradas a alguna de las
clases consideradas. Para conseguirlo, en esta situación resulta más adecuado utilizar la función
de entropía cruzada, cuya ecuación es:
𝑁
𝐶
𝑛
𝐸 = ∑ ∑(𝑦𝑘𝑛 )𝑡𝑘
𝑛=1 𝑘=1
Donde 𝑦𝑘𝑛 es la salida de la neurona “k” para el ejemplo de entrenamiento “n”. La diferencia
fundamental respecto al ECM es que, en este caso, no se valorará tanto la diferencia exacta
entre el valor deseado 𝑡𝑘𝑛 para cada neurona “k” de salida y el obtenido 𝑦𝑘𝑛 , sino que el resultado
de la clasificación sea el correcto. Es decir, que la neurona que representa la clase correcta sea
la que obtenga el mayor de activación a su salida.
Por otro lado, el tipo de problema y la función de error utilizada están muy ligados al tipo de
función de activación empleada en las neuronas de salida. En el caso de problemas de
clasificación, lo ideal es obtener valores discretos en las neuronas de salida (p.e., (0,1)) y que
además, éstas se pueden interpretar como probabilidades para lo que, en conjunto, la suma de
todas ellas deberá estar en el intervalo [0,1]. Con este fin, es recomendable utilizar la función
sigmoidea.
𝐹𝑘 (𝑢) =
1
1 + 𝑒 −𝑢
Otra forma alternativa de entrenamiento es el aprendizaje no supervisado. En este caso, en el
conjunto de entrenamiento los datos de entrada “x” no vienen acompañados de una salida
deseada, y el objetivo no es encontrar un mapeo entrada/salida, sino que encontrar patrones que
definan regularidades subyacentes en x. Además estos patrones ocurren con distintas
frecuencias y la red deberá de encontrar una estimación de la distribución de probabilidad de x, y
26
Protocolo de Investigación
Héctor Paniagua Guerrero
en otros el objetivo será inferir las clases existentes en las que agrupar los ejemplos de entrada
que presenten similitudes.
1.7.3 Redes Neuronales Supervisadas17
Algunos de los modelos re redes neuronales más populares son: en primer lugar; son la clase de
redes unidireccionales organizadas en capas (feed-forward) y con aprendizaje supervisado, que
son empleadas como clasificadores de patrones y estimadores de funciones. Estos modelos en
la literatura son denominados “mapping neural networks”, o redes neuronales para
representación (ajuste) funcional.
Dentro de este grupo de redes se analizará al “Perceptrón simple, Adalina y Perceptrón
multicapa”. El popular algoritmo de aprendizaje llamado retro propagación (backpropagation,
BP), y se aplica precisamente al último modelo. El perceptrón multicapa con aprendizaje BP (o
alguna de sus variantes) es el modelo neuronal más empleado en las aplicaciones prácticas (se
estima que el 70% de los desarrollos con redes neuronales hacen uso de sus variantes.
1.7.3.1 Redes Unidireccionales
Muchos problemas del mundo real pueden interpretarse desde el punto de vista de la estimación
o aproximación funcional, en el sentido de tratar de encontrar la función que a partir de un
conjunto de entradas proporciona la salida deseada. Por ejemplo, si queremos desarrollar un
reconocedor de caracteres manuscritos el objetivo será encontrar un sistema que implemente la
función que asocia la imagen de una determinada letra o carácter escrito con la clase que
pertenece.
Otro caso es el de la predicción de cotizaciones bursátiles, en el que mediante una red neuronal
se trataría de encontrar la función que relaciona diversas variables de entrada (cotizaciones
previas, tipos de interés, inflación, etc.) con la actual cotización en bolsa de una determinada
entidad o empresa.
1.7.3.2 El Asociador Lineal: Aprendizaje Hebbiano
Este modelo, mediante una transformación lineal, asocia un conjunto de patrones de entrada a
otros de salida. En este sentido, el Asociador Lineal consta únicamente de una capa de
neuronas lineales, cuyas entradas las denotamos por “x” y sus salidas por “y”, vector que
constituye además la respuesta a la red neuronal. Asimismo, denotaremos 𝑊 = {𝑤𝑖𝑗 } a la matriz
de pesos sinápticos; cada fila de W contiene los pesos de una neurona wi .
17
Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.42.
27
Protocolo de Investigación
Héctor Paniagua Guerrero
Asociador lineal (función de activación identidad)
𝑊 = (𝑤1 , 𝑤2 , … , 𝑤𝑚 )𝑇
La operación del asociador lineal es simplemente:
𝑦 = 𝑊𝑋
O bien,
𝑛
𝑦1 = ∑ 𝑤𝑖𝑗 , 𝑥𝑗
𝑗=1
Por tanto, cada neurona “i” del asociador lineal lleva a cabo la suma ponderada de las entradas
con sus pesos sinápticos. Es decir, dentro del marco de neurona estándar se calcula el potencial
sináptico por medio de la convencional suma ponderada, cantidad a la que aplica finalmente una
función de activación tipo identidad.
El asociador deberá de aprender a asociar “p” pares de entrada-salida, {(𝑥 𝜇 , 𝑡𝜇 )/1 ≤ 𝜇 ≤ 𝑝},
ajustando sus pesos “W” de modo que ante un cierto patrón de entrada x μ responda con tμ, y que
ante entradas similares, (𝑥 𝜇 + 𝜀), responda con salidas también próximas (𝑡𝜇 + 𝛿), (con 𝜀 𝑦 𝛿
cantidades pequeñas). El problema se centra en encontrar la matriz de pesos W óptima en el
sentido descrito. Para ello, en el campo de las redes neuronales normalmente se hace uso de
una regla de aprendizaje, que a partir de las entradas y de las salidas deseadas (en el caso de
aprendizaje supervisado), proporcione el conjunto óptimo de pesos W.
1.7.3.3 El Perceptrón Simple
Este modelo neuronal fue introducido por Rosenblatt a finales de los años cincuenta. La
estructura del perceptrón se inspira en las primeras etapas de procesamiento de los sistemas
sensoriales de los animales (ejemplo, el de la visión), en los cuales la información va
atravesando sucesivas capas de neuronas, que realizan un procesamiento progresivamente de
más alto nivel.
El Perceptrón simple es un modelo unidireccional, compuesto por dos capas de neuronas, una
sensorial o de entradas, y otra de salida. La operación de una red de este tipo, con “n” neuronas
de entrada y “m” de salida, se puede expresar como:
28
Protocolo de Investigación
Héctor Paniagua Guerrero
𝑛
𝑦𝑖 (𝑡) = 𝑓 (∑ 𝑤𝑖𝑗 𝑥𝑗 − 𝜃𝑖 ) , ∀𝑖 , 1 ≤ 𝑖 ≤ 𝑚
𝑗=1
Perceptrón simple y función de transferencia de su neurona
Las neuronas de entrada no realizan ningún cómputo, únicamente envían la información (en
principio consideraremos señales directas discretas {0, +1}) a las neuronas de salida (en el modo
de entrada estas neuronas de entrada representaban información ya procesada, no datos
directamente procedentes del exterior). La función de activación de las neuronas de la capa de
salida es de tipo escalón. Así, la operación de un perceptrón simple puede escribirse:
𝑛
𝑦𝑖 = 𝐻 (∑ 𝑤𝑖𝑗 𝑥𝑗 − 𝜃𝑖 ) , ∀𝑖 , 1 ≤ 𝑖 ≤ 𝑚
𝑗=1
Con “H” (.) la función de Heaviside o escalón. El perceptrón puede utilizarse tanto como
clasificador, como para la representación de funciones booleanas, pues su neurona es
esencialmente de tipo “MacCulloch-Pitts, de salida binaria. La importancia histórica del
perceptrón radica en su carácter de dispositivo entrenable, pues el algoritmo de aprendizaje del
modelo introducido por Rosenblatt, permite determinar automáticamente los pesos sinápticos
que clasifican un conjunto de patrones a partir de un conjunto de ejemplos etiquetados.
Un perceptrón permite realizar tareas de clasificación. Cada neurona del perceptrón representa
una determinada clase, de modo que dado un vector de entrada, una cierta neurona responde
con “0” si no pertenece a la clase que representa, y con un 1 si sí pertenece. Es fácil ver que una
neurona tipo perceptrón solamente permite discriminar entre dos clases “linealmente separables”
(es decir, cuyas regiones de decisión pueden ser separadas mediante una única condición lineal
o hiperplano). Sea una neurona tipo perceptrón de dos entradas, x 1 y x2, con salida y, cuya
operación se define, por tanto:
29
Protocolo de Investigación
Héctor Paniagua Guerrero
Regiones de decisión en el plano
𝑛
𝑦𝑖 = 𝐻 (∑ 𝑤𝑖𝑗 𝑥𝑗 − 𝜃𝑖 )
𝑗=1
O bien
1,𝑠𝑖 𝑤 𝑥 + 𝑤 𝑥 ≥𝜃
𝑦 = {0,𝑠𝑖 𝑤11 𝑥11 +𝑤22𝑥22<𝜃
Si consideramos x1 y x2 situadas sobre los ejes de abscisas y ordenadas en el plano, la
condición:
𝑤1 𝑥1 + 𝑤2 𝑥2 − 𝜃 = 0 → 𝑥2 = −
𝑤1
𝜃
𝑥 +
𝑤2 1 𝑤2
Representa una recta (hiperplano, si trabajamos con “n” entradas) que divide el plano (espacio)
en dos regiones, aquéllas para las que la neurona proporciona una salida “0” o “1”,
respectivamente (como la figura de arriba). Luego, efectivamente, una neurona tipo perceptrón
representa un discriminador lineal, al implementar una condición lineal que separa dos regiones
en el espacio, que representa dos diferentes clases de patrones.
1.7.3.4 El algoritmo de aprendizaje del Perceptrón18
La importancia del perceptrón radica en su carácter de dispositivo entrenable, pues el algoritmo
de aprendizaje introducido por Rosenblatt permite que el perceptrón determine automáticamente
los pesos sinápticos que clasifican un determinado conjunto de patrones etiquetados.
El del perceptrón es un algoritmo de aprendizaje de los denominados por “corrección de
errores”. Los algoritmos de este tipo (en el que incluiremos también el de la adalina y el BP)
ajustan los pesos en proporción a la diferencia existente entre la salida actual de la red y la salida
deseada, con el objetivo de minimizar el error actual de la red.
La regla de aprendizaje. Sea un conjunto de “p” patrones x μ, μ=1,…,p, con sus salidas deseadas
tμ. Tanto las entradas como las salidas solo pueden tomar los valores -1 o 1 (o bien, 0 o 1, según
definamos los niveles lógicos). Se tiene una arquitectura de perceptrón simple, con pesos
iniciales del conjunto de aprendizaje (lo cual es posible solamente si son separables
linealmente).
18
Inteligencia artificial, técnicas métodos y aplicaciones, J. Palma y R. Martín, Ed. MacGraw Hill, Año 2008. Páginas 430.
30
Protocolo de Investigación
Héctor Paniagua Guerrero
Por lo que actuaremos del siguiente modo, ante la presentación del patrón μ-ésimo, si la
respuesta que proporciona el perceptrón es correcta, no actualizaremos los pesos; si es
incorrecta, los modificaremos según la regla de Hebb se tiene:
𝜇
∆𝑤𝑖𝑗 (𝑡)
=
𝜇 𝜇
𝜇
𝜇
𝜇
𝜇
2𝜀𝑡𝑖 𝑥𝑗 ,𝑠𝑖 𝑦𝑖 ≠ 𝑡𝑖
{0,𝑠𝑖 𝑦𝜇= 𝑡 𝜇
𝑖
𝑖
Que se puede rescribir del siguiente modo:
𝜇
𝜇
∆𝑤𝑖𝑗 (𝑡) = 𝜀. (𝑡𝑖 − 𝑦𝑖 )𝑥𝑗
Que es la forma habitual de expresar la regla del perceptrón. En su utilización práctica, se debe
llegar a un compromiso para el valor del ritmo de aprendizaje 𝜀 , puesto que un valor pequeño
implica un aprendizaje lento, mientras que uno excesivamente grande puede conducir a
oscilaciones en el entrenamiento, al introducir variaciones en los pesos excesivamente amplias.
Al ser las entradas y las salidas discretas {-1, +1}, también lo será la actualización de los pesos
(2.21), que únicamente podrá tomar los valores 0 o ±2 𝜀 .
Una forma mucho más gráfica de introducir la regla del perceptrón es la siguiente. Sea la
neurona i tipo perceptrón {-1, +1}, cuyo vector de pesos es 𝑤𝑖 . Se presenta el patrón de entrada
𝜇
𝑥 𝜇 , la salida objetivo de la neurona i ante este patrón es 𝑡𝑖 . La operación de la neurona la
escribimos como
𝑛
𝜇
𝑦𝑖
(𝑡) = 𝑠𝑖𝑔𝑛𝑜 (∑ 𝑤𝑖𝑗 𝑥𝑗𝜇 − 𝜃𝑖 ) = 𝑠𝑖𝑔𝑛𝑜(𝒘𝑖 . 𝒙𝜇 ) = 𝑠𝑖𝑔𝑛𝑜(∥ 𝒘𝑖 ∥ . ∥ 𝒙𝜇 ∥ 𝐜𝐨𝐬(∅))
𝑗=1
Considerando el umbral como un peso adicional de entrada -1 (véase el capítulo 1), y siendo ∅ el
ángulo que forman los vectores de pesos y entradas. La hipersuperficie 𝑤𝑖. 𝑥 𝜇 =0 establece la
condición lineal que separa el espacio en dos regiones, etiquetadas por -1
y + 1,
respectivamente. En el proceso de aprendizaje, ante la presentación del patrón 𝜇-ésimo en la
iteración t pueden darse los siguientes casos:
𝜇
𝜇
a) La salida objetivo de la neurona es 𝑡𝑖 =+1, pero su salida actual es 𝑦𝑖 =-1.
En este caso, el producto escalar 𝑤𝑖. 𝑥 𝜇 debería ser positivo, pero es negativo, lo cual indica
que el ángulo existente entre 𝑤𝑖 y 𝑥 𝜇 es mayor de 90° (∅ ∈ [𝜋/2,3𝜋/2], Figura 2.6). Así, la
regla de aprendizaje del perceptrón debería en este caso acercar 𝑤𝑖 a 𝑥 𝜇 para reducir el
ángulo que forman, y eventualmente conseguir que sea inferior a 90° (𝑤𝑖. 𝑥 𝜇> 0), lo cual se
puede realizar del siguiente modo (véase la Figura 2.6a)
𝜇
𝜇
𝑤𝑖 (𝑡 + 1) = 𝑤𝑖 (𝑡) + 𝛼. 𝑥 𝜇
𝜇
𝜇
b) La salida objetivo de la neurona es 𝑡𝑖 =-1, pero su salida actual es 𝑡𝑖 =+1. Razonando al
revés que en el caso anterior, la regla de aprendizaje deberá alejar 𝑤𝑖 de 𝑤 𝜇 , por lo tanto en
este caso (figura 2.6b)
𝜇
𝜇
𝑤𝑖 (𝑡 + 1) = 𝑤𝑖 (𝑡) − 𝛼. 𝑥 𝜇
31
Protocolo de Investigación
Héctor Paniagua Guerrero
μ
μ
c) La salida objetivo de la neurona t i coincide con su salida actual yi . En este caso la regla de
aprendizaje no actúa.
Figuras pag. 54 figura 2.6.
Figura 2.7 Regiones de decisión que establece iterativamente el perceptrón durante el
aprendizaje (en la iteracción 115 ha conseguido separar ya las dos clases)
Es fácil comprobar que los tres casos se resumen en la siguiente regla:
𝜇
𝜇
𝑤𝑖 ( 𝑡 + 1) = 𝑤𝑖 (𝑡) + (∝/2). 𝑥 𝜇 (𝑡𝑖 − 𝑦𝑖 )
Y llamando 𝜀 ≡ 𝛼/2 , se tiene
𝜇
𝜇
∆𝒘𝑖 (𝑡) = 𝜀. 𝒙𝜇 (𝑡𝑖 − 𝑦𝑖 )
Que es la regla del perceptrón (2.21) ya conocida.
Es importante remarcar que el proceso de aprendizaje es iterativo: se parte de una configuración
sináptica de partida (de pesos pequeños alaetorios, habitualmente), y se presentan otra vez los
patrones, para que los pesos se ajusten iterativamente según (2.21), hasta que todos queden
bien clasificados. El hiperplano que establece el límite entre dos clases se desplaza lentamente
hasta conseguir separarlas por completo (sin ello es posible), como se puede apreciar en la
Figura 2.7. El ajuste de los pesos en la iteración t debido a todo el conjunto de aprendizaje será
𝑝
𝜇
𝑤𝑖𝑗 (𝑡 + 1) = 𝑤𝑖𝑗 (𝑡) + ∑𝜇=1 ∆𝑤𝑖𝑗 (𝑡)
Rosenblatt demostró que si la función a representar es linealmente separable, este algoritmo
siempre converge en un tiempo finito y con independencia de los pesos de partida. Por otra
parte, si la función no es linealmente separable, el proceso de entrenamiento oscilará. Una
prueba de la convergencia del algoritmo puede encontrarse. Por otro lado, el algoritmo del
perceptrón se detiene tan pronto como consigue clasificar correctamente todos los ejemplos, por
lo que con frecuencia la línea de discriminación queda muy cerca de las muestras de uno de los
grupos (en la Figura 2.7 ha quedado cerca de los patrones ´0´). Para obtener una discriminación
óptima (en medio de ambos grupos) se han introducido algoritmos como el denominado
Adatron.
1.7.3.5 Adalina (Widrow, 1961)
Otro de los modelos clásicos es la Adalina (Adaline), introducida por Widrow en 1959, cuyo
nombre proviene de Adaptive Linear Neuron. Este modelo utiliza una neurona similar a la del
perceptrón, pero de respuesta lineal (figura 2.8), cuyas entradas pueden ser continuas. Por otra
parte, a diferencia del nodo del asociador lineal, el de la adalina incorpora un parámetro adicional
denominado bias, que traduciremos como umbral, aunque tenerse en cuenta que no se trata de
un umbral de disparo como el del perceptrón, sino de un parámetro que proporciona un grado de
libertad adicional 7. De este modo, la ecuación de la adalina queda
Pag. 55 figura 2.8
𝑦𝑖 (𝑡) = ∑𝑛𝑖=1 𝑤𝑖𝑗 𝑥𝑗− 𝜃𝑖, ∀𝑖, 1 ≤ 𝑖 ≤ 𝑚
32
Protocolo de Investigación
Héctor Paniagua Guerrero
No obstante, la diferencia más importante con el perceptrón y con el asociador lineal reside en la
regla de aprendizaje que implementa. En la adalina se utiliza la regla d Windrow-Hoff, también
conocida como regla LMS (Least Mean Squares, mínimos cuadrados), que conduce a
actualizaciones de tipo continuo, siendo la actualización de los pesos proporcional al error que la
neurona comete.
Este ANS es un modelo muy conocido y ampliamente utilizado, aunque en ocasiones se hace
más referencia a su carácter de dispositivo adaptativo lineal que a su naturaleza neuronal. La
adalina se viene utilizando con asiduidad desde los años sesenta como filtro adaptativo, por
ejemplo, para cancelar el ruido en la transmisión de comunicaciones telefónicas por satélite: para
el interesado en profundizar en el tema, una interesante introducción al tratamiento de señal con
la adalina se expone en. De este modo, y desde hace años, millones de módems en todo el
mundo incluyen una adalina.
Su utilidad se ve limitada por tratarse de un sistema lineal. Así, solamente podrá separar
correctamente patrones linealmente independientes, fallando en ocasiones ante patrones
linealmente separables, que el perceptrón siempre discrimina. No obstante, ante patrones no
separables linelamente, los resultados que proporciona son en promedio mejores que los del
perceptrón], pues la adalina siempre opera reduciendo el error cuadrático medio al mínimo
posible.
1.7.3.6 El Perceptrón Multicapa
Si añadimos capas intermedias (ocultas) a un perceptrón simple, obtendremos un perceptrón
multicapa o MLP (Multi-Layer Perceptrón). Esta arquitectura suele entrenarse mediante el
algoritmo denominado retropropagación de errores o BP, o bien haciendo uso de alguna de sus
variantes o derivados, motivo por el que en muchas ocasiones el conjunto arquitectura MLP +
aprendizaje BP suele denominarse red de retropropagación, o simplemente BP.
Como se describe en el proceso de desarrollo del BP resulta una curiosa historia de
redescubrimientos y olvidos. Al parecer, fue Werbos quien introdujo por primera vez el BP en su
tesis doctoral en 1974, pero el hecho no tuvo demasiada repercusión en la época. Años más
tarde, hacia 1984, el BP fue redescubierto por D. Parker, y casi a la vez (1985) por el grupo de
PDP quienes realmente lo popularizaron. Además, existe un procedimiento matemático
recursivo empleado en control, de apariencia similar al BP, que data de 1969.
Pese a todo, el mérito del éxito de BP se debe al trabajo del grupo PDP, que lo presentaron a la
comunidad internacional como una técnica útil de resolución de problemas complejos, lo que
despertó el interés, no solo por el perceptrón, sino por el campo de la neurocomputación en
general. Los importantes requisitos de cómputo que el algoritmo BP precisa no podían ser
satisfechos con los medios disponibles a principios de los setenta, por lo que el primer
descubrimiento del BP era quizás algo prematuro. Por fin en los años ochenta los computadores
eran suficientemente potentes como para permitir la aplicación del BP a problemas de interés, lo
cual permitió que el grupo PDP pudiera mostrar su gran potencial de aplicabilidad a la resolución
de tareas complejas.
La estructura del MLP se presenta en las Figuras 2.10 y 2.11 Denominaremos 𝑥𝑖 a las entradas
de la red, 𝑡𝑘 serán las salidas objetivo (target). Por otro lado,𝑤𝑖𝑗 son los pesos de la capa oculta y
´
𝜃𝑗 sus umbrales, 𝑤𝑘𝑗
los pesos de la capa de salida y 𝜃𝑘′ sus umbrales. La operación de un MLP
con una capa oculta y neuronas de salida lineal (estructura que constituye, como veremos, un
aproximador universal de funciones) se expresa matemáticamente de la siguiente manera:
33
Protocolo de Investigación
Héctor Paniagua Guerrero
𝑧𝑘= ∑ 𝑤′𝑘𝑗 𝑦𝑗 − 𝜃𝑖= ∑ 𝑤´𝑘𝑗 ƒ (∑ 𝑤𝑖𝑗 𝑥𝑖 − 𝜃𝑗 ) − 𝜃𝑖´
𝑗
𝑗
𝑖
Siendo ƒ (.) de tipo sigmoideo (Figura 2.10), como por ejemplo, las siguientes:
ƒ(𝑥) =
ƒ(𝑥) =
1
1 + ℯ −𝑥
ℯ 𝑥 − ℯ −𝑥
−𝑥 = tanh(𝑥)
ℯ 𝑥+ℯ
Proporcionando la primera una salida en el intervalo [0,+1] la segunda.
Ésta es la arquitectura más común de MLP, aunque existen numerosas variantes, como incluir
neuronas no lineales en la capa de salida (del mismo tipo que las (2.47), solición que se adopta
especialmente en problemas de clasificación), introducir más capas ocultas, emplear otras
funciones de activación, limitar el número de conexiones entre una neurona y las de la capa
siguiente, introducir dependencias temporales o arquitecturas recurrentes [Werbos 90], etc.
1.7.3.7 EL MLP como aproximador universal de funciones
El desarrollo del MLP durante los últimos treinta años ha resultado curioso. Partiendo de un
perceptrón monocapa y observando sus limitaciones computacionales, se llegó a la arquitectura
perceptrón multicapa, y aplicándolo a numerosos problemas, se comprobó experimentalmente
que éste era capaz de representar complejos mappings y de abordar problemas de clasificación
de gran envergadura, de una manera eficaz y relativamente simple. Sin embargo, faltaba una
demostración teórica que permitiese explicar sus aparentemente enormes capacidades
computacionales.
Este proceso histórico comienza con McCulloch y Pitts, quienes mostraron que mediante su
modelo de neurona (esencialmente un dispositivo de umbral) podría representarse cualquier
función booleana; mucho más tarde, Denker y otros demostraron que toda función booleana
podía ser representada por una red unidireccional multicapa de una sola capa oculta. Por las
mismas fechas, Lippmann mostró que un perceptrón con dos capas ocultas bastaba para
representar regiones de decisión arbitrariamente complejas.
Por otra parte, Lapedes y Farber demostraron que un perceptrón de dos capas ocultas es
suficiente para representar cualquier función arbitraria (no necesariamente boolena). Más tarde,
Hecht-Nielsen aplicando el teorema de Kolmogrov demostró que una arquitectura de
características similares al MLP, con una única capa oculta, resultaba ser un aproximador
universal de funciones. Por fin, a finales de la década, diverso grupos propusieron casi a la par
teoremas muy similares que demostraban matemáticamente que un MLP convencional, de una
única capa oculta (ecuación 2.46), constituía, en efecto, un aproximador universal de funciones.
A título de ejemplo, enunciaremos uno de estos teoremas.
Teorema [Funahashi 89]. Sea ƒ(x) una función no constante, acotada y monótona creciente.
Sea K un subconjunto compacto (acotado y cerrado) de ℜ𝑛 . Sea un número real 𝜀 ∈ ℜ, y sean un
entero 𝑘 ∈ 𝑧, tal que 𝑘 ≥ 3, que fijamos. En estas condiciones, se tiene que:
Cualquier mapping 𝒈: 𝒙 ∈ 𝐾 → (𝑔1 (𝒙), 𝑔2 (𝒙), … , 𝑔𝑚(𝒙)) ∈ ℜ𝑚 , con 𝑔𝑖 (𝑥) sumables en K, puede
ser aproximado en el sentido de la topología 𝐿2 en K por el mapping entrada-salida representado
por una red neuronal unidireccional (MLP) de k capas (k-2 ocultas), con ƒ(x) como función de
transferencia d las neuronas ocultas, y funciones lineales para las de las capas de entrada y de
salida. En otras palabras:
34
Protocolo de Investigación
∀𝜀 > 0, ∃
Héctor Paniagua Guerrero
MLP de las características anteriores, que implementa el mapping
𝒈′ : 𝒙 ∈ 𝐾 → (𝑔′ 1(𝒙), 𝑔′ 2(𝒙), … , 𝑔′ 𝑚(𝒙)) ∈ ℜ𝑚
De manera que
′
1/2
𝑑𝐿2(𝐾) (𝒈, 𝒈′ ) = (∑𝑚
<𝜀
𝑖=1 ∫𝐾 | 𝑔𝑖 ( 𝑥1,…, 𝑥𝑛 ) − 𝑔𝑖 ( 𝑥1,…, 𝑥𝑛 ) | 𝑑𝒙 )
Es más fácil observar que las funciones sigmoideas empleadas habitualmente en el MLP
(ecuación (2.47)) cumplen las condiciones exigidas a ƒ(x). Hornik llega a un resultado similar,
considerando funciones de activación sigmoideas, no necesariamente continuas.
En resumen, un MLP de una única capa oculta puede aproximar hasta el nivel deseado cualquier
función continua en un intervalo 8 , por lo tanto, las redes neuronales multicapa unidireccionales
son aproximadores universales de funciones. A partir de la expresión que define la operación
de este tipo de red.
𝑔𝑘′ (𝒙) = ∑ 𝑤′𝑘𝑗 𝑦𝑗 − 𝜃′𝑖 = ∑ 𝑤′𝑘𝑗 ƒ (∑ 𝑤′𝑖𝑗 𝑥𝑖 − 𝜃𝑗 ) − 𝜃𝑖′
𝑗
𝑗
𝑖
Podemos observar que la g’(x) dada por el MLP representa una cierta función g(x), como un
desarrollo en funciones sigmoideas ƒ(𝑥), lo cual posee una clara analogía con la representación
convenciónal de una función periódica como un desarrollo en serie de Fourier de sinusoides.
También se han establecido paralelismos entre el MLP y otros tipos de transformaciones, como
la de Gabor o las wavelets.
Los teoremas citados resultan de vital importancia, puesto que proporcionan una sólida base
teórica al campo de las redes neuronales, al incidir sobre un aspecto (la aproximación funcional)
y un modelo (el MLP) centrales en la teoría de las redes neuronales artificiales. No obstante,
todavía quedan muchos asuntos abiertos. Por ejemplo, estos teoremas no informan sobre el
número de nodos ocultos necesarios para aproximar una función determinada, simplemente se
afirma que hay que colocar lo necesario para lograr el nivel de aproximación requerido. Para un
problema concreto, muy bien pudiera ocurrir que el número de neuronas ocultas para alcanzar
una cierta cota de error sea tan elevado que su aplicación resulte inabordable en la práctica.
Una solución al problema de entrenar los nodos de las capas ocultas de las arquitecturas
multicapa la proporciona el algoritmo de retropropagación de errores o BP (back-propagation).
En el marco conceptual que estamos describiendo la deducción del BP aparece como una
consecuencia natural de extender el algoritmo LMS a las redes multicapa. Para ello, se planteará
un funcional de error similar al (2.43), y se derivará, no sólo en función de los pesos de la capa
de salida, sino también en función de los pesos de las neuronas ocultas, haciendo uso de la
regla de la cadena; en consecuencia, habrá que exigir que las funciones de transferencia de las
neuronas sean derivables.
Sean un MLP de tres capas, cuya arquitectura se presenta en la Figura 2.11, con las entradas,
salidas pesos y umbrales de las neuronas definidas en la sección anterior. Dado un patrón de
entada 𝑥 𝜇 ,(𝜇 = 1, … , 𝑝), recordemos que la operación global de esta arquitectura se expresa del
siguiente modo:
Dibujo pag. 66
35
Protocolo de Investigación
Héctor Paniagua Guerrero
𝜇
𝜇
𝜇
𝑧𝑘 = 𝑔 (∑ 𝑤′𝑘𝑗 𝑦𝑗 − 𝜃𝑘′ ) = 𝑔 (∑ 𝑤′𝑘𝑗 ƒ (∑ 𝑤𝑗𝑖 𝑥𝑖 − 𝜃𝑗 ) − 𝜃𝑘′ )
𝑗
𝑖
g(.) es la función de activación de las neuronas de salida y ƒ(.) la de las ocultas. Ambas pueden
ser sigmoideas (2.47), aunque a menudo la función de las neuronas de salida g(.) se considera la
identidad (2.46) De nuevo partimos del error cuadrático medio como función costo.
𝐸(𝑤𝑗𝑖, 𝜃𝑗, 𝑤′𝑘𝑗 , 𝜃𝑘′ ) =
1
𝜇
𝜇
∑ ∑ [ 𝑡𝑘 − 𝑔 (∑ 𝑤′𝑘𝑗 𝑦𝑗 − 𝜃𝑘′ )]
2
𝜇
𝑘
2
𝑗
Cuya minimización se lleva a cabo mediante descenso por el gradiente; en esta ocasión habrá
′
un gradiente respecto de los pesos de la capa de salida (𝑤𝑘𝑗
) y otro respecto de los de la oculta
(𝑤𝑗𝑖 )
Las expresiones de actualización de los pesos se obtienen derivando teniendo en cuenta las
dependencias funcionales y aplicando la regla de la cadena
′𝜇
′𝜇 𝜇
′𝜇
𝜇
′𝜇
′
𝛿𝑤𝑘𝑗
= 𝜀 ∑ ∆𝑘 𝑦𝑗 , 𝑐𝑜𝑛 ∆𝑘 = [𝑡𝑘 − 𝑔( ℎ𝑘 )]
𝜕𝑔(ℎ𝑘 )
′𝜇
𝜕ℎ𝑘
𝜇
′
𝛿𝑤𝑘𝑗
= −𝜀
′𝜇
𝜕𝐸
′
𝜕𝑤𝑘𝑗
𝛿𝑤𝑗𝑖 = −𝜀
′𝜇
𝜇
′
𝑦 ℎ𝑘 = ∑ 𝑤𝑘𝑗
𝑦𝑗 − 𝜃𝑘′
𝜕𝐸
𝜕𝑤𝑗𝑖
𝜇
ℎ𝑘 𝑦 ℎ𝑗 son los potenciales postsinápticos (o locales). La actualización de los bias (o umbrales)
se realiza haciendo uso de las expresiones anteriores, considerando que el bias es un caso
particular de peso sináptico, cuya entrada es una constante igual a -1, como vimos ya en el caso
de adaline (sección 2.4.1).
En estas expresiones está implícito el concepto de propagación hacia atrás de los errores
′𝜇
(backpropagation) que da nombre al algoritmo. En primer lugar se calcula la expresión ∆𝑘 (2.54),
que denominaremos señal de error, por ser proporcional al error de la salida actual de la red, con
′
el que calculamos la actualización 𝛿𝑤𝑘𝑗
de los pesos de las sinapsis, proporcionando así las
𝜇
señales de errores ∆𝑗 (2.55), correspondientes a las sinapsis de la capa oculta; con éstas se
calcula la actualización 𝛿𝑤𝑗𝑖 de las sinapsis ocultas. El algoritmo puede extenderse fácilmente a
arquitecturas con más de una capa oculta siguiendo el mismo esquema.
En resumen, el procedimiento a seguir para entrenar mediante BP una arquitectura MLP dada es
el siguiente:
1) Establecer aleatoriamente los pesos y umbrales iniciales (t:=0).
2) Para cada patrón 𝜇 del conjunto de aprendizaje:
2.1) Llevar a cabo una fase de ejecución para obtener la respuesta de la red ante el patrón 𝜇 −
é𝑠𝑖𝑚𝑜 (2.51).
′𝜇
𝜇
2.2) Calcular las señales de error asociadas ∆𝑘 𝑦 ∆𝑗 según (2.54-55)).
′
3) Calcular el incremento total (para todos los patrones) actual de los pesos 𝛿𝑤𝑘𝑗
𝑦 𝛿𝑤𝑗𝑖 según (2.5455). Hacer lo mismo para los umbrales.
4) Actualizar pesos y umbrales.
5) Calcular el error actual (2.52), t:= t+1, y volver a 2) si todavía no es satisfactorio.
Se debe comenzar siempre con pesos iniciales aleatorios (normalmente números pequeños,
positivos y negativos), ya que si se parte de pesos y umbrales iniciales nulos el aprendizaje no
36
Protocolo de Investigación
Héctor Paniagua Guerrero
progresará (puesto que las salidas de las neuronas y el incremento en los pesos serán siempre
nulos). En la siguiente sección se explicará una heurística que permite elegir unos pesos iniciales
adecuados.
En el esquema presentado, que surge de forma natural del proceso de descenso por le
gradiente, se lleva a cabo una fase de ejecución para todos y cada uno de los patrones del
conjunto de entrenamiento, se calcula la variación en los pesos debida a cada patrón, se
acumulan, y solamente entonces se procede a la actualización de los pesos.
Este esquema se suele denominar aprendizaje por lotes (batch). Otra posibilidad consiste en
actualizar los pesos sinápticos tras la presentación de cada patrón 𝜇 (en vez de presentarlos
todos y luego actualizar), esquema denominado aprendizaje en serie (on line). Recientemente
se ha demostrado que el aprendizaje en serie estima mejor el gradiente, permite emplear ritmos
de entrenamiento mayores y suele ser más rápido (hasta varios órdenes de magnitud). El modo
serie es habitualmente empleado en aquellos problemas en los que se dispone de extensos
conjuntos de patrones de aprendizaje. Si se emplease en este caso el modo por lotes, el tener
que procesar todos los patrones antes de actualizar los pesos demoraría considerablemente el
entrenamiento (además de precisar el almacenamiento de numerosos resultados parciales).
Es importante considerar que en el aprendizaje en serie el orden en la presentación de los
patrones debe ser aleatorio, puesto que si siempre se siguiese un mismo orden el entrenamiento
estaría viciado a favor del último patrón del conjunto de entrenamiento, cuya actualización, por
ser la última, siempre predominaría sobre las anteriores. Además, esta aleatoriedad presenta
una importante ventaja, puesto que en ocasiones permite escapar de mínimos locales
alcanzándose mínimos del error más profundos.
El algoritmo BP constituye un método de gran generalidad, lo que presenta ventajas e
inconvenientes. Su ventaja principal es que se puede aplicar a multitud de problemas diferentes,
proporcionando con frecuencia buenas soluciones con no demasiado tiempo de desarrollo. No
obstante, si se requiere una solución realmente excelente, habrá que dedicar más tiempo al
desarrollo del sistema neuronal, teniendo en cuenta diferentes cuestiones adicionales que
todavía no hemos abordado (partir de una arquitectura óptima, selección de los pesos iniciales,
estilo de aprendizaje, preprocesamiento de los datos de entrada, conjunto de patrones de
aprendizaje empleado, utilización de técnicas que eviten el sobreajuste, etc.).
Un inconveniente del BP es su lentitud de convergencia, precio a pagar por disponer de un
método general de ajuste funcional que no requiere (en principio) información apriorística. Sin
embargo, se debe tener en cuenta que el BP no requiere tanto esfuerzo computacional como el
que sería necesario si se tratasen de obtener los pesos de la red mediante la evaluación directa
de las derivadas; en ese sentido se ha comparado el BP con la transformada rápida de Fourier,
que permite calcular la transformada de Fourier con un muy inferior esfuerzo computacional.
Otro problema del BP es que puede incurrir en el denominado sobre aprendizaje (sobreajuste),
fenómeno directamente relacionado con la capacidad de generalización de la red a partir de los
ejemplos presentados, y sobre el que profundizaremos en la próxima sección. Po otra parte,
debe tenerse en cuenta que el algoritmo BP no garantiza alcanzar el mínimo global de la función
error, tan sólo un mínimo local, por lo que el proceso de aprendizaje puede estancarse en uno de
estos mínimos locales.
1.7.4 Redes Neuronales NO Supervisadas19
19
Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.85.
37
Protocolo de Investigación
Héctor Paniagua Guerrero
1.7.4.1 Redes autoorganizables20
1.7.4.2 Modelo de mapas autoorganizados (Kohonen, 1982)21
Riesgo empresarial22.
1.7.5
a) El riesgo empresarial, es el determinante individual más importante de la estructura de capital.
El riesgo empresarial varia de una industria a otra, además del riesgo básico corporativo puede
cambiar a lo largo del tiempo. Las compañías pequeñas, principalmente las que se dedican a un
solo producto, tienen también un grado de riesgo relativamente alto.
a. El riesgo empresarial depende de diversos factores, los más importantes incluyen lo siguiente:
i.
ii.
iii.
iv.
Variabilidad de las ventas (volumen y precios). Mientras más estables sean las ventas
unitarias (volumen) y los precios de los productos de una empresa, si todo lo demás se
mantiene constante, más bajo será su riesgo de negocio.
Variabilidad del precio de los insumos. Una empresa que opera en una industria, en la
que los precios de los insumos (mano de obra, costos de los productos, etc.) sean altamente
inciertos, se encuentra expuesta a un alto grado de riesgo de negocio.
Capacidad para ajustar los precios. De los productos ante los cambios observados en los
precios de los insumos. Algunas empresas tienen pocos problemas para aumentar los
precios de sus productos cuando los costos de los insumos aumentan. Así mientras más
grande sea la capacidad para ajustar los precios de venta, más bajo será el riesgo de
negocio. Este factor es especialmente importante durante los periodos de alta inflación.
Rigidez de los costos. Si un alto porcentaje de los costos operativos son fijos y no
disminuyen cuando la demanda se contrae, aumenta el riesgo de negocio de la empresa.
Este factor, recibe el nombre de apalancamiento operativo.
1) Cada uno de estos está determinado parcialmente por las características de la industria
de la empresa. Pero pueden ser controlados hasta cierto punto por la administración.
b) El riesgo financiero. Resulta de uso del apalancamiento financiero, el cual existe cuando una
empresa utiliza valores de renta fija, tales como deudas y acciones preferentes, para obtener
recursos de capital. Cuando recurre al apalancamiento financiero, una empresa intensifica el
riesgo del negocio que corren los accionistas comunes. Por tanto, el empleo de deudas
intensifica el riesgo corporativo asumido por los accionistas comunes. Nuestro objetivo es
determinar la estructura de capital que maximice el valor de la empresa, la cual se conoce como
la estructura de capital fijada como meta.
c) Administración de riesgo empresarial23. Administrar el riesgo es administrar el negocio, ya
que el riesgo es inherente en toda la organización. La naturaleza y extensión de los riesgos que
20
21
22
Inteligencia artificial con aplicaciones a la Ingeniería, Pedro Ponce Cruz, Ed. Alfaomega, Año 2010. Páginas 236.
Redes neuronales y sistemas borrosos, Ed. Alfaomega, Bonifacio Martín del Brío, Alfredo Sanz Molina, pág.88.
Scott Besley y Eugene F. Brighamm Fundamentos de administración financiera, Mc Graw Hill, 2008, págs. 523, 524, 525
38
Protocolo de Investigación
Héctor Paniagua Guerrero
se asumen dependen de los objetivos del negocio y la forma como se responde a esos riesgos al
intentar mitigarlos.
En este sentido, es importante apoyar a las empresas en el proceso de evaluación del grado de
alienación o balance entre los objetivos de crecimiento y retorno del negocio versus los riesgos
relacionados, cubriendo:










Objetivos de los negocios.
Factores críticos de éxito para el logro de los objetivos.
Definición de los principales roles y responsabilidades.
Los riesgos empresariales que podrían afectar la obtención de objetivos.
Índices de medición de riesgo corporativo.
Implantación de procesos de negocios que soporten sus operaciones.
Definición de estrategias en respuesta al riesgo para minimizarlo.
Evaluación de mejores prácticas financieras y de riesgos para el crecimiento sustentable
y creación de valor.
Evaluación de estrategias de mejores prácticas en respuestas a los modelos financieros
y que respondan a la administración del riesgo.
Aceptación de la cultura al riesgo.
Plan de implementación de modelos financieros y de la administración al riesgo.
a.






La administración de riesgos, que incluyen las siguientes capacidades:
Alinear el riesgo empresarial aceptado y la estrategia seleccionada.
Mejorar la respuesta a los riesgos corporativos.
Reducir las sorpresas y pérdidas operativas aplicando los modelos financieros.
Identificar y administrar modelos financieros y la diversidad de riesgos para la entidad.
Desarrollar y tomar las oportunidades de negocio.
Mejorar la rentabilidad al capital de la empresa.

d) Evaluación de riesgos: Es la identificación y análisis de los riesgos relevantes para el logro de
los objetivos de la organización. Cualquier entidad enfrenta una variedad de riesgos de fuentes
externas e internas que deben ser valorados para determinar cómo deben ser administrados:
evitarlos, aceptarlos, compartirlos o transferirlos a terceros.




Las corporaciones existen con el fin de generar valor para sus grupos de interés.
El reto para la corporación es definir qué nivel de incertidumbre se puede aceptar mientras se
incrementa el valor.
La incertidumbre conlleva riesgos y genera oportunidades; además de poseer el potencial de
reducir o aumentar el valor de la empresa.
Se busca la maximización de valor cuando la dirección establezca una estrategia y objetivos
para encontrar un equilibrio entre los objetivos del riesgo empresarial y su competitividad.
1.8.2
Marco de Referencia.
El enorme éxito que han tenido los algoritmos evolutivos en la solución de problemas del mundo real de
gran complejidad. De tal forma, es de esperarse que en los años siguientes el uso de este tipo de
técnicas prolifere aún más. Nótese, sin embargo, que es importante tener en mente que los algoritmos
evolutivos son técnicas heurísticas.
Por tanto, no garantizan que convergerán al óptimo de un problema dado, aunque en la práctica
suelen aproximar razonablemente bien el óptimo de un problema en un tiempo promedio
considerablemente menor que los algoritmos deterministas.
23
De Lara Haro Alfonso, Medición y control de riesgos financieros, Ed. Limusa, 2008, págs. 11-20
39
Protocolo de Investigación
Héctor Paniagua Guerrero
Algunas aplicaciones de los Algoritmos Genéticos 24 son las siguientes:
a)
b)
c)
d)
e)
f)
1.7.6
Optimización (estructural, de topologías, numérica, combinatoria, etc.)
Aprendizaje de máquina (sistemas clasificadores)
Bases de datos (optimización de consultas)
Reconocimiento de patrones (por ejemplo, imágenes o letras)
Generación de gramáticas (regulares, libres de contexto, etc.)
Predicción
Ventajas de las técnicas evolutivas en riesgos empresariales.
Es importante destacar las diversas ventajas que presenta el uso de técnicas evolutivas para
resolver problemas de búsqueda y optimización:
a)
Simplicidad Conceptual.
b)
Amplia aplicabilidad.
c)
Superiores a las técnicas tradicionales en muchos problemas del mundo real.
d)
Tienen el potencial para incorporar conocimiento sobre el dominio y para integrarse con
otras técnicas de búsqueda/optimización.
e)
Pueden explotar fácilmente las arquitecturas en paralelo.
f)
Son robustas a los cambios dinámicos.
1.8
Metodología de la investigación
Los tipos de investigación que se están considerando para el presente proyecto están basados
en una mezcla de investigación exploratoria y descriptiva25 y más que considerar una
clasificación, constituye un continuo de “causalidad” del alcance que se puede tener. Con esta
reflexión importante, la estrategia de la investigación, así como el diseño, los procedimientos y
otros componentes de los procesos serán distintos.
En este sentido, se propone desarrollar un simulacro de administración de riesgo empresarial
sobre modelos multivariables dinámicos construidos a partir de redes neuronales artificiales, para
predecir el signo de las variaciones semanales de los índices corporativos. Los resultados
estarán siendo evaluados con modelos AR, MA, ARIMA, series de tiempo, regresión lineal y
múltiple,26 y un modelo multivariable construido en forma aleatoria. Los mejores modelos
producidos por las redes neuronales artificiales arrojaron un porcentaje de predicción de signo.
Para cada paso se obtendrá una probabilidad y una estadística, obteniéndose al final una traza
de la ejecución de la red neuronal artificial, y que coopera también con dichas resultados a un
nivel más detallado. Permitiendo evaluar el desempeño propuesto.
La administración de riesgo empresarial. El administrar el riesgo es administrar el negocio, ya
que el riesgo es inherente en toda la organización. Por lo que la naturaleza y la extensión del
riesgo que se asume dependen de los objetivos del negocio y la forma de como se responde a
esos riesgos al intentar mitigarlos.
24
Algoritmos genéticos y computación evolutiva Adam Marczyk 2006, pág. 54,55, 56
25
Hernández Sampieri Roberto, Metodología de la Investigación, Ed. Mc Graw Hill, 2006, Pág. 100-101
26
Dernodar N. Gujarati, Econometría, Ed. Mc Graw Hill, 2006, Pág. 100-101
40
Protocolo de Investigación
Héctor Paniagua Guerrero
Se pondrá énfasis en la aplicación de modelo como una herramienta de administración de riesgo
empresarial así como la econometría expondrá conceptos y conocimientos de procesos
estocásticos, probabilidad e inferencia estadística para la estimación y análisis de los modelos
econométricos.
1.9
Aportaciones
La principal aportación es demostrar que el modelo propuesto basado en redes neuronales
artificiales aplicado a los riesgos del negocio es capaz de obtener mejores aproximaciones tanto
en el ajuste como en el pronóstico, y que además nos permita observar que la aproximación
generada por medio de la metodología nos ayuda para la aplicación de las redes neuronales
artificiales en la predicción de variables económicas financieras. Así como también realizar un
análisis comparativo del modelo propuesto y utilizado como referencia para determinar qué
modelo proporciona los mejores resultados.
A. Teórica, (aportación del conocimiento). Por ejemplo: para el crecimiento exponencial de los
riesgos corporativos en la sociedad moderna que tiene sus proyecciones en el ámbito
económico. La volatilidad macroeconómica y financiera, el incremento de la competencia, la
fluctuación de la moneda nacional, la crisis energética, así como tantos otros peligros e
incertidumbres que se producen en el mundo empresarial y financiero, y una creciente
percepción de los riesgos a los que se enfrentan.
B. Metodológica. Los motivos básicos por los cuales se elabora esta investigación son: Para efectos
de poseer un instrumento de consulta y análisis que permita llevar a cabo una evaluación técnica
del valor determinado para la empresa, y asentar por escrito todas las consideraciones,
supuestos, fundamentos, premisas y criterios técnicos empleados en el riesgo corporativo.
C. Práctica. Hoy en día las empresas buscan en la práctica generar valor, y al valuar una empresa
se deben de tomar en cuenta tanto los recursos tangibles como los intangibles. Existen varios
motivos para llevar a cabo la valuación de empresas tales como; ingresos de nuevos socios,
retiro de accionistas, fusiones, adquisiciones, emisión de capital, co-inversiones, etc. Por tanto es
importante considerar algunos de los factores que determinan el valor de una empresa tales
como; competitividad, inteligencia, talento, creatividad, edad, salud, cultura, historia, presencia
física, presencia de mercado, etc. Asimismo, algunos de los factores por los que las empresas
adquieren valor son por; sus utilidades, sus flujos de efectivo, la configuración de sus activos, la
estructura de sus pasivos, su productividad financiera, su rentabilidad, su efectividad, la certeza
de ventas futuras, su administración, su marca y su baja incertidumbre al riesgo.
41
Protocolo de Investigación
1.10
Héctor Paniagua Guerrero
Índice tentativo
2.0 Fuentes de información disponible
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
Introducción a la teoría general de la administración, Ed. McGraw Hill, Chiavenato
Idalberto.
Administración contemporánea, Ed. McGraw Hill, Gareth R. Jones, Jennifer M. George,
2007.
Administración de Pequeñas y Medianas Empresas, Ed. Thomson 5ta Edición,
Rodríguez Valencia Joaquín, 2007.
Administración y Dirección, Ed. McGraw Hill, Díez de Castro Emilio Pablo, 2007.
Micro, pequeña, mediana y gran empresa, estratificación de los establecimientos,
Censos Económicos, INEGI, 2004.
Administración de pequeñas empresas, Ed. McGraw Hill, Anzola Rojas Sérvulo, 2010.
Fundamentos de admón. financiera, Scott Besley y Eugene F. Brighamm, Mc Graw Hill,
2008.
Fundamentos de administración financiera, Van Horne James C., Pearson Prentice Hall,
2002.
Finanzas corporativas, Berk Jonathan y Demarzo Peter, Pearson Addison Wesley, 2008.
Fundamentos de inversiones, Gordon Alexander, William F. Sharpe, Bailey, Ed. Prentice
Hill, tercera edición, año 2007.
Introducción a los mercados de futuros y opciones, John C. Hull, Ed. Prentice Hall, 6ª
Edición, año 2009.
En busca del valor, G. Bennett Stewart, III, Ed. Gestión 2006
Valuación de empresas y creación de valor, UNAM, PriceWaterHouse, IMEF, Ed. L.
Ingramex, 2003.
La gestión del riesgo operacional, Ana Fernández Laviada, Ed. Limusa, 2010
Medición y control de riesgos financieros, De Lara Haro Alfonso, Ed. Limusa, 2008.
Valor en Riesgo, Philippe Jorion, Ed. Limusa, 2008.
Indicadores del fracaso en las empresas mexicanas, Dr. Rubén Martín Mosqueda, Ed.
IMEF
Riesgos financieros y económicos, Venegas Martínez Francisco, Ed. Cengage Learning,
2008.
Estadística Matemática con aplicaciones, Dennis D. Wackerly, William Mendenhall III,
Richard L. Scheaffer, Ed. Cengage Learning, 7ª Eición, año 2008.
Introducción a la probabilidad y estadística, Mendenhall William, Ed. Cengage Learning,
2006.
Estadística p/admón. y economía, Levin, Rubin, Balderas, Pearson Prentice Hall, 2007.
Investigación de operaciones en la ciencia administrativa, G.D. Eppen, F.J. Gould, C.P.
Schimdt, Ed. Prentice Hall, Quinta edición, 2005
Métodos cuantitativos para los negocios, Anderson Sweeney Williams Camm Martin, Ed.
Cengage Learning, 11ª, edición, 2010
Toma de decisiones a través de métodos cuantitativos “un enfoque algorítmico”, Mojica
Palacios José Ignacio, Ed. Trillas, 2002
Introducción al algebra lineal, Howard Anton, Ed. Limusa, 4ª edición, 2008
Algebra, Ximena Carreño Campos, Ximena Cruz Schmidt, 1ª edición, 2003
42
Protocolo de Investigación
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
Héctor Paniagua Guerrero
Cálculo diferencial para ingeniería, Prado, Santiago, Gómez, Quezada, Zúñiga, Ed.
Prentice Hill, primera edición, 2006.
Precálculo funciones y gráficas, Raymond A. Barnett, Michael R. Ziegler, Karl E. Byleen,
Ed. Mc Graw Hill, año 2007
Econometría, Dernodar N. Gujarati, Ed. Mc Graw Hill, 2006.
Econometría con aplicaciones, Eduardo Loria, Ed. Prentice Hall, 1ª edición, 2007
Pronósticos, series de tiempo y regresión, Bruce L. Bpwerman, Richard T. O’Conell,
Anne B- Koehler, Ed. Thompson, 4ª edición, 2007.
Técnicas de análisis multivariante de datos, César Pérez, Ed. Prentice Hall, 2007.
Análisis estadístico y pronóstico de series de tiempo económicas, Ed. Orión Impresiones,
3ª edición, 2009.
Pronósticos en los negocios, Hanke John E. y Wichern Dean W., Pearson Prentice Hall,
2007.
Inteligencia artificial, José T. Palma Méndez y Roque Marín Morales, Ed. McGraw Hill,
2008
Redes neuronales, Tatiana Baidyk y Ernst Kussul, Ed. Itaca, 2009.
Redes neuronales, James A. Anderson, Ed. Alfaomega, 2007.
Redes neuronales y sistemas borrosos, Bonifacio Martín del Brío y Alfredo Sanz Molina,
Ed. Alfaomega, 3ª edición, 2007
Inteligencia artificial con aplicaciones a la ingeniería, Dr. Pedro Ponce Cruz, Ed.
Alfaomega, 2010
Inteligencia artificial en la gestión financiera empresarial, Universidad del Atlántico
(Colombia). Especialista en Finanzas, Universidad del Norte (Colombia)María Del
Carmen Sosa Sierra
O'Leary, D.E. (1995): "Artificial intelligence in business", AI/ES Section of the American
Accounting Association, (en Internet, http://www.rutgers.edu/ accounting /raw/aaa/aiet).
CINVESTAV-IPN (Grupo de Computación Evolutiva), Santana Quintero, Luis Vicente
Departamento de Computación. Diciembre de 2006.
Simulación y análisis de sistemas, García Dunna Eduardo, Pearson Prentice Hall, 2004
Hernández Sampieri Roberto, Metodología de la Investigación, Ed. Mc Graw Hill, 2006.
43