Download Descarga aquí - El portal de la Diversidad Inclusiva

Document related concepts

Edwin Ray Guthrie wikipedia , lookup

Teoría del aprendizaje social wikipedia , lookup

Experimento Kerplunk wikipedia , lookup

John B. Watson wikipedia , lookup

Enseñanza programada wikipedia , lookup

Transcript
Capítulo 2:
TEORÍAS DE LA CONTIGÜIDAD EN LA TRADICIÓN
CONEXIONISTA
El interés del hombre por la psicología tiene una larga historia. Desde la época de los
antiguos griegos, por lo menos, los filósofos han meditado acerca de temas que ahor a se
consideran como parte de la psicología. ¿Cómo pensamos y sentimos, aprendemos y
sabemos, tomamos decisiones e influimos sobre ellas? Los intentos de responder a
estas preguntas constituyen una parte considerable de la historia de la filosofía. S in
embargo, sólo en el siglo XIX se empezó a tratar de estudiar estos temas
experimentalmente. El primer laboratorio psicológico fue fundado por Wilhelm Wundt
en Alemania, en 1879. Si bien antes se habían efectuado investigaciones en psicología,
esa fecha marca el momento en que la moderna psicología científica se colocó sobre una
base institucional definida.
Dentro de la psicología científica primitiva, Wundt y sus colegas al igual que los
filósofos en los que se habían inspirado en gran medida, se interesaban especialmente
en la experiencia consciente. Querían comprender las sensaciones, pensamientos y
sentimientos del hombre. Querían captar el flujo continuo del conocimiento consciente
y analizarlo en sus componentes fundamentales. ¿Las imágenes de la memoria son
iguales a las sensaciones? ¿Los sentimientos son un tipo especial de sensación o algo
radicalmente distinto? ¿Cómo se relaciona la intensidad de una sensación con la
intensidad del estímulo físico que la produce? Éstos era: los tipos de preguntas que
estudiaban los primeros psicólogos experimentales.
Este tipo de psicología, que se desarrolló en Alemania, se convirtió en gran medida
en la psicología estándar para el resto de Europa y América. La investigación en los
laboratorios de psicología y el examen de los temas en los manuales de psicología se
basaban principalmente en ese enfoque. Su aceptación, sin embargo, nunca fue
completa. En los Estados Unidos, por ejemplo, existía siempre una fuerte tendencia
tanto hacia el estudio de la conducta objetiva como al de la experiencia consciente.
Los psicólogos norteamericanos se interesaban tanto en lo que el individuo hacía como
en lo que pensaba o sentía. Junto con esto se despertó, fuera de Europa, un interés por
la psicología aplicada, por la utilización práctica que podía darse al conocimiento
psicológico. De este modo, si bien la psicología norteamericana se desarrolló
mayormente dentro del molde germánico, adquirió también sus propios rasgos
individuales.
WATSON Y EL CONDUCTISMO
A principios del siglo XX estos rasgos de la psicología norteamericana crearon un
antagonismo cada vez más acentuado hacia la tradición alemana. Se acrecentó la
presión para romper los moldes tradicionales y desarrollar una psicología orientada
francamente hacia la conducta objetiva y la utilidad práctica. En distintos grados, los
psicólogos alzaron sus voces para clamar: ¡Basta de estudiar lo que piensa y siente la
gente; empecemos a estudiar lo que hace! El representante más notorio de este
movimiento fue John B. Watson (1878-1958). Gracias a sus vigorosos ataques en contra
de la psicología tradicional y a sus intentos de construir un sistem a radicalmente
distinto, la psicología teórica norteamericana llegó a adquirir una fisonomía propia.
En 1903 Watson recibió el primer doctorado de filosofía en psicología otorgado por
la Universidad de Chicago. Su tesis era un estudio sobre la conducta de las ratas en el
aprendizaje del laberinto, y este interés por la conducta animallera típico de sus
primeros trabajos. Watson estaba impresionado por el hecho de que, al estudiar la
conducta animal, es posible hacer caso omiso de la conciencia y estudiar simplemente
lo que hace el animal. ¿Por qué, se preguntaba, no podemos hacer lo mismo con los
seres humanos? La conducta es real, objetiva y práctica, en tanto que la conciencia
pertenece al reino de la fantasía. ¡Suprimamos la conciencia de nuestros estudios y
ocupémonos de la conducta! En Chicago, los profesores de Watson estaban de acuerdo
con muchas de sus objeciones a la psicología tradicional, pero consideraban que su
solución era demasiado radical. Quizá pensaban que, como tantos jóvenes rebeldes, se
haría más conservador con la edad y la responsabilidad. En el caso de Watson, sin
embargo, ese cambio no se produjo. Después de incorporarse al cuerpo docente de la
universidad de Johns Hopkins en 1908 llegó a convencerse por completo de que su
posición extrema era la respuesta a los problemas de la psicología. [En 1913 publicó la
primera declaración formal de su posición, un artículo titulado «La ps icología tal como
la concibe el conductista y la revolución psicológica conocida con el nombre de
«conductismo» estaba en marcha.
La razón -del término «conductismo» es bastante clara, Watson se interesaba
únicamente en la conducta, no en la experiencia consciente. La conducta humana debía
estudiarse tan objetivamente como el comportamiento de las máquinas. La conciencia
no era objetiva; por consiguiente, no era válida científicamente y no se la podía estudiar
en forma significativa. En cuanto a la «conducta», Watson entendía por esa palabra algo
tan absurdo como el movimiento de los músculos. ¿Qué es el habla? Movimientos de
los músculos de la garganta. ¿Qué es el pensamiento? El habla subvocal, conversar
silenciosamente consigo mismo. ¿Qué son el sentimiento y la emoción? Movimientos de
los músculos del intestino. De este modo, Watson hacía caso omiso de la mente, en
favor de una ciencia puramente objetiva de la conducta.
Resulta fácil satirizar dicha posición. (Estos, por ejemplo, sugirió que un conducti sta
podía cambiar el lema familiar y, en lugar de exclamar « ¡Piensa!», decir « ¡Actúa!» y
finalmente « ¡Contorsiónate!») Pero no debemos ignorar la enorme importancia de esta
posición para el desarrollo de la moderna ciencia psicológica. Si bien antes de Watson
se analizaron muchos estudios objetivos de la conducta, él se destaca como el gran
popularizador, el hombre que convirtió este tipo de estudio en un movimiento y una
filosofía nacional._
La oposición de Watson a admitir cualquier cosa subjetiva en la psicología lo llevó a
rechazar mucho más que el estudio de la conciencia. Otro de sus blancos fue el análisis
de la motivación en función de los instintos. La sociabilidad era atribuida a un instinto
gregario, la lucha a un instinto belicoso, etcétera. Se suponía que estos instintos eran
innatos y determinaban en gran medida la conducta de la mente. Estos instintos eran
demasiado mentalísticos para Watson Estimó que nuestra conducta es, por el contrario,
una cuestión de reflejos condicionados es decir, de respuestas aprendidas mediante lo
que se llama ahora condicionamiento clásico. Nos mostramos sociables o agresivos
porque nacimos con un instinto que nos identifica porque aprendimos a hacerlo
mediante el condicionamiento.
Al demoler las teorías tradicionales, Watson -no - sólo atacó los instintos, sino las
otras características mentales del hombre que se suponían innatas. Negó que naciéra mos
con capacidades, rasgos o, predisposiciones mentales particulares: Todo lo que
heredamos es nuestro cuerpo y unos pocos reflejos; las diferencias en capacidad y en
personalidad son simplemente diferencias en la conducta aprendida. De este modo, en
la conocida controversia entre naturaleza y educación, Watson fue, en varios aspectos,
un fuerte exponente de la importancia del medio ambiente en comparación con la
herencia. Lo que somos depende enteramente (excepto por diferencias anatómicas
evidentes) de lo que hemos aprendido, y dado que lo que se aprende puede
desaprenderse, esta afirmación significaba que la naturaleza humana, ya sea en general
o en una persona en particular, estaba en gran parte sujeta a cambios. No había límites,
prácticamente, para lo que podía llegar a ser el hombre, si se lo condicionaba
adecuadamente.
Esta combinación de objetividad y de fe en el poder del aprendizaje arrasó toda la
psicología norteamericana y cautivó la imaginación popular. Junto con algunas ideas
más específicas acerca del aprendizaje, tuvo grandes implicaciones para la crianza de
los niños, la educación, la publicidad y la organización social. Si consideramos que las
ideas de Watson se ajustan perfectamente bien a la creencia norteamericana en la
igualdad de oportunidades, en el énfasis sobre la practicidad del factor no emocional y
en la fe en el progreso, no es sorprendente que el conductismo llegara a ocupar el centro
de la etapa psicológica norteamericana.
Con esto no queremos decir, por supuesto, que Watson presentó súbitamente su
teoría conductiste y fue pronta y universalmente adoptada. Cuando Watson publicó «La
psicología tal como la percibe el conductista», estaban ya en camino las tendencias
hacia la objetividad y la importancia del medio ambiente. La demolición de la doctrina
del instinto fue más el trabajo de L. Bernard y de Z.’. •-. :que de Watson. Además,
Watson debía muchas de sus ideas a fuentes i a diversas como la filosofía de John
Locke en Inglaterra y la psicología fisiológica de Ivan Pavlov en Rusia. Finalmente, se
continuaron defendiendo puntos de vista alternativos y Watson tuvo que hacer frente a
mucha oposición. No obstante, hubo un cambio marcado en la psicología
norteamericana durante este período y Watson fue el representante principal alrededor
del cual es probable que se centre cualquier discusión sobre ese cambio. Watson o el
conductismo su nombre, su voz más encendida y su sentido de misión.
Watson y su interpretación del aprendizaje
¿Cuál era, entonces, la interpretación que Watson hacía del aprendizaje? Ya vimos que
consideraba todo aprendizaje cómo condicionamiento clásico. Nacemos con ciertas
conexiones estímulo-respuesta llamadas reflejos. Por ejemplo, el estornudo es la
respuesta a una irritación de la nariz y el reflejo rotuliano la respuesta a un golpe seco
sobre la rodilla. Estos reflejos son, según Watson, todo el repertorio conductual que
heredamos. Sin embargo, podemos crear una multiplicidad de nuevas conexiones
estímulo-respuesta mediante el proceso de condicionamiento Si un nuevo estímulo actúa
junto con el estímulo para la respuesta refleja, después de varios apareamientos
similares el nuevo estímulo producirá, por si solo, la respuesta. Este proceso de
condicionamiento, que Pavlov fue el primero en describir, hace posible que cada
respuesta del repertorio original de reflejos sea producida por una gran variedad de
nuevos estímulos, además de los que la produjeron originariamente. Según Watson, es
así como aprendemos a responder a situaciones nuevas.
Sin embargo, dicho condicionamiento sólo es parte del proceso de aprendizaje.
No sólo tenemos que aprender a responder a nuevas situaciones; debemos aprender
también nuevas respuestas. Los estornudos, los reflejos rotulianos y cosas por el
estilo nos llevarán muy lejos al enfrentarnos con situaciones complejas. Cómo se
aprenden los nuevos hábitos complejos? De acuerdo con Watson, mediante la
formación de series de reflejos. La acción de caminar, por ejemplo, es una
sugerencia de muchas respuestas, tales como apoyar el peso sobre un pie, adelantar
el otro pie, bajarlo, trasladar el peso de un pie a otro, etcétera. Todas estas
respuestas, que se suceden en el orden adecuado, constituyen la ejecución de
caminar en forma adecuada. El desarrollo de dicha secuencia es posible porque cada
respuesta produce sensaciones musculares que se . convierten en estímulos para la
respuesta siguiente . De este modo se adquiere una conducta nueva y compleja
mediante la combinación serial de reflejos simples.
Consideremos este tipo de aprendizaje con más detenimiento. Tomemos, por
ejemplo, una respuesta de esta secuencia, la de llevar la pierna hacia adelante.
Originalmente el estímulo para esta respuesta es, tal vez, la visión del lugar hacia el
cual uno camina. Sin embargo, la persona puede impulsar la pierna hacia adelante
sólo si su peso está sobre el otro pie. Por lo tanto, siempre qué levante la pierna y la
lleve hacia adelante, lo hará en presencia de aquellas sensaciones de su propio
cuerpo resultantes de tener su peso sobre el otro pie. Esas sensaciones se aparean de
este modo con la respuesta de impulsar la pierna hacia adelante y, a través de
repetidos apareamientos, llegan a producir el movimiento de la pierna hacia
adelante. De este modo, en el hábito bien aprendido de caminar, la sensación de
tener el peso sobre un pie produce automáticamente la respuesta condicionada de
impulsar la otra pierna hacia adelante. Esta respuesta se funde con las otras en la
secuencia y cada una proporciona el estímulo para la próxima respuesta. La
secuencia eventualmente llega a estar tan bien integrada que para propósitos
prácticos podemos hablar de todo el proceso de caminar de un lugar a otro como si
fuera una sola respuesta, aun cuando en realidad sea una secuencia compleja de
conexiones estímulo-respuesta.
Es muy probable que el lector no encuentre satisfactoria la explicación de Watson
sobre el aprendizaje complejo. Podría preguntarse con justicia qué es lo que determina
que se forme esa secuencia particular de conexiones estímulo-respuesta y por qué la
sensación de peso sobre un pie produce la respuesta de impulsar la otra pierna hacia
adelante. Si leemos entre líneas el último libro de Watson (Behaviorism *, publicado
por primera - vez en 1924) se tiene la sensación de que estaba buscando todavía
respuesta a este problema. Watson daba dos respuestas diferentes, ninguna de ellas
completamente adecuada, y la relación entre ambas era aún poco clara. Una de las
respuestas afirmaba que las conexiones estimulo-respuesta que forman el acto correcto
son reflejos condicionados ~ cada respuesta produce sensaciones que se convierten en
estímulos condicionados para la respuesta siguiente y de este modo se forma toda la
secuencia de conexiones estímulo-respuesta condicionadas. Esta formulación dio a
Watson la satisfacción de haber reducido hábitos complejos a sus elementos
estructurales simples, los reflejos condicionados. Ahora, decía W atson, podemos
recurrir a los fisiólogos para explicar por qué tiene lugar el condicionamiento; nosotros,
como conductistas, hemos realizado nuestro trabajo. Sin embargo, Watson nunca llevó a
cabo realmente ese análisis en detalle. Sí la sensación de sentir el peso sobre el pie
izquierdo es el estímulo condicionado y llevar la pierna derecha hacia adelante es la
respuesta, ¿cuál es el estímulo incondicionado que siempre garantiza que se producirá la
respuesta, de modo que se cumpla el condicionamiento? Watson no respondió a esta
pregunta fundamental. En consecuencia, su reducción de las pautas complejas de
conducta a secuencias de reflejos condicionados es más aparente que real.
a otra explicación que da Watson de esta forma de aprendizaje está en función de dos
principios: la frecuencia y la resencia: El principio de frecuencia establece que cuanto
más frecuentemente producimos una respuesta dada a un estímulo dado, tanto más
probable es que hagamos de nuevo esa respuesta a ese estímulo. De modo similar, el
principio de recencia establece que cuanto más reciente es una respuesta dada a un
estímulo dado, tanto más probable es que tal respuesta se reitere.
Watson ilustró estos principios con el ejemplo de un niño de tres años que tiene que
aprender a abrir- una caja de truco que tiene caramelos adentro. El niño da vueltas a la
caja en todas direcciones, la golpea contra el piso y hace otra serie de respuestas inútiles.
Finalmente, por casualidad, aprieta un botón que hay sobre la caja, que es la respuesta
que soltará la tapa de modo que el niño pueda abrir la caja y conseguir los caramelos.
Dado que la caja ahora está abierta y el niño tiene su golosina, ya no se halla en presencia
del estímulo que lo mantenía ocupado con la caja. La última respuesta que hizo en
presencia de esos estímulos fue la respuesta de apretar el botón. La próxima vez que su
padre ponga golosinas dentro de la caja y cierre la tapa, e' niño repetirá casi la misma
secuencia anterior de ensayo y error. Sin embargo, por casualidad, probará algunas
nuevas respuestas y omitirá algunas de las que produjo la última vez. Nuevamente, sin
embargo, la última respuesta que da será la de presionar el botón, dado que ésta es la que
cambia la situación de estimulo. Cada vez que manipula con la caja tiene la presión del
botón, mientras que otras respuestas -pueden o no registrarse. De este modo, a la larga, la
acción de apretar el botón gana el primer lugar en cuanto a la frecuencia, dado que
siempre es la última respuesta, tiene siempre primacía en la recencia. En consecuencia, el
niño aprieta el botón cada vez más rápido, sucesivas experiencias con la caja.. Como
apretar el botón es lo que resuelve el problema, las otras respuestas tienen cada vez
menos probabilidades de producirse en las sucesivas experiencias con la caja. El niño
aprendió a apretar el botón como respuesta al estímulo de la caja cerrada.
Este ejemplo sólo muestra cómo se aprende una sola respuesta, ya sea, apretar el
botón. No obstante, este problema. podría haber exigido que el niño hiciera una serie de
varias respuestas sucesivas para abrir la caja, en la que cada respuesta cambiara la
situación de modo que pudiera producirse la respuesta siguiente. Al apretar el botón, por
ejemplo, podría haberse abierto una tapa exterior que dejara al descubierto una palanca,
a la que habría que mover hacia un costado para abrir la tapa interior. En este caso, tanto
la presión del botón como el movimiento de la palanca tendrían que aprenderse en la
misma forma, dado que cada uno cambiaría el estímulo y se convertiría de ese modo en
la última respuesta al viejo estímulo. Tales series de respuestas podrían extenderse
indefinidamente.
¿Por qué, entonces, se produce una respuesta particular, y no otras, ante el estímulo,
en un lugar dado de una secuencia compleja? Según Watson, muchas respuestas
diferentes aparecen ante el estímulo durante el aprendizaje, pero a través del proceso
que hemos descrito la mayoría de ellas desaparecen. La respuesta que cambia la
situación gana en frecuencia y en recencia hasta que llega a aparecer tan pronto como se
presenta el estímulo. Entonces esa unidad particular de estímulo-respuesta está
completa en la secuencia.
Watson dejó casi sin desarrollar en su sistema todos estos enunciados acerca del
aprendizaje de nuevas respuestas. ¿Cómo se relacionan el condicionamiento, el
principio de frecuencia y el de recencia? ¿Cómo concuerda con el principio de
frecuencia el hecho de que el sujeto que aprende puede dar al principio alguna respuesta
errónea mucho más frecuentemente que la correcta y, sin embargo, aprende
eventualmente la respuesta correcta? Watson no dice nada sobre esto. Estaba seguro de
que el aprendizaje complejo podía explicarse mediante principios simples, pero las.
explicaciones que intentó dar eran tanteos y nunca las organizó en una teoría clara y
coherente.
¿Qué puede decirse acerca del aprendizaje de las reacciones emocionales? En este
punto Watson hace una pequeña concesión a la herencia, dado que reconoce tres pautas
innatas de reacción emocional. En principio, estas pautas. de reacción son iguales a los
reflejos, porque podemos establecer qué movimientos implican (incluidos los de los
órganos internos) y qué estímulos las producirán. Sin embargo, son más complicadas
que lo que se entiende comúnmente por reflejo. Las tres pautas de reacción emocional
pueden catalogarse por conveniencia como pautas de miedo, ira y amor. Sin embargo,
debemos observar, de acuerdo con Watson, que estos rótulos se refieren a pautas de
movimiento, y no a sentimientos conscientes. Si golpeamos un gong cerca de un niño y
éste empieza a llorar, podemos describir este suceso diciendo que el estímulo de un
ruido fuerte produjo la emoción de miedo. No obstante, estamos dando simplemente un
nombre a la conducta que observamos y no expresamos opiniones acerca de los
sentimientos del niño.
El aprendizaje emocional implica el condicionamiento de estas tres pautas de
respuesta emocional a los nuevos estímulos. El ejemplo mencionado sobre el miedo
innato se tomó de un famoso experimento de Watson que también puede utilizarse para
ilustrar el miedo condicionado. El pequeño Alberto, de 11 meses de edad, sirvió de
sujeto; se le permitió que jugara con una ratita blanca, cosa que hizo sin dar señales de
miedo y con gran alegría. Después se golpeó una barra de metal con un martillo, detrás
y nruy cerca del niño. Este se asustó y cayó de costado. Este ruido súbito y fuerte se
repitió varias veces justo cuando se le presentó la ratita y el niño reaccionó cada vez en
la misma forma y en algunas oportunidades también comenzó a lloriquear. Estas
respuestas indican que el ruido era un estímulo incondicionado para el miedo. Después
de este entrenamiento se le dio la ratita sin el ruido. Alberto cayó al suelo, lloró y,
gateando, se alejó de la rata lo más rápido que pudo. Este cambio indica que a través del
método de entrenamiento la rata se había convertido en un estímulo condicionado para
el miedo. Según Watson, tales, respuestas condicionadas e incondicionadas explican
todas nuestras emociones.
¿Qué puede decirse acerca de la adquisición de conocimiento? ¿Puede utilizarse el
condicionamiento para explicar cómo aprendemos los hechos históricos, por ejemplo?
Sin duda, responde Watson, porque este conocimiento consiste simplemente en decir
ciertas palabras, en alta voz o para uno mismo. La secuencia de respuesta implicada
cuando decimos «Guillermo el Conquistador derrotó a Harold el Sajón en Hastings, en
1066» no difiere en principio de la que está implicada cuando atravesamos caminan do
una habitación. Una pregunta cualquiera, por ejemplo, «¿Cómo se produjo la conquista
de los normandos?», produce la declaración, que es en sí misma una secuencia de
palabras en la que cada palabra es un estímulo condicionado para la subsiguiente. La
adquisición de conocimiento es el proceso de aprender a dar secuencia adecuada de
palabras, en respuesta a una pregunta u otro estímulo condicionado.
Toda nuestra conducta, dice Watson, tiende a poner en juego todo el cuerpo. Cuando
pensamos, podemos caminar de un lado a otro o fruncir el cedo. Anunciamos nuestras
opiniones con sonrisas o ademanes, así como con palabras. Por consiguiente, no
podemos decir realmente que las emociones son respuestas de las vísceras o que el
pensamiento está formado por respuestas vocales. Estas son las respuestas dominantes,
pero en modo alguno son las únicas que entran en juego. Todo lo que pensamos,
sentimos, decimos o hacemos implica, en diversos grados, la actividad de todo el
cuerpo. Este es, probablemente, el credo más fundamental del conductismo.
Evaluación de Watson
La gran contribución de Watson al desarrollo de la psicología reside en que
desechó la distinción entre el cuerpo y la mente y en la importancia que dio al
estudio de la conducta objetiva. Esta batalla se ganó en forma tan efectiva que en la
actualidad, en los Estados Unidos, gran parte de la teoría del aprendizaje es
conductista, en el sentido más amplio de la palabra. En este libro estudiaremos
diversos sistemas teóricos que representan variaciones diferen tes sobre el tema
conductista. Todos ellos tienen en común el interés por la conducta objetiva y por el
estudio de los animales, la preferencia por los análisis de estímulo-respuesta y su
concentración sobre el aprendizaje, como tema central de la psicolog ía. Este hecho
hace de Watson, en cierto sentido, el padre o el abuelo intelectual de una gran parte
de los sistemas que consideraremos en este libro.
Por otra parte, Watson fue mucho menos cuidadoso de lo que pudo haber sido al
tratar los problemas detallados del aprendizaje. Ya mencionamos que su enfoque del
aprendizaje complejo pecó de incompleto e incongruente.
En su anhelo de crear una psicología objetiva, mostró cierta indiferencia por la
cuestión de la total coherencia lógica. Quizá si hubiera seguid o trabajando en su
teoría (después de 1920 cesó de publicar y se dedicó exclusivamente a la psicología
aplicada) habría ampliado su sistema para poder tratar algunos de estos problemas.
Sin embargo, es más probable que su celo por liberar a la psicología d el
subjetivismo y el innatismo fuera incompatible con una obra teórica acabada y
completa. Sea como fuere, Watson es admirado ahora principalmente por su
encendido ardor filosófico, más bien que por la construcción de un sistema
detallado. Quedaba reservada a otros la tarea de construir, dentro del marco
conductista, una teoría más completa del aprendizaje.
LA INTERPRETACIÓN DEL APRENDIZAJE SEGÚN GUTHRIE
Edwin R. Guthrie (1886-1959) fue, de todos aquellos que en los años recientes
continuaron en la tradición conductista, el que persiguió más cerca de la posición
original de Watson. Desde 1914 hasta su jubilación en 1956, Guthrie fue profesor en
la Universidad de Washington. Su carrera docente universitaria comenzó, por lo
tanto, sólo diez años después que la de Watson y nunca estudió con éste. Había
estudiado más bien filosofía que psicología. Sin embargo, su interpretación acerca del
aprendizaje se asemeja mucho a la que podría haber dado Watson si hubiera trabajado
otra década sobre el tema. Su trabajo definitivo, i.e. Psychology of Learning, se publicó
en 1935 y fue revisado en 1?52; su enunciado teórico final se publicó en 1959. Por eso
Guthrie, a diferencia de Watson, puede ser considerado hasta cierto punto como un
teorizador contemporáneo.
Entre todas las teorías del aprendizaje, la teoría de Guthrie es una de las de más fácil
lectura; pe ro, no obstante, resulta difícil estudiarla. Es fácil de leer porque Guthrie
escribía en un estilo accesible e informal y explicaba sus puntos de vista con ejemplos
sencillos, en lugar de emplear términos técnicos y ecuaciones matemáticas. Es difícil
escribir acerca de su teoría porque su presentación llana contiene el germen de una
teoría del aprendizaje altamente técnica y deductiva. Leer a Guthrie es como leer una
novela apasionante que contiene una alegoría difícil, de modo que se lo puede leer en un
nivel accesible o en uno difícil. En el fondo de su sistema hay un principio fundamental
del aprendizaje. Si se lo interpreta liberalmente, este principio es una fuente tanto de
interpretaciones entretenidas sobre el aprendizaje como de informes valiosos acerca del
manejo de las situaciones de aprendizaje. Si se lo interpreta rigurosamente, se convierte
en el principal postulado de una teoría deductiva. Esta teoría, tan engañosamente
sencilla a primera vista, pero terriblemente compleja cuando se la investiga con
detenimiento, se mantiene como un desafío para los que estudian el aprendizaje. ¿Logró
Guthrie realmente resumir todo el campo del aprendizaje en un postulado fundamental?
El principio fundamental del aprendizaje
El principio fundamental del aprendizaje, de Guthrie, es similar al principio de
condicionamiento que era fundamental para Watson, pero lo formuló de un modo aún
más general. «Una combinación de estímulos que haya acompañado a un movimiento,
tiende, al repetirse, a ser seguida por aquel movimiento.» (Guthrie, 1952, pág. 23.) El
principio puede parafrasearse así: «Si hacemos algo en una situación determinada, la
próxima vez que nos encontremos en esa situación tenderemos a hacer nuevamente lo
mismo.» Este principio es más general que el principio de condicionamiento clásico,
por cuanto no dice nada acerca del estímulo incondicionado. Sólo afirma que si una
respuesta acompaña una vez a un estímulo dado, es probable que siga nuevamente a este
estímulo. En el condicionamiento clásico la respuesta ocurre con el estímulo
(condicionado) durante el entrenamiento porque el estímulo incondicionado la produce.
Esta secuencia cumple, por supuesto, las condiciones de Guthrie para el aprendizaje.
Sin embargo, a Guthrie no le importa si la respuesta es provocada durante el entre namiento por un estímulo incondicionado o en alguna otra forma. Siempre que el
estímulo (condicionado) y la respuesta se presenten juntos, se producirá el aprendizaje.
Guthrie pretendía resumir en ese único enunciado todo el campo del
aprendizaje, con lo que desafió inevitablemente a los otros a que
encontraran deficiencias en ese resumen; los psicólogos, desde luego,
respondieron rápidamente al desafío. El primer inconveniente del principio
de Guthrie es que a menudo hacemos muchas cosas diferentes en una
misma situación. ¿Cuál de ellas se producirá la próxima vez? Esta objeción
no constituye un problema para Guthrie, quien responde simplemente: «La
última». Una persona que quiere resolver un rompecabezas mecánico
intenta muchas respuestas. Si finalmente acierta con la respuesta correcta,
tenderá a repetir la misma respuesta cuando se enfrente la próxima vez con
el rompecabezas. Decimos, entonces, que aprendió a resolver el
rompecabezas. Supongamos, sin embargo, que finalmente desiste y deja a
un lado el rompecabezas sin resolver. La próxima vez que vea el
rompecabezas, tenderá a hacer lo que hizo la última vez, o sea, dejarl o a un
lado. En ese caso, no vemos que aprendió a resolver el rompecabezas, pero,
sin embargo, aprendió algo. En ambos casos se le presentó una
combinación de estímulos provenientes del rompecabezas. En cada caso
hubo un movimiento que eliminó los estímulos. Para el observador, uno de
estos movimientos representó el éxito y el otro el fracaso, pero para
Guthrie ambos representan respuestas que eliminaron los estímulos del
rompecabezas no resuelto y que, por consiguiente, es más probable que se
produzcan nuevamente. En los dos casos se aprendió una respuesta y en
ambos fue, mediante el mismo principio, el condicionamiento contiguo.
Este aspecto del sistema de Guthrie se parece bastante al principio de
recencio de Watson, dado que la última cosa que ocurrió en una situación
es la que se producirá nuevamente. No obstante, Guthrie no utiliza el otro
principio de Watson, la frecuencia. Mientras que para Watson una
conexión estímulo-respuesta es algo que varía en fuerza y se fortalece con
la práctica, para Guthrie es un nexo del tipo «todo o nada». La conexión
está, ya sea presente o bien ausente, sin ninguna variación intermedia en
cuanto a su fuerza. Por lo tanto, el condicionamiento de un movimiento a
una combinación de estímulos se produce enteramente en una experiencia
y la práctica adicional no agrega nada a la fuerza de la conexión.
A primera vista esta suposición parece contradecir algunas leyes bien conocidas del
aprendizaje. Si bien es posible que la práctica no logre la perfección, produce
generalmente un mejoramiento gradual. ¿Cómo puede afirmar Guthrie que todo el
mejoramiento se obtiene en una sola experiencia? Debemos cuidarnos, replica Guthrie,
de considerar un «movimiento» como si fuera la misma cosa que un acto o un logro. En
su principio del aprendizaje Guthrie se refiere a pequeños movimientos específicos de
músculos particulares. Se requiere que muchos de esos movimientos trabajen juntos
para producir un acto diestro. Además, una ejecución competente implica no sólo uno,
sino muchos actos diestros, cada uno en respuesta a una combinación particular de
estímulos. En consecuencia, aprender a hacer algo implica aprender un número enorme
de conexiones específicas de estímulo-movimiento. El mejoramiento de la habilidad es
gradual, aun cuando el aprendizaje de cada pequeña parte se produzca súbitamente.
Consideremos una habilidad particular, por ejemplo, la de andar en bicicleta. Cada
posición posible de la bicicleta requiere un movimiento diferente para poder mantenerla
derecha. Cada uno de esos movimientos, a su vez, se compone de movimientos de los
brazos, el torso y las piernas. Un movimiento particular del brazo izquierdo -ara ayudar
a corregir un tipo y grado particular de inclinación puede aprenderse en una experiencia,
pero esto no -significa, por cierto, que se aprenderá tan rápidamente la habilidad total
para mantener la bicicleta en equilibrio. Si consideramos también todos los otros
aspectos que se presentan c uando andamos en bicicleta, resultará evidente la diferencia
entre aprender un movimiento y dominar gradualmente una habilidad. Este ejemplo no
demuestra que Guthrie tenga necesariamente razón cuando afirma que un movimiento se
aprende en un solo ensayo, pero hace más plausible esta interpretación.
No obstante, esta explicación introduce ciertas ambigüedades, la teoría de Guthrie.
En muchos casos, a la última cosa que hicimos en una situación» se refiere a un acto,
como, por ejemplo, encender un cigarrillo o hacer una observación. Estas son, sin
embargo, ejecuciones diestras, formadas por muchos movimientos específicos. ¿Por qué
Guthrie las trata como si fueran movimientos individuales que podrían ser
condicionados en un solo ensayo? Todo hace suponer que lo que se requiere es un
análisis en función de las jerarquías de complejidad. Encender un cigarrillo es una
destreza compuesta de muchas conexiones estimulo-respuesta que deben ser
condicionadas. Sin embargo, una vez aprendidas, todo éste acto se comporta como un
solo movimiento y puede ser condicionado como tal a las combinaciones de estímulos.
Guthrie no se preocupa por esta relación, pero aplica su principio de aprendizaje
algunas veces a actos y otras a movimientos, según el objetivo que quiera lograr.
Afortunadamente, esta ambigüedad carece de importancia en la mayoría de las
situaciones.
El sustituto de Guthrie para el refuerzo
El aspecto más atacado de la teoría de Guthrie fue su falta de
interés por el éxito y el fracaso, por el aprendizaje «correcto» de sigo.
Sea lo que fuere la, ultima cosa -correcta o equivocada- que hicimos
en una situación determinada, es esa cosa la que haremos nueva-
mente. Guthrie no utiliza el concepto de refuerzo. No dice que
aprendemos a hacer aquellas respuestas que son satisfactorias que
puede recompensar. ¿De que depende que lo que hacemos llegue o
no a ser aprendido como una respuesta a la situación? Depende
solamente de que cambie esa situación en una situación diferente, de
modo que lo que hicimos se transforme en la última cosa hecha en la
antigua situación. El éxito produce este resultado, dado que una
solución cambia una situación de problema en una situación sin
problema. De este modo, el acto que tiene éxito es el último que
oscilan en la situación de problema y tenderá a producirse si el
problema se presenta de nuevo. Sin embargo, si el Individuo puede
de’ alguna manera eludir la situación sin resolver el problema, se
aprenderá la respuesta de escape. Pueden aprenderse y retenerse tanto
los métodos deficientes como los eficientes, dado que ambos
permiten que la persona escape de la situación. Los errores pueden
repetirse una y otra vez. Aprendemos no mediante el éxito o el
refuerzo, sino simplemente mediante la acción.
En base a esta posición es dable hacer varias predicciones que
pueden someterse a prueba. Por ejemplo, consideremos una rata
hambrienta que puede obtener alimento presionando una palanca. La
rata aprende a presionar la palanca cada vez más rápidamente. Según
Gutrhie, la rata aprende porque la comida cambia la situación
mediante su efecto sobre el hambre y sobre las sensaciones dentro de
la boca. De este modo, el - acto de presionar la palanca se convierte en
la última cosa que hizo el animal en la antigua situación y llega a
aumentar cada vez más la probabilidad de que ocurra.
Supongamos que en lugar de obtener comida después de cada
presión de la palanca se sacara simplemente a la ratita de la caja en
cuanto presionara la palanca. Esto cambiaría la situación aún más que
con el alimento, de modo que habría más probabilidades de que la
rata presionara la palanca en la próxima oportunidad que si la
hubieran alimentado. Este experimento se realizó y los resultados no
confirmaron la predicción. (Seward, 1942.). Las ratas que recibieron
el alimento demostraron que presionaban mucho más la palanca que
aquellas que fueron sacadas de la caja, contrariamente a lo que podría
esperarse de la teoría de Guthrie. Este experimento y otros similares
arrojan dudas sobre la opinión de Guthrie de que la recompensa no
tiene nada que ver con el aprendizaje.
Es posible, sin embargo, que la interpretación que hacemos de este
experimento no sea completamente justa para Guthrie. Sí bien el
alimento produjo menos cambio en la combinación toral de estímulos
que el que produjo el retiro de la caja, el alimento. Provocó un
cambio marcado en ciertos estímulos particularmente importantes.
Estos eran los estímulos de mantenimiento, o sea aquellos estímulos
que mantuvieron activa a la rata en la situación. En este caso
particular, los estímulos de mantenimiento eran los resultantes de la
privación de alimento, en otras palabras, los estímulos del hambre. En
otras situaciones podrían ser los estímulos de la sed, el dolor, la
excitación sexual, la ira o el miedo. En algunas partes de sus escritos
Guthrie sugiere que los cambios en los estímulos de mantenimiento
son fundamentales para el aprendizaje. Si una respuesta elimina los
estímulos de mantenimiento, resuelve por definición el problema y de
este modo se convierte en la última respuesta en la situación de
problema. Si fracasa en la eliminación de los estímulos de
mantenimiento, entonces, por más que pueda producir otros cambios,
no puede ser la última respuesta en la situación de problema.
Mediante esta interpretación podemos comprender por qué en la
teoría de Guthrie se podía esperar que el alimento produjera más
aprendizaje que el retiro de la caja.
No obstante, esta interpretación plantea también otros problemas. En algunos casos
se aprenden respuestas que no eliminan los estímulos de mantenimiento. Un jugador de
béisbol aprende aquellas respuestas que producen una ejecución acertada en el camp o y
en el bateo, si bien un buen bateo o un buen catch no reducen el entusiasmo compe titivo
que. Proporcionan los estímulos de mantenimiento para jugar. Una rata que está en un
laberinto aprende cuál es la vuelta correcta que tiene que dar en cada punto d e elección,
aun cuando sólo la última vuelta sea seguida por un cambio en los estímulos de
mantenimiento. En ambos casos, sin embargo, la respuesta cimbia la combinación total
de estímulos, de modo que en un sentido es la última respuesta en la situación. Por lo
tanto, nos enfrentamos con el problema de que algunas veces sólo son fundamentales
los cambios en los estímulos de mantenimiento, mientras que otras veces son
importantes los cambios en otros estímulos. ¿Cómo podemos saber cuáles son los casos
en que se presenta una u otra posibilidad? Guthrie no contesta a esta pregunta. Pero, eso
sí, puede explicar cualquier caso de aprendizaje después que se ha verificado, para lo
cual considera algunas veces todos los estímulos y otras veces sólo los estímulos de
mantenimiento, aunque no le va tan bien cuando tiene que predecir qué aprendizaje se
producirá.
A esta altura, el lector podrá comprender más claramente por qué es difícil
considerar el sistema de Guthrie como una teoría lógica formal. ¿Cuándo nos referimos
a movimientos y cuándo a actos? ¿Cuándo tenemos que considerar los cambios de todos
los estímulos y cuándo únicamente los cambios de los estímulos de mantenimiento?
Guthrie nunca da respuestas claras a estas difíciles preguntas porque se dedica a
presentar interpretaciones sencillas y entretenidas del aprendizaje. En consecuencia, su
teoría, que a primera vista parecía tan directa y precisa, resulta ser desalentadoramente
vaga. Su intento de reducir todo el aprendizaje a un solo principio fundamental es . En
cualquier sentido estricto, inadecuado.
Su enfoque liberal y anecdótico refleja el hecho de que Guthrie estaba más interesado
en enseñar psicología a los estudiantes que en una investigación minuciosa. Realizó un
solo experimento importante en apoyo de su teoría, una demostración de la conducta
estereotipada de unos gatos al escapar de una jaula. Quizás a causa de su falta de interés
por la investigación tuvo muchos simpatizantes, pero pocos continuadores activos.
Nunca ha existido una tradición de investigación larga y activa dentro del marco de la
teoría de Guthrie y si bien Fred Sheffield inició en Yale un camino en esa dirección).
Por otra parte, muchos psicólogos descubrieron que en cuanto dejaban de con siderar el
sistema de Guthrie como una teoría deductiva formal y se concentraban en sus
implicaciones informales, su principio fundamental del aprendizaje resultaba ser
bastante útil. Guthrie afirma que sí queremos saber qué aprenderá un individuo en
cualquier situación, debemos observar lo que hace. Lo que hace, ya sea correcto o
erróneo, es lo que aprenderá. Como postulado formal, este enunciado es inadecuado,
pero como fuente informal de consejo llama nuestra atención hacía aspectos del
aprendizaje que de otra manera seria muy probable que desdeñáramos. La mejor forma
de apreciar la contribución de Guthrie es considerar sus estudios acerca de algunas
situaciones prácticas de aprendizaje.
La ruptura de hábitos
Una de las aplicaciones más conocidas es quizá la de los tres métodos de Guthrie
para cambiar un mal hábito. Los tres métodos consisten en encontrar qué estímulos
evocan la respuesta indeseable y hallar después un medio de hacer que ocurra otra
respuesta en presencia de aquellos estímulos. Esta otra respuesta debería producirse
nuevamente la próxima vez que se presenta el estímulo. El acento está en el estímulo
exacto y en la respuesta exacta, que están conectados. Guthrie da el ejemplo de una niña
de diez años que siempre que llegaba a su casa arrojaba al suelo el sombrero y el abrigo.
La madre la reprendía continuamente y la obligaba a recogerlos del suelo y colgarlos,
pero todo era inútil. Finalmente, la madre comprendió que el estímulo para que la niña
colgara su ropa era la reprimenda. La próxima vez que la niña arrojó la ropa al suelo, su
madre insistió en que se la pusiera de nuevo, saliera de la casa, volviera a entrar y
colgara inmediatamente el abrigo y el sombrero. Después de algunos ensayos con este
procedimiento, la niña aprendió a colgar su ropa. La respuesta deseada se había liga do a
los estímulos de entrar a la casa y el hábito de tirar la ropa al suelo fue reemplazado de
este modo por el hábito de colgarla. Este método dio resultado donde fracasó el método
previo de la reprimenda, pues esta vez la madre se preocupó porque la niñ a colgara su
ropa en presencia de los estímulos particulares (aquellos resultantes de haber entrado
recién en la casa) que anteriormente habían conducido a la respuesta de arrojar las
prendas.
El primer método, que puede llamarse método del umbral implica presentar los
estímulos tan levemente o débilmente que no susciten la -respuesta indeseable. Se dice
entonces que el estímulo está por debajo de la intensidad del umbral para la respuesta:
de ahí su nombre.) Después se aumenta la fuerza de los estímulos tan gradualmente en
sucesivas ocasiones que la respuesta nunca sobreviene. Estas experiencias repetidas con
los estímulos débiles levantan el umbral, de modo que los estímulos más fuertes estarán
también debajo del umbral. Eventualmente, los estímulos pueden presentarse en toda su
fuerza sin provocar la respuesta indeseada, dado que el individuo ha estado dando
alguna otra respuesta, repetidamente, en presencia de los estímulos.[Este método es útil
especialmente para las respuestas emocionales, tales como la ira, el miedo y otras
similares.] Guthrie da el ejemplo del antiguo método de caballería para entrenar a los
caballos de silla, Si se ensilla y se monta un caballo que no está adiestrado, éste
empezará a corcovear espantado. Esta reacción puede evitarse empleando el método de
los umbrales, para reemplazar la respuesta de corcoveo por la respuesta de permanecer
quieto. Primero se coloca una manta sobre el lomo del animal. Esta presión sobre el
lomo es el tipo de estímulo que induce al corcoveo, pero la manta sola es un estímulo
demasiado débil para que produzca ese efecto. Después de algunos ensayos con la
manta se ensilla el caballo. Antes de la experiencia con la manta, la montura podía
haber provocado el corcoveo, pero ahora no lo hace. Después de la experiencia del
caballo con la montura, ¡el jinete puede llegar a montarlo sin que el animal forcejee y se
asuste, aunque lo hubiera hecho indudablemente antes del entrenamiento con la manta y
la montura La experiencia de no corcovear mientras se le colocan sucesivamente en el
lomo aperos más pesados da por resultado que el caballo permanezca quieto aun si
soporta el peso del jinete.
El segundo método se llama método de Fatiga. La respuesta que se quiere segundo
es provocada una vez hasta que el individuo está tan cansado que deja de hacer la
respuesta y en su lugar hace alguna otra cosa (aunque sólo sea descansar). Esta otra
respuesta es entonces la que probablemente se producirá cuando s.f. presenten de nuevo
los estímulos. Guthrie utiliza otra vez el ejemplo de una pequeña niña desobediente,
aunque no nos dice si es la misma que no quería colgar su ropa. , La niña tenía el hábito
de encender fósforos y ni las reprimendas ni los castigos habían dado resultado para que
abandonara esa costumbre. Su madre estaba muy preocupada y finalmente decidió
eliminar el hábito obligando a la niña a encender una caja entera de fósforos en rápida
sucesión. Llegó un momento en que la niña estaba completamente cansada de prender
los fósforos. Pero la madre seguía insistiendo en que prosiguiera. Por último, la niña
comenzó a resistirse activamente, arrojó la caja de fósforos al suelo la empujó para
alejarla de su lado. A esta altura, nuevas respuestas, incompatibles con el acto de
encender los fósforos, se habían ligado a los estímulos de la caja de fósforos. La
próxima vez que tuvo la posibilidad de prender fósforos, la niña no se mostró dispuesta
a hacerlo. Este método ilustra en grado extremo la confianza que tiene Guthrie en su
interpretación de la ley de recencia (hacer nuevamente lo que hicimos la última vez en
una situación dada) y su rechazo de la ley de frecuencia. La niña prendió los fósforos
más frecuentemente al final de esta experiencia que al principio, pero la última cosa que
hizo fue apartar los fósforos lejos de sí. Por lo tanto, rechazar los fósforos fue lo que
trató de hacer cuando volvió a encontrarse con una caja de fósforos.
En el tercer método, que llamaremos el método de los estímulos
incompatibles, los estímulos para la respuesta indeseable se presentan junto con
otros estímulos que puede confiarse que susciten una respuesta diferente e
incompatible. Entonces los estímulos originales se ligan a las nuevas respuestas.
Guthrie ilustra este método con el caso de una estudiante universitaria que no
podía estudiar a causa de un ruido que la distraía. La estudiante resolvió este
problema pasando un período de tiempo dedicada a la lectura de novelas de mis terío apasionantes, en lugar de estudiar. Esos libros le interesaron tanto; que
ignoró los ruidos perturbadores. De este modo los estímulos de ruido aparecieron
junto con las respuestas de lectura y llegaron a ligarse a estas respuestas. Cuando
la alumna reemplazó (aun cuando lo hizo de mala gana) la lectura de las novelas
de misterio por la de los libros de texto, encontró que los ruidos ya no la
distraían, porque ahora estaban unidos a respuestas de lectura en lugar de
respuestas de escuchar.
Es digno de atención que en ninguno de estos métodos se haga referencia al
castigo. Alguien podría sugerir que para la niña del primer ejemplo fue un
castigo tener que salir de la casa, volver a entrar y colgar su ropa, y que también
lo fue para la otra niña tener que encender tantos fósforos de una vez. Es verdad,
dice Guthrie, pero recuerden que otras medidas de castigo habían fracasado
previamente. La cuestión importante no es saber si estas experiencias eran
punitivas, sino qué inducían a hacer a los individuos. Guthrie afirma que no
puede esperarse que el infligir dolor a alguien cambie sus hábitos si el dolor no
sobreviene en presencia de los estímulos que provocan la conducta. Regañar a
una de las niñas después que su ropa ya estaba en el suelo o castigar a la o tra
después que había terminado de encender los fósforos sería irrelevante para los
hábitos en cuestión. El castigo sólo era efectivo cuando producía una nueva
respuesta ante los mismos estímulos. Además, como lo indica el método del
umbral, la ausencia de castigo puede ser un medio tan bueno de producir nuevas
respuestas como lo es el castigo.
Esta actitud es característica de la interpretación que hace Guthrie del castigo.
Siempre hay que considerar lo que éste lleva a hacer al individuo. Si el castigo
logra cambiar el hábito castigado es porque produce una conducta incompatible
con el hábito. Si el castigo fracasa es porque la conducta provocada por el
castigo no es incompatible con la conducta castigada. De este modo, si queremos
conseguir que un perro deje de correr detrás de los autos, es probable que
tengamos éxito si le damos una palmada en la nariz mientras corre, pero no si le
pegamos en el rabo. Los dos golpes pueden ser igualmente dolorosos, pero el que
se le da en la nariz tiende a hacer que el perro se detenga y salte hacia atrás,
mientras que el otro tiende a hacer que continúe corriendo hacia adelante mucho
más enérgicamente. En consecuencia, el golpe en la nariz, al provocar una
conducta incompatible con la de correr detrás de los autos, hace que sea más
probable que el perro no corra la próxima vez. La palmada en el trasero, sin
embargo, no tiene ese efecto, sino que hasta puede fortalecer la persecución del
perro tras de los autos. El castigo surge efecto, cuando realmente lo hace, no
porque haga daño al individuo, sino porque cambia la forma en que éste
responde a ciertos estímulos.
Si queremos utilizar estos métodos de Guthrie como una panacea para todos los
malos hábitos surge inmediatamente un problema. Para obtener una conducta diferente
de un individuo tenemos que cambiar de alguna manera los estímulos. En el primer caso
que estudiamos, para la niña no era lo mismo entrar en la casa y sacarse la ropa cuando
su madre acababa de mandarla afuera que cuando acababa de regresar después de haber
estado fuera de su casa un largo período de tiempo. Para el caballo de montar, no
corcovear cuando le ponían la manta era distinto a no hacerlo cuando lo montaba un
jinete. Había una enorme diferencia entre la situación de estímulo en que la niña tuvo
que encender el quincuagésimo fósforo bajo la presión de la madre y cuando encendía
un fósforo para divertirse. Pero cuando se restablece la situación original de estímulo,
¿como sabemos si las dos situaciones son suficientemente semejantes para que la última
respuesta en una situación ocurra en la otra? Por ejemplo, el perro que saltó hacia atrás
cuando se le presentó el estímulo del auto-en-movimiento más-el-golpe-en-la-nariz
¿saltará también hacia atrás cuando se vea solo-con-el-auto-en-movimiento? En todos
estos casos la respuesta parece ser: hay que ensayar y ver. Esta dificultad debilita la
utilidad general del consejo de Guthrie, sin mencionar el problema de relacionar
claramente el consejo con la teoría. Sin embargo, no podemos, esperar que un consejo
se aplique infaliblemente a todas las situaciones sin que la persona que lo perciba ponga
por su parte alguna inventiva o destreza particular. La interpretación que Guthrie da del
castigo y sus métodos para cambiar los hábitos son herramientas valiosas para
interpretar situaciones y constituyen también sugestiones útiles para enfrentarse con las
mismas. Un teórico que puede proporcionarnos esto no tiene que avergonzarse de sus
contribuciones prácticas.
Algunos temas especiales
El énfasis que Guthrie pone en las respuestas a los estímulos y los medios de
cambiarlas se presenta también en otros contextos. ¿Qué ocurre con la extinción?
Guthrie no se ocupa del refuerzo; por lo tanto, no puede hablar acerca de la extinción
como resultante de la eliminación del refuerzo. En cambio, afirma que la extinción es
aprender simplemente a hacer alguna otra cosa. La respuesta fue aprendida porque
cambió la situación de estímulo por otra diferente y de esta suerte se convirtió en la
última cosa hecha en la situación original. Si ahora la respuesta aprendida no produce
más este cambio, el individuo continuará haciendo diversas cosas en la situación, hasta
que alguna otra respuesta la modifique. Esta nueva respuesta será entonces la que tienda
a ocurrir la próxima vez. Si esta nueva respuesta termina congruentemente la situación,
reemplazará a la antigua respuesta. No obstante, si ya no hay ninguna congruencia en
cuanto a qué respuesta terminará la situación, la conducta variará de cuando en cuando.
No se aprenderá ninguna nueva respuesta particular, pero sin embargo la antigua
respuesta será reemplazada por otras nuevas y, en este caso, por muchas. Si un perro
aprendió a escaparse del patio arrastrándose a través de un agujero que hay en la cerca y
después tapan ese agujero, el animal podrá o no descubrir algún otro medio de escapar.
Sea como fuere, la respuesta de dirigirse hacia el lugar donde estaba el agujero será
substituida por alguna otra respuesta.
La interpretación de Guthrie acerca del olvido es similar. Los hábitos no se debilitan
con el desusó; son reemplazados por otros hábitos. Sí olvidamos el alemán que
aprendimos es porque las palabras de nuestro idioma, como estímulos, se relacionaron a
otras respuestas distintas de las palabras en alemán. Si perdemos nuestra habilidad para
montar a caballo es porque practicamos otra, haciendo que compitan respuestas en
situaciones que eran algo similares a montar a caballo (por ejemplo, andar en bicicleta).
En la mayoría de los casos, los detalles del proceso de reaprendizaje son oscuros y seria
difícil predecir con mucha exactitud en qué medida olvidaríamos algún conocimiento o
destreza bajo un conjunto dado de circunstancias. Sin embargo, esta interpretación del
olvido proporciona ciertamente un buen punto de partida para estudiar los factores que
influyen en el olvido. Aun este comienzo es más de lo que muchos teóricos
contribuyeron a este tema.
El olvido, como la adquisición, es comúnmente gradual, a causa de las numerosas y
específicas conexiones estímulo-respuesta que forman un hábito complejo. Si las
respuestas correctas están relacionadas a muchos estímulos diferentes, las nuevas
respuestas necesitarán más tiempo para relacionarse con todos estos estímulos. Por lo
tanto, es posible hacer una predicción definida partiendo de la interpretación 1
de
Guthrie respecto del olvido. Podemos predecir que un hábito se retendrá mejor si se lo
practicó en varias situaciones diferentes (por ejemplo, en presencia de varias
combinaciones diferentes de estímulos). En el curso del olvido, nuevas respuestas
pueden reemplazar a la antigua, respuestas correctas en cualquiera de esas situaciones,
pero la antigua respuesta todavía estará condicionada a muchas otras combinaciones de
estímulos. En otra ocasión en que la combinación de estímulos sea diferente, es
probable que reaparezca la antigua respuesta. El clvido, como el aprendizaje, es
específico de la situación y lo que se olvida en una situación puede muy bien ser
recordado en otra. Sin embargo, la respuesta «olvidada» al estímulo cambiado sólo
ocurrirá si la respuesta en cuestión fue aprendida originariamente en una variedad de
combinaciones diferentes de estímulos. Por consiguiente, podemos aumentar la
resistencia de un hábito al olvido (incluidos los hábitos verbales que llamamos
conocimiento) no sólo practicándolo más, sino haciéndolo en una variedad de
situaciones.
La impresión que queda de la mayoría de los escritos de Guthrie es que la conducta
humana es algo muy mecánico. La conducta es controlada rígidamente por los
estímulos, y los cambios en las conexiones estímulo-respuesta siguen leyes mecánicas
simples. Sin embargo, Guthrie era más receptivo que Watson para conceptos tales
como el deseo y el propósito. Guthrie reconoce que gran parte de la conducta tiene un
carácter dirigido hacia metas. Antes que ignorar esto, como Watson se inclinaba a
hacerlo, intenta interpretarlo en términos rigurosamente físicos.
¿Qué significa decir que alguien tiene un deseo, un propósito o una intención?
Guthrie reconoce cuatro componentes: 1) un complejo de estímulos de mantenimiento
que mantiene activo al organismo, 2) algo que bloquea cualquier acción simple y
directa que elimina inmediatamente los estímulos de mantenimiento, 3) la disposición
muscular para hacer ciertas respuestas y 4) la disposición muscular para las
consecuencias de esta acción. Consideremos una casa que se está incendiando y una
persona que tiene la intención de saltar para salvarse. En este caso, los cuatro
componentes son: 1) el calor del fuego, la sensación de ahogo por el humo y el miedo,
2) el fuego y la altura que le impiden simplemente escapar, 3) la tensión de sus
músculos para el salto y 4) la preparación de su cuerpo para el choque de la caídaEstos cuatro componentes, según Guthrie, son todo lo que necesitamos para describir
una intención.
Si alguien hubiera sugerido a Guthrie que la intención implica algo mental, además
de estos cuatro componentes físicos, él podría haber replicado con su historia acerca de
un extraño caso de asesinato. Un hombre decidió matar de un tiro a su vecino, para lo
cual se escondió fuera de la casa de éste y apuntó con un rifle a la puerta de la casa,
manteniendo el dedo en el gatillo. Mientras estaba allí sentado empezó a cambiar de
opinión acerca de su plan. Estaba a punto de levantarse e irse cuando el vecino apareció
en la puerta de la calle. El hombre apretó el gatillo y el vecino cayó muerto. Durante el
proceso surgió la cuestión de dilucidar si había disparado intencionadamente o no.
Según Guthrie, ésta es una pregunta que no tiene sentido. Lo que había cambiado era
aquella fiarte de su intención que tomó la forma de las palabras que se dijo a sí mismo,
pero la parte que implicaba el dedo listo sobre el gatillo no había cambiado. No existía
otra intención, sino sólo una variedad de ajustes corporales que lo preparaban o no para
hacer fuego.
¿Qué es la atención? Una variedad de respuestas que orientan los receptores
sensoriales hacia ciertos estímulos, como cuando miramos o escuchamos. Puede haber
aun escudriñamiento, que implica movimientos de exploración que terminan cuando es
percibido cierto estímulo. Esta formulación de la atención hace posible qu e Guthrie
exprese con otras palabras su principio fundamental del aprendizaje: «Lo que se observa
se convierte en una señal para lo que se hace.» (Guthrie, 1959.)
En todas estas interpretaciones, Guthrie insiste en que los procesos que están en
juego, si bien pueden ser denominados con términos subjetivos, se refieren a
movimientos físicos objetivos. Pueden ser difíciles de observar, pero es tan seguro que
están allí como lo están cualquiera de los otros movimientos. Guthrie destaca
principalmente el papel de los estímulos producidos por movimientos, o sea las
sensaciones producidas por nuestros propios movimientos. Estos desempeñan una parte
importante en el pensamiento, el propósito, la coordinación de secuencias de conducta y
las respuestas a estímulos que ya no están presentes. Si bien en su sistema funcionan a
menudo como variables intervinientes (dado que con frecuencia no se los puede
observar en forma directa en la práctica), Guthrie vacila en llamarlos variables
intervinientes, porque para él están tan objetivamente presentes como las variables
dependientes e independientes.
El último enunciado teórico de Guthrie (Guthrie, 1959), escrito poco antes de su
muerte, es más técnico y tiene más características de un ensayo que la mayoría de sus
primeros trabajos. Parece que Guthrie trató de clarificar tanto sus propias ideas como
sus relaciones con los otros teóricos. En este enunciado se interesa en el concepto de
atención y en la estructura formal de su teoría. No obstante, es probable que Guthrie sea
recordado no tanto por sus intentos, logrados o no, de construir una teoría formal, como
por sus contribuciones informales a nuestros conceptos acerca del proceso del
aprendizaje.
Al tratar de comprender o controlar cualquier situación de aprendizaje, Guthrie
recomienda que consideremos la respuesta particular que tiene lugar y los estímulos
particulares que la provocan. Nos advierte que no confiemos en exhortaciones vagas,
que no esperemos milagros al administrar recompensas y castigos, sino que nos
concentremos en producir pautas particulares de conducta en situaciones particulares. Si
bien Guthrie tiende a extraer principalmente sus ejemplos de la educación de los niños y
del adiestramiento de los animales, puede ofrecer 'también muchas cosas úti les a los
adultos. Los estudiantes universitarios se quejan a menudo de que, a pesar de conocer el
material que estudiaron, por alguna razón no pueden exponerlo en los exámenes. El
conocimiento de las teorías de Guthrie nos conduciría a decir: «Si la conducta que
queremos producir es la conducta de escribir / ensayos sobre ciertos temas, debemos
practicar la escritura de ensayos, y practicarla en una situación tan parecida como sea
posible a la del examen.» Un ejemplo similar se encuentra en el adiestramiento raí litar,
donde para estudiar la efectividad en el combate, las situaciones de adiestramiento se
asemejan cada vez más a las de la lucha real. En consecuencia, cuando se adiestran los
soldados de infantil. tería, dedican menos tiempo a practicar la puntería exacta con
blancos situados a una distancia conocida en el polígono de tiro y más tiempo a la
puntería rápida y aproximada con blancos en silueta que aparecen de golpe ante el
soldado, a medida que éste avanza. Si bien no podemos afirmar que estos ejemplos
representen la influencia directa de Guthrie sobre la psicología aplicada del aprendizaje,
podemos decir que Guthrie, más que ningún otro teórico importante, hizo hincapié en la
importancia de tales análisis precisos de los estímulos y las respuestas. El enfoque de
Guthrie puede ser una buena ayuda en muchas situaciones de aprendizaje.
RESUMEN DE LA TEORÍA DE LA CONTIGÜIDAD
Watson y Guthrie tienen en común, naturalmente, todas las características del
conductismo en el sentido general de este término. Además, ambos difieren en un
aspecto de los otros teóricos conductistas que estudiaremos, o sea, que ninguno utiliza
el concepto de refuerzo. Watson ridiculizó la idea d e que la recompensa podía
determinar lo que se aprendía y la consideró como una noción mágica in adecuada
para una explicación científica. (Pavlov habló del estímulo in condicionado como un
reforzador para la respuesta condicionada, pero Watson ignoró este aspecto del
condicionamiento.) De modo similar, Guthrie evitó hacer referencia alguna a los
efectos reforzantes de las recompensas. En sus sistemas se supone que el aprendizaje
depende sólo de la contigüidad del estímulo y la respuesta, en otras palabras, del
hecho de que ocurran juntos. Por eso se llama a Watson y Guthrie los teóricos
contigüistas.
Al adoptar esta posición, Watson y Guthrie se enfrentan con otro grupo de
teóricos conductistas conocidos como teóricos del refuerzo. Estos se consagran
igualmente a la objetividad y están igualmente vinculados al lenguaje estímulorespuesta al describir el aprendizaje, pero, no obstante, en sus teorías no hacen
ninguna objeción a reconocer el efecto reforzador de la recompensa; en rigor,
consideran que este efecto es esencial para el análisis del aprendizaje. En el
siguiente capítulo nos dedicaremos a estudiar este grupo de teóricos conexionistas.
Capítulo 3
LAS TEORÍAS DEL REFUERZO EN LA TRADICIÓN CONEXIONISTA
La idea de que el placer y el dolor como consecuencias de nuestros actos son
determinantes importantes de la conducta, tiene antecedentes notables en la psicología.
Constituye la base de la teoría del hedonismo que desarrolló Teremy Bentham y fue
adoptada por varios filósofos británicos. De acuerdo con este concepto, todos hacemos
aquellas cosas que nos proporcionan placer y evitamos las que nos ocasionan dolor. Sin
embargo, Edward L. Thorndike (1874-1949) fue el llamado a hacer que un concepto
similar se convirtiera en punto fundamental para la psicología del aprendizaje.
LA PRIMERA TEORÍA CONEXIONISTA DE THORNDIKE
Thorndike fue un pionero de la psicología experimental animal. En lugar de confiar en
los relatos acerca de las proezas inteligentes de tal o cual animal, llevó a los animales al
laboratorio, les presentó problemas estandarizados y observa cuidadosamente cómo
resolvían los problemas. Su monografía, Animal Intelligence, que publicó en 1898, es
uno de los clásicos más famosos en este campo. Su estudio más citado es el de los gatos
en una caja de truco. Se encerró a un gato hambriento dentro de una jaula y afuera se
colocó un tentador trozo de pescado. El gato podía abrir la puerta de la jaula si tiraba de
una.agarradera de soga que colgaba en su interior. Generalmente, el gato pasaba por un
largo proceso, durante el cual caminaba alrededor de la jaula, arañaba las paredes de la
misma y suscitaba otras respuestas, antes de que tirara de la soga y pudiera salir de la
jaula. En sucesivos ensayos, disminuía cada vez más el tiempo que necesitaban los
animales para tirar de la cuerda. Sin embargo, esta mejora era muy gradual. Aun después
de varias experiencias en las que abrían la puerta tirando de la soga, los animales
dedicaban mucho tiempo a otras conductas en un ensayo determinado, antes de tirar de la
cuerda. Thorndike sacó entonces la conclusión de que el aprendizaje del gato al tirar de l a
soga no implicaba la comprensión «inteligente» de una relación entre la acción de tirar de
la cuerda y la apertura de la puerta, sino la «fijación» gradual de la conexión estímulo respuesta entre ver la cuerda y tirar de ella.
En la época en que Thorndike publicó estos estudios, se los consideró fundamentales
en dos aspectos. por su observación cuidadosa de la conducta animal bajo condiciones
controladas y por su interés en el fortalecimiento gradual de los enlaces estímulo respuesta. Fueron la respuesta de Thorndike a la controversia acerca de si los animales
resuelven los problemas mediante el razonamiento o el instinto. Por ninguno de los dos,
aseveró Thorndike, sino más bien por el aprendizaje gradual de la respuesta correcta.
Sin embargo, con relación a Watson y Guthrie hay otro punto digno de atención.
Mientras que Watson y Guthrie eran, ambos, teóricos contigüistas, Thorndike era . un
teórico del refuerzo. Las leyes de frecuencia y de recencia de Watson y la ley
fundamental del aprendizaje de Guthrie establecen que los enlaces estímulo-respuesta se
fortalecen simplemente por la respuesta suscitada en presencia de los estímulos.
Thorndike no rechazó completamente este concepto, que resumió en la ley del ejercicio.
No obstante, su ley primaría del aprendizaje era la ley del efecto. Esta ley establecía qué
la fijación de las conexiones estímulo-respuesta dependían, no simplemente del hecho de
que el' estímulo y la respuesta se presentaran juntos, sino de los efectos que seguían a la
respuesta. Si un estímulo era seguido por una respuesta y después por un factor de
satisfacción, se fortalecía la conexión estímulo-respuesta. Si un estimulo era seguido por
una respuesta y después por un factor perturbador, la conexión estímulo-respuesta se
debilitaba. De este modo, los efectos satisfactorios y perturbadores de las respuestas
determinaban si las conexiones estímulo-respuesta serían - fijadas o eliminadas.
Los términos «satisfactorio» y «perturbador» resultan sorprendentemente subjetivos
para una teoría que trata de la fijación o eliminación mecánica de los enlaces estímulorespuesta. Este lenguaje se asemeja mucho más al de los filósofos hedonistas que al de
los psicólogos conductistas. En realidad Thorndike~ fue criticado por los conductistas
por la manera en que se refería al aprendizaje. En rigor, sin embargo, definió esos
términos en una forma bastante objetiva: «Se entiende por estado de cosas satisfactorio
aquel en que el animal no hace nada por evitarlo y a menudo trata de mantenerlo o
renovarlo. Por estado de cosas perturbador se entiende aquel en que el animal no hace nada
por mantenerlo y actúa a menudo para ponerle fin.» (Thorndike, 1913, pág. 2.) Thorndike
no dice nada acerca de los sentimientos del animal; sólo se refiere a lo que hace. Por lo
tanto, adhiere a la preocupación del conductismo por lo que hacen los individuos. Su
lenguaje puede resultar subjetivo, pero su significado es tan objetivo como el de Watson.
Thorndike, que trabajaba en la cúspide del movimiento conductista, tuvo desacuerdos con
los defensores rigurosos del movimiento, pero en rigor él y ellos estaban próximos en
cuanto a intereses y objetivos. En el sentido más amplio del término, es indudable que
Thorndike_ era un conductista.
. . Más tarde, Thorndike modificó la ley del efecto en el sentido de hacer que los
factores de satisfacción son mucho más importantes que los perturbadores.
Afirmó entonces que la recompensa fortalece las conexiones, pero el castigo no
las debilita directamente. Si el castigo es efectivo, en alguna medida, en el
debilitamiento de la tendencia a hacer algo, es porque produce una conducta
variable y de este modo da a alguna nueva respuesta una posibilidad de ser
reconpensado. Esta posición se parece mucho a la de Guthrie, excepto en que
hace hincapié en la recompensa. Con esta modificación, la ley del efecto se
convirtió simplemente en el enunciado ahora tan familiar (si bien no lo era en
efínera alguna concepción, presentó Thorndike) de que las consecuencias
satisfactorias sirven para reforzar los enlaces estímulo-respuesta.
Thorndike era un hombre interesado en e l aspecto práctico y se preocupó
especialmente en la psicología de la educación. Durante muchos años fue
profesor en el Teachers College de la Universidad de Columbia. A lo largo de
toda su vida profesional combinó sus estudios sobre la psicología «pura» del
aprendizaje con los estudios sobre la psicología aplicada a la educación. La
importancia que dio a la especificidad en el aprendizaje y a la fijación mecánica
en las conexiones estímulo-respuesta fue al mismo tiempo elogiada y atacada por
los educadores durante muchos años. (A él le debemos, en verdad, el término
“conexionismo”. Para nuestros propósitos, sin embargo, estos aspectos del
trabajo de Thorndike son demasiado similares a los de Watson y Guthrie para
que requieran que los tratemos aquí con más detalle. Thorndike fue, al igual que
Watson, un iniciador de la psicología objetiva; en realidad, su contribución
original es probable que sea más importante que la de Watson. Sin embargo, lo
que nos interesa es que incorporó dentro de su psicología objetiva del aprendizaje
la ley del efecto y de este modo se convirtió en el primer teórico verdadero del
refuerzo.
SKINNER Y SU INTERPRETACIÓN DEL APRENDIZAJE
Thorndike no era un teórico particularmente sistemático. Enunció muchos principios del
aprendizaje, pero lo hizo de una manera más bien casual. Sus voluminosos escritos no
muestran mucha congruencia en los detalles de formulación. En lugar de estudiar
detenidamente a Thorndike, será mucho más provechoso para nuestros fines considerar un
punto de vista contemporáneo bastante similar, el de B. F. Skinner (nacido en 1904). Skinner
pertenece a una generación más joven que la de Thorndíke. En 1931 recibió en Harvard su
doctorado de filosofía en psicología y después de enseñar en las universidades de Minnesota
e Indiana regresó a Harvard como profesor en 1948. Su relación con Thorndike es algo
similar a la de Guthrie con Watson: no fue en modo alguno un discípulo, sino un pensador
contemporáneo curas opiniones son un tanto análogas a las del gran precursor. Skinner nunca
estudió con Thorndike; desarrolló su sistema independientemente y entre ambos existen
diferencias definidas. No obstante, Thorndike y Skinner se asemejan en que los dos son
teóricos conexionistas que destacan el refuerzo como un factor fundamental del aprendizaje,
se interesan profundamente en los problemas educacionales y no dan importancia a la teoría.
Esta falta de interés en la teorización de alto nivel sólo estaba implícita en los escritos de
Thorndike, pero Skinner la hizo_ bastante explícita en su sistema. Esto es lo que distingue
tanto a Thorndike como a Skinner de otros teóricos conexionistas del refuerzo, tales como
Hull, de quien nos ocuparemos más adelante.
Los dos tipos de aprendizaje
A diferencia de los otros teóricos que estudiamos hasta ahora, Skinner reconocía dos tipos
distintos de aprendizaje. Son diferentes porque cada uno comprende una clase distinta de
conducta. La conducta respondiente es producida por estímulos específicos. Dado el
estímulo, la respuesta tiene lugar automáticamente. La conducta respondiente está formada
por las conexiones específicas de estímulo-respuesta llamadas reflejos. Nacemos con cierto
número de reflejos y adquirimos otros a través del proceso de condicionamiento. Un ejemplo
de este tipo lo constituye el reflejo rotuliano. Este aprendizaje de la conducta respondiente
sigue la pauta que consideramos antes con el nombre de condicionamiento clásico,
aunque Skinner no utilice ese término. Un nuevo estímulo es apareado con aquel que ya
produce la respuesta y después de varios apareamientos de esa clase el nuevo estímulo
llega a producir la respuesta. La presencia del viejo estímulo (incondicionado) durante
el entrenamiento puede considerarse el reforzador, dado que sin ese estimulo no se
produce el aprendizaje. Por consiguiente, en el sistema de Skinner el aprendizaje de la
conducta respondiente es análogo a aquel que, para Watson, constituía todo aprendizaje.
La única diferencia es que Skinner destaca el papel reforzador del estímulo
incondicionado.
Sin embargo, Skinner sostiene que, en general, la conducta es de índole distinta y la
llama conducta operante. Mientras que la característica distintiva de la conducta
respondiente reside en que es la respuesta a estímulos, la conducta operante se
caracteriza porque opera sobre el medio ambiente. No existe un estímulo particular que
produzca coherentemente una respuesta operante. Skinner asevera que la conducta
operante es emitida por el organismo, más bien que producida por estímulos. Por lo
general, la conducta es de esta clase; caminar, hablar, trabajar y jugar son conductas
formadas por respuestas operantes.
Skinner no quiere decir con eso que la conducta operante no esté influida por
estímulos. Gran parte de su análisis de la conducta se dedica al estudio de las formas en
que la conducta operante es sometida al control de los estímulos. Sin embargo, dicho
control sólo es parcial y condicional. La respuesta operante de obtener el alimento no es
producida simplemente por la vista del alimento; depende también del hambre, de las
circunstancias sociales y de otra variedad de condiciones de estímulos. En este sentido
se diferencia de la respuesta respondiente del reflejo rotuliano, que se produce
regularmente por el golpecito sobre la rodilla casi sin tomar en cuenta otras
condiciones. A causa de esta distinción, Skinner no considera útil suponer que la
conducta operante está formada de conexiones específicas de estímulorespuesta en el
sentido en que lo está la conducta respondiente. En tanto Guthrie analiza cada pizca de
conducta en función de los estímulos que la producen, Skinner prefiere considerar que
la mayor parte de la conducta (del tipo operante) es emitida por el organismo, sin
preocuparse por tomar en cuenta la multitud de estímulos que tienen algo que ver con su
ocurrencia. En este punto, la diferencia entre Guthrie y Skinner es de énfasis y
conveniencia, más bien que de desacuerdo directo. Ambos concuerdan en que la
conducta depende de la pauta total de estímulos, externos e internos, que están presentes
cuando sobreviene esa conducta, pero en tanto Guthrie prefiere destacar este punto para
todas las respuestas, Skínner prefiere ignorarlo en aquellos casos en los que no hay
ningún estímulo particular que sea fundamental para la ocurrencia de la respuesta en
cuestión.
El aprendizaje de la conducta operante se conoce también como condicionamiento,
pero es diferente del condicionamiento de reflejos. El condicionamiento operante es la
misma clase de aprendizaje que describió Thorndike y precisamente porque para
Skinner éste es, entre todos, el tipo de aprendizaje más importante, es uno de los temas
en los que él y Thorndike se aproximan mucho. Si la ocurrencia de una respuesta
operante (a menudo se la llama simplemente operante) es seguida por un refuerzo,
aumenta su probabilidad de que ocurra de nuevo. Para los reflejos el reforzador es un
estímulo incondicionado, mientras que para las operantes es una recompensa (o, como
diría Thorndike, un factor de satisfacción). De este modo, podemos decir que la
recompensa que sigue a una operante hace más probable que esa respuesta ocurra
nuevamente. (Si bien el estímulo para una operante es desconocido, Skinner sigue
considerando a menudo la conducta operante como una respuesta.) Ésta es la pauta del
aprendizaje operante, es decir, de la mayor parte del aprendizaje que estudió Skinner.
Reforzadores positivos y negativos
Si bien Skinner se interesa en gran medida por los reforzadores positivos, reconoce
también la existencia de reforzadores negativos. Los reforzadores negativos son
estímulos adversos, o sea estímulos que el individuo trata comúnmente de evitar. El
refuerzo resulta de la ocurrencia de un reforzador positivo, pero resulta también de la
terminación de un reforzador negativo. El shock eléctrico, por ejemplo, es un reforzador
negativo porque la terminación del shock es reforzante. Por lo tanto, se puede ref orzar
una respuesta, ya sea presentando un reforzador positivo o eliminando uno negativo.
Un punto importante acerca de los reforzadores, tanto positivos como negativos, es
que pueden ser condicionados. Si un estímulo ocurre repetidamente con un reforzad or
positivo, tiende por sí mismo a adquirir la capacidad para reforzar la conducta. Entonces
se lo llama reforzador positivo condicionado... Un cartel que dice «Restaurante» actuará
como reforzador positivo condicionado para un hombre hambriento que se encuentre en
una ciudad extraña, porque tales carteles en el pasado estaban asociados con el
alimento. Análogamente, un estímulo que ocurre con un reforzador negativo tiende a
convertirse en un reforzador negativo condicionado, como en el conocido caso del niño
que se quemó con una estufa y aprende a evitarla aun cuando está fría.
El tema del refuerzo negativo está. relacionado obviamente con el castigo, pero la
relación exacta no es evidente. El refuerzo negativo resulta de la eliminación de un
reforzador negativo, mientras que el castigo implica la presentación de un reforzador
negativo. ¿Qué efectos tiene en realidad el castigo y cómo se producen estos efectos?
Skinner señala que el castigo no es un medio muy confiable de evitar que ocurran las
respuestas. El refuerzo aumenta la probabilidad de una respuesta, pero el castigo no
reduce necesariamente la probabilidad. Cuando lo hace, la reducción puede tener tres
causas: Primero, es probable que el estímulo adverso utilizado como castigo tenga
efectos emocionales. Estos efectos emocionales son respondientes producidos por el
estímulo adverso. Es probable que estos respondientes sean incompatibles con la
respuesta castigada, de modo que reducen su probabilidad de ocurrencia. Por ejemplo, si
la reprimenda que se le da a un niño que comió caramelos sin permiso lo hace llorar, es
probable que también haga que deje de comer, dado que es difícil comer y llorar al
mismo tiempo. Este efecto, sin embargo, es temporario. Cuando se elimina 'el estímulo
adverso, los efectos emocionales desaparecen pronto. Entonces la conducta indeseable
aparece nuevamente y a menudo a una tasa aún más elevada que antes del castigo. En
consecuencia, si bien este efecto del castigo frecuentemente es útil para hacer que cese
la- conducta indeseable, no sirve para impedir que sobrevenga de nuevo.
El segundo efecto del castigo es una extensión del primero. Cuando un estímulo
neutral es apareado con un estímulo adverso que produce una conducta respondiente,
tenemos una situación de condicionamiento. De este modo, los estímulos que , están
presentes cuando ocurre el castigo tienen la posibilidad de convertirse en estímulos
condicionados para las respuestas emocionales al castigo. Estos estímulos
condicionados producirían entonces respondientes emocionales en ausencia del castigo
original. Como resultado, la respuesta, castigada previamente tendería a ser
reemplazada por estas respuestas competitivas, casi como si el castigo estuviera todavía
presente. En nuestro ejemplo anterior, el niño tendería a asustarse (a hacer respuestas
emocionales) en cuanto tocara la golosina prohibida que previamente fue apareada con
el castigo. Este temor inhibiría sus respuestas de comer. Este efecto del castigo, si bien
es fundamentalmente similar al primero, es más duradero en cuanto a sus alcances.
El tercer efecto del castigo es una aplicación del refuerzo negativo basado en los
estímulos adversos condicionados del segundo efecto. Cuando el individuo se aleja de
los estímulos adversos condicionados, esto elimina a estos estímulos y produce un
refuerzo negativo. De este modo, el individuo es reforzado por hacer una respuesta
(alejarse) que es incompatible con la respuesta castigada. En consecuencia, aprende a
alejarse en lugar de producir la respuesta castigada. Una vez que los estímulos de la
golosina prohibida se convirtieron para el niño en adversos. éste fue reforzado por todo
lo que lo alejara de esos estímulos. Dado que evitar esos estímulos ,:s incompatible con
acercarse a ellos, el niño fue aprendiendo a no comer los caramelos prohibidos. Este
proceso, algo similar a la interpretación de Guthrie del castigo, es lo que los partidarios
de los métodos disciplinarios generalmente esperan conseguir mediante el castigo. Sin
embargo, este efecto, igual que el segundo, sólo dura hasta que se extinguen los
estímulos adversos condicionados. Para mantener este efecto hay que estar preparados
para impartir los castigos adicionales que sean necesarios para mantener la nueva
conducta.
En general, Skinner considera el castigo como un método pobre de controlar la
conducta. Por una parte es engañoso, porque el primero de sus tres efectos lo hace
aparecer a menudo dramáticamente efectivo, cuando en realidad sólo ha producido un
efecto temporario. Por la otra, es probable que la conducta emocional que produce sea
indeseable desde otros puntos de vista. Reemplazar el mal comportamiento por el llanto
o el enojo rara vez es una buena solución. Finalmente, las respuestas emocionales
pueden llegar a ser condicionadas por estímulos distintos a los que desea el castigador,
incluidos los estímulos del propio castigador. De este modo, el castigo es una técnica en
la que no se puede confiar para controlar la conducta y es, al mismo tiempo, una técnica
que puede tener efectos secundarios desagradables.
El papel de los estímulos
Si bien los estímulos no producen operantes en el sentido en que producen
respondientes, pueden determinar si sobrevendrá o no cualquier operante dada. Un
estímulo adquiere esta influencia a través del proceso de discriminación. Si u na
operante es reforzada en presencia de un estímulo, pero no lo es en presencia de un
estímulo diferente, la tendencia a responder cuando está presente el segundo estímulo
se va extinguiendo gradualmente y se forma una discriminación. Entonces la operante
se presentará en presencia del primer estímulo, pero no del segundo. Skinner se refiere
al primer estímulo como un ED y al segundo como un EA (E delta). Con respecto a
cualquier operante, un E° es un estímulo en cuya presencia el individuo aprendió a
suscitar la respuesta y un EA es un estímulo en cuya presencia aprendió a no
responder. Sin embargo, la operante no es producida todavía por el E° como es
producida. una respondiente, porque la ocurrencia de la operante depende de otros
factores además del E°. Por ejemplo, se puede enseñar a una paloma a picotear una
llave cuando es roja (E°) pero no cuando es verde (EA) si se refuerzan con alimento
los picoteos de la llave roja,. pero no los de la llave verde. No obstante, cuando la
paloma está totalmente saciada, la tendencia 2 picotear la llave roja será muy débil. El
ED es un determinante importante de la respuesta operante de picoteo, pero no la
produce en la forma automática en que un estímulo produce un reflejo. Bajo estas
condiciones, se dice que la operante está bajo el control de los estímulos.
Skinner se opone activamente a aquellos aspectos de la teoría que implican
suposiciones acerca de entidades o procesos que no se pueden observar. En ocasiones
ha negado que su enfoque sistemático de la conducta sea una teoría. Si bien Watson y
Guthrie sostienen orgullosamente que sólo se refieren a lo que es, físicamente real,
Skinner señala que en realidad no podemos observar un hábito o un estímulo
producido por movimientos. En consecuencia, tales conceptos son inadmisibles para
Skinner. En este punto difiere hasta de Thorndike, dado que el enlace estímulorespuesta es algo invisible que se supone que existe dentro del cuerpo. La insistencia
de Skinner en considerar únicamente la conducta y sus determinantes externos y no lo
que puede suceder dentro del cuerpo condujo a afirmar que Skinner estudia un
«organismo vacío»; no vacío en realidad, naturalmente, pero vacío en lo que concierne
a las interpretaciones de Skinner.
En lugar de hablar acerca de las conexiones estimulo-respuesta (excepto en el caso
de las respondientes), Skinner se refiere a la tasa en que es emitida una operante dada,
bajo un conjunto dado de condiciones. Este lenguaje pone el énfasis principal en la
respuesta, mientras que los estímulos sólo tienen importancia porque establecen las
condiciones para que ocurra la respuesta. Además, los estímulos constituyen sólo uno
de los factores que influyen en la emisión de las operantes; también deben
considerarse factores tales como la privación de alimento (que Skínner no considera
como un estímulo). Por ello se plantea, en cierto sentido, un interrogante: ¿es
apropiado llamar a Skinner confesionista, dado que no menciona realmente las
conexiones que se forman entre los estímulos y las respuestas? Sin embargo, su interés
por las respuestas específicas, por el control de los estímulos y por el refuerzo hace
que resulte más pertinente considerarlo como un teórico conexionista del refuerzo que
bajo cualquier otro título.
La programación de los reforzadores
La predisposición antiteórica de Skinner hace difícil que pueda estudiarse su sistema
sin considerar su investigación y sus aplicaciones (hecho del que Skinner se sentiría
orgulloso). Su investigación se ha realizado casi enteramente en una u otra versión de
un aparato que se conoce con el nombre de caja de Skinner. Ésta varía de tamaño y de
forma de acuerdo con el organismo que se estudia, pero en lo fundamental es
simplemente una caja (o una habitación, desde el punto de vista del sujeto) que.
contiene un simple manipulador (o sea, algo que el sujeto puede manipular) y un
dispositivo para entregar los reforzadores. Este manipulador puede ser una palanca para
que la presionen las ratas, una tecla (es decir, un disco semejante a la tecla del
manipulador de un telégrafo) que pueden picotear las palomas, un botón de una
máquina distribuidora para que lo aprieten los seres humanos, o cualquier otra cosa
apropiada para el tipo de sujeto que la utiliza. El mecanismo que proporciona los
reforzadores. es generalmente alguna especie de alimentador que entrega bolitas de
comida a las ratas, granos a las palomas o golosinas a los seres humanos. Sin embargo,
pueden emplearse otras clases de reforzadores, desde gotas de agua, para las ratas
sedientas, hasta un pequeño visor a través del cual pueden mirar una vista cualquiera los
monos y los seres humanos. En algunos casos se utiliza como reforzadora la evitación
de la descarga eléctrica en las patas, en cuyo caso no se requiere -un distribuidor de
refuerzo separado.
El principio fundamental sobre el que opera la caja es que las respuestas al
manipulador producen reforzadores. Estas respuestas se llaman operantes libres, dado
que el sujeto es libre de emitirlas a su velocidad propia. La tasa en que se emite la
operante libre es la medida de respuesta. En tanto otros investigadores pueden estudiar
la velocidad de carrera, el número de elecciones correctas u otros aspectos de la
conducta operante. Skinner y sus seguidores sólo estudian la tasa de emisión de las
operantes libres. Sea cual fuese la variable que manipulen, estudian sus efectos en función de
esta medida. Hemos visto, no obstante, que existen muchas operantes libres diferentes que se
pueden estudiar. Lo importante, según Skinner, es hallar una operante apropiada para el tipo
de individuo que queremos estudiar, es decir, una operante que el sujeto pueda emitir convenientemente y con bastante rapidez. Si se cumple esta condición, la operante particular que
se elige influye poco en las leyes que se encontrarán. Utilizamos palancas para las ratas y
teclas para las palomas, y no lo hacemos a la inversa, porque estos manipuladores se
adaptan a las capacidades de respuesta de estos animales, pero encontramos leyes similares
para ratas y palomas cuando cada uno de estos animales aprende una operante apropiada para
sus propias capacidades.
La tasa a que se emite la operante libre (la variable dependiente) puede relacionarse con
una gran variedad de variables independientes. En la práctica, sin embargo, Skinner y sus
seguidores se concentraron principalmente en una variable independiente, el programa de
refuerzo. Este término se refiere a la pauta particular de acuerdo con la cual los reforzadores
siguen a las respuestas. El programa más simple es el refuerzo continuo, en el cual se da
un reforzador para cada respuesta al manipulador. Este programa se utiliza generalmente
cuando se entrena primero al sujeto en el empleo del manipulador. Después que se aprendió
la respuesta, el programa es desplazado comúnmente a alguna forma de refuerzo
intermitente, en el cual sólo parte de las respuestas son seguidas para el refuerzo. Skinner
colaboró con Charles Ferster en un libro voluminoso, Schedules of Reinforcement, en el
que describen diferentes programas de refuerzo intermitente y sus efectos, pero,
afortunadamente para el estudioso, tienden a representar variaciones sobre dos pautas
fundamentales. Si la frecuencia con que se presentan los reforzadores depende de la tasa a
que se emiten las respuestas, éste se llama programa de razón; si depende simplemente del
paso del tiempo, se llama programa de intervalo. Además, estos dos tipos de programa
pueden ser fijos o variables. La combinación de estas dos bases de clasificación nos da
cuatro tipos principales de programas.
En un programa de razón fija, el sujeto es reforzado después de cada tantas respuestas.
Por consiguiente, se puede entregar un reforzador después de cada cuarta o cada décima o
cada vigésima respuesta. Un programa de razón-variable se diferencia del de razón-fija en
que en lugar de presentar al reforzador consecuentemente después de cada tantas respuestas,
se lo entrega después de un número diferente de respuestas en ocasiones diferentes. En
este caso, la razón es el número promedio de respuestas por reforzador. De este modo, en un programa de razón-variable de cinco, los reforzadores se entregan por término
medio después de cada cinco respuestas, pero en una ocasión se pueden reforzar dos
respuestas sucesivas, mientras que en otra ocasión el individuo, después de recibir un
reforzador, podría tener que producir hasta diez respuestas antes de conseguir otro.
En un programa de intervalo-fijo, después que se entregó un reforzador tiene que
transcurrir un intervalo fijo de tiempo antes de que se obtenga otro. Una vez que ha
pasado este intervalo, - será reforzada la primera respuesta. De este modo, en un
programa de intervalo-fijo de un minuto, el sujeto no puede obtener reforzadores con
una frecuencia mayor de uno por minuto, sin tener en cuenta la rapidez con que
responde. Puede obtener uno por minuto tanto si responde rápidamente todo el tiempo
como si responde sólo una vez por minuto. Si espera un tiempo después que pasó el
minuto antes de hacer la respuesta, el refuerzo se retrasará consecuentemente. Con un
programa de intervalo-variable es posible obtener el reforzador algunas veces más
pronto y otro mucho tiempo después que el anterior. Por lo tanto, en un programa de
intervalo-variable de dos minutos, después de la presentación de un reforzador, el
tiempo medio de entrega de otro sería de dos minutos, pero en cualquier ocasión
particular el intervalo podría acortarse o alargarse mucho. Por consiguiente, el único
medio para estar seguro de conseguir todos los reforzadores disponibles lo más pronto
posible sería responder continuamente.
¿Cómo se diferencian estos programas en cuanto a las pautas de respuesta' que
producen? Primero, los programas de razón dan típicamente tasas de respuesta más
elevadas que los programas de intervalo. Esta diferencia no tiene nada de
sorprendente, dado que la respuesta rápida en un programa de razón aumenta el
número de refuerzos en un período determinado, mientras que las respuestas rápidas
en un programa de intervalo sólo sirven para obtener un poco antes los refuerzos.
Segundo, en ambos tipos de programas fijos las respuestas más lentas tienden a
producirse inmediatamente después del refuerzo (en mayor medida que la que podría
explicarse tomando en cuenta el tiempo requerido para consumir el refuerzo). La razón
es que las respuestas nunca son reforzadas inmediatamente después de un refuerzo.
Intuitivamente, este efecto es más fácil de apreciar en el programa de intervalo -fijo,
dado que el individuo no tiene nada que obtener de las respuestas durante el intervalo.
En un programa de intervalo-fijo, la pauta resultante es un aumento gradual en la tasa
de respuestas entre el momento que sigue inmediatamente un refuerzo y el que precede
inmediatamente al refuerzo siguiente. Debido a que su representación gráfica se parece
al contorno de la concha marina común, este efecto se conoce como «festoneo». El
hecho de qje se produzca un aumento gradual de la tasa durante el intervalo y no una
sucesión febril de respuestas en el momento fijado para el nuevo refuerzo, demuestra
que el sujeto es incapaz de calcular el tiempo con exactitud.
En un programa de razón-fija se podría esperar que el individuo responda tan
rápidamente después de un refuerzo como en cualquier otro momento, porque tiene que
hacer un número determinado de respuestas antes del próximo refuerzo,
independientemente de cuándo las hace. Esta expectativa, sin embargo, refleja el punto
de vista de que el organismo calcula la estrategia más provechosa y actúa en
conformidad. Según Skinner, debemos considerar simplemente las contingencias del
refuerzo. En un programa de razón-fija, las primeras respuestas después de un refuerzo
nunca son reforzadas tan rápidamente como las últimas y, en consecuencia, se producen
a una tasa más lenta. Sin embargo, esto adquiere importancia sólo cuando la razón es lo
bastante evaluada como para que el sujeto no pueda emitir rápidamente todas las
respuestas necesarias y obtener un refuerzo casi inmediato. Por lo tanto, en los
programas en que la razón es fija y baja se observa después de refuerzo una disminución
muy pequeña de la tasa de respuestas, mientras que si la razón es fija y elevada se
observa una pausa que a veces es prolongada. Finalmente, este estonio no se produce en
los programas Dado que todas las respuestas, tanto las primeras como las últimas, tienen
la posibilidad de ser reforzadas en un programa variable, la tasa de respuesta es
constante, excepto durante el breve período que puede necesitarse para consumir
realmente el reforzador.
En general, los organismos producirán más respuestas por reforzador en cualquier
clase de programa intermitente que en un refuerzo continuo. Si finalmente el refuerzo
cesa por completo, la resistencia a la extinción también es mayor después del refuerzo
intermitente que después del continuo. Para obtener respuestas rápidas y estables y
resistencia elevada a la extinción, el programa de razón-variable es el más efectivo. En
rigor, es posible conseguir que los animales, para obtener refuerzos de alimento,
trabajen a razones tan altas que en realidad operen con una pérdida biológica: la energía
gastada para manejar el manipulador es mayor que la que obtienen de la ocasional
recompensa del alimento, de modo que el animal, literalmente hablando, trabaja para
morir.
Estos programas difieren en cuanto a su sensibilidad para diversos factores
destructores. Este hecho tiene particular interés en relación con los efectos de diversas
drogas, y las compañías farmacéuticas han encontrado útil ensayar nuevas fórmulas
sobre animales que responden a diferentes programas de refuerzo. Una generalización
que surge de muchos estudios es que los programas de intervalo son destruidos más
fácilmente por una variedad de drogas que los programas de razón. Las dosis que en
un programa de intervalo bastan para hacer que las respuestas se produzcan con
bastante irregularidad, casi no afectan al programa de razón. Aparentemente, el
mecanismo de cálculo de la rata es más estable o menos vulnerable que su mecanismo
de regulación del tiempo. Si bien Skinner está satisfecho de que sus técnicas
experimentales sirvan para estudiar las drogas, la característica de su enfoque es que
no intenta sacar inferencias acerca del efecto que producen esas drogas en el cuerpo
del animal. Existe una relación válida entre la clase de droga que entra en el cuerpo y
la conducta resultante; lo que ocurre entre estas dos no tiene interés para Skinner.
Conviene observar que los estudios de los diferentes programas de refuerzo no toman
en cuenta cómo se aprende originariamente la respuesta. Por lo general, se entrena bien
al sujeto en el empleo del manipulador antes de introducir cualquier forma de refuerzo
intermitente. Después de eso, un individuo dado puede adaptarse bastante fácilmente a
un programa después de otro, cambiando su conducta para adaptarla a cada nuevo
programa. De este modo, la investigación formal de Skinner se interesa en gran medida
en un aspecto inmediato con el aprendizaje, los rápidos desplazamientos en el nivel de
ejecución para aparearse a los desplazamientos en las condiciones de refuerzo. (En
realidad, algunos autores consideran que esos desplazamientos se realizan en un plazo
demasiado breve para que se los pueda llamar siquiera aprendizaje y se refieren a los
mismos simplemente como cambios en la ejecución.) Estos estudios no se interesan en
investigar cómo un individuo aprende a responder, sino cómo aprende a responder
rápidamente bajo un nuevo conjunto de condiciones dé recompensa.
Formación
No hay que sacar la conclusión, sin embargo, de que Skinner no se interesaba en el
proceso de aprender cómo ejecutar tareas complejas. Dedicó gran parte de su trabajo
menos formal al estudio de este problema y proporcionó demostraciones notables de las
técnicas de entrenamiento. Si bien muchos psicólogos experimentales estudian el
aprendizaje animal, Skinner es casi único en lo que respecta al entrenamiento animal.
La técnica mediante la cual entrena a los animales para que ejecuten actos complejos
que están fuera de su gama normal de conducta se conoce con el nombre de información
(sapina). La conducta se forma a través de una serie de aproximaciones sucesivas, cada
una de las cuales se hace posible al reforzar de manera selectiva ciertas respuestas y no
otras. De este modo, la conducta es llevada gradualmente cada vez más cerca de la
pauta deseada.
Supongamos que queremos entrenar a una rata para que presione una palanca y
obtenga una bolita, la lleve después al otro lado de la jaula, la deje caer en un agujero y
corra entonces a un tercer lugar de la jaula para conseguir el alimento. Si la rata queda
librada a sus propios recursos es posible que nunca llegue a pasar por esta secuencia
particular de operaciones, y, si lo hiciera, probablemente el proceso llevaría tanto
tiempo que al final del mismo el refuerzo del alimento tendría poco efecto sobre l a
respuesta inicial de presionamiento de la palanca. Si tratamos de entrenar a la rata
esperando simplemente que pase en forma espontánea por toda la secuencia con la
frecuencia suficiente para que la aprenda, en principio podríamos lograrlo, pero casi con
seguridad el proceso excedería el límite de nuestra paciencia y quizás hasta excedería el
límite de vida de la rata. Sin embargo, esta secuencia no está en modo alguno en el
límite de la capacidad d e aprendizaje de la rata; secuencias mucho más difíciles fueron
dominadas por ratas después de un entrenamiento apropiado.
Para lograr este entrenamiento Skinner comenzaba por privar de alimento a la rata
hasta que el animal pesara el 80 % de su peso normal. Entrenaba después a la rata para
que comiera del depósito del alimento. En varias ocasiones, un ruido seco o alguna otra
señal era seguida por la entrega de alimento proveniente del depósito, que caía a un
recipiente. Este procedimiento continuaba hasta que el ruido seco hacia que la rata se
dirigiera automáticamente el recipiente con la comida. Esta parte del método se llama
entrenamiento del depósito. Entonces podía comenzar la formación. Al principio se
hacía sonar la señal y se entregaba el alimento todas las veces que la rata tocaba la
palanca. Al cabo de un breve período, la rata pasaba la mayor parte del tiempo entre las
entregas del alimento cerca de la palanca y la acción de tocar frecuentemente la palanca.
Entonces podía cambiarse el procedimiento, de modo que se entregara el alimento sólo
cuando la rata presionaba la palanca. Una vez que la rata aprendía a presionarla
regularmente, la comida comenzaba a aparecer después del presionamiento de la
palanca, pero sólo cuando la rata tocaba la bolita después de presionar la palanca. En las
sucesivas etapas del entrenamiento, la rata se alimentaba solamente si recogía la bolita,
luego si la llevaba hacia el agujero y, por último, si la introducía en el mismo, con lo
cual se completaba el entrenamiento. Cada etapa de este proceso de formación cambiaba
la distribución de la conducta total del animal dentro de la caja, haciendo que las
respuestas que originariamente se producían rara vez ocurrieran con más y más
frecuencia. Estas respuestas, al ser aproximaciones más cercanas a la ejecución final,
podían entonces ser reforzadas, mientras que todas las otras respuestas no lo eran. Sólo
después que la rata aprendía a, presionar frecuentemente la palanca, por ejemplo,
resultaba práctico dar el refuerzo únicamente cuando el presionamiento de la palanca
era seguido por la acción de tocar la bolita. Este cambio gradual de la conducta típica de
un sujeto, para que se aproxime cada vez más a la que se desea, constituye el proceso de
formación.
Skinner realizó varias demostraciones notables de formación de la conducta operante.
Entrenó ratas de modo que pasaron por secuencias de conducta aún más complejas y
menos ratónales que la que describimos. Entrenó palomas para que jugaran una versiónmodificada del ping-pong, en la que picoteaban una pelota de un extremo a otro de la
mesa. Con conductas operantes menos complejas llevó a cabo el proceso completo de
formación durante un período de clase, mientras los alumnos podían observar cómo
cambiaba gradualmente la conducta del animal bajo la influencia del procedimiento de
refuerzo. Tales demostraciones requieren, por supuesto, cierto grado de habilidad y
experiencia para encontrar las respuestas y los reforzadores apropiados al organismo
que se entrena, y para decidir la rapidez con que se debe operar. Sin embargo, Skinner
subraya el aspecto mecánico del procedimiento, en qué medida puede formarse una
diversidad de conductas mediante la aplicación casi rutinaria de los principios del
refuerzo. En rigor, estas demostraciones fueron criticadas como meras aplicaciones
tecnológicas de principios simples, que no contribuían en nada a nuestra comprensión
científica de los principios en sí. Sin embargo, sirven como demostración del poder del
refuerzo para moldear la conducta, y esta demostración es el objetivo de Skinner.
No todas estas demostraciones se realizan con animales. Recientemente se desarrolló
una técnica para mostrar el efecto automático del refuerzo sobre la conducta humana y
se la llamó condicionamiento verbal. En el primer experimento de esta clase
(Greenspoon, 1955), se instruyó simplemente al sujeto para que dijera palabras. En
sus instrucciones, el experimentador no dio al sujeto ninguna clave acerca de qué
palabras deseaba escuchar. Sin embargo, siempre que el sujeto decía un sustantivo
en plural, el experimentador decía «mmhm». Durante la sesión, aumentó la
frecuencia con que los sujetos decían sustantivos en plural. Este aumento se produjo
pese al hecho de que muchos sujetos ignoraban, hasta donde pudo determinarse
mediante el interrogatorio, tanto el hecho de que decían más sustantivos en plural,
como cualquier relación existente entre la conducta del examinador y la propia.
Cuando cesó el «mmhm» dedicó la frecuencia de los sustantivos en plural
(extinción).
En otro experimento menos formal (Verplanck, 1955) los sujetos simplemente se
entretenían en conversar, sin que se les dijera siquiera que se trataba de un
experimento. El experimentador (a quien en este caso sería mejor llamar
interlocutor) expresaba interés y aprobación ante todas aquellas observaciones que el
sujeto presentaba como expresiones de opinión (por ejemplo, «Yo creo...», o «Me
parece...»). El interlocutor no reaccionaba ante otro tipo de observaciones. Las
expresiones de opinión se hicieron cada vez más frecuentes durante la conversación.
En estos dos estudios de condicionamiento verbal, la conducta verbal se modificó al
reforzarse una clase dada de respuesta verbal y no otra. Como cualquier técnica de
entrenamiento operante, ésta depende de encontrar un reforzador que sea efectivo
para el tipo particular de individuo que se estudia, pero una vez que se lo encuentra,
el principio de refuerzo parece aplicarse aquí tan bien como en cualquier otra parte .
Sin embargo, el carácter «automático» de estos efectos ha sido controvertido. En
los estudios sobre animales, el problema no se presenta. Todo lo que se necesita es
observar el modo sistemático con que el refuerzo influye sobre la conducta, y el
hecho de que se llame e no automáticos a esos efectos es de considerable
irrelevancia. Pero en el caso de los seres humanos siempre es posible preguntar les
qué pensaron del procedimiento, a fin de establecer si reaccionaron en forma
automática y en gran medida inconsciente o si advirtieron qué tipo de respuestas era
reforzado y, en tal caso, si se propusieron obtener el refuerzo. Desde el punto de
vista de Skinner, el hecho de que las personas tengan o no conciencia del proceso
constituye un elemento que no es especialmente importante. lo importante es que el
refuerzo influya sobre la conducta, no que las personas puedan describir con
precisión lo que sucede o crean que están eligiendo libremente. Sin embargo, el
problema de la conciencia en el condicionamiento verbal ha despertado considerable
interés en otros psicólogos. Aunque la cuestión está lejos de haber sido resuelta, las
pruebas de que disponemos sugieren que los seres humanos que se dejan influir por los
refuerzos verbales por lo común advierten, al menos hasta cierto punto, lo que sucede, y
experimentan la sensación de estar dirigiendo sus reacciones (véase, por ejemplo, Spielberger y DeNíke, 1966). Es difícil decidir en qué medida esta observación afecta el
concepto de que el refuerzo es un proceso automático, pero parece como mínimo que el
proceso, aunque a menudo es parcialmente inconsciente, rara vez lo es del todo .
Una información interesante sobre la formación de la conducta es la manera en que el
refuerzo puede producir, no sólo la conducta que se propone obtener el experimentador,
sino también una conducta de la que no tiene idea anticipada. Supongamos que se ajusta
un regulador de modo que entregue un reforzador cada 30 segundos,
independientemente de lo que haga el sujeto. (Este programa no es igual al programa de
intervalo-fijo, donde el sujeto tiene que suscitar una respuesta particular después que
termina el intervalo para poder ser reforzado.) Sea lo que fuere lo que hace el individuo
cuando aparece el refuerzo, es más probable que ocurrirá nuevamente la próxima vez.
Basándonos puramente en la casualidad, es más probable que en aquel momento el
sujeto esté haciendo algo que hace comúnmente y no algo que hace raras veces. Si
consideramos en primer lugar el hecho de que esta conducta ocurre comúnmente, a lo
que se agrega el hecho de que ahora acaba de ser reforzada, es mucho más probable que
ocurra cuando se entregue el próximo reforzador. Este refuerzo la fortalecerá algo más y
hará que sea más probable que se produzca en el momento adecuado para recibir el
tercer refuerzo. De este modo, es cada vez más y más probable que ocurra esta conducta
particular porque es reforzada, aun cuando el experimentador no refuerce
deliberadamente esa respuesta más que las otras. Por el contrario, el aprendizaje fue el
resultado de un círculo vicioso: la respuesta fue reforzada porque ocurrió frecuente mente y, porque fue reforzada, ocurrió más frecuentemente. El experimentador no sabía
de antemano cuál de las diversas respuestas que el individuo hacía frecuentem ente sería
aprendida de esta manera; esa selección dependía de la casualidad. Podría haber un
período durante el cual varias respuestas diferentes fueran reforzadas antes de que
alguna de ellas ganara suficiente ventaja como para poner en marcha el círculo vicioso.
La conducta podría ser demasiado variable para que alguna respuesta pudiera llegar a
obtener ventaja y se pusiera a la cabeza de las demás. Sin embargo, cuando esto ocurre,
este efecto reforzador no planeado es una demostración impresionante del
funcionamiento automático del refuerzo.
Skinner llama conducta supersticiosa este tipo de aprendizaje no planeado, que se
lleva a cabo mediante' el refuerzo «accidental». La justificación que da para ese término
es que el sujeto actúa como si cierta conducta produjera refuerzo, cuando en rigor no
hay una conexión necesaria entre la conducta y el refuerzo. La respuesta es seguida
comúnmente por el refuerzo, sólo porque tanto la conducta como el refuerzo ocurren
frecuentemente y, en consecuencia, ocurren a menudo al mismo tiempo. Las
demostraciones experimentales más acertadas de la conducta supersticiosa se hicieron
con palomas, pero no es difícil ver cómo puede aplicarse al aprendizaje humano. Si un
estudiante lleva una pata de conejo al examen para que le dé suerte y le va bien en el
examen, esta experiencia hará más probable que la lleve al examen siguiente. La
repetición de los éxitos mientras lleva consigo la pata de conejo hará que se apegue a la
misma cada vez con más fuerza, considerándola como una fuente de buena suerte, aun
cuando no haya contribuido en nada a su éxito e igualmente le hubiera ido bien sin ella.
(Pasamos por alto la posibilidad de que la confianza que el talismán le dio al estudiante
pudiera haber aumentado su efectividad en el examen.) Gran parte de las creencias del
hombre, no es en amuletos y magia, sino también en la medicina, las habilidades
mecánicas y las técnicas administrativas dependen probablemente de dicho aprendizaje
supersticioso. Un orador que cree que tiene éxito porque galpea tres veces sobre la
tribuna antes de empezar a hablar es considerado generalmente como una persona
supersticiosa, pero un orador que cree que tiene éxito porque empieza cada discurso con
una historia divertida puede ser igualmente supersticioso, de acuerdo con la definición
de Skinner. En los seres humanos estas supersticiones probablemente se aprenden con
más frecuencia de otras personas que de circunstancias casuales. Sin embargo, cuando
la gente sostiene que su fe en ellas ha sido validada por la experiencia, esta experiencia
sigue a menudo la pauta de aprendizaje que Skinner describió e ilustró con numerosos
ejemplos.
Algunas aplicaciones
Como sin duda lo habrá supuesto ya el lector, Skinner demostró mucho
interés en la aplicación de los principios del aprendizaje a las situaciones
prácticas complejas. Escribió un libro en el que analiza el lenguaje como un
sistema de respuestas operantes (Skinner, 1957 b). Entrenó a pacientes
psicóticos internados no sólo para que respondan más activamente a su
medio ambiente, sino para que ajusten sus respuestas a los estímulos sociales
(Skinner, 1957 a). Señaló las diversas formas de refuerzo utilizadas en el
control político, social y económico (por ejemplo, describió los salarios
comunes como programas de intervalo-fijo y el trabajo pagado por pieza
como programas de razón-fija para el control de la conducta económica)
(Skinner, 1953). En un plano más ambicioso, describió una comunidad
utópica que llamó Walden II (en homenaje a Thoreau, que pudo o no sentirse
honrado con_ ese gesto), en la cual los principios del aprendizaje se utilizan
para crear una forma más ideal de organización social (Skinner, 1 948).
Algunos críticos consideran que estas interpretaciones son simplificaciones
exageradas y altamente especulativas. Se preguntan por qué, si bien Skinner
se niega resueltamente a inferir, a partir de lo que hace una paloma, lo que
ocurre en su interior, está siempre dispuesto a inferir de lo que hace la
paloma lo que ocurre en la organización social humana. Hay que admitir que
las interpretaciones de Skinner van mucho más lejos que sus datos. Skinner
es un experimentador ingenioso y al mismo tiempo un profeta de la
aplicación de la ciencia a los problemas humanos, pero la pregunta entre
estos dos roles a veces parece ser demasiado grande.
Con todo, dos aplicaciones de la labor investigadora de Skinner han ido
mucho más allá del terreno especulativo. Una de ellas es el tratamiento de
los trastornos de la conducta. Ya se trate del mal comportamiento de un niño
relativamente normal o de la psicosis de un paciente que ha debido
permanecer internado en un hospital durante muchos años, el enfoque
skinneriano del tratamiento es sobremanera directo. En lugar de ocuparse de
los años de la infancia, de las características psicodinámicas actuales o de las
posibles anormalidades orgánicas, Skinner pregunta simplemente qué hace
esa persona que nos agrada y qué desearíamos que hiciera. Una vez
establecido esto, podemos ocuparnos de extinguir las conductas indeseables
y reforzar las deseables. En otras palabras, perdemos cambiar las
contingencias del refuerzo, o sea las relaciones específicas de acuerdo con las
cuales el refuerzo depende de una u otra conducta. Este enfoque, que es
básicamente similar al de Guthrie -aunque lo complementa mediante la
introducción del elemento refuerzo constituye el fundamento de las diversas
técnicas psicoterapéuticas de modificación de la conducta.
Para ejemplificar el enfoque de la motivación de la conducta, citaremos el caso de u n
niño que asistía a una dulcería y que pudo ser curado de su tendencia a llorar en exceso
(Hart y otros, 1964). Los terapeutas (¿experimentadores? ¿educadores? ), como buenos
skinnerianos, comenzaron por distinguir el llanto entre respondiente (que obedecía por
lo general a molestias físicas y no era afectado por la situación social) y operante (que
se hallaba en menor grado bajo la influencia de estímulos específicos, ocurría en
presencia de un adulto y era acompañado por frecuentes miradas al adulto,
aparentemente para comprobar de qué forma éste reaccionaba). No se buscó modificar
el llanto respondiente, pero en cambio todas las maestras de la dulsería fueron
entrenadas -on el propósito de que pudieran reconocer y hacer caso omiso del llanto
operante. Se eliminó así la atención con que anteriormente se había reforzado este tipo
de llanto, y el proceso de extinción comenzó. Más tarde se instruyó a las maestras para
que volvieran a prestar atención en todos los casos al llanto del niño, y la consecuencia
del rápido reaprendizaje del llanto operante po parte de éste demostró que su
disminución previa había sido provocada por el procedimiento de extinción. Se puso en
marcha una nueva extinción y el llanto operante cesó casi por completo.
Técnicas semejantes se han utilizado en los hospitales psiquiátricos y en otros diversos
ambientes para tratar una gran variedad de conductas, como, por ejemplo, sobre y
subalimentación, acaparamiento de toallas (por parte de un enfermo mental), distracción
en el aula y el retraimiento social extremo que presentan los niños autistas y muchos
psicóticos. (Para mayores detalles puede consultarse la Segunda Parte de Ulrich y otros,
1966.) Desde el punto de vista de las psicoterapias más tradicionales, la modificación de
la conducta se presta a crítica por su carácter superficial y porque sus efectos -según se
arguye- duran sólo mientras actúan las nuevas contingencias del refuerzo. No obstante,
mientras puedan señalar cambios de conducta rápidos, mensurables y a veces incluso
llamativamente amplios, no es probable que los partidarios de la modificación de la
conducta se sientan preocupados por esas críticas. Aunque es demasiado pronto par a
afirmarlo con seguridad, los cambios en la manera de tratar la conducta anormal que se
deriven de las técnicas de modificación de la conducta pueden llegar a ser tan
fundamentales como los que produjo en su momento la aparición del psicoanálisis.
Es obvio que el enfoque psicoterapéutico de Skinner tiene mucho que
ver con la educación. No es sorprendente, por tanto, que la otra aplicación
de su labor investigadora dotada de importantes efectos prácticos se haya
producido en el campo educacional. Se trata del estudio del aprendizaje
programado, que se conoce mejor a través de su utilización en las máquinas
para la enseñanza. Si bien Skinner no fue el primero en sugerir este
enfoque para la enseñanza, fue el que confirió a la idea su principal
impulso. Su intención fue la de tratar el aprendizaje en el aula como
cualquier otra situación en la que tiene que formarse cierta conducta, en
este caso, principalmente, la conducta verbal. El estudiante debe progresar
gradualmente desde el material familiar hasta el que no lo es, debe tener la
oportunidad de aprender las discriminaciones necesarias y debe ser
reforzado. La situación de clase tiene muchas desventajas desde este punto
de vista. Una tasa de progreso apropiada para un estudiante es demasiado
rápida o demasiado lenta para otro. Para cada individuo las oportunidades
de producir las respuestas requeridas son limitadas y el refuerzo a menudo
se retrasa mucho. La enseñanza individual podría resolver todos estos
problemas, pero en la mayoría de los casos esto está fuera de la cuestión,
con excepción tal vez de algún trabajo suplementario ocasional. ¿Qué
puede hacerse entonces para dar a los alumnos en la escuela las mismas
ventajas que tienen las palomas en las jaulas? La respuesta de Skinner a
esta pregunta es la máquina para enseñar.
El componente fundamental de la máquina es él programa. Este es una
serie de Ítems de prueba y de enseñanza combinados, que lleva al alumno
gradualmente a través del material que tiene que aprender. Un ítem puede o
no proporcionar nueva información al estudiante, pero, sea como fuere,
exige que éste llene el espacio correspondiente a la pregunta que tiene que
contestar. Después puede mirar la respuesta correcta. Si ésta concuerda con
su respuesta, este acuerdo constituye el refuerzo. Si no es así, el alumno
puede estudiar la respuesta correcta de modo de aumentar su posibilidad de
ser reforzado la próxima vez. Sin embargo, Skinner prefiere que los
requerimientos del aprendizaje sean tan graduales que el alumno raras
veces, si no nunca, cometa errores. Si este esfuerzo tiene éxito, en cada
ítem el alumno da una respuesta correcta y es reforzado, lo cual, según el
conscripto de Skinner, es el mejor arreglo posible para el aprendizaje. Las
diferencias individuales se reflejan entonces en la velocidad a la que el
estudiante prosigue adelante con el programa. Para un estudio de la lógica
y las ventajas de este enfoque de la enseñanza conviene consultar a
Skinner, 1961.
A esta altura, el lector puede preguntarse extrañado: « ¿Cuándo aparece
la máquina? Esto no es más que el viejo método familiar del libro de
ejercicios.» Hasta cierto grado, ésta es una objeción válida. Buena parte de
la instrucción programada actual se imparte por medio de libros y no de
máquinas. El estudiante llena un espacio y después da vuelta a la hoja para
verificar su respuesta. Sin embargo, estos libros programados difieren del
tipo más familiar de libro de ejercicios porque efectúan toda la enseñanza
mediante los ítems del programa, en lugar de servir como suplemento de las
conferencias y los libros de texto. Las mismas series de ítems que
promueven las respuestas del alumno proporcionan también la información
necesaria para formular las respuestas. Esta disposición, a su vez, obliga al
autor del programa a planear la secuencia de los ítems con sumo cuidado, en
función de lo que quiere justamente que' aprenda el alumno y de la forma
mejor de presentárselo. Que el programa esté en un libro de ejercicios o en
una máquina es de importancia secundaria. Es probable, sin embargo, que
gran parte de la preferencia. de Skínner por el método de las máquinas se
deba a dos factores: 1) el efecto novedoso de la máquina, que probablemente
hace que su utilización sea más reforzadora para el alumno y 2) la
preferencia personal de Skínner por los métodos mecanizados. Si bien la
máquina misma ha sido algunas veces materia de desavenencia entre los que
favorecen la creciente eficiencia en el aula y aquellos que temen la pérdida
de valores más personales en la educación, este énfasis está fuera de lugar.
La cuestión pertinente, se refiere al valor de los métodos programados de
enseñanza, de cualquier clase que sean, y no a las máquinas de enseñanza
como tales.
Todavía es prematuro juzgar los valores de la enseñanza programada, ya
sea mediante máquinas o de otra manera, dentro del contexto total de la
educación. Hay muchos factores implicados, además de la eficiencia como
mecanismo específico de la enseñanza. Además, la creciente disponibilidad
de computadoras permite contar con formas de presentación más variadas, de
modo que ya no se depende exclusivamente de los libros de ejercicios y del
modelo original de la máquina de enseñar. Aunque Skinner es partidario de
los programas lineales, en los que cada alumno pasa por las mismas etapas y
éstas son tan sencillas que los errores son poco frecuentes, la utilización de
las computadoras ha favorecido la difusión de los programas ramificados, en
los que las respuestas del alumno determinan qué material le será presentado
a continuación. La tecnología de la instrucción programada ha superado con
mucho la contribución inicial de Skinner, pero sigue siendo la prueba
evidente de que las aplicaciones de éste no están restringidas a artificios para
el entrenamiento de animales y a especulaciones acerca de la organización
de la sociedad.
Relación ¿e Skinne.• con otros psicólogos.
Resulta interesante que observemos la relación que existe entre Skinner
y los teóricos Watson y Guthrie. Difiere de ambos, por supuesto, en el
problema del refuerzo, pero se les asemeja en su énfasis práctico. Como
Guthrie, se siente más cómodo al analizar situaciones particulares de
interés práctico que-al estudiar puntos de significación teórica general. Al
analizar una respuesta, la primera pregunta que formula Guthrie es: «¿Qué
estímulos evoca?», en tanto la de Skinner es: «¿Qué reforzador la
sustenta?» Los dos, sin embargo, concentran el énfasis sobre un detalle
específico y manipulable de la situación. Guthrie fue más lejos al
relacionar situaciones específicas a un enunciado general de lo que es el
aprendizaje, mientras que Skinner avanzó más por el camino de
experimentar realmente con las situaciones que analiza. Sus diferenrias son
sustanciales, pero sus semejanzas también son notables.
Skinner y Watson, por su parte, tienen en común un celo fervoroso acerca de lo que
debería ser la psicología y cómo tendría que contribuir a los asuntos humanos. Ambos
reaccionan vigorosamente en contra de lo que consideran como interpretaciones vagas y
superteóricas de la naturaleza humana y a favor del estudio estrictamente científico de
la conducta. Los dos sistemas que promulgan son considerados de gran utilidad por sus
amigos y excesivamente simplificados por sus enemigos. (Ambos juicios pueden ser
válidos, desde luego, ya que las simplificaciones extremas pueden ser útiles para
muchos propósitos.) Los dos investigadores aparecen como profetas que tratan de
purgar los errores de la psicología tal como es y de proclamar las glorias de la
psicología tal como debería ser. Ambos tienen la visión de lo que el hombre podría
llegar a ser si se lo orienta mediante la aplicación apropiada de los principios del
aprendizaje.
Si bien Skinner llegó más lejos que Watson o Guthrie al sor;:eter sus ideas al exam en
experimental, se lo puede criticar, sin embargo, por ser demasiado estrecho en sus
intereses, por concentrarse en la aplicación de unos pocos principios, más bien que en
una comprensión general de la conducta. Por ejemplo, centró su atención sobre la tasa
de emisión de operantes libres y simples, excluyendo prácticamente otras medidas de
respuesta. Utilizó como reforzadores cualquier cosa que surtiera efecto, sin preguntar
qué es lo que hace que un reforzador refuerce. Se negó a considerar qué hay dentro del
organismo que hace posible todos los aprendizajes complejos que es capaz de dominar
el ser humano (y aun el animal más inferior). Para el mismo Skinner, estas
manifestaciones no representan críticas, sino elogios, porque indican cuán lejos h a
llegado en el camino de eliminar lo que no es esencial y poner manos a la tarea. Para
muchos otros, no obstante, implican que Skinner fracasó en su intento de proporcionar
el tapo de :comprensión que es una de las funciones de la teoría. La decisión que se
tome acerca de si Skinner debe ser elogiado o atacado por estas características de su
trabajo es una cuestión que depende de nuestras propias estimaciones, pero, sea como
fuere, el desacuerdo surge la necesidad de otros enfoques.
Skinner fue criticado también sobre otra base. Realizó sus experimentos
generalmente sobre un sujeto o muy pocos sujetos. Skinner cree que sólo al considerar
la conducta de un solo individuo podemos encontrar la validez en la conducta. Muchos
psicólogos, sin embargo, adoptan el criterio opuesto: las leyes generales y estables sólo
pueden obtenerse cuando se considera el promedio de la conducta de muchos
individuos. Sólo así, afirman, pueden descartarse las diferencias individuales y las
fluctuaciones accidentales y subsistir únicamente las leyes generales, aplicables
extensivamente. Los argumentos sobre los dos aspectos de esta cuestión son demasiado
complejos para que los consideremos en este libro, pero señalan otra de las razones por
las que muchos psicólogos están descontentos con el sistema de Skínner. Temen que
Skinner reemplace la inventiva del maestro por la minuciosidad del científico y que
magnifique las peculiaridades de los individuos, convirtiéndolas en lo que él sostiene
que son las leyes generales de la conducta. Reiteramos que en todo esto no vemos
necesariamente una debilidad en Skinner, sino una razón para que otros psicólogos
hayan elegido caminos distintos.
Como experimentador, Skinner hizo contribuciones importantes a la psicología del
aprendizaje. Entre éstas, tenemos la conducta operante libre, los programas de refuerzo,
la formación, las supersticiones y la caja de problemas de Skinner. Se interesa muy
poco por ser un teórico, importante - no. No obstante, en esta área también hizo sus
contribuciones. Podemos citar, por ejemplo, la distinción entre conducta respondiente y
conducta operante y el énfasis sobre el control preciso de la conducta en el caso
individual. Como hemos visto, no todas estas contribuciones son consideradas
favorablemente en forma unánime, pero, pese a esto, es indiscutible la importancia de
los trabajos de Skinner, tanto para la psicología pura como para la psicología aplicada
del aprendizaje.
MILLER Y SU INTERPRETACIÓN DEL APRENDIZAJE
Consideraremos ahora otra posición conexionista del refuerzo, la de
Neal Miller (nacido en 1909), quien fue profesor de psicología en Yale
hasta 1966, pasando luego a enseñar en la Universidad Rockefeller. En
principio, el sistema de Miller no se diferencia mucho del de Skinner,
pero sí difiere enormemente en cuanto al vocabulario y las técnicas
experimentales. Es también más teórico que el sistema de Skinner. En
rigor, representa en gran medida una simplificación de la teoría de Clark
Hull, que estudiaremos en detalle más adelante. Si bien el considerar a
Miller antes de Bull invierte la secuencia cronológica natural, puede
servir como introducción para el estudio altamente técnico del sistema
de Hull.
Gran parte de la importancia de Miller como teórico proviene' de las
aplicaciones de su teoría a distintos temas de la psicología de la
personalidad, de la psicología social y de la psicología anormal. Estas
aplicaciones fueron efectuadas conjuntamente por Miller y John Dollard
(nacido en 1900). Los antecedentes de Miller en psicología experimental
y los de Dollard en psicología clínica y ciencias sociales posibilitaron
una colaboración muy fructífera sobre estos temas. El análisis teórico
del aprendizaje es principalmente obra de Miller, quien a este respecto
le debe mucho a Rull, pero las aplicaciones fueron realizadas sobre todo
por Dollard.
Los cuatro elementos del aprendizaje
Mientras que para Skinner el concepto de refuerzo es fundamental
para su interpretación del aprendizaje, Miller opina lo mismo del
impulso. Un impulso es un estado de excitación del organismo, un
estado que estimula al individuo a la acción. Para Miller, el impulso
implica siempre un fuerte estímulo; además, cualquier estímulo, es
suficientemente fuerte, actúa como un impulso. El estímulo del impulso
puede ser externo o interno. El dolor es in ejemplo de un impulso
producido por un estímulo externo, mientras que el hambre y la sed son
producidos por estímulos internos. Algunos impulsos se producen por
estímulos provenientes de las propias respuestas emocionales del
individuo. Cuando sentimos enojo o temor, en nuestros cuerpos tienen
lugar cambios fisiológicos. Algunos de éstos producen fuertes estímulos
internos, que son responsables de los impulsos de ira y de temor. Sea
cual fuere su fuente, un impulso despierta al individuo y lo mantiene
activo. Por consiguiente, el impulso es la base de la motivación.
En una criatura o en un individuo de más edad que se encuentra en una situación muy
poco familiar, la actividad producida por el impulso tiene escasa dirección. Se realizan
toda clase de respuestas diferentes. Puede ocurrir que una de estas respuestas sirva para
reducir la fuerza del impulso. Si el impulso es el hambre, la alimentación lo reducirá. Si
el impulso es el dolor provocado por una descarga eléctrica, el impulso se reducirá al
alejarnos del conductor cargado de electricidad. Cuando un impulso se reduce (lo que
significa a menudo, pero no siempre, que se lo elimina completamente), el individuo se
vuelve menos activo. Por lo tanto, una cosa que podemos decir acerca del impulso es
que un estímulo fuerte aumenta la actividad y la eliminación del estímulo fuerte la
disminuye.
Éste es sólo un enunciado acerca de la motivación y no acerca del aprendizaje. Sin
embargo, la reducción de la fuerza de un impulso tiene una propiedad muy imp ortante:
refuerza cualquier respuesta producida justo antes de la reducción. De este modo,
cualquier respuesta que sirva para reducir el impulso es reforzada y por lo tanto tiende a
ser aprendida. En consecuencia, la conducta suscitada por un impulso en una situación
familiar es bastante diferente al «ensayo y error» en una situación no familiar. El
individuo hace ahora rápidamente la respuesta aprendida que redujo en el pasado el
impulso y de este modo inmediatamente lo reduce de nuevo. La reducción del im pulso
es, por lo tanto, la operación Básica en el aprendizaje.
Hasta ahora tenemos entonces un impulso, una respuesta y una reducción resultante
en el impulso. Hay que agregar un elemento más: el conjunto de estímulos que o rienta
la respuesta. No aprendemos simplemente una respuesta para reducir un impulso dado
siempre o dondequiera que el impulso ocurra; la respuesta depende de las condiciones.
Bajo ciertas condiciones reducimos el hambre yendo a un restaurante; bajo otras, lo
hacemos al preparar una comida. Los estímulos que orientan la respuesta y determinan
cuál es la respuesta que se producirá, reciben el nombre de indicaciones (cues). Por
último, la reducción del impulso que termina con la secuencia de aprendizaje puede
llamarse una recompensa. Éste es el cuarto de los elementos del aprendizaje que Miller
y Dollard hicieron famosos: el impulso, la indicación, la respuesta y la recompensa. En la
caja de trucos de Thorndike, por ejemplo, el impulso era el hambre (y también,
probablemente, la exploración); la indicación más importante era la agarradera de soga,
la respuesta era la acción de tirar de la soga, y la recompensa, la evasión y el alimento.
Esta posición. puede considerarse como una combinación de
Guthrie, por un lado, y de Thorndike y Skinner, por el otro. Un estímulo (impulso) fuerte actúa como un estímulo de mantenimiento, según la
terminología de Guthrie. Su remoción, sin embargo, actúa como un
reforzador. Miller utilizó el término «impulso» para incluir lo que
Skinner consideraría como tres conceptos diferentes. Uno de éstos es el
reforzador negativo. La definición de Miller acerca del impulso se
asemeja a la definición de Skinner acerca del reforzador negativo, dado
que ambos son nocivos y ambos, al ser eliminados, producen refuerzo.
El segundo concepto es el del programa de mantenimiento. La
efectividad del alimento como reforzador depende del reciente
programa alimenticio del sujeto; si se lo privó de si:mento. éste ser ,`
más reforzante que °.i no se lo hizo. Para Miller, el mantenimiento es
otro aspecto del impulso. El tercer concepto es el de excitación. Varios
estímulos producirán la conducta respondiente que llamamos
excitación fisiológica, como, por ejemplo, la aceleración del corazón y
la tensión de los músculos. Para Miller la excitación es, sin embargo,
otro aspecto del impulso. De este modo, Miller promovió una teoría, u
oscureció la cuestión, según los puntos de vista de cada uno, al
considerar bajo el único rótulo de impulsos entidades tan distintas
como el hambre, -el dolor y la exitación emocional.
Imitación
Miller y Dollard, en su primer libro, titulado Social Learning and A1
milaiion, exponen su interpretación básica y proceden después a
aplicarla a diversas situaciones complejas. Los autores afirman que gran
parte de la conducta del aprendizaje humano implica imitación. En el
gran número de situaciones, la gente cuando resuelve los problemas no
prueba una respuesta después de otra hasta que una es recompensada,
sino que hace lo que ve hacer a alguna otra persona. ¿Cómo encaja esta
conducta dentro del modelo de aprendizaje simple de Miller-Dollard? La
respuesta es que la tendencia a imitar también se aprende. Cuando un
individuo efectúa una respuesta, frecuentemente lo hace en presencia de
indicaciones producidas por la conducta de otros. Su propia respuesta
puede ser igual o diferente de la del otro individuo. Si la respuesta es
igual a la del otro y es seguida por la reducción del impulso, el
individuo ha sido recompensado al utilizar las indicaciones de otro
individuo para moldear su respuesta según la del otro. Si la respuesta es
diferente y no es seguida por la reducción del impulso, la tendencia a
comportarse en forma distinta a la del otro no es recompensada y
empieza a extinguirse. Por lo tanto, la conducta imitativa es
recompensada y la otra no, de modo que el individuo aprende a hacer lo
que ve hacer al otro.
Miller y Dollard dan el ejemplo de dos niños de seis y tres años, que
juegan a un juego con su padre. El padre escondió un caramelo para
cada uno y los dos muchachos tenían que buscarlos. Donde quiera que el
niño de más edad buscara el caramelo, su hermano menor lo seguía y
buscaba también. Cuando el mayor encontró su caramelo y cesó -::
búsqueda, el menor no tenía idea de dónde podía seguir buscando. La
única estrategia que conocía era imitar exactamente a su hermano.
¿Cómo se desarrolló esta pauta de imitación, tan contraproducente en este conflicto?
Iíiller y Dollard aluden a un incidente anterior en la vida de estos hermanos. En una
ocasión, el hermano mayor escuchó los pases de su padre que volvía del trabajo y corrió
a saludarlo. El menor corría por casualidad en ese mismo momento en la misma
dirección. El padre saludó a los niños y les regaló caramelos. Dado que el hermano
menor no había aprendido a distinguir los pasos de su padre, no corría para saludarlo; el
hecho de que corriera era puramente accidental. Sin embargo, se lo recompensó por la
carrera. Naturalmente, en el pasado había corrido muchas veces sin que por eso fuera
recompensado. La indicación distintiva para esta ocasión particular era la visión de su
hermano corriendo. Por lo tanto, para el hermano menor había una situación de
aprendizaje, en la que el impulso era el hambre, la indicación era la visión de su
hermano corriendo, la respuesta era la carrera, y la recompensa, los caramelos. Miller y
Dollard llegaron a la conclusión de que a través de aquel incidente y de muchos otros
parecidos, el hermano menor aprendió eventualmente a imitar a su hermano. Como al
hacerlo era recompensado frecuentemente, lo hacía aun en situaciones como la del
juego del escondite, donde era inútil.
Es fácil recordar situaciones en las que la gente es recompensada por imitar a otros.
Sin embargo, Miller y Dollard no se contentaron simplemente con limitarse a citar
dichos ejemplos. Realizaron experimentos en los que, tanto a los seres humanos como a
los animales, se les enseñó a imitar. En uno de esos experimentos, el sujeto (un niño de
primer grado) podía obtener caramelos de una máquina, algunas veces si daba la vue lta
a la manija y otras si la apretaba hacia abajo. Si el niño hacía el movimiento equivocado
en ese ensayo, no recibía caramelos. Junto a cada niño había otra persona que se turnaba
en la máquina justo antes de que la manipulara el sujeto. Algunas veces esta otra
persona era otro niño y a veces era un adulto. Si el adulto daba vuelta a la manija, dar
vuelta a la manija también sería correcto para el niño. Si el otro niño daba vuelta a la
manija, sin embargo, sólo la presión de la manija surtirla efecto para el sujeto. En otras
palabras, en esta situación los niños eran recompensados por imitar a los adultos, pero
no por imitar a otros niños. Los niños no sólo aprendieron a imitar al adulto y no al otro
niño, sino que generalizaron esta conducta a otros adultos y otros niños. Algunos otros
niños fueron recompensados por imitar a los niños y no a los adultos y en estos casos
también aprendieron. Este experimento ilustra, no sólo el aprendizaje por imitación,
sino también la generalización de la imitación de una persona a otra y la discriminación
entre la gente a quien se debe y a quien no se debe imitar.
Miller y Dollard prosiguieron aplicando estos principios a distintas situaciones
sociales. Señalan, por ejemplo, que aprendemos a imitar a gente de elevado prestigio
más que a aquella de poco prestigio. Es probable que un niño sea recompensado por
imitar a «esos encantadores niños (de clase media)» y no lo sea cuando actúa como
«esos niños detestables (de clase baja) que viven del otro lado de las vías». Los
resultados de este aprendizaje pueden verse en las adolescentes que tratan de vestirse y
de moverse como las estrellas de cine y en los hombres adultos que compran autos que
están fuera de sus posibilidades económicas para poder compararse con los García.
Miller e Dollard aplican también los principios de la imitación a la conducta de las
multitudes. Sugieren que la muchedumbre está formada por personas que se imitan unas
a las otras y, de este modo, se estimulan mutuamente para realizar actos que pocas
personas llevarían a cabo como individuos aislados. Ilustran este argumento con el
relato horripilante de una turba que efectúa un linchamiento.
Miedo y neurosis
En su segundo libro, titulado Personality and Psychotherap, ,, Miller v
Dollard consideran el aprendizaje de la personalidad y especialmente el
aprendizaje y desaprendizaje de las neurosis. Empiezan señalando que la
persona neurótica tiene tres características: es desdichada a causa de sus
conflictos, se comporta como una persona necia en ciertos aspectos de su
vida y tiene síntomas. Después explicaron estas tres características de
acuerdo con el aprendizaje previo del neurótico. El elemento fundamental
en este aprendizaje es el impulso aprendido de miedo. Este impulso es la
base del conflicto, la fuente de la desdicha y la causa de q necedad.
¿Qué es un impulso aprendido? Skinner lo llamaría un estimulo nocivo condicionado.
No obstante, Miller y Dollard van más lejos al analizar lo que ellos creen que ocurre
cuando se aprende un impulso. Empiezan su estudio con una demostración experimental
con ratas. Colocan una rata en una caja con dos compartimientos, uno de los cuales tiene
paredes blancas y piso de rejilla y las otras paredes negras y piso de madera. La rata
explora ambas partes y muestra poca preferencia por una u otra. Se la coloca después en
el compartimiento blanco y se le aplica una fuerte descarga eléctrica a través del piso de
rejilla. La mayoría de las ratas escapan a la descarga eléctrica al correr y entrar al
compartimiento negro. Esta secuencia. de la descarga en el compartimiento blanco y la
huida al negro se repite varias veces. Entonces se coloca la rata en el compartimiento
blanco sin que haya descarga. La rata corre rápidamente al otro compartimiento. Dado
que ya no existe un impulso de dolor que motive esta conducta de huida, Miller y Dollard
la explican sobre la base de que un impulso secundario de temor ha sido condicionado a
las indicaciones del compartimiento blanco.
¿Cuál es la naturaleza de este impulso secundario? Según aseveran Miller y Dollard,
implica, como todos los impulsos, una fuerte estimulación. Estos estímulos fuertes son
producidos por las propias respuestas de la rata. Cuando se le aplicó a la rata la primera
descarga eléctrica en el compartimiento blanco, el animal hizo una serie de respuestas a la
descarga, tales como la tensión de los músculos, el aumento de los latidos del corazón y
otros indicadores de emoción. (Éstas no son, por supuesto, respuestas voluntarias, ni en
las ratas ni en los seres humanos. Skinner las llamaría respondientes.) Por otra parte,
provocan una fuerte estimulación que se agrega al impulso producido por el dolor de la
descarga eléctrica. Los estímulos fuertes originados por las respuestas emocionales
constituyen el impulso de temor. Estas respuestas emocionales llegaron a ser
condicionadas a las indicaciones del compartimiento blanco, debido al hecho de que se
producían en presencia de aquellas indicaciones y eran seguidas por la reducción del
impulso cuando la rata huía de la descarga. Cuando las indicaciones del compartimiento
blanco se presentan sin la descarga eléctrica, producen las respuestas emocionales, que a
su vez producen los estímulos del impulso de temor.
El hecho de que el miedo es un impulso puede demostrarse utilizándolo como hase del
nuevo aprendizaje. Se hizo esta demostración cerrando la puerta que comunicaba la
sección blanca con la negra; la rata sólo podía entonces abrir la puerta si hacía girar una
rueda que se hallaba sobre la pared cercana a la puerta. Los animales aprendieron a dar vuelta
a la rueda y a correr después al compartimiento negro, aun cuando no hubiera descarga
eléctrica en el compartimiento blanco. En este caso el temor era el impulso, la visión de la
rueda la indicación, girar la rueda la respuesta y el escape del temor (al huir del
compartimiento blanco) la recompensa. Después se cambió la situación de modo que la
puerta no se abría al girar la rueda, sino al presionar una palanca. Resultó entonces que la
respuesta de dar vuelta a la rueda se extinguió y se adquirió la respuesta de presionar la
palanca. De este modo, el impulso secundario de temor operó como impulso primario para
motivar el aprendizaje.
¿Cómo se produce este tipo de aprendizaje cuando pasamos de las ratas experimentales a
los seres humanos neuróticos? Consideremos un niño que es castigado severamente por su
conducta independiente. Siempre que trata de salirse con la suya se lo somete a un dolor, que
produce respuestas emocionales, las que a su vez provocan el impulso secundario de miedo.
Estas respuestas que producen miedo se condicionan a las indicaciones presentes. en el
momento, incluidas aquellas que provienen de su propia independencia. Como resultado,
cualquier conducta independiente llegará- a producir miedo, mientras que la sumisión reduce
el miedo. El niño teme entonces la independencia, en la misma forma en que la rata teme el
compartimiento blanco, y la conducta de sumisión del niño es un escape de esta
independencia que provoca temor, lo mismo que la acción de correr al compartimiento negro
es un escape del compartimiento blanco que provoca miedo.
No -estante, el problema del niño es peor que el de la rata. Mientras la rata puede correr al
compartimiento negro su temor dura poco y no desbarata su vida. Sin embargo, el niño se
encuentra a menudo en situaciones en que la conducta independiente puede ayudarlo a
conseguir las cosas que quiere. Estas situaciones se producen más frecuentemente todavía
cuando llega a la edad adulta. El hecho de que teme ser independiente es para él un gran
obstáculo. Se halla en un conflicto entre su deseo de obtener algo y su miedo por la conducta
independiente mediante la cual podría conseguirlo. Este conflicto, en el que pierde haga lo
que haga, es para él una fuente de desdicha. Si se percata de la gran diferencia que existe
entre su situación actual y aquella en la que se lo castigaba por su independencia, podría
librarse del miedo y resolver el conflicto. Sin embargo, este camino requiere que reconozca
su problema y reflexione sobre el mismo. Pero no puede hacer ninguna de las dos cosas, dado
que ha llegado a sentir miedo, no sólo de comportarse independientemente, sino hasta de
decir (a otros, o a sí mismo) que le gustaría ser independiente. Este miedo de decir o
pensar siquiera que le gustaría ser independiente es lo que hace que su conducta sea
necia. Su mente no puede producir las respuestas que lo ayudarían a comprender y
resolver sus problemas: No obstante, puede obtener algún consuelo en otras formas
diversas. Por ejemplo, puede convertirse en un ser tan dependiente, a través quizá de
síntomas de aparente enfermedad física, que otros se vean obligados a cuidarlo y
proporcionarle algunas de las cosas que desea. Esta no sería una política
deliberadamente adoptada, sino una respuesta aprendída por medio de sus efectos de
reducción del miedo. La «enfermedad» sería llamada un síntoma. Es una solución
parcial al problema planteado por el miedo y el conflicto, pero sólo es una solución
parcial e interfiere para que encuentre una solución más efectiva. Este neurótíco: es
desdichado, se encuentra en un conflicto, aborda sus dificultades con un
comportamiento necio y tiene síntomas.
¿Cómo se puede eliminar la neurosis por medio de la psicoterapia? Dado que el
miedo es la causa primaria, la extinción del miedo es el elemento fundamental de la
cura. Si se le da a la rata suficiente experiencia en el compartimiento blanco sin que
haya descarga eléctrica, su tendencia a suscitar las respuestas que producen miedo se
extinguirá eventualmente. Del mismo modo, si se puede persuadir al neurótico para que
dé respuestas independientes (o haga cualquier otra cosa por la que siente temor) bajo
condiciones en las que no será castígado, su temor se extinguirá. Dado que las
indicaciones para el temor provienen de las propias respuestas del individuo, debe
inducírsele gradualmente a hacer esas respuestas, primero en forma muy débil e
indirecta y después con más fuerza y más directamente. De este modo, en los prim eros
estadios de la terapia, el neurótico puede decir tímidamente que él piensa a veces que
podría hacer sugerencias útiles a su patrono, mientras que en las etapas ulteriores puede
expresar el deseo violento de lanzarle al patrono toda clase de insult os. A medida que el
paciente elimina su temor a expresar conceptos independientes, será más. capaz de
pensar sensiblemente en su conflicto. Dado que hablar acerca de un acto y hacerlo son
cosas algo similares, mediante la generalización del estímulo el individuo llegará a
sentir menos temor en seguir una conducta abiertamente independiente. De este modo,
mediante un sistema teórico muy diferente, Miller y Dollard llegan a una conclusión
práctica muy semejante al método de (Guthrie del umbral para la eliminación de los
hábitos emocionales indeseables.
ALGUNAS RELACIONES ENTRE LAS INTERPRETACIONES
Hemos considerado hasta ahora varias teorías del aprendizaje, las cuales son partes de la tradición
conductista en el sentido amplio de la palabra. Todas tienen dos cosas en común. Una es que son teorías
conexionistas, que tratan de las conexiones de los estímulos con las respuestas. (Skinner es en cierto grado una
excepción, pero si bien no considera que los estímulos produzcan la conducta operante, estima que son
importantes para controlarla.) La otra similitud es que son todas teorías de un tipo relativamente simple e
informal. Esta cualidad no significa necesariamente que son fáciles de comprender, pero significa, no obstante,
que utilizan poco las definiciones formales, los símbolos abstractos i s ecuaciones cuantitativas. Están
enunciadas en el lenguaje corriente con pocos o ningún término técnico, más bien que en los lenguajes
especiales de las matemáticas o de la lógica simbólica. Estas dos características las separan de las otras teorías
que estudiaremos en los capítulos siguientes.