Download PRINCIPIOS DE APRENDIZAJE Y DE CONDUCTA 177

Document related concepts

Condicionamiento operante wikipedia , lookup

Reforzamiento wikipedia , lookup

Modificación de conducta wikipedia , lookup

Castigo (psicología) wikipedia , lookup

Teoría del aprendizaje social wikipedia , lookup

Transcript
1
MICHAEL DOMJAN Y BARBARA BURKHARD
PRINCIPIOS DE APRENDIZAJE Y
CONDUCTA
CAPITULO 5 : “EL CONDICIONAMIENTO INSTRUMENTAL : FUNDAMENTOS”
PRIMERAS INVESTIGACIONES SOBRE CONDICIONAMIENTO
INSTRUMENTAL
Los análisis teóricos y de laboratorio sobre condicionamiento instrumental tuvieron sus
comienzos con el trabajo de E. L Thorndike. El intento original de Thorndike fue estudiar la
inteligencia animal . La publicación de la teoría de la evolución de Darwin llevó a que muchas
personas se preguntaran hasta qué punto las capacidades intelectuales humanas, como el
razonamiento, están presentes en los animales. Thorndike investigó la inteligencia animal
ideando una serie de cajas problema. Metía un gato hambriento (podía ser también un perro o un
pollo) en la caja problema y les colocaba comida fuera, a la vista. La tarea del gato consistía en
aprender a escapar de la caja para obtener la comida.
Las diferentes cajas-problema requerían del gato diferentes respuestas para salir. Algunas eran
más fáciles que otras. En las cajas más simples, los movimientos aleatorios del gato le llevaban
a escapar y a acceder a la comida, Conforme se repetían los ensayos, el gato escapaba cada vez
más de prisa. En cajas más complicadas, como la caja K que se muestra en la figura 5.l, el
escapar mejoraba con la práctica, pero más lentamente. En la caja K el gato, para escapar, tenía
que tirar de una cuerda, presionar un pedal y abrir uno de los dos picaportes. La figura 5.1
muestra los tiempos medios que tardaban en escapar cinco gatos distintos, En el primer ensayo,
ninguno de los gatos escapó en los diez minutos de tiempo máximo permitido. La actuación de
los gatos mejoró en los últimos ensayos; cerca del final del experimento escapaban en dos o tres
minutos, Thorndike interpretó que los resultados de sus estudios reflejaban el arprendizaje de una
asociación.
2
Thorndike pensó que el lograr escapar llevaba al aprendizaje de una asociación entre los
estímulos del interior de la caja-problema y las respuestas de escape. Cuando la asociación, o
conexión, entre la caja y las respuestas con éxito se fortalecía, el gato daba esas respuestas en
cuanto se le encerraba en la caja-problema. Las consecuencias de las respuestas con éxito (el
escapar de la caja) fortalecían la asociación entre los estímulos de la caja y esas respuestas.
Sobre la base de su investigación, Thorndike formuló la Ley Del Efecto.
La ley del efecto establece que «si una respuesta ejecutada en presencia de un
estímulo va seguida de un hecho satisfactorio, la asociación entre el estímulo y
la respuesta se fortalece. Si la respuesta va seguida de un hecho molesto, la
asociación se debilita».
Es importante recalcar aquí que, de acuerdo con la ley del efecto, los animales aprenden una
asociación entre la respuesta y los estímulos presentes en el momento de la respuesta. La
consecuencia de la respuesta no está implicada en la asociación. La consecuencia, satisfactoria o
molesta, simplemente sirve para fortalecer o debilitar el lazo, o asociación, entre la respuesta y la
situación a estimular.
ENFOQUES MODERNOS DEL ESTUDIO DEL CONDICIONAMIENTO
INSTRUMENTAL
Algunas técnicas contemporáneas corrientes en el estudio de la conducta instrumental son
similares a los procedimientos de Thorndike en el sentido de que contienen ensayos discretos: se
coloca a los sujetos repetidamente en un aparato y solamente pueden realizar la respuesta
instrumental una vez en cada colocación. Por el contrario, en otros experimentos se emplea el
método de operante libre, en el cual la respuesta puede efectuarse repetidamente (libremente) una
vez que se ha colocado al sujeto en la cámara experimental.
Métodos de ensayos discretos
La figura 5.2 muestra dos laberintos que se utilizan frecuentemente en la investigación
contemporánea. El corredor, o callejón recto, contiene una caja de salida en un extremo y una
caja de meta en el otro. La rata se coloca en la caja de salida al principio de cada ensayo.
Entonces se levanta la barrera movible que separa la caja de salida de la sección principal del
corredor, y se deja a la rata correr por el corredor hasta que alcanza la caja de meta, que
normalmente contiene un premio, como comida o agua.
3
4
El progreso de la conducta instrumental se suele evaluar utilizando una medida de la fuerza de
respuesta. Por ejemplo, podemos medir cuánto tiempo tarda el animal en recorrer el callejón y
alcanzar la caja de meta. Esto se llama tiempo del recorrido. Con la repetición de los ensayos
los animales van necesitando progresivamente menos tiempo para alcanzar la caja de meta.
Algunos experimentadores prefieren medir la velocidad a la que el animal recorre el callejón.
El tiempo del recorrido se puede convertir fácilmente en velocidad del recorrido dividiendo la
longitud del recorrido por el tiempo de recorrido. Otra medida común de conducta en los
callejones y laberintos en T es la latencia de la respuesta de carrera. La latencia es el tiempo
que tarda el animal en abandonar la caja de salida y empezar a moverse por el corredor. Es
característico que las latencias se acorten conforme progresa el entrenamiento.
Otro laberinto utilizado con frecuencia es el laberinto en T, que se muestra en el lado derecho de
la figura 5.2. El laberinto en T consiste en una caja de salida y callejones que forman una T. Se
coloca una caja de meta al final de cada brazo de la T. Dado que tiene dos cajas de meta, el
laberinto en T es adecuado para estudiar la conducta de «elección» instrumental. Por
ejemplo, el experimentador puede poner un cebo con comida natural en una caja de meta y en la
otra caja comida sazonada con Nutrasweet (un edulcorante artificial). Colocando varias veces la
rata en el laberinto en T y viendo qué brazo escoge, el experimentador puede medir la
preferencia por una u otra comida. La latencia y velocidad del recorrido por el tronco de la T
hasta los brazos también nos proporciona una información importante. Si ninguna de las dos
alternativas que se le suministran en las cajas de meta es apetitosa, la rata puede tener una
latencia larga para iniciar el recorrido en el laberinto y puede que ande despacio.
Métodos de operante libre
Los métodos de operante libre permiten al sujeto repetir «libremente» la respuesta instrumental
una y otra vez. Los métodos de operante libre fueron ideados por B. F. Skinner (1938) para
estudiar la conducta de una manera más continua de la que es posible con los laberintos. Antes
de que pueda ser analizada experimentalmente una conducta, se tiene que definir una unidad
medible de la conducta. Las observaciones comunes de la conducta indican que la conducta es
continua. Una actividad lleva a otra. Skinner propuso el concepto de operante como forma de
dividir la conducta en unidades significativas y medibles.
La caja de Skinner es una caja experimental pequeña que contiene una especie de palanca que la
rata puede manipular. La cámara también posee un mecanismo que suministra un premio, como
comida o agua. En el experimento más simple se coloca una rata hambrienta en la cámara. La
palanca se conecta electrónicamente al sistema de suministro de comida. Cuando la rata
presiona la palanca, cae una bola de comida en un cuenco.
Las respuestas operantes como la de presión de la palanca se definen en términos del efecto que
tienen sobre el ambiente. Las actividades que ejercen el mismo efecto sobre el ambiente se
consideran ejemplos del mismo operante. El hecho esencial no son los músculos que
intervengan en la conducta, sino la forma en que la conducta «opera» sobre el ambiente. Por
ejemplo, la respuesta operante de presión de la palanca en las ratas se define típicamente como el
descenso de la palanca que se precisa para causar el cierre del microinterruptor. El sujeto puede
presionar la palanca con su pata delantera derecha, con la izquierda o con el rabo. Todas esas
diferentes respuestas musculares constituyen el mismo operante si todas presionan la palanca
hasta abajo. Se supone que las distintas formas de presionar la palanca son funcionalmente
equivalentes porque todas tienen el mismo efecto sobre el ambiente: cerrar el microinterruptor.
La mayoría de las ratas, cuando son colocadas en una caja de Skinner, no presionan casi nunca la
palanca. Existen dos pasos preliminares para el establecimiento de la conducta de presión de la
palanca. Se enseña primero a los animales el momento en que la comida está disponible en el
cuenco. Esto se realiza emparejando repetidamente el sonido del aparato de suministrar la
comida con el suministro de una bolita de comida en el cuenco. Después de suficientes
emparejamientos de este tipo, el sonido del suministro de comida hace de estímulo
condicionado para la presencia de comida en el cuenco. Esta fase preliminar del
condicionamiento se llama entrenamiento al comedero.
Después del entrenamiento al comedero, el sujeto está preparado para aprender la respuesta
instrumental requerida. La mayoría de las respuestas instrumentales se pueden analizar en
términos de sus componentes.
Por ejemplo, para presionar la palanca es necesario que el sujeto se acerque a la palanca, levante
las patas delanteras por encima de la palanca y empuje hacia abajo. Para facilitar la presión de la
5
palanca, el experimentador puede comenzar dando comida al sujeto cuando éste realiza los
componentes preliminares de la respuesta de presión de la palanca. En un principio se le puede
reforzar al sujeto sólo por el hecho de aproximarse a la palanca. Después se le puede entregar el
premio sólo si el sujeto huele o toca la palanca. Por último, se le puede entregar el premio sólo si
el animal presiona realmente la palanca. La secuencia de pasos del entrenamiento se llama
moldeamiento por aproximaciones sucesivas. Antes de entregar el premio el experimentador
va pidiendo cada vez un acercamiento mayor a la conducta deseada.
Tasa de respuestas como medida de la conducta operante.
La ventaja mayor que poseen los métodos de operante libre sobre las técnicas de ensayos
discretos para el estudio de la conducta instrumental es que los métodos de operante libre
permiten una observación continua de la conducta durante largos períodos de tiempo. Al tener
continuas oportunidades para responder, es el sujeto, más que el experimentador, el que
determina la frecuencia de aparición de la respuesta instrumental. Por tanto, las técnicas de
operante libre proporcionan una oportunidad para observar los cambios en la probabilidad de la
conducta a lo largo del tiempo. ¿De qué forma deberíamos aprovechamos de esto y medir la
probabilidad de una respuesta operante? Las medidas de la latencia y la velocidad de la
respuesta que se usan normalmente en los procedimientos de ensayos discretos nos
suministran una información detallada acerca de las respuestas individuales, pero no
determinan la probabilidad de repetición de la respuesta. Skinner propuso que la tasa de
aparición de la conducta operante (la frecuencia de la respuesta en un intervalo concreto) se
utilizara como medida de probabilidad de la respuesta. Si la tasa de respuestas es alta, se dice
que la probabilidad de la respuesta es alta. Si la tasa de respuestas es baja, se dice que la
probabilidad de la respuesta es baja.
Técnica de la línea de base conductual
Cuando se mete un sujeto en una caja de Skinner, éste despliega una amplia variedad de
actividades. Cada actividad posee una tasa concreta de aparición antes del condicionamiento.
Una rata nueva, por ejemplo, posee una alta tasa de respuestas de oler y una tasa baja de
respuestas de presión de la palanca. Esta tasa inicial de respuestas, antes de que se introduzca
una manipulación experimental, se llama línea de base del operante libre. La línea de base del
operante libre puede usarse para valorar el cambio de conducta que tiene lugar cuando se
introduce un procedimiento de condicionamiento. El reforzamiento de la presión de la palanca,
por ejemplo, aumentará la tasa de esta respuesta desde un nivel operante bajo hasta una tasa
mucho más alta.
6
PROCEDIMIENTOS DE CONDICIONAMIENTO INSTRUMENTAL
En todas las situaciones de condicionamiento instrumental, la conducta del sujeto produce algún
tipo de consecuencia en el ambiente. Los procedimientos de condicionamienro instrumental
pueden clasificarse según la naturaleza del acontecimiento ambiental controlado por la conducta.
El acontecimiento puede ser agradable o desagradable. Un acontecimiento agradable se llama
estímulo apetitivo. Un acontecimiento desagradable se llama estímulo aversivo. Otro
factor importante en la clasificación de los procedimientos de condicionamiento instrumental es
la relación, o contingencia, entre la respuesta y el acontecimiento ambiental que controla. La
respuesta instrumental puede producir el acontecimiento (en cuyo caso se dice que tiene lugar
una contingencia positiva o eliminarlo (en cuyo caso se dice que tiene lugar una contingencia
negativa). La tabla 5.1 describe cuatro procedimientos comunes de condicionamiento
instrumental. Los procedimientos difieren en el tipo de estímulo (reforzador apetitivo o
aversivo) que se controla con la respuesta instrumental, y en si la respuesta produce o elimina el
estímulo.
EL REFORZAMIENTO POSITIVO
El término reforzamiento positivo se refiere a una clase de situaciones en las que existe una
contingencia positiva entre la respuesta instrumental y un estímulo reforzador apetitivo. En otras
palabras, si el sujeto ejecuta la respuesta instrumental, recibe el estímulo reforzador; si el sujeto
no ejecuta la respuesta, el estímulo reforzador no se presenta. Dar una bolita de comida a una
rata hambrienta siempre que presiona la palanca es un ejemplo de laboratorio de reforzamiento
positivo. Existen muchos ejemplos de reforzamiento positivo fuera del laboratorio. Un padre
puede dar un dulce a su hija sólo cuando ésta deja los juguetes; un profesor puede alabar a un
estudiante sólo cuando le presenta un buen trabajo; o una empleada puede recibir un cheque
extra sólo cuando realiza bien su labor. La intención del padre, del profesor y del jefe es
asegurar que la respuesta instrumental siga produciéndose y, quizá, que incluso aumente su
frecuencia.
7
EL CASTIGO
El término castigo se refiere a una clase de situaciones en las que existe una contingencia
positiva entre la respuesta instrumental y un estímulo desagradable o aversivo. Si el sujeto
ejecuta la respuesta instrumental, recibe el estímulo aversivo; si no ejecuta la respuesta
instrumental, el estímulo aversivo no se presenta. Una madre puede reprender a su hijo por correr
por la calle, pero no por jugar tranquilamente en un jardín; el jefe puede criticarte por llegar tarde
a una reunión; un profesor puede suspender a alguien porque ha contestado muchas preguntas
mal. Esos procedimientos disminuyen la probabilidad en el futuro de la respuesta instrumental.
Los experimentos de laboratorio sobre castigo incluyen, por lo general, algún tipo de
reforzamiento positivo para conseguir que la conducta instrumental se produzca de vez en
cuando. En un principio, se puede entrenar a los sujetos a dar alguna respuesta para obtener un
reforzamiento positivo, como presionar una palanca o correr por un pasillo por comida. Una vez
que se establece la respuesta de la palanca se puede presentar un estímulo aversivo, como una
descarga eléctrica, después de cada presión de la palanca. En el ejemplo del corredor, el sujeto
puede recibir una breve descarga en la caja de meta. El resultado es un descenso en la presión de
la palanca o en la velocidad de carrera.
EL REFORZAMIENTO NEGATIVO
En una contingencia negativa, la respuesta interrumpe o impide la presentación del reforzador.
Si se presenta la respuesta, el reforzador se retiene; si no se presenta la respuesta se administra el
reforzador. Ese procedimiento aumenta la probabilidad de la conducta si el reforzador es un
estímulo aversivo. Las situaciones en las que la aparición de una conducta instrumental
interrumpe o impide la entrega de un estímulo aversivo se llaman procedimientos de
reforzamiento negativo.
Existen dos tipos de procedimientos de reforzamiento negativo. En un caso, el estímulo aversivo
se presenta continuamente, pero puede ser interrumpida con la presentación de la respuesta
instrumental. Este tipo de procedimiento se llama de ESCAPE. Los prisioneros pueden escapar
de lo desagradable de la cárcel fugándose. Podemos escapar de los sonidos molestos de un
aparato de radio que no emite bien desenchufándolo.,La gente se puede marcharse de un cine
para escapar de una mala película. En el laboratorio una rata puede estar expuesta, al principio
del ensayo, a una descarga eléctrica continua. La rata puede escapar de la descarga saltando por
encima de una barra o presionando una palanca. En todos estos casos, la presencia de un
estímulo aversivo establece la ocasión para la respuesta inscrumenral. La respuesta instrumental
se refuerza con la interrupción del estímulo aversivo sólo si la respuesta aparece durante la
presentación del estímulo aversivo. Si la rara presiona la palanca cuando la descarga no está
activada, la respuesta de presión de la palanca no se refuerza con la interrupción de la descarga.
En el segundo tipo de proceso de reforzamiento negativo está implicado un estímulo aversivo
que se programa para ser presentado en algún momento en el futuro. En este caso, la respuesta
instrumental impide la presentación del estímulo aversivo. Este tipo de procedimiento se llama
8
EVITACIÓN. Muchas cosas las realizamos para prevenir la aparición de algo malo. Los
estudiantes, a menudo, estudian antes de un examen para evitar una mala nota; una persona que
responde a una alarma de incendios puede evitar el quemarse. Las personas llevan sus coches a
revisar para evitar averías inesperadas. En el laboratorio se puede programar que una rata reciba
una descarga al final de un estímulo de aviso. Sin embargo, si ejecuta la respuesta instrumental
durante el estímulo de aviso, no se da la descarga.
EL ENTRENAMIENTO DE OMISIÓN
Otro tipo de entrenamiento que implica una contingencia negativa entre la respuesta instrumental
y el reforzador se llama entrenamiento de omisión. En este caso, la respuesta instrumental impide
la aparición de un hecho agradable, o reforzador apetitivo. Si el sujeto da la respuesta
instrumental no se presenta el reforzador apetitivo. Así pues, el reforzador se entrega sólo si el
sujeto retiene la respuesta instrumental. Utilizamos el entrenamiento de omisión cuando le
pedirnos a un niño que se vaya a su habitación después de hacer algo mato. Los padres no
introducen un estímulo aversivo cuando le dicen al niño que se vaya a su cuarto. No existe nada
aversivo en la habitación del niño. Más bien, al enviar al niño a su cuarto lo que hacen los
padres es apartar las fuentes de reforzamiento positivo, como por ejemplo jugar con amigos o ver
la televisión. El retirar el carnet de conducir a alguien por conducir bebido también constituye un
entrenamiento de omisión (retirada del reforzamiento o privilegio de conducir).
Nota final sobre la terminología
Existe a menudo una gran confusión sobre los términos que se utilizan para describir los
procedimientos de condicionamiento instrumental. Varios comentarios pueden ayudar a
clarificar el tema. En primer lugar, los términos reforzamiento negativo y positivo no se refieren
a resultados agradables o desagradables. Se refieren a contingencias positivas y negativas entre
la respuesta instrumental y su consecuencia sobre el ambiente. El reforzamiento positivo implica
una contingencia positiva entre la conducta y un hecho ambiental (la presentación de un
estímulo provechoso), y el reforzamiento negativo implica una contingencia negativa entre la
conducta y un acontecimiento ambiental (la retirada de un estímulo aversivo). El término
reforzarniento se utiliza en ambos casos porque tanto el reforzamiento positivo como el negativo
suponen un fortalecimiento ( o refortalecimiento ) de la conducta.
9