Download Tema 4 Aprendizaje mediante condicionamiento instrumental de

Document related concepts

Condicionamiento operante wikipedia , lookup

Castigo (psicología) wikipedia , lookup

Teoría del aprendizaje social wikipedia , lookup

Ingeniería del comportamiento wikipedia , lookup

Modificación de conducta wikipedia , lookup

Transcript
Tema 4
Aprendizaje mediante condicionamiento
instrumental de recompensa
Bloque 2: Aprendizaje asociativo mediante condicionamiento
Tema 3: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO CLÁSICO
Tema 4: APRENDIZAJE ASOCIATIVO MEDIANTE CONDICIONAMIENTO INSTRUMENTAL DE RECOMPENSA
Tema 5: CONDICIONAMIENTO INSTRUMENTAL: CONTROL DE ESTÍMULO Y CONDICIONAMIENTO CON ESTIMULACIÓN AVERSIVA
Indice del Capítulo
1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS ................................................................................................................. 187
1.1. Definición e historia .......................................................................................................................................................... 187
1.2. Operación experimental y fases del experimento básico ................................................................................................. 190
1.3. Elementos (estímulos y respuestas) principales .............................................................................................................. 191
1.4. Procedimientos y técnicas experimentales para la adquisición de la respuesta instrumental ......................................... 193
1.4.1. Medida de la respuesta instrumental ........................................................................................................................ 193
1.4.2. Técnicas de adquisición rápida de la respuesta instrumental .................................................................................. 194
1.4.3. Métodos de estudio en humanos .............................................................................................................................. 195
1.5. Clasificación de tipos de procedimientos ......................................................................................................................... 196
1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia .............................................................. 196
1.5.2. Según la probabilidad R-C o intermitencia del refuerzo............................................................................................ 197
1.5.3. Según la estimulación antecedente .......................................................................................................................... 197
1.6. Comparacion entre condicionamiento clasico e instrumental .......................................................................................... 198
1.7. Procesos y cambios cognitivos ........................................................................................................................................ 198
1.7.1. Mecanismos o procesos relacionadores de eventos ................................................................................................ 198
1.7.2. Contenido del aprendizaje: Representaciones asociativas ...................................................................................... 199
2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE RECOMPENSA ............................................ 202
2.1. Condiciones generales para la adquisicion ...................................................................................................................... 202
2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia ................................................................ 202
2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supersticiosa ...................................................... 202
2.2. El refuerzo ........................................................................................................................................................................ 204
2.2.1. Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento ........................................... 204
2.2.2. Condiciones para la efectividad del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora208
2.2.3. Efecto de emparejar estímulos con el refuerzo: los refuerzos condicionados o secundarios .................................. 210
2.3. Efecto de la situación motivacional .................................................................................................................................. 211
2.4. Tipo de respuesta ............................................................................................................................................................. 211
3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA: PROGRAMAS DE REFUERZO ................ 212
3.1. Distribución temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente ............................................... 212
3.2. Programas para una misma respuesta instrumental ........................................................................................................ 214
3.2.1. Programas simples de refuerzo: tipos y efectos conductuales ................................................................................. 214
3.2.2. Programas de refuerzo compuestos ......................................................................................................................... 216
3.2.3. Programas de refuerzo señalizados ......................................................................................................................... 218
3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de elección ............................................. 219
3.3.1. Programas concurrentes ........................................................................................................................................... 219
3.3.2. Contingencias concurrentes: Conducta de elección ................................................................................................. 219
3.4. Condiciones especificas de refuerzo parcial en humanos................................................................................................ 221
3.4.1. Reglas verbales ........................................................................................................................................................ 221
3.4.2. Efecto de las instrucciones verbales ......................................................................................................................... 221
3.4.3. Experiencia previa de reforzamiento......................................................................................................................... 221
3.4.4. Valor informativo del refuerzo ................................................................................................................................... 222
4. CONDICIONES PARA LA EXTINCIÓN ................................................................................................................................... 222
4.1. Operaciones, consecuencias y parámetros ..................................................................................................................... 222
4.1.1. Operación experimental y procedimientos de extinción ............................................................................................ 222
4.1.2. Consecuencias o efectos generales ......................................................................................................................... 222
4.1.3. Parámetros................................................................................................................................................................ 223
4.2. Condiciones generales durante la adquisición que afectan a la extinción en el condicionamiento de recompensa ....... 224
4.2.1. Factores motivacionales ........................................................................................................................................... 224
4.2.2. Factores de entrenamiento ....................................................................................................................................... 224
4.3. La extinción tras adquisición con refuerzo parcial ............................................................................................................ 225
4.3.1. Condiciones específicas ........................................................................................................................................... 225
4.3.2. Teorías del efecto de refuerzo parcial....................................................................................................................... 226
5. PRINCIPALES APLICACIONES ............................................................................................................................................. 228
5.1. Condicionamiento instrumental y clínica .......................................................................................................................... 228
5.1.1. Procedimientos de modificación de conducta ........................................................................................................... 228
5.1.2. Condicionamiento instrumental de respuestas autonómicas: Biofeedback .............................................................. 230
- 185 Asignatura: Aprendizaje (6 créditos). Obl. de 2º curso Grado Psicología, Curso 2010/2011
Profesores: Dr. Agustín Romero Medina ([email protected]) y Ldo. Pedro Jara Vera ([email protected]). Deptº Ps. Básica y Metodología. Univ. de Murcia. Fac.
Psicología; En Aula Virtual Fac. Psicología en http://avpsi.inf.um.es/moodle/ (usuario: dni sin letra; contraseña: dni sin letra); y en SUMA campus virtual
186
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
5.2. Condicionamiento instrumental y enseñanza ................................................................................................................... 232
5.2.1. Métodos aplicados al proceso didáctico ................................................................................................................... 232
5.2.2. Métodos aplicados a la organización y manejo de la clase ...................................................................................... 233
6. PRÁCTICAS DE AUTOEVALUACIÓN DEL TEMA 4 ............................................................................................................. 233
Resumen del tema
Con este tema, entramos en otro tipo de aprendizaje asociativo básico consistente en aprender a partir de las consecuencias de la
acción (aprendizaje instrumental) en un contexto determinado. En este capítulo comenzamos con una descripción de sus características, procedimientos principales, clasificación de los principales tipos de condicionamiento instrumental y una comparación con el
condicionamiento clásico, los efectos de las condiciones más generales de adquisición y, por último, los procesos o cambios a nivel
representacional que produce este tipo de aprendizaje.
Estudiaremos en este tema las condiciones más comunes del aprendizaje mediante condicionamiento instrumental con eventos reforzantes. De este modo analizamos en profundidad las condiciones de adquisición centradas en las consecuencias positivas (el refuerzo) y su relación con la respuesta. De estas cuestiones, las más estudiadas han sido las referentes a las condiciones de adquisición mediante refuerzo parcial: programas de refuerzo, y las condiciones específicas en humanos. También se analizan las condiciones de extinción y por último, se mencionan algunas de las principales aplicaciones, entre las cuales destacan las técnicas de modificación de conducta y el biofeedback.
Lecturas complementarias
Las obras de Dickinson (1980; trad. 1984), Tarpy (1981; trad. 1986), Mackintosh (1983; trad. 1988) y Domjan y Burkhard (1986;
trad. 1990) son las imprescindibles para ampliar los contenidos de este capítulo. Otras obras de consulta pueden ser: Fernández
Trespalacios (1985), Hulse et al. (1980; trad. 1982), Pelechano (1980, caps. 8 a 10), Rachlin (1976; trad. 1979), Honig (1966; trad.
1975) y las compilaciones de Aguado (1983) y Anguera y Veá (1984) y algunos de los trabajos de Rescorla y colaboradores (por
ejemplo, Rescorla, 1980, 1985; Rescorla y Holland, 1982) y Estes (1978).
Pueden consultarse como mínimo: Fernández Trespalacios (1985; cap. 17), Hulse et al. (1980; trad. 1982, cap. 5), Pelechano
(1980; cap. 9); para la conducta de elección véase el capítulo 10 de Rachlin (1976; trad. 1979), el de Arambarri y Benjumea (1997) y
el de Maldonado (1998) para programas de refuerzo Reynolds (1968; trad. 1977) y Schoenfeld (1970; trad. 1979); sobre automoldeamiento el libro editado por Locurto, Terrace y Gibbon (1981).
Puesto que se trata de las aportaciones aplicadas más conocidas de la psicología del aprendizaje, para una revisión más amplia y
completa el lector debería consultar, sobre todo manuales de modificación y terapia de conducta (por ejemplo, Mayor y Labrador,
1984; Carrobles, 1986; Leitenberg, 1976; Craighead, Kazdin y Mahoney, 1976; Izquierdo, 1988; Caballo (1991), Buela-Casal y Caballo (1991), etc.) y algún libro de psicología educativa (por ejemplo, Woolfolk y McCune, 1980; Beltrán et al., 1987; etc.). Sobre análisis
funcional de la conducta véase Segura, Sánchez y Barbado (1991).
Manuales útiles sobre biofeedback son los de Carrobles y Godoy (1987), Villanueva (1988) y Simón (1989: sobre aplicación a la rehabilitación física). Una buena guía bibliográfica sobre este tema puede encontrarse en el número 14/15 de la revista Estudios de Psicología ("Guía documental del biofeedback", pp. 151-165, 1983).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
187
1. DESCRIPCIÓN Y TIPOS DE PROCEDIMIENTOS
1.1. Definición e historia
El condicionamiento instrumental se considera el segundo tipo de aprendizaje asociativo predictivo
y consiste en aprender a predecir sucesos derivados de nuestras acciones, aprender por las consecuencias de la acción, por ello Tarpy (1981) lo considera un "aprendizaje de respuestas": aprender a
hacer o no hacer cosas en función de las consecuencias que estas acciones tienen para el mismo organismo.
El descubrimiento científico de este tipo de aprendizaje tiene lugar a finales del siglo XIX. Aunque
algunos de los principios del condicionamiento instrumental ya aparecen en las observaciones del
psicólogo británico C. Lloyd Morgan en 1894 (conductas de “ensayo y error” observadas en su perro),
es sólo cuatro años después cuando se describe más sistemáticamente. En efecto, en 1898 Thorndike
publicó un libro titulado Inteligencia animal (1898), donde expone los resultados de su tesis doctoral
sobre experimentos con animales en situaciones de cajas-problema (ver Figura 1).
En uno de estos experimentos, un gato hambriento era introducido en una jaula que disponía de una
especie de palanca para abrir la puerta; fuera de la jaula había comida, de modo que el animal tenía
que aprender a abrir la puerta para conseguirla; una vez que por ensayo y error el animal lograba abrir
la jaula y comer, en sucesivas ocasiones esta acción era realizada con mayor rapidez. La Figura 2 ilustra esta situación.
Figura 1: Dibujo esquemático de una caja-problema como la de Thorndike.
Tiempo
requerido
para
escape
(segs.)
Ensayos sucesivos en la caja-problema
Figura 2: Curva de aprendizaje en las cajas-problema de Thorndike.
Thorndike utilizó como variable dependiente el tiempo para escapar de la jaula (definición operacional de aprendizaje) y como variable independiente los ensayos. La curva de aprendizaje fue gradual
y ondulada (ver Figura 2) y con escasa evidencia de comprensión del problema (insight) en los prime-
188
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
ros ensayos. Sin embargo, después de 30 ensayos, los gatos presionaban la palanca tan pronto como
eran colocados en la caja. Thorndike concluyo que los animales aprendían por "ensayo y error".
En 1911, le dio una interpretación teórica a estos hallazgos empíricos proponiendo la que denominó "Ley del Efecto", tanto en sus versiones positiva como negativa:
- La ley del efecto positivo postula que se puede conseguir una conexión entre una situación ambiental
y una acción del sujeto siempre y cuando esa acción proporcione consecuencias satisfactorias o agradables. Esta asociación entre situación, respuesta y consecuencia satisfactoria tiene el efecto de
aumentar la probabilidad de respuesta. Dicho más brevemente, cuando una acción va seguida de una
recompensa tiende a repetirse.
- La ley del efecto negativo dice que cuando las consecuencias son desagradables para el sujeto, en el
futuro tenderá a disminuir esa respuesta. Esta ley, que básicamente hace referencia a lo que técnicamente llamamos "castigo" (ver Tema 5), fue inicialmente propuesta como simétrica a la anterior, pero fue retirada por el propio autor al no cumplirse en ciertas condiciones.
El siguiente momento importante se da con Skinner y sobre todo a partir de la publicación de su
primer libro La conducta de los organismos (1938). De hecho, como dice Cruz (1989, p. 161), "la contribución de Thorndike empezó a ser plenamente reconocida unos treinta años después de la presentación de su tesis doctoral, cuando Skinner la enmarcó dentro de un cuerpo teórico más amplio". Como
señala Mackintosh (1983), fue Skinner (1938) quien estableció la diferenciación entre dos tipos de
aprendizaje mediante condicionamiento: uno regido por el principio de sustitución (el condicionamiento pavloviano) y otro gobernado por la ley del efecto (el condicionamieto instrumental). Skinner
los denominó, respectivamente, condicionamiento respondiente y operante.
Se inaugura así un nuevo enfoque en el condicionamiento instrumental en cuanto a método y teoría.
Skinner parte de un conductismo radical, por el cual sólo se pueden estudiar las conductas observables
y las relaciones funcionales entre la situación previa o antecedentes y la situación posterior o consecuentes de la conducta. Obviamente en este esquema sobre lo "mental" es innecesario para explicar la
conducta y el aprendizaje; además, la conexión mental entre estímulos y respuestas tampoco se puede
observar y con ello no se puede hablar de "finalidad" de una conducta. Conducta "instrumental" alude
a esa finalidad inobservable y por ello prefiere la denominación de condicionamiento operante porque lo que se aprende es una operante o respuesta que opera sobre el medio. No es instrumental, pues
no se sabe o no se puede observar su finalidad.
Así pues, el condicionamiento operante no se debe confundir con el condicionamiento instrumental: el operante es el desarrollo skinneriano del condicionamiento instrumental. El condicionamiento
operante define el refuerzo en función de la tasa de respuestas que consigue, y no en función de la "satisfacción" que produce. Con esta diferenciación, Skinner pretende evitar cualquier presuposición
acerca de lo que puede constituir o no un reforzador, de lo que a priori parece bueno o malo para el
sujeto. Por ejemplo, cuando un niño actúa de forma traviesa puede que sus padres le riñan y llamen la
atención continuamente para que deje de comportarse así, presuponiendo que la riña es un castigo para
el niño; sin embargo, aunque en algunos momentos y para algunos niños pueda ser así, quizá en este
caso particular las reprimendas sólo consigan que el niño siga comportándose de forma traviesa, e incluso que sea más travieso todavía (puesto que el niño persigue que le presten atención, independientemente de que sea con reprimendas o sin ellas), con lo que en realidad se le está reforzando y no castigando. En definitiva, desde un punto de vista skinneriano, en este caso la riña es un reforzador para
la conducta traviesa puesto que aumenta la frecuencia de la misma1.
1
Recuérdese lo que dijimos en el Tema 2 acerca del término refuerzo. Como vimos, este término puede emplearse para aludir a cualquier
estímulo que, siguiendo al EC (el el caso del condicionamiento clásico) o siguiendo a una conducta (en el caso del condicionamiento instrumental) fortalece (refuerza) el aprendizaje. Desde este punto de vista, un estímulo aversivo y uno apetitivo son ambos refuerzos. Sin
embargo, en el contexto del condicionamiento instrumental, lo más habitual es reservar el término refuerzo para los estímulos apetitivos
(que son los que refuerzan la conducta) y emplear el término castigo para los estímulos aversivos (que disminuyen la conducta).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
189
Siendo el aprendizaje el tema central del conductismo, el condicionamiento instrumental fue desde
su aparición el tipo de aprendizaje más estudiado, relegando al CC (de hecho, el CC fue utilizado por
Watson en un ámbito más bien teórico) ante el gran interés práctico despertado por el condicionamiento instrumental, sobre todo desde Skinner y a partir de los años 30.
El desarrollo aplicado del condicionamiento instrumental ha sido uno de sus logros más destacados
y relevantes, con métodos objetivos y cuantificables, con el planteamiento de principios y leyes que
siempre apelan a la actividad o conducta observable. La investigación y la tecnología que ha generado
el condicionamiento instrumental ha sido considerable; la bibliografía, especialmente sobre condicionamiento operante, es también amplísima (programas de refuerzo, control de estímulo, etc.); además,
ha desarrollado una tecnología que ha tenido éxito en muchísimas aplicaciones: se modifican conductas y se obtienen aumentos y decrementos en la tasa de respuestas en distintos ámbitos e incluso con
consecuencias de tipo político, sociocultural e ideológico (vease la célebre novela de Skinner Walden
dos). En determinadas condiciones, el control sobre la conducta que pueden ejercer estas técnicas es
considerable. De ahí la configuración de toda una especialidad denominada Análisis Aplicado de la
Conducta (véase Baer, 1982, para revisión) o Ingeniería Conductual o Tecnología conductual.
Sin embargo, este enfoque conductista no ha podido profundizar en los procesos mentales del
aprendizaje hasta la reciente aportación de las teorías cognitivas del aprendizaje animal, centradas en
los procesos y los contenidos mentales del aprendizaje. Según este nuevo enfoque, el sujeto aprende a
tener expectativas sobre las posibles consecuencias de su acción, de modo que la respuesta dada en un
determinado contexto predice una consecuencia: la aparición de un evento significativo para el sujeto
(por ejemplo, el refuerzo).
En el condicionamiento instrumental, el resultado principal que se logra con esta práctica es la adquisición de dos tipos de asociaciones:
- asociación entre la conducta y su consecuencia (asociación respuesta - consecuencia o R-C).
- asociación entre un estímulo y el compuesto respuesta-consecuencia (E-[R-C])
Se trata pues de la asociación entre la acción del sujeto y las consecuencias de dicha acción, produciendo así una asociación R (respuesta) - C (consecuencia). También es importante la asociación entre la situación ambiental que existe al emitir la respuesta (ambiente o contexto en el que ocurre la acción) y la
misma asociación E (estímulo) - R. Para Rescorla (1991), además de estas asociaciones R-C y E-R, lo
fundamental es la asociación entre E y el conjunto R-C, o sea, E - (R-C), una asociación jerárquica que
requiere un proceso de adquisición en dos fases: primero asociar R y C, y después asociar E al conjunto R-C.
Así pues, la propia acción del sujeto es aquí lo importante, pues según lo que hacemos y las consecuencias que eso tiene, así actuaremos en el futuro. También es importante el contexto en el que ocurre
la acción: determinados estímulos del ambiente se condicionan a la acción, de modo que se convierten
en señal para actuar.
PorDesarrollemos ahora el ejemplo de condicionamiento instrumental presentado anteriormente
(Tema 3, apartado 1). Como se recordará, hablamos de un perro al que su amo golpeaba con un periódico cada vez que se subía al sillón del comedor. Podemos decir que el animal ha adquirido el condicionamiento cuando aprende la relación que existe entre una de sus conductas (subirse al sillón) y el
estímulo que lo sigue (el golpe con el periódico), esto es: cuando aprende la relación R-C. Comoquiera
que el golpe es un estímulo aversivo desagradable para el animal (es un castigo), el cambio conductual
derivado del condicionamiento es que el animal deja de subirse en el sillón (o lo hace menos frecuentemente). Imaginemos ahora que el dueño del perro sale todas las mañanas a trabajar y deja al perro
solo en la casa; en este caso, el perro podrá subirse al sillón tranquilamente a pelechar a sus anchas sin
recibir castigo alguno. La presencia del amo en la casa, por lo tanto, puede actuar como un estímulo
discriminativo: el animal sólo recibe el castigo al subirse al sillón cuando el amo está presente, apren-
190
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
de la relación E-[R-C] y, por lo tanto, sólo evitará el sillón en presencia de su dueño (en este ejemplo,
E = amo, R = subir al sillón, C = golpe con el periódico -castigo-).
1.2. Operación experimental y fases del experimento básico
Cuando se investiga en laboratorio, la operación experimental básica del condicionamiento instrumental, es decir, la fórmula que lo rige, es del tipo E-R-E, donde el primer estímulo o grupo de estímulos son los antecedentes -el contexto o el estímulo discriminativo-, en presencia de lo cual ocurre una
respuesta voluntaria del sujeto, y tras ésta aparece una consecuencia o evento significativo (apetitivo o
aversivo).
El procedimiento para lograr la adquisición mediante condicionamiento instrumental tendría las
siguientes fases:
I) El sujeto se halla inmerso en una situación determinada -que contiene una serie de estímulos ambientales2- en la cual está realizando actividades -relacionadas o no con los estímulos-. En esta fase,
los estímulos y las respuestas se consideran independientes entre sí.
II) Una de dichas actividades debe producir una consecuencia significativa (C)3 para el sujeto (si la
consecuencia es positiva la denominaremos refuerzo, Eref, si es negativa, castigo). De este modo se
produce la secuencia: E - R - C.
III) La fase anterior se repite varias veces.
IV) Siempre y cuando E - R - C se haya repetido varias veces, el sujeto se encuentra con que R tiene
consecuencias significativas y otras respuestas no las tienen; si la consecuencia de R es positiva, se
producirá un aumento en la probabilidad de ocurrencia de dicha respuesta y no de las demás, incluso aunque no aparezca siempre el refuerzo o consecuencia. Si la consecuencia es negativa, se
producirá una disminución de la probabilidad de ocurrencia de R.
Con ratas, el procedimiento típico de laboratorio para la adquisición de respuestas instrumentales se
suele realizar en la Caja de Skinner (ver Figura 3) y tiene varias fases. El Cuadro 1 (adaptado de la
descripción de Cruz, 1989, p. 162) nos lo ilustra.
Cuadro 1: Fases del procedimiento standard de laboratorio para el condicionamiento instrumental en ratas
- Fase de preparación del animal: Se escoge una rata de tres meses, durante una semana se pesa diariamente y se le da
la comida que requiera; después se le da menos comida y cuando pierda un 20% de su peso ya se puede comenzar la
siguiente fase.
- Adaptación a la caja de Skinner: En las primeras sesiones, el animal emite diversas conductas pero hay una baja frecuencia de la conducta objetivo consistente en apretar la palanca. Se anota el nivel operante o línea de base de frecuencia de respuestas antes de iniciar el entrenamiento.
- Adaptación al sonido del comedero (magazine training): Se hace coincidir repetidas veces la emisión de un sonido con la
aparición de bolitas de comida en el comedero (el animal aprende así cuándo hay comida, y el sonido se convierte en
ED)
- Elección de una respuesta: Cuando se emita la conducta objetivo (apretar la palanca) entonces se proporciona el refuerzo (bolitas de comida). Se observará un incremento en la frecuencia de respuesta.
2
Téngase en cuenta que esos "estímulos ambientales" ya afectan de por sí al sujeto en mayor o menor medida. Pueden ser aversivos (ruido
intenso, frío, calor, etc.), sólo molestos, indiferentes o agradables.
3
Esta consecuencia significativa de la acción suele tener relación también con la estimulación ambiental; por ejemplo, cuando la estimulación previa es aversiva y la acción logra que cese dicha estimulación aversiva.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
Palanca
Dispensador de comida
(recompensa)
191
Señal luminosa
Suelo de parrilla
Figura 3: Fotografía de una caja de Skinner actual (con un lateral abierto para poder ver el interior).
Cuando se ha establecido un CI reforzando una R, para que disminuya o desaparezca esta respuesta, es decir, para que se produzca la extinción, el procedimiento principal consiste en no presentar el
refuerzo tras la respuesta; esta ausencia de refuerzo tiene que ocurrir durante mucho tiempo y en todas
las ocasiones en que se produzca la respuesta. La consecuencia observada tras la aplicación de este
procedimiento es la disminución de la tasa de la respuesta (además de otros efectos descritos en el
capítulo siguiente).
1.3. Elementos (estímulos y respuestas) principales
a) Consecuencias o eventos significativos
Son los eventos que aparecen contingentemente4 a la respuesta (tras la respuesta, como consecuencia de la respuesta y sólo si se da la respuesta). Son significativos porque tienen algún valor motivacional o informativo para el sujeto y son equiparables al EI del CC. Pueden ser de tipo apetitivo o
agradable (refuerzo) o de efecto desagradable o aversivo (castigo). La Tabla 1 esquematiza todo esto.
En cualquier caso, al ocurrir este evento significativo tras la respuesta siempre tendrá un efecto futuro
sobre ella pues conseguirá elicitarla aumentando, manteniendo o disminuyendo su tasa (número de
respuestas en un determinado tiempo).
4
En aprendizaje, el término 'contingente' (que encontramos habitualmente en los manuales de condicionamiento en castellano pero traducidos del inglés) tiene un significado técnico diferente al uso cotidiano o incluso filosófico. Según el Diccionario de uso del español de María Moliner (1986), 'contingente' "se aplica a las cosas que pueden suceder y no suceder: no seguras o no necesarias". 'Contingente' es pues
"no necesario" y, sin embargo, en aprendizaje es justo lo contrario. El problema tal vez radica en una mala traducción del inglés. En efecto,
'contingency', que es el término inglés del cual se ha traducido, tiene el mismo significado (eventualidad, algo fortuito), pero 'contingent on'
o 'contingent upon' es "dependiente de" y esto es precisamente lo que ocurre en aprendizaje instrumental: la aparición del refuerzo (B) depende de la elicitación de la respuesta (A). Hay una relación condicional del tipo "Si A entonces B". Así pues, cuando leamos "contingentemente a la respuesta" deberemos entender dependiendo de la respuesta.
192
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Tabla 1: Descripción de tipos de consecuencias de la respuesta en el condicionamiento instrumental.
Tipo de consecuencia
Consecuencias positivas
(refuerzos)
Consecuencias negativas
(castigos)
Acción
Presentación de un estímulo apetitivo
Cese de una estimulación aversiva
Presentación de un estímulo aversivo
Cese de una estimulación apetitiva
Denominación
refuerzo positivo
refuerzo negativo
castigo por aplicación
castigo por supresión
b) Respuesta instrumental
Es la que se produce con este procedimiento y es distinta a la respuesta del CC, ya que no es una
respuesta refleja, sino que es una actividad generalmente de tipo voluntario (regida por la musculatura
estriada -excepto en el biofeedback o condicionamiento instrumental de respuestas vegetativas o autonómicas-). Es cualquier conducta que le permite al sujeto manipular, influir o interactuar con el ambiente; son pues actividades funcionales o instrumentales para el sujeto (coger un libro, abrir una puerta, prestar atención, hablar, etc.).
En el condicionamiento instrumental lo importante que se adquiere no es la respuesta (hay muchas
respuestas tales como presionar una palanca, mover una mano o un brazo, que ya figuraban en el repertorio de respuestas del sujeto) sino emitirla en el momento adecuado, o incrementar o disminuir su
frecuencia: por tanto se aprende a realizar conductas "prácticas", o sea, acciones deliberadas que resultan funcionales para conseguir algún tipo de reforzador (la conducta es un instrumento, un medio para
lograr algo, con lo que opera sobre el medio por las consecuencias que obtiene de ello). Además, la
respuesta instrumental ha de ser pertinente y relevante para el organismo que ha de ejecutarla, es decir,
tiene que ser factible y no sobrepasar los límites biológicos de la especie, o dicho de otro modo, estar
incluida dentro de las respuestas naturales y biológicamente posibles para la especie. De lo contrario,
por mucho refuerzo que se le proporcione al sujeto, no estará en disposición de realizar la conducta.
c) Estimulación o situación antecedente a la conducta
En el paradigma del condicionamiento instrumental, la situación en la que ocurre la conducta tiene
una misión señalizadora al estilo del EC: Los repetidos emparejamientos de la situación con las respuestas seguidas de consecuencias significativas provocan que en el futuro, cuando aparezca dicha situación antecedente será más probable que se suscite la respuesta instrumental, pues será la señal que
activa en el sujeto la expectativa de obtener algo favorable si realiza la respuesta. Expresado metafóricamente, la situación antecedente es como el “gatillo” que detona la conducta cuando el objetivo (reforzador) es asequible.
Pero hay varios tipos de situaciones antecedentes y cada una tendrá un efecto distinto sobre la respuesta:
- Un primer tipo es la situación ambiental en general, que es el contexto presente en el momento de
emitir la respuesta. En este caso, la respuesta es relativamente independiente de la situación.
- Un segundo tipo es la situación de estímulo discriminativo (ED), que es aquella en que la respuesta es
reforzada en presencia de dicho estímulo (y no aparece refuerzo cuando la respuesta no ocurre en
presencia de éste). Es por tanto, un estímulo señal más específico que la situación ambiental y similar
al EC+ del condicionamiento clásico, pero con la diferencia de que en este caso no predice al EI sino
al par R-C (respuesta-consecuencia).
- Y el tercer tipo sería el estímulo "delta" (E ), que es aquel en cuya presencia nunca es reforzada la
respuesta. El E será señal para el sujeto de que no va a aparecer un evento significativo tras su respuesta (y, por tanto, tiende a no hacerla). Como vemos, es similar al EC- del condicionamiento clásico y su resultado más frecuente será la extinción de la respuesta instrumental.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
193
Los estímulos discriminativos tienen también gran importancia en contextos aplicados, hasta el
punto que el aprendizaje fundamental radica no tanto en la respuesta como en percibir el estímulo discriminativo con la suficiente destreza como para que sirva de señal para la respuesta. Por ejemplo, en
el aprendizaje inicial de la lectura, al niño se le pone delante un símbolo gráfico escrito (E D) ante el
cual tiene que emitir una respuesta determinada (su pronunciación); si lo logra habrá una consecuencia
positiva (elogios por parte del profesor, etc.) y un afianzamiento o automatización de la asociación EDR. Esa respuesta tiene que situarse pues bajo el control del estímulo. ¿Cómo conseguir situar la respuesta bajo el control del estímulo correspondiente? Se trata de conseguir que el niño dé, por ejemplo,
la respuesta "E" (sonido) cuando vea el estímulo escrito "E"; para ello las técnicas de discriminación y
control de estímulos (véase Tema 5) podrían ayudar considerablemente: primero se empieza con instrucciones verbales o con imitación, etc.
Siguiendo el ejemplo y para precisar los conceptos anteriores, la situación ambiental o contexto general en el que se da el estímulo discriminativo podría ser el aula de clase, mientras que un estímulo
delta para, por ejemplo, la respuesta de pronunciar el fonema “P” sería el grafismo “B” o cualquier
otro distinto al grafismo “P”, el cual es el estímulo discriminativo. Así pues, en el aprendizaje instrumental, no basta sólo con dar respuesta para conseguir algo, sino también dar la respuesta adecuada
precisamente en determinada situación.
1.4. Procedimientos y técnicas experimentales para la adquisición de la respuesta instrumental
1.4.1. Medida de la respuesta instrumental
Los procedimientos y técnicas conductuales típicos inciden básicamente en lograr una variación
significativa en la frecuencia o tasa de la respuesta instrumental.
La medida o variable dependiente más utilizada suele ser la tasa de respuesta, es decir, el numero
de veces que se repite una respuesta durante un período de tiempo concreto o específico. Hay alguna
otra medida como puede ser la latencia de respuesta, que se usa cuando se especifican estímulos antecedentes y sería el tiempo transcurrido desde que el sujeto se introduce en una situación determinada
hasta que da la respuesta o, lo que es lo mismo, desde que aparece el ED hasta que da la respuesta.
En el contexto experimental, la tasa de respuesta dentro de cámaras operantes tales como la "Caja
de Skinner" o la "caja de saltos", se suele medir mediante instrumentos de registro acumulativo, dispositivos bastante automatizados que liberan al experimentador, entre otras, de la tarea de anotar el
número de respuestas dadas por el sujeto. El registro acumulativo mide no sólo la tasa de respuesta
media después de un tiempo determinado de exposición al ambiente, sino también permite registrar la
velocidad de variación de la tasa de respuesta desde el principio del ensayo hasta el final. Como se
puede apreciar en la Figura 4, al representar gráficamente la acumulación de respuestas a lo largo del
tiempo, permite tener una apreciación visual de dichas tasas.
Figura 4: Esquema del registro acumulativo utilizado en los experimentos de condicionamiento instrumental.
194
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
1.4.2. Técnicas de adquisición rápida de la respuesta instrumental
En una situación experimental de Caja de Skinner hay que esperar a que el animal emita la respuesta objetivo para que se administre refuerzo y haya por tanto la posibilidad de que se incremente su frecuencia. Esta espera se puede acortar mediante el procedimiento de moldeamiento o aproximaciones
sucesivas.
a) Moldeamiento o técnica de aproximaciones sucesivas
El moldeamiento (shaping) o técnica de aproximaciones sucesivas se define, en palabras de Cruz
(1989, p. 164), como "la consecución gradual de una conducta final o comportamiento meta, que no
existe en el repertorio de respuestas de un organismo o que se emite con una baja probabilidad".
A lo largo de la sesión se va aplicando un refuerzo diferencial y progresivo de las conductas que
más se aproximan o se parecen a la respuesta objetivo. La respuesta que es reforzada inicialmente deja
de reforzarse cuando el animal realiza una respuesta más próxima al objetivo la cual es reforzada y así
sucesivamente. Así, en una situación de caja de Skinner, la conducta objetivo que queremos que
aprenda la rata es la de apretar la palanca. Como eso es difícil que ocurra al principio, lo que se hace es
reforzar conductas de acercarse a la zona donde está la palanca; una vez que logramos esa conducta,
dejaremos de reforzarla si el animal da un paso más y roza la palanca, en cuyo caso reforzaremos sólo
esa conducta. Cuando presione con fuerza la palanca (conducta objetivo) sólo reforzaremos esta conducta y no la de mero roce de la palanca.
En humanos, según Fernández Castro (1993, p. 208), el moldeamiento se aplica siguiendo cuatro
pasos:
1. La especificación clara del objetivo final que se pretende conseguir. Es decir, qué se debe hacer, cuándo y cómo.
2. La determinación del nivel inicial del sujeto o punto de partida. El nivel inicial consiste en la conducta más parecida a la del objetivo
final que ya sepa realizar el sujeto. No importa que este nivel inicial esté muy alejado del final, lo importante es que sea una conducta
bien adquirida y habitual.
3. El establecimiento de pasos graduales que vayan desde la conducta inicial hasta la conducta final.
4. La aplicación del moldeamiento, mediante el reforzamiento de las aproximaciones sucesivas. Esto consiste en reforzar el paso siguiente al punto en el que se halla el sujeto; cuando éste se ha adquirido, se refuerza solamente el paso siguiente pero no el que ya se ha superado, y así sucesivamente.
Fuera del ámbito experimental, esta técnica ha sido muy utilizada para instaurar conductas nuevas.
En contextos aplicados la encontramos como técnica de doma y adiestramiento de animales (adiestradores y domadores de circo); en humanos, profesores de educación especial, reeducadores, etc., con el
objeto de conseguir diversas conductas nuevas, por ejemplo, nuevas destrezas motrices en contextos
deportivos y de educación física, respuestas asertivas en el ámbito de las relaciones sociales, etc.
Como técnica experimental de adquisición rápida de operantes presenta dos problemas, según Cruz
(1989):
1) Exige la presencia y atención activa del experimentador así como una gran habilidad por su parte
para ir variando el criterio de refuerzo.
2) Además puede ser un método lento.
En cualquier caso, resulta una técnica muy frecuentemente utilizada. Nótese el ejemplo de un chico
con una conducta social bastante inhibida y que sin embargo pretendemos estimular; si esta inhibición
conductual se debe al escaso poder reforzante que para este chico tiene el contacto social habrá que establecer reforzadores complementarios y apetecibles para él (el sujeto está dotado de las habilidades
sociales necesarias pero no existe suficiente refuerzo para activarlas), pero si la inhibición se debe más
bien a una falta de habilidades sociales, éstas deberán ser moldeadas (tomando forma) mediante el reforzamiento de las mejoras progresivas en la habilidad. En este último caso se trata por tanto de construir una respuesta nueva en el repertorio del sujeto.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
195
b) Automoldeamiento
También denominada técnica de seguimiento de señal, es un procedimiento de condicionamiento
clásico (véase Tema 3, aptdo. 3.5.3) que puede servir para la adquisición de condicionamiento instrumental. En el contexto de éste último, permite una mayor automatización y estandarización experimental y requiere una respuesta específica ante un estímulo relevante. Recordando lo ya tratado en el
Capítulo 3, se trata de un procedimiento experimental elaborado por Brown y Jenkins (1968) aplicado
principalmente en palomas. En el procedimiento original, en un dispositivo tipo caja de Skinner se
había dispuesto en una pared un disco que el animal podía picotear y que se iluminaba por dentro durante 8 segundos. Al final de los 8 segundos aparecía el refuerzo, consistente en bolitas de comida. El
disco permanecía iluminado el tiempo prefijado y el refuerzo aparecía independientemente de que lo
picara la paloma. Esta situación se repetía a intervalos regulares y se observaba, tras unos 40 o 50 ensayos, un rápido aumento de la conducta de picotear el disco que se iluminaba.
Pero su interés no sólo es metodológico (una técnica para acelerar experimentalmente la adquisición de respuesta) sino también teórico, siendo fuente de discusiones teóricas sobre las distinciones entre condicionamiento clásico e instrumental.
En efecto, el automoldeamiento parece una situación de condicionamiento clásico pues la iluminación del disco (EC) va seguida de la aparición de comida (EI). Pero con el entrenamiento se añade
rápidamente una situación instrumental de estímulo discriminativo-respuesta-estímulo reforzante (EDR-C). Además, se observó que los animales no podían aprender a inhibir la respuesta de picotear mediante entrenamiento de omisión (no aparición de refuerzo al final del estímulo discriminativo sino en
otros momentos) y que la relación se aprendía aunque el disco estuviera situado lo más lejos posible
del dispensador de comida. Hay dos tipos de explicaciones a la eficacia del procedimiento:
- La respuesta nueva que aparecía era la respuesta natural ante el refuerzo: el picoteo ante la comida.
De hecho, el picoteo era distinto según se tratase de bebida o comida.
- La contingencia entre el EC (iluminación) y el refuerzo es crítica para que se incremente la respuesta
en cuestión.
1.4.3. Métodos de estudio en humanos
Las técnicas más frecuentes de estudio del aprendizaje instrumental en humanos han incluido diversas condiciones y tipos de refuerzo. Según Fernández Castro (1993, p. 193), se distinguen dos tipos
de estudio: en laboratorio y en contextos naturales.
- En laboratorio: Los tipos de respuesta más comunes son motrices, perceptivas y verbales. Los tipos
de refuerzo más empleados van desde refuerzos sociales tales como la aprobación o desaprobación
(ya utilizado desde Thorndike), pasando por la obtención de algún tipo de conocimiento de resultados, información o feedback (saber que se ha realizado correctamente la tarea) o incluso la obtención
de puntos canjeables por dinero u otro beneficio.
- En contextos naturales: Se siguen dos pasos:
1º, identificar la respuesta o conducta objeto de estudio.
2º, registrar el número de veces que se da dicha respuesta, los antecedentes o estímulos discriminativos ante los cuales ocurre y los consecuentes (refuerzos, consecuencias punitivas, etc.) de la misma. En definitiva, lo que conocemos como el análisis funcional de la conducta.
Estos son los dos primeros pasos de lo que en contextos aplicados se denomina evaluación conductual, los cuales a su vez sirven para proseguir posteriormente el tratamiento de modificación de conducta.
196
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Otro procedimiento típico en humanos es el de estudios con juicios de contingencia. Por ejemplo,
en Shanks y Dickinson (1991), se le presenta al sujeto en pantalla de ordenador una especie de videojuego: un tanque va cruzando la pantalla y el sujeto puede dispararle (R); el tanque puede explosionar
(consecuencia) por los disparos del sujeto [p(C/R)] o por causas no relacionadas con la conducta del
sujeto (por minas en el suelo) y por tanto p(C/no R). Finalmente se le pide al sujeto que juzgue la efectividad de sus disparos; los resultados son que ajustarán sus juicios según la contingencia real programada por el experimentador.
1.5. Clasificación de tipos de procedimientos
Existen varias clasificaciones de procedimientos de condicionamiento instrumental. Todas ellas
están basadas en las principales condiciones que hacen posible este aprendizaje y que se refieren a:
- Condiciones que afectan a las consecuencias de la respuesta (positivas o apetitivas y negativas o
aversivas)
- Condiciones de la relación respuesta - consecuencia (contingencia R-C y probabilidad R-C), que
puede ser de contingencia positiva (la R produce la consecuencia), negativa (R elimina la consecuencia que se venía teniendo) y no contingencia.
- Condiciones antecedentes a la respuesta (presencia o ausencia de estímulos discriminativos).
Según esto, hemos seleccionado tres clasificaciones:
1.5.1. Según el tipo de consecuencia y según la contingencia R - consecuencia
A partir de esquemas de clasificación como los de Tarpy (1981), hemos elaborado una clasificación que desarrolla detalladamente el tipo de consecuencia y el tipo de relación R – C en el condicionamiento instrumental (véase la Tabla 2).
Tabla 2: Tipos de condicionamiento instrumental en función de los tipos de consecuencias y del tipo de relación R-C.
SI positiva
Relación de
contingencia
R-C
Sí negativa
NO
CONSECUENCIAS / resultados
P O S I T I V A S (apetitivas)
N E G A T I V A S (aversivas)
Resultados de adquIsIcIón de R
Resultados de extIncIón de R
Por aplicación
Por cese de
Por
Por cese
(ref. positivo)
estimulación
aplicación
del reforzador
aversiva
(ref. negativo)
Condicionamiento
Castigo
(castigo positivo)
de recompensa
Escape
Entrenamiento
Evitación
de omisión
(castigo negativo)
Indefensión
aprendida
Según esta clasificación, los tipos resultantes son los siguientes:
Cuando a la respuesta le sigue la consecuencia, tenemos el condicionamiento de recompensa, el escape, la evitación y el castigo:
- En el condicionamiento de recompensa, tras la respuesta aparece un evento apetitivo (refuerzo) y
por tanto aumenta la tasa de respuesta (se estudia más adelante).
- En el escape, si actuamos desaparece algo desagradable. En la evitación actuamos antes de que
aprezca lo desagradable. La evitación implica una primera fase en que un ED es emparejado inicialmente con la estimulación aversiva y una segunda en que sólo se presenta el ED; en cualquier caso, la
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
197
respuesta impide la exposición al ED aversivo en la evitación, y a los estímulos aversivos en el escape, lo cual supone una consecuencia positiva por cese de estimulación aversiva. En esta situación se
trata de un refuerzo negativo: refuerzo por hacer aumentar la tasa de respuesta y negativo porque supone un cese de estimulación, en este caso aversiva. Es decir, el refuerzo, por definición, siempre
hace aumentar la probabilidad de la conducta y supone una consecuencia apetitiva; el ser positivo
(como en la recompensa) o negativo (como en la evitación y el escape) se refiere a que se produzca
por aplicación (por ejemplo, dar dinero) o por supresión (por ejemplo, levantar un arresto), respectivamente.
- Sin embargo, en el castigo se aplica estimulación aversiva tras la respuesta y con ello disminuye su
tasa. Hay dos tipos de castigo según el tipo de consecuencia negativa: castigo por aplicación (si es
estimulación aversiva directa, como en el caso del castigo físico) y castigo negativo o por supresión,
también entrenamiento de omisión (si la consecuencia es la supresión de un reforzador, como dejarnos sin postre); en este caso puede aparecer el refuerzo en otros momentos o con otras respuestas, pero nunca tras R; este procedimiento se denomina reforzamiento diferencial de otra conducta (RDO).
Cuando la consecuencia no es contingente, es decir, cuando el hecho motivacionalmente significativo ocurre pero sin contigüidad con R, tenemos la indefensión aprendida, en la cual la estimulación
aversiva independientemente de su conducta. Nótese que en este caso sí hablamos de una auténtica ausencia de contingencia entre la respuesta y su consecuencia, mientras que en el entrenamiento de omisión se trata en realidad de una relación negativa entre la respuesta y la consecuencia, más que de una
no-relación.
1.5.2. Según la probabilidad R-C o intermitencia del refuerzo
Otro criterio de clasificación, dentro de los casos de condicionamiento en que existe una relación
de contingencia R-C, hace referencia a la probabilidad de aparición de consecuencia dentro de la fase
de adquisición y en los sucesivos ensayos.
Cuando tenemos en cuenta tan sólo consecuencias positivas, surgen dos grandes tipos, a saber:
- El condicionamiento de recompensa continuo (se refuerza cada respuesta ), y
- el condicionamiento de recompensa parcial, en el que se intercalan ensayos R - no C y ensayos
R - C, es decir, se refuerzan sólo algunas respuestas, con arreglo a algún criterio o programa de refuerzo. Según el programa de refuerzo que se establezca, la variación en la tasa de respuestas será diferente, tal y como veremos en el próximo capítulo.
También puede darse diferente probabilidad R-C cuando las consecuencias son negativas. Es decir,
se pueden aplicar programas de castigo cuando el estímulo aversivo contingente a la respuesta no se
aplique siempre tras ella sino sólo en algunas ocasiones y según cada programa.
1.5.3. Según la estimulación antecedente
Dadas unas consecuencias positivas tras la respuesta, en la adquisición hay dos grandes tipos de
condiciones antecedentes:
- Estímulos señal o discriminativos: Suponen una asociación del tipo E - (R-C) y un entrenamiento en
discriminación o generalización hasta que el estímulo "controle" o active la respuesta. Se trata pues
de aprender a realizar acciones precisas y que exijan lo que desde el ámbito aplicado se denomina
"coordinación sensorio-motriz", es decir, respuestas específicas tras señales específicas condicionadas. A esta situación la podríamos llamar de condicionamiento instrumental señalizado y se explica más adelante en esta obra.
- Contexto: Aquí no son precisas señales específicas sino sólo un contexto determinado para que se
produzca la asociación R-C.
198
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
1.6. Comparacion entre condicionamiento clasico e instrumental
Hay bastantes autores que han investigado la posible relación entre estos dos tipos de aprendizaje e
incluso se han realizado experimentos con procedimientos combinados de CC y CI. En los años 40-50
hubo una gran polémica en el ámbito teórico entre los que defendían que cada tipo de condicionamiento implicaba un proceso diferente de aprendizaje -por ejemplo, la teoría biproceso del aprendizaje
(Mowrer y otros)- y los que decían que había un proceso subyacente a los dos tipos de condicionamiento. La conclusión final fue que cada procedimiento de condicionamiento pone en juego distintos
mecanismos de aprendizaje y de ellos algunos son comunes a los dos. Gray (1988; trad. cast. de 1993,
p. 159) precisa un poco más esta conclusión: La relación entre ambos tipos de condicionamiento
“es un problema central y difícil de la teoría del aprendizaje. No obstante, se está de acuerdo en que, en principio, ninguno de estos dos
procesos de aprendizaje puede ser reducido al otro, aunque ambos pueden reflejar algún mecanismo más general de aprendizaje, y que en
parte la conducta está determinada por los dos”.
En concreto, en el CC se relacionan eventos ambientales o estímulos y con ello, el sujeto aprende a
relacionar unos estímulos con otros, de modo que unos hagan de señal de otros activando expectativas
de aparición de otros estímulos; por ello el CC parece estar más relacionado con los procesos perceptivos. También, la respuesta que se produce en el CC no es voluntaria sino refleja.
En el CI lo que se aprende es una relación, no entre eventos sino entre la propia acción y sus consecuencias en un contexto dado. El sujeto tiene que hacer algo para obtener una consecuencia, por tanto,
es necesaria la existencia de los procesos perceptivos, pero en el CI van a ser más importantes los procesos de respuesta, de recuperación o actuación. En cualquier caso, habrá procesos o mecanismos comunes porque inevitablemente serán necesarios los procesos de memoria y de representación del conocimiento (en el sujeto se almacena la información sobre la correlación entre eventos o entre acciones
y consecuencias), etc.
Las diferencias no son tan tajantes como pretendían los neoconductistas; incluso hay cierta similitud en cuanto a los procedimientos citados en el CC y en el CI. Tarpy (1981) efectúa una nueva clasificación de tipos de condicionamiento en la que relaciona tipos de CC con tipos de CI. Dicha clasificación aparece en la Figura 5.
Según esta Figura, los condicionamientos se pueden distribuir en función de dos dimensiones:
- la dimensión vertical excitatorio-inhibitorio, sitúa los componentes excitatorios en la parte superior y
los componentes inhibitorios en la parte inferior y
- en el eje horizontal apetitivo-aversivo, se sitúan a la izquierda los componentes apetitivos y a la derecha los aversivos o de evitación.
Hay un tercer elemento atribuible a los tipos de condicionamiento: el estado emocional y afectivo
(emoción condicionada) resultante de la aplicación de los cuatro tipos de condicionamiento.
1.7. Procesos y cambios cognitivos
Al igual que en el condicionamiento clásico, también en este caso los procesos y cambios cognitivos implicados en situaciones de condicionamiento instrumental hacen referencia a mecanismos o procesos de formación de asociaciones entre eventos y contenidos asociativos.
1.7.1. Mecanismos o procesos relacionadores de eventos
Lo más estudiado en el condicionamiento de recompensa, igual que en el CC, son las condiciones y
los procesos y resultados externos. Cuando se aprende en estas condiciones con un entrenamiento determinado se produce un cambio no sólo en la ejecución, sino también en el ámbito cognitivo y en dos
sentidos:
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
199
- Se activan mecanismos capaces de asociar en el nivel interno los eventos de esta situación de condicionamiento; y
- Se forman interiormente unos nuevos contenidos del aprendizaje en forma de representaciones mentales de algo nuevo, que no son otra cosa que representaciones asociativas de acciones y eventos relacionados.
EXCITATORIO
CC: Condicionamiento
excitatorio apetitivo
CC: Condicionamiento
excitatorio aversivo
CI: Condicionamiento
de recompensa
CI: Castigo
Emoción
de:expectativa positiva
Emoción de:
MIEDO
EXPECTATIVA POSITIVA
AVERSIVO
APETITIVO O DE
APROXIMACIÓN
Emoción de:
Emoción de:
FRUSTRACIÓN
ALIVIO O RELAJACIÓN
CC: Condicionamiento
inhibitorio apetitivo
CI: Entrenamiento de
omisión
CC: Condicionamiento
inhibitorio aversivo
CI: Evitación y escape
INHIBITORIO
Figura 5: Tipos de condicionamiento y emoción correspondiente según ejes excitatorio-inhibitorio y apetitivo-aversivo.
El primer mecanismo, al igual que en el CC, es de tipo fisiológico. En el nivel cerebral, las sensaciones provenientes de la acción realizada y de la consecuencia obtenida son asociadas por mecanismos como los de excitación neuronal, por ejemplo.
Otros mecanismos también son similares a los explicados en el CC: unos son capaces de formar expectativas de relación entre la acción y la consecuencia (en la línea de Tarpy) y también hay otros mecanismos de relación causal entre eventos (en la línea de Dickinson). Los primeros mecanismos son
fundamentalmente de memoria y hacen que la representación interna de la acción se relacione con la
representación interna de la consecuencia (o sea, del refuerzo). Para los segundos se activa una representación mental con dos elementos: acción y refuerzo, la acción es la causa del refuerzo.
1.7.2. Contenido del aprendizaje: Representaciones asociativas
En el nivel externo, mediante el condicionamiento de recompensa se consigue un aumento en la tasa de respuestas. En el nivel interno o cognitivo decimos que se producen representaciones asociativas. De un modo similar al CC, en el condicionamiento instrumental se postulan parecidas representaciones. Citaremos dos teorías complementarias: La de representaciones declarativas y procedimentales
de Dickinson (1980) y la de estructura asociativa jerárquica de Rescorla (1991).
200
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
a) Representaciones asociativas declarativas y procedimentales
En concreto, Dickinson explica el contenido de este tipo de aprendizaje de modo similar al CC, o
sea mediante representaciones declarativas y procedimentales:
- En la representación declarativa el conocimiento se representa de forma equivalente a un enunciado
o proposición que describe una relación entre hechos ("cuando aparece la palanca la pulso para obtener comida", en situación de caja de Skinner). La representación declarativa es una información que
no necesariamente ha de utilizarse; es, en general, la relación abstracta entre acción y consecuencia.
Naturalmente, para que dicha representación sea efectiva y lleve a la acción son necesarios otros mecanismos internos que traduzcan ese conocimiento o información en acción, tales como los mecanismos efectores del sistema motor. Lo fundamental de la representación declarativa es que consiste
en algo más general: Como es una información, va muy ligada a acciones concretas y pueden además
integrarse otros elementos a la relación esencial entre la acción y la consecuencia, como pueden ser
los estímulos discriminativos.
- Sin embargo, la representación procedimental se utiliza fundamentalmente para la acción y refleja
directamente el modo en que el conocimiento o información adquirida durante el entrenamiento de
condicionamiento de recompensa sirve para el control de la conducta del sujeto ("aprieto la palanca").
Dadas estas dos posibles representaciones, en el condicionamiento instrumental está claro que la
representación más usual o predominante es la de tipo procedimental, en el sentido de activar programas motores para la realización de la respuesta. Pero también se da una representación de tipo declarativo. Dickinson ha establecido un modelo en el que se puede expresar la interacción de estos dos tipos
de representaciones por medio de un diagrama de flujo, tal y como se observa en Figura 6.
Dickinson distingue entre lo que es la percepción del lugar donde debe darse la respuesta y la acción misma o respuesta del sujeto. La percepción del lugar donde debe darse la respuesta es algo parecido a los estímulos antecedentes. Estos llegan al registro sensorial y penetran en la reserva de memoria y una vez que se ha familiarizado (después del entrenamiento) se asocian unos con otros así como
con otros eventos tales como el refuerzo o la respuesta, formando redes o nexos asociativos. El sujeto
tiene representado el lugar donde va a dar la respuesta (palanca) y, por otro lado, tiene representado el
refuerzo y también la respuesta. Los nexos asociativos se establecen entre:
- la respuesta y la consecuencia (el refuerzo),
- el estímulo discriminativo y el refuerzo (nexo de tipo E-E) y, también,
- entre el estímulo discriminativo (visión de la palanca) y la respuesta (apretar la palanca) (nexo de tipo E-R).
Según Dickinson, el nexo asociativo E-R es de tipo procedimental, porque implica un procedimiento y está ligado a la acción pues llega al sistema motor, a partir del cual surgirá la respuesta.
Reserva de
memoria
Registro
sensorial
EC
(tecla)
Sistema
motor
EC
Nexo
E-E
Nexo
E-R
Output
conductual
(picoteo de la
EI
(comida)
R
EI
tecla)
picoteo
Figura 6: Modelo teórico de Dickinson sobre las representaciones asociativas en el condicionamiento (adaptado de Dickinson, 1980; trad.
1984, p. 154).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
201
b) Estructura asociativa jerárquica
Estos nexos asociativos han sido matizados y ampliados recientemente por Rescorla (1991). Según
este autor, en el aprendizaje instrumental lo que se forman son estructuras asociativas jerárquicas. No
es correcto pensar que dicho aprendizaje sea un ensamblaje de asociaciones binarias de cualquiera de
las tres posibles: E-R, R-C o E-C (E = estímulo antecedente, R = respuesta, C = consecuencia). No es
simplemente que R produce C o que E señala esa C, sino más bien que E señala la relación entre R y
C. Como dice Rescorla (1991, p. 6), el organismo representa la situación en la forma de una estructura
asociativa jerárquica de modo que E termina asociándose con la relación R-C. Para ello, la adquisición
de estas asociaciones necesita dos fases: Primero, el organismo aprende la relación R-C y, una vez
aprendida, introduce una nueva asociación con E. Es por tanto una estructura asociativa E - (R-C). La
Figura 7 contrapone estas dos concepciones: la incompleta de asociaciones binarias y la más adecuada
de asociación jerárquica.
Según el enfoque conductista tradicional, la asociación principal que se hace en el aprendizaje instrumental es del tipo E-R. La consecuencia (C) tenía como misión el servir de "reforzador", ayudar a
forjar esa asociación. Pero eso implica una asociación binaria simple E-R cuyo desarrollo depende
también de la presencia de C. La estructura jerárquica de esta tríada de elementos es mucho más precisa e incluso sugiere una idea interesante que el mismo Rescorla se encarga de mencionar: la relación
R-C puede entenderse como un asociado pavloviano de E. Es decir, el condicionamiento instrumental
parecería así un tipo de condicionamiento clásico: El EC permanece igual (el hecho de que aquí lo
llamemos "estímulo discriminativo", ED, no implica diferencias conceptuales) y el EI, o sea el evento
significativo (C en el aprendizaje instrumental), ahora va ligado a la acción, co-ocurre con ella.
E
R
R
E
C
(a) Asociaciones binarias
C
(b) Asociaciones jerárquicas
Figura 7: Estructuras asociativas del aprendizaje instrumental: (a) binarias, (b) jerárquica según Rescorla (1991).
202
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
2. CONDICIONES PARA LA ADQUISICION EN EL CONDICIONAMIENTO DE
RECOMPENSA
Se pueden mencionar dos grandes condiciones generales del condicionamiento instrumental y tres
específicas del condicionamiento de recompensa: el refuerzo, la situación motivacional y el tipo de
respuesta.
2.1. Condiciones generales para la adquisicion
En este apartado vamos a analizar las condiciones para la adquisición de la respuesta y sus correspondientes efectos o resultados externos. Al igual que en el CC, los tipos de resultados externos son
similares (adquisición, extinción, generalización y discriminación). Trataremos aquí las condiciones de
adquisición y en el siguiente capítulo las de extinción.
2.1.1. Probabilidad de emparejamiento R-C: Correlación acción-consecuencia
Para conseguir un aprendizaje instrumental o, lo que es lo mismo, un cambio de conducta debido a
las consecuencias de la propia conducta, es fundamental la correlación acción-consecuencia. Esta es
similar a la correlación estímulo-consecuencia del CC, pero lo importante es no sólo que la respuesta
vaya siempre seguida de una consecuencia favorable, sino que ese emparejamiento entre acción y consecuencia sea más probable o se dé más veces que dichos eventos por separado.
Tenemos aquí unos resultados similares a los del CC. El emparejamiento continuo o reforzamiento
produce una tasa de adquisición más rápida que el parcial. La adquisición es posible si la probabilidad
de ensayos emparejados (respuesta - consecuencia positiva, R-C+) es mayor que la de no emparejados:
p (R/C+) > p (R / no C+)
Esto también ocurre si se emplea refuerzo negativo como consecuencia, tal y como se observa en los
paradigmas de escape y evitación (véase Tema 5).
Una diferencia con el condicionamiento clásico se da en la relación inversa, es decir cuando
p (R/C+) < p (R / no C+)
El resultado debería ser la extinción, pero ello sólo ocurre con p (R/C+) = 0, es decir, si tras R nunca
aparece el refuerzo puesto que si aparece alguna vez en el entrenamiento, aunque sea menor el número
de veces que R va seguida de refuerzo que el de R no seguida del mismo, aún así se mantendrá la conducta (véase el apartado sobre programas de refuerzo en el siguiente capítulo).
2.1.2. Contigüidad temporal entre acción y consecuencia: La conducta supersticiosa
Aunque la contingencia es lo más importante, la contigüidad también tiene relevancia, hasta el punto que en determinadas circunstancias cualquier acción fortuita, por extraña que parezca, puede condicionarse si va seguida de una consecuencia muy favorable para el individuo. Tal es el caso de lo que
denominamos "conducta supersticiosa".
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
203
En 1948 Skinner realizó un experimento con palomas, a las cuales se les sometía a un programa de
refuerzo tipo IF (programa de Intervalo Fijo: una vez situadas las palomas en la caja, los refuerzos
aparecían a intervalos fijos de 15 segundos). A lo largo del entrenamiento se observó que la conducta
de los animales con el paso del tiempo cada vez se hacía más específica y cada animal emitía progresivamente un solo tipo de respuesta (este tipo de conducta ocurría en 6 de las 8 palomas que utilizó para
el experimento). Se trataba de conductas raras del tipo de dar vueltas en torno a la caja en sentido inverso al de las agujas del reloj, meter la cabeza en un ángulo concreto de la cámara experimental, balancear la cabeza, etc. Se observó que dichas conductas raras eran más frecuentes conforme se acercaba el momento del intervalo en el que aparecía el refuerzo. A esta posibilidad de incrementar la tasa
de determinadas respuestas es a lo que Skinner denominó conducta supersticiosa, ya que eran respuestas que aparecían de forma simultánea o anterior a las primeras apariciones de refuerzo. Con ello,
Skinner quería demostrar que se podía incrementar cualquier conducta que fuese contingente o dependiente de la recompensa.
Se puede denominar conducta supersticiosa por analogía a lo que es la superstición en el ser humano: si hacemos algo que tenga consecuencias muy favorables estableceremos una especie de relación
“causal” entre esa respuesta y la consecuencia, una expectativa de relación causal que no existe en la
realidad (o al menos no está científicamente demostrada). Esta conducta supersticiosa surge tanto ante
los refuerzos positivos como ante los refuerzos negativos (conducta de evitación) y, a diferencia de lo
que ocurre en animales, se puede adquirir sin experiencia directa de refuerzo "accidental" (basta con
observarlo en otros).
No obstante, análisis e investigaciones posteriores (por ejemplo, Staddon y Simmelhag, 1971) sugieren que la conducta se hace frecuente no por refuerzo "accidental" sino por la facilidad para predecir la aparición del refuerzo (ello ocurría cada 15 segundos en el experimento de Skinner). Sin duda, se
trata de un fenómeno complejo que tal vez se mantenga por otros factores tales como las señales del
entorno en presencia de las cuales ocurre la "conducta" reforzada. Así, por ejemplo, los momentos
previos a la corrida de toros hacen que algún torero se rodee de imágenes de santos y vírgenes y realice un ritual sistemático de rezos y gestos; esas conductas no "causan" una buena corrida (o evitan una
cornada) pero la expectativa esta activa y funciona y mantiene dicha conducta supersticiosa. Probablemente hubo un condicionamiento previo directo (quizás de un solo ensayo): una vez que hizo el ritual hizo una gran "faena" y tuvo mucho éxito (o una vez que se le olvidó tuvo una cornada o una
“mala tarde”). Ésta sería un tipo de superstición que Herrnstein (1966) denominó idiosincrásica o por
experiencia personal; también hay otras que denominó “compartidas por la comunidad” (mala suerte
viernes y 13, etc.) que se adquieren por aprendizaje observacional.
Uno de los problemas de la conducta supersticiosa es que las expectativas de resultado que el sujeto
mantiene sobre las mismas tienden a actuar como profecías autoconfirmadoras, por lo que resulta difícil distinguir las relaciones causales objetivas conducta - ambiente y las relaciones meramente subjetivas pero reificadas por el propio sujeto (por ejemplo, si creo que jugar un partido de fútbol con cierta
camiseta me dará buena suerte, es posible que la confianza y tranquilidad que me inspira me permitan
ciertamente una mejor ejecución, reforzando así la relación supersticiosa). En definitiva, las creencias
y expectativas que se generan con el aprendizaje de una conducta supersticiosa constituyen filtros en
el procesamiento de la información que tienden a reforzar la conducta. Ello queda también reflejado en
la historia de aquel hombre que se encontraba en la calle dando palmadas al aire afanosamente y en
todas direcciones, cuando una persona que lo miraba extrañada le pregunta:
- “Señor, ¿le importa decirme qué está haciendo?”
- “Estoy espantando elefantes”
- “Pero, si aquí no hay ningún elefante”
- “¡Y pues!, ¿lo ve usted?”.
La historia refleja una situación de evitación de tipo supersticioso de evidente dificultad de extinción,
muy similar a lo que ocurre en cualquier tipo de fobia. En el Tema 5 nos extenderemos más ampliamente en este tipo de procesos referentes específicamente a la evitación y los miedos.
204
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
2.2. El refuerzo
Que aparezca el refuerzo tras la respuesta, y por tanto que el refuerzo sea consecuencia positiva de
la respuesta, es una de las condiciones fundamentales y más estudiadas del condicionamiento de recompensa. En la concepción clásica del condicionamiento instrumental todo giraba en torno al refuerzo (su aparición dependiente de la respuesta) pero recordemos que el conductismo sólo tenía en cuenta
el resultado externo o el cambio de conducta que producía el refuerzo, y para ello bastaba con estudiar
las condiciones que favorecen ese cambio de conducta.
Dentro de este apartado vamos a considerar las siguientes puntos:
- Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento.
- Efectos del refuerzo según su tipo, intensidad, demora y contraste de intensidad y demora.
- El efecto de emparejar estímulos con el refuerzo (refuerzos secundarios o condicionados).
2.2.1. Definición, tipos de refuerzo y teorías en torno a su influencia en el condicionamiento
a) Definición del refuerzo
El refuerzo puede entenderse, de una manera funcional u operacional, como cualquier evento que
presentado tras la respuesta hace aumentar su probabilidad futura de ocurrencia. En una situación típica de caja de Skinner, con la experiencia de recibir refuerzo tras realizar una determinada conducta, el
animal tiende en el futuro a repetirla para conseguir el refuerzo (por ejemplo, comida). También podría
describirse el refuerzo de forma más explicativa como cualquier evento con propiedades motivacionales positivas y que hace aumentar la probabilidad de ocurrencia de una respuesta cuando se presenta
contingentemente a ella. El refuerzo sería asimilable al EI del CC o, más específicamente, al EI apetitivo.
Según Catania (1992, p. 71), deben darse tres condiciones para que se pueda hablar de refuerzo:
- que una respuesta produzca consecuencias,
- que la respuesta ocurra más a menudo que cuando no produce dichas consecuencias, y
- que el incremento en la respuesta ocurra debido a que la respuesta tenga dichas consecuencias.
Es importante recordar aquí que, de acuerdo con el enfoque de Skinner, el refuerzo queda definido
por su efecto fortalecedor de la conducta, independientemente de su aparente carácter agradable o desagradable para el sujeto desde el punto de vista motivacional - afectivo. Esto es así porque el carácter
apetitivo o aversivo de las consecuencias de la conducta puede ser, en muchos casos, más aparente que
real y, desde luego, bastante ambiguo y a menudo difícil de detectar en la práctica. Pongamos algunos
ejemplos: La conducta de fumar tiene importantes consecuencias aversivas a medio y largo plazo, pero
las consecuencias agradables más inmediatas que algunas personas pueden hallar (ayudar a relajarse,
concentrarse o relacionarse) mantienen la conducta de fumar, incluso cuando el sujeto ya se está enfrentando palpablemente a sus consecuencias aversivas. En otro caso, una persona puede mostrar frecuentes conductas de enfado porque, aunque eso le proporciona consecuencias desagradables (rechazo,
pérdida o deterioro de relaciones, disputas) también consigue con frecuencia cambios a su favor en las
demás personas (cesiones o concesiones), además de una inmediata descarga o relajamiento emocional, aunque se siga un poco más tarde de un arrepentimiento y autoculpabilización.
En definitiva, con mucha frecuencia el comportamiento tiene consecuencias variadas y a menudo
conflictivas y, en menos ocasiones, estas consecuencias son unilateralmente "buenas o malas" para el
sujeto. Ante tal situación, la elección de la conducta se vuelve un asunto complejo para el que, entre
otras cosas, resultan decisivas las habilidades cognitivas de "conexión - desconexión" con las consecuencias positivas vs. negativas e inmediatas vs. demoradas de cada opción de conducta disponible; es-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
205
tas consideraciones sobre aspectos cognitivos, sin embargo, si bien son fundamentales en la psicología
actual para la comprensión del comportamiento, quedan un tanto alejadas de nuestras pretensiones en
este lugar para la comprensión de los mecanismos del refuerzo según la tradición conductista y de la
psicología experimental. Quede simplemente ahora de manifiesto la importancia de una definición
operacional del refuerzo, como fortalecedor de la conducta que lo produce, independientemente de las
confusas consideraciones apriorísticas sobre su significado motivacional - afectivo
De todas maneras, siguiendo a Pelechano (1980, p. 198) y también a Catania (1992, p. 71), el concepto de "refuerzo" puede aparecer con distintos nombres y con significados diferenciados:
1ª) Como reforzamiento (del inglés reinforcement), se trata de un sustantivo que hace referencia a un
proceso y a una operación:
- Como proceso se trataría de la cadena de actos por los que se fortalece la respuesta, es decir, toda
la secuencia de hechos que transcurren desde que el sujeto emite la respuesta y tras ella aparece el
estímulo reforzante, con el consiguiente aumento en la probabilidad de ocurrencia de la respuesta.
- Como operación, el reforzamiento consiste en proporcionar las "consecuencias" tras la ocurrencia
de la respuesta.
2ª) El estado en que queda el organismo al aplicarle el refuerzo, es decir, las consecuencias de la aplicación del refuerzo al organismo. En este sentido se dice, por ejemplo, que el organismo "ha quedado reforzado" por emitir la respuesta.
3ª) Lo que fortalece la respuesta, o sea, el evento ambiental que se presenta tras la respuesta. Esto es lo
que propiamente se llama refuerzo (un sustantivo que hace referencia a un tipo de estímulo) o estímulo reforzante (un adjetivo como propiedad de un estímulo de esas características). En inglés, se
trata de reinforcer, o refuerzo, uno de cuyos tipos puede ser la "recompensa" (reward) o premio.
b) Tipos de refuerzo
Se han analizado varios tipos de refuerzo tanto en investigación básica como en su aplicación
clínica. Se han propuesto varias clasificaciones:
1) Refuerzo positivo y negativo. El refuerzo positivo es equiparable al EI apetitivo, sin embargo, no es
idéntico a la recompensa; es todo evento que hace aumentar la probabilidad de ocurrencia de la
respuesta y puede ser una actividad, un refuerzo social, presentación de elogios, comida, sonrisas,
objetos agradables, etc. El refuerzo negativo es la desaparición de un estímulo aversivo con la respuesta o la ausencia de estimulación aversiva tras ella (supresión de ruido, dolor, olores molestos,
objetos desagradables, etc.).
2) Refuerzo primario y secundario. Los refuerzos primarios son aquellos que poseen valor reforzante
por determinación biológica: satisfacen una necesidad o producen una reducción del impulso (comida, aire, etc). Los refuerzos secundarios o condicionados son eventos inicialmente neutros (en el
sentido de no producir cambios en la respuesta) y adquieren valor reforzante por asociación o emparejamiento con refuerzos primarios:
R
Refuerzo secundario
R
Refuerzo secundario
Refuerzo primario
Esto da lugar a:
Por ejemplo, la madre que tras realizar su hijo los deberes le dice “muy bien”, seguido de la entrega
de una chocolatina; esas palabras adquieren así un significado positivo, reforzante, en esas y en
otras situaciones.
206
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
3) Refuerzos de estímulo y de respuesta. No sólo hay refuerzos estimulares: también hay respuestas
que actúan con la funcionalidad del refuerzo. La respuesta refuerzo consiste en realizar actividades
agradables, interesantes o positivas después de la respuesta que interesa que el sujeto aprenda. David Premack recogió y sistematizó esta idea (Premack, 1965), conociéndose más tarde como el
Principio de Premack (muy utilizado en modificación de conducta), el cual establece que las actividades que realiza con mucha probabilidad un sujeto, si son contingentes a actividades menos
probables harán que aumente la probabilidad de ocurrencia de estas últimas. Por ejemplo, en un niño es muy probable la actividad de jugar o ver la televisión, y “menos probable” la actividad de estudiar o realizar los deberes; si después de realizar los deberes se le permite jugar o ver TV, esta
última actividad reforzará a la primera.
En definitiva, la existencia de respuestas o actividades intrínsecamente gratificantes permite que
puedan ser estratégicamente conectadas de forma consecuente con otras respuestas no tan gratificantes per se para el sujeto y que queremos aparezcan con mayor frecuencia. Esta última conducta
se convierte en una condición inexcusable para poder poner en marcha la conducta reforzante.
Nótese la importante diferencia estratégica y motivacional entre un planteamiento basado en el castigo del tipo "si no haces los deberes no sales en toda la tarde", y un planteamiento basado en el refuerzo tipo respuesta del tipo "después de hacer los deberes podrás salir a jugar".
4) Refuerzos exteriores e intraorgánicos. Los exteriores son refuerzos, ya sean estímulos o respuestas,
y son eventos externos al organismo; y los intraorgánicos son los que se aplican directamente a estructuras biológicas (aplicación de electrodos a centros cerebrales de placer, etc.).
5) Refuerzos extrínsecos e intrínsecos. Aunque ésta no es una distinción habitual en el estudio de los
condicionamientos, consideramos que supone una expansión útil y lógica de los conceptos conductistas al ámbito de lo cognitivo. Refuerzos extrínsecos serían todos los que hasta ahora hemos considerado; de hecho, los únicos válidos desde el conductismo tradicional por su carácter medible y
operativo. Los refuerzos intrínsecos son aquellos que el sujeto se proporciona a sí mismo en función de su personal modelo de creencias y valores, en términos de sentimientos de orgullo, competencia, valía, etc.; serían la contrapartida de los castigos intrínsecos (sentimientos de culpa e inadecuación personal). Podríamos decir que toda acción que el sujeto realiza habitualmente obtiene
algún tipo de reforzamiento, ya sea extrínseco y/o intrínseco, y por tanto, está orientada hacia la satisfacción de algún tipo de necesidad personal. Los refuerzos intrínsecos están más conectados con
la satisfacción de necesidades superiores de autoestima y autorrealización. El aprendizaje determina qué tipo de acciones se conectarán con esos sentimientos y necesidades superiores y, por tanto,
qué acciones generarán consecuentemente un refuerzo intrínseco. Así, por ejemplo, más allá de los
refuerzos extrínsecos, el modelo de creencias y valores aprendido por una persona puede hacer que
su esfuerzo por ayudar a las personas necesitadas genere un poderoso refuerzo intrínseco en términos de sentimientos de congruencia y autorrealización personal, mientras que la renuncia a esa
ayuda puede generar sentimientos intensos de culpa. El aprendizaje ha hecho que, en la búsqueda
de su satisfacción personal, esta persona se oriente decididamente a ayudar a otros.
La distinción entre refuerzos extrínsecos e intrínsecos es lógicamente privativa de los seres
humanos y sus peculiaridades cognitivas y emocionales, por lo que en el contexto de este manual
tampoco ahondaremos ni polemizaremos más con tal distinción.
6) Hay otras clasificaciones pero quizás la más práctica es la propuesta por Sulzer-Azaroff y Mayer
(1977), referente a refuerzos utilizados en modificación de conducta. Distinguen entre:
- reforzadores comestibles,
- reforzadores tangibles (objetos en sí mismos gratificantes para el sujeto: juguetes, revistas, dinero,
etc),
- reforzadores cambiables (fichas, etc),
- reforzadores de actividad (utilización del principio de Premack),
- reforzadores sociales (alabanzas, elogios, contingencias reforzadoras de los compañeros, etc).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
207
c) Por qué influye el refuerzo en el condicionamiento instrumental (teorías explicativas)
Como se aprecia en el Cuadro 2, hay muchísimas teorías al respecto. Una primera clasificación incluye una distinción entre dos aspectos:
- teorías del aprendizaje que consideran al refuerzo como factor irrelevante o que al menos hay otros
factores más importantes para lograr la adquisición, y
- teorías que consideran al refuerzo como factor influyente en el aprendizaje.
Dentro del primer grupo habría que citar:
- las teorías de la contigüidad (Guthrie, 1935, 1952; Estes, 1969, 1971, 1978),
- la teoría de signos de Tolman (1932, 1951, 1959), y
- la teoría de las expectativas -primero Bolles (1972) y más recientemente Tarpy (1981).
Cuadro 2: Clasificación de las principales teorías sobre el refuerzo.
1. Teorías que consideran irrelevante al refuerzo:
- Teoría de la contigüidad (GUTHRIE, ESTES)
- Teoría de signos (TOLMAN)
- Teoría de las expectativas (BOLLES, TARPY)
2. Teorías del refuerzo como factor principal:
2.1. Teorías de los mecanismos subyacentes del refuerzo
A. Teorías de los mecanismos funcionales:
* Teorías del refuerzo como estímulo:
- T. de los "estímulos satisfactorios" (THORNDIKE)
- T. de la "reducción de impulso" (HULL)
- T. de la estimulación sensorial (feedback) (BANDURA)
* Teorías del refuerzo como respuesta:
- T. de las respuestas consumatorias (SHEFFIELD)
- T. de las respuestas probables (PREMACK)
B. Teorías de los mecanismos fisiológicos (OLDS Y MILNER)
2.2. Teorías descriptivas o funcionales (SKINNER)
Por otro lado, están los que consideran que el refuerzo es el factor principal del aprendizaje en general y no sólo del condicionamiento de recompensa, hasta el extremo de que si al realizar una conducta no hay ninguna consecuencia entonces no se aprende. Estas teorías se subdividen, a su vez, en
dos grupos: las teorías de los mecanismos subyacentes del refuerzo y las teorías descriptivas o funcionales.
- Teorías de los mecanismos subyacentes del refuerzo, que intentan explicar la naturaleza del refuerzo en función de sus mecanismos internos en el sujeto, ya sean mecanismos funcionales o fisiológicos. Cuando estas teorías se han centrado en los mecanismos funcionales del refuerzo, tenemos a su vez dos grupos de teorías:
* Teorías del refuerzo como estímulo: La primera teoría de este tipo es la del refuerzo como "estímulo satisfactorio" de Thorndike. La segunda teoría y quizás la más importante en este aspecto durante mucho tiempo fue la teoría de la reducción de impulso de Hull (1943, 1952). También hay que
citar como tercera teoría la de estimulación sensorial o feedback (Bandura, 1969; trad. cast. de
1983, p. 229), en la que se considera reforzante la estimulación visual o auditiva resultante de la
respuesta.
208
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
* Dentro de las teorías del refuerzo y sus mecanismos funcionales, el segundo grupo sería el de las
teorías que consideran al refuerzo como respuesta. Aquí tendríamos en primer lugar, la teoría que
considera que lo que refuerza la conducta son las respuestas consumatorias (Sheffield, 1966;
Glickman y Schiff, 1967). Y en segundo lugar, la teoría de Premack (1965) según la cual, las respuestas más probables refuerzan a las menos probables.
Además de teorías sobre mecanismos funcionales, están las teorías que han tenido en cuenta los
mecanismos fisiológicos. Aquí la aportación clásica más relevante ha sido la de Olds y Milner
(1954), quienes mediante técnicas de implantación quirúrgica de electrodos en cerebros de ratas, intentaron averiguar la existencia de posibles centros cerebrales responsables de los mecanismos fisiológicos del refuerzo.
- Por último, las teorías funcionales o descriptivas, también llamadas "predictivas" (Tarpy y Mayer,
1978), las cuales, basadas en Skinner y demás teóricos del condicionamiento operante, no se interesan por los mecanismos que subyacen al refuerzo sino por su efecto o función sobre la conducta y
por tanto su posibilidad de predicción, es decir, que solamente describen lo que ocurre en la situación
cuando el sujeto recibe un/os estímulo/s y realiza determinada conducta.
Aun sin citar las teorías más recientes, como podemos apreciar el panorama es bastante complejo y
sería excesivamente prolijo profundizar en dichas teorías. No obstante, para un análisis detallado se
pueden consultar en castellano los manuales de Pelechano (1980), Tarpy (1975), Hulse, Egeth y Deese
(1982) o el enfoque actual en el libro de Mackintosh (1983, traducido en 1988) o el de Domjan y Burkhard (1986, trad. 1990); en inglés las monografías de Glaser (1971), Gilbert y Millenson (1972) y
Tapp (1969), así como los manuales de Tarpy y Mayer (1978), Hintzman (1978) y Catania (1992).
2.2.2. Condiciones para la efectividad del refuerzo según su tipo, intensidad,
demora y contraste de intensidad y demora
a) Tipo de refuerzo empleado
En la investigación experimental no se ha considerado mucho esta variable pues, generalmente, se
han utilizado reforzadores muy potentes, todos útiles para el aprendizaje. Sin embargo, se ha observado que existe un tipo de estímulos también con propiedades reforzadoras, por ejemplo, el reforzamiento sensorial (experimentos en los cuales tras la emisión de la respuesta lo único que se hacía era cambiar la intensidad de la luz, lo cual también permitía reforzar la conducta). Otro tipo de reforzadores
son las pautas naturales de refuerzo en algunas especies animales: hay especies muy sensibles a determinados estímulos naturales (en experimentos con ratas, la conducta de apretar la palanca puede ser
reforzada simplemente con el olor de la comida, ya que el olfato en las ratas está muy desarrollado).
b) Intensidad o magnitud del refuerzo
Es una de las variables más estudiadas. Como podemos suponer, a mayor intensidad del reforzador,
mejor aprendizaje. El aprendizaje está positivamente relacionado con la cantidad de refuerzo tanto en
lo referido a una mayor tasa de adquisición (aumento más rápido en la tasa de respuestas) como en lo
que se refiere al nivel asintótico (nivel máximo de ejecución cuando se aplica el refuerzo). Sin embargo, una dosis alta de refuerzo produce saciedad en el sujeto y por tanto puede perder motivación (para
evitar este problema son útiles los refuerzos secundarios). Podríamos considerar en tal sentido el
ejemplo de la persona que se satura tanto de su comida favorita que llega a perder el interés o incluso a
aborrecerla, por un efecto de saciación.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
209
c) Demora del reforzamiento
Cuanto más tarde aparezca el refuerzo tras la respuesta peor ejecución y peor aprendizaje. El sujeto
sólo podrá asociar su acción a la consecuencia positiva si ésta aparece inmediatamente después de la
acción. Además, se ha visto que es mejor un refuerzo débil pero administrado inmediatamente después
de la respuesta que un refuerzo fuerte pero presentado con demora con respecto a dicha respuesta. Por
ejemplo, la clásica promesa que hace el padre al hijo de regalarle una moto o un perro si aprueba el
curso (imaginemos que se lo promete en octubre, justo 8-9 meses antes de recibirlo) es menos efectiva
para la conducta de estudio que pequeñas recompensas cada vez que se le ve estudiando.
La demora del refuerzo es similar al intervalo entre el EC y el EI del CC. Si el refuerzo tarda mucho tiempo en aparecer entonces se debilita la asociación entre la respuesta y éste; e incluso la demora
puede hacer también, si es muy larga, que se pierda el recuerdo o representación activa de la respuesta
que hemos realizado; es decir, si el refuerzo no aparece mientras dura ese recuerdo o representación
activa de la respuesta entonces será imposible la asociación entre dichos eventos.
Al igual que en el CC, se ha intentado investigar el intervalo óptimo a partir del cual la demora es
perjudicial para el aprendizaje. En experimentos con ratas en laberintos se ha visto que sí era posible
una demora considerable, debido a que para estos animales no sólo era importante el refuerzo, sino
que también eran capaces de relacionar estímulos discriminativos del refuerzo (claves secundarias de
olor de la comida, etc.).
d) Experiencia previa de recompensa: El efecto de contraste
La variación de las magnitudes de recompensa a lo largo del entrenamiento afecta al aprendizaje.
La práctica o experiencia previa incluye también el recuerdo del nivel de recompensa y si éste contrasta o se diferencia del nivel actual de recompensa, esto tendrá repercusiones en la ejecución. Así pues,
este efecto de contraste estudia cómo afecta la experiencia previa de recompensa en el aprendizaje con
diferentes condiciones de recompensa.
El contraste se refiere a las variaciones relativamente considerables y sorpresivas que a lo largo del
entrenamiento se pueden hacer sobre la magnitud o la demora de recompensa.
La investigación empírica que se hizo para descubrir qué ocurría fue la siguiente: Se formaron cuatro grupos de ratas, de tal manera que los primeros grupos (A y B) recibieran un nivel alto de recompensa y los otros dos (C y D) un nivel bajo de recompensa. Los resultados se expresan gráficamente en
la Figura 8. A partir del momento t del entrenamiento, se modificó el nivel de recompensa en los grupos A y C intercambiando los niveles de recompensa que recibían ambos grupos; de esta manera el
grupo A pasó a recibir un nivel bajo de recompensa y el C un nivel alto de recompensa. Los grupos B
y D sirvieron de grupos de control y los grupos A y C fueron los grupos experimentales de variación
de la magnitud de recompensa. Los grupos de control (B y D) evolucionaron con el mismo nivel de
ejecución anterior al momento t. El grupo C incrementó su ejecución por encima de los niveles de los
grupos que recibían mayor nivel de recompensa y luego tendía a tener la misma ejecución que el grupo
de control del nivel alto de recompensa (contraste positivo (1)), sucediendo algo similar pero a la inversa, como se observa en el gráfico, en el grupo A (contraste negativo (2)).
210
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
(1)
EJECUCIÓN
(Por ej., velocidad de
carrera)
(2)
A
B
D
C
t
TIEMPO
Figura 8: Representación gráfica del efecto de contraste según magnitud de recompensa.
Para explicar este fenómeno del contraste algunos dicen que lo importante es la motivación: Al reducirse el nivel de recompensa (y de forma brusca), esto tiene un valor aversivo para el sujeto y, por
tanto, disminuye paulatinamente la motivación "de incentivo". El contraste positivo lo ha intentado
explicar, sobre todo, Tarpy con su Teoría de la Expectativa: El grupo aprende a esperar el nivel de recompensa que estaba recibiendo hasta el momento, pero si se produce un incremento en dicho nivel,
paulatinamente se produce un incremento motivacional y emocional y, por tanto, la ejecución se hace
muy alta.
Con la demora del refuerzo sucedería algo similar al contraste de intensidad.
2.2.3. Efecto de emparejar estímulos con el refuerzo: los refuerzos condicionados o secundarios
También es posible el condicionamiento instrumental de recompensa con consecuencias que se
hacen significativas por aprendizaje previo, o por alguna equivalencia o relación aprendida con reforzadores naturales. Se trata del refuerzo condicionado o secundario.
Siguiendo a Reynolds (1968; trad. 1977, p. 68), algunos estímulos se convierten en refuerzo para
una conducta debido a que en la historia previa del organismo han estado de algún modo asociados
con algún refuerzo natural (que no necesita ninguna experiencia o aprendizaje previo para que sea
efectivo).
No es lo mismo un estímulo discriminativo que un refuerzo condicionado o secundario: Ambos
comparten el poder adquirido de incrementar la probabilidad de ocurrencia de una respuesta, pero los
ED preceden o acompañan a la respuesta y los refuerzos condicionados aparecen tras ella como productos o consecuencias.
Se pueden distinguir dos tipos de refuerzos condicionados: positivos y negativos, y tienen el mismo
significado que los primarios o naturales positivos o negativos.
Como se ha visto antes al mencionar los refuerzos secundarios, la formación o adquisición de los
refuerzos secundarios o condicionados se basa, entre otras cosas, en las propiedades discriminativas de
los estímulos: un estímulo cuya aparición o eliminación posterior a una respuesta no incrementa su
probabilidad de ocurrencia, al asociarse con un refuerzo primario (presentarse próximo a éste), después él sólo tendrá propiedades reforzantes, y ello porque dichos estímulos funcionan como ED para
las respuestas posteriores, las cuales están mantenidas por el refuerzo que ocurre en presencia de dichos estímulos. Será pues un proceso gradual.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
211
Los refuerzos condicionados son asimilables a los estímulos condicionados que en el condicionamiento de segundo orden tenían el poder, gracias a su condicionamiento previo, de condicionar a otros
estímulos nuevos. El poder de los refuerzos condicionados reside en que están asociados a los refuerzos primarios (biológicamente significativos) y son intercambiables por ellos. El refuerzo condicionado más universalmente empleado es el dinero, que no posee ningún valor biológico significativo pero
que precede a la posesión de muchos refuerzos primarios.
La fuerza de un refuerzo condicionado se puede medir en términos de durabilidad y potencia:
- La durabilidad es el número de respuestas que un refuerzo condicionado es capaz de seguir reforzando después de que se elimina el refuerzo primario sobre el que está basado.
- La potencia es la tasa de respuesta que es capaz de mantener.
Los refuerzos condicionados son muy utilizados en la vida cotidiana. En modificación de conducta
tienen su expresión más extendida en los refuerzos intercambiables, las fichas, puntos, estrellitas, etc.
que gana el sujeto por realizar determinadas conductas y cuya acumulación permitirá la obtención ulterior de refuerzos tangibles o primarios. También la alabanza o elogio puede entenderse como refuerzo condicionado.
2.3. Efecto de la situación motivacional
A idénticas magnitudes de refuerzo (o intervalos entre respuesta y refuerzo) se ha observado que el
resultado en la ejecución puede variar en función de la situación motivacional del sujeto. El efecto de
la situación motivacional se ha estudiado atendiendo a dos conceptos: el impulso y el incentivo.
En cuanto al impulso (drive), como vimos en el Capítulo 1, se trata del efecto del estado interno en
que se halla el sujeto según su nivel de necesidad biológica (necesidad de comida, bebida, etc.) medido, además, objetivamente. Según distintos niveles de necesidad, el nivel de impulso va a ser diferente. A mayor nivel de necesidad va a corresponder un mayor nivel de impulso y, por tanto, va a haber
una mayor motivación o activación que se traduce en una mejor ejecución. Esto explicaría situaciones
como que en tiempos de crisis económica puede aumentar el índice de participación de la gente en
juegos de azar, porque la necesidad de una rápida ganancia económica es más apremiante. El impulso
tiene un efecto energizante de la conducta. Además se ha observado que los hábitos aprendidos bajo
una condición de alto impulso son más fuertes (se retienen mejor, son más resistentes a la extinción,
etc.) que los aprendidos con un bajo nivel de impulso (en términos de Hull).
El incentivo sin embargo no está tan relacionado con la reducción de impulso o necesidad biológica como con las propiedades motivacionales de los objetos o eventos recompensantes. Los refuerzos
tienen una propiedad motivacional en el sentido de activar la ejecución. El impulso, en realidad, no es
algo aprendido y está basado en necesidades biológicas; sin embargo, el incentivo sí es aprendido, es
decir, que un objeto no reforzante de una manera primaria tenga un valor motivacional es por aprendizaje y esto está basado en la historia pasada del sujeto. Con ello concluimos, por tanto, que a mayor
nivel de incentivo, también, mejor aprendizaje.
2.4. Tipo de respuesta
La tercera condición que mencionábamos al principio era el tipo de respuesta. El condicionamiento
será mejor o peor según el tipo de respuesta que emplea el sujeto y que pretendemos que aprenda.
Cuatro condiciones o factores se pueden mencionar:
212
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
- Adecuación de la respuesta a la constitución física del sujeto: Si es una respuesta que por su constitución física el sujeto puede realizar, el condicionamiento será mejor que si se trata de respuestas que
el sujeto también puede realizar pero con una mayor dificultad.
- Adecuación de la respuesta a la preparación biológica de la especie: El condicionamiento también
depende de la especie que lo realiza (véase Capítulo 1): hay respuestas para las que una rata está mucho menos capacitada o preparada para realizarlas que otra especie y, por lo tanto, su condicionamiento será peor.
- Cantidad de respuestas para el refuerzo: El condicionamiento también depende de la cantidad de
respuestas exigidas para la obtención del refuerzo: el sujeto quiere conseguir el máximo de recompensa con el mínimo costo de respuesta.
- Esfuerzo de respuestas para el refuerzo: Igual que con la cantidad de respuestas, el esfuerzo que exige cada respuesta para obtener el refuerzo también influye del mismo modo: a menor esfuerzo mejor
aprendizaje.
3. CONDICIONES PARA EL MANTENIMIENTO DE LA TASA DE RESPUESTA:
PROGRAMAS DE REFUERZO
Con el fenómeno de constraste ya hemos podido observar hasta qué punto las variaciones en magnitud o demora del refuerzo afectan al aprendizaje instrumental. Pues bien, cuando se manipulan sistemáticamente las condiciones de refuerzo en sus diversas posibilidades, en particular la contingencia
R-C a través de distintos programas o criterios, el efecto en el aprendizaje también es notorio.
3.1. Distribución temporal del refuerzo: Refuerzo continuo vs. refuerzo parcial o intermitente
Las pautas de presentación del refuerzo se refieren a su distribución temporal en una situación de
entrenamiento o de condicionamiento instrumental. Se pueden distinguir dos grandes tipos de pautas
de presentación del refuerzo:
- cuando el refuerzo es administrado siempre después de cada respuesta emitida por el sujeto (situación de refuerzo continuo); y
- cuando el refuerzo sólo aparece contingentemente a algunas respuestas pero no a todas (situación de
refuerzo intermitente o parcial).
Es lógico pensar que cuando el refuerzo es continuo, el aprendizaje o la ejecución será mejor que si
el refuerzo fuera parcial, porque la correlación entre acción y consecuencia (positiva, en este caso) es
menor en situación de refuerzo parcial que en una situación de refuerzo continuo. En términos de Tarpy, es más difícil que se forme una expectativa de acción-consecuencia en una situación de refuerzo
parcial pues para el sujeto es más difícil predecir con qué acción se obtendrá la consecuencia favorable. De todas formas, incluso en situación de refuerzo parcial, también se formarán expectativas de acción-consecuencia y también podrá haber correlación entre los eventos y, por tanto, también aprendizaje.
El interés del estudio de las pautas de presentación del refuerzo es de tipo práctico. Lo normal en la
vida cotidiana no es la situación de refuerzo continuo, sino la de refuerzo parcial. Por realizar una
misma tarea unas veces obtendré una consecuencia favorable y otras veces menos; muchas situaciones
cotidianas son azarosas e impredecibles, si nos interesa mucho obtener algo a través de determinada
acción persistiremos, incluso aunque inicialmente no obtengamos ningún resultado. No siempre que se
pone uno a pescar con una caña pica el pez y sin embargo persistimos en ello y somos muy aficionados a esa actividad. Las máquinas tragaperras siempre nos invitan a dar una respuesta (introducir la
moneda) pero la mayor parte de las veces que hacemos dicha acción la consecuencia deseada (el pre-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
213
mio) no aparece y no por ello se hace menos frecuente ese entretenimiento (incluso en algunos es patológicamente frecuente).
Se han estudiado distintas condiciones de refuerzo parcial. Las dos más importantes son la variación en la magnitud de recompensa y la variación en la correlación acción-consecuencia (refuerzo parcial con arreglo a programas de refuerzo):
- En cuanto a la variación en la magnitud de recompensa, se han llevado a cabo experimentos en los
que tras la respuesta (apretar la palanca) se iba variando la magnitud de recompensa recibida (bolitas
de comida) de forma totalmente aleatoria en algunos grupos y de variación periódica en otros, repitiéndose este ciclo a lo largo de la sesión. Un ejemplo de variación periódica sería la secuencia R-1,
R-5, R-3 (que se repite a lo largo de la sesión, siendo R la respuesta y el número que aparece tras cada respuesta sería el número de bolitas de comida que se dispensa como refuerzo).
El resultado fue que cuanto más discriminable era la pauta de refuerzo más rápido era el aprendizaje. Las series periódicas de refuerzo eran mejores que las aleatorias. Esto significa que las series periódicas ayudan a anticipar la magnitud de la recompensa y, por tanto, los sujetos responden de
acuerdo a ello.
- No obstante, lo más estudiado ha sido la variación en la correlación o probabilidad respuesta - refuerzo a través de los programas de refuerzo. Como dice Cruz (1989, p. 176), un programa de refuerzo no es más que "una regla que determina las condiciones en las que la emisión de una respuesta
irá seguida por la presentación de un reforzador o, dicho de otro modo, el programa de reforzamiento
especifica las ocasiones en que se reforzarán las respuestas de un organismo".
Además de los programas simples de refuerzo que hacen intervenir un solo criterio para la probabilidad R - C (respuesta - consecuencia), se han estudiado los efectos conductuales resultantes de la
combinación de más de un criterio y/o de más de un programa.
En general, los programas de refuerzo podrían clasificarse con arreglo a los diferentes criterios. El
criterio más general se refiere a programas que refuercen una sola respuesta o varias.
- Como programas para reforzar una sola respuesta instrumental tenemos tres tipos de programas:
simples, compuestos y señalizados:
* Los programas simples hacen intervenir un sólo criterio (de razón o intervalo, fijo o variable) cada vez.
* Los programas compuestos combinan programas simples. Estos, a su vez se subdividen en dos:
. Si se combinan en función del tipo de tasa de respuesta que muestra el sujeto a lo largo de la ejecución tenemos, entre otros, los programas conjuntivos, alternativos, RDB y RDA.
. Si se combinan en función de criterios externos o de programación previa tenemos los programas
tándem, mixtos y entrelazados.
* Los programas señalizados son los que ocurren en presencia de algún ED y, entre otros, tenemos
los programas múltiples y encadenados.
- Como programas para reforzar diferentes respuestas instrumentales tenemos los programas concurrentes.
El Cuadro 3 nos resume esta clasificación. Dentro de estos programas vamos a analizar aquí sólo
los que mayor aplicación puedan tener en contextos aplicados.
214
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Cuadro 3: Clasificación de los programas de refuerzo.
De razón
RF
RV
De intervalo
IF
IV
Prog. simples
PARA UNA
MISMA R
INSTRUMENTAL
Según tasa de R
Prog. conjuntivos
Prog. alternativos
Prog. RDB
Prog. RDA
Prog. compuestos
Según criterios externos
Prog. señalizados
PARA
DIFERENTES
R INSTRUM.
Prog. tándem
Prog. mixtos
Prog. entrelazados
Prog. múltiples
Prog. encadenados
Prog. concurrentes
3.2. Programas para una misma respuesta instrumental
3.2.1. Programas simples de refuerzo: tipos y efectos conductuales
a) Tipos
Así pues, lo más usual en la experimentación es la situación de refuerzo parcial sin variar la magnitud de recompensa, es decir, variando solamente la correlación respuesta-refuerzo, y con ello la distribución temporal del refuerzo para examinar cómo afectan a la conducta los distintos programas de refuerzo que podemos condicionar.
Dentro de los programas simples de refuerzo se pueden establecer cuatro grupos en función de la
interacción de dos criterios:
- Según el número de veces que se administra el refuerzo en función del número de respuestas (criterio
de razón), y
- Según el tiempo que transcurre de refuerzo a refuerzo, independientemente del número de respuestas
que dé el sujeto (criterio de intervalo).
Hay dos tipos de criterios de razón: fija o variable:
- Si es una razón fija (RF), se trata de que siempre aparezca el refuerzo tras la realización de un número constante o fijo de respuestas. Por ejemplo, si a un sujeto se le refuerza cada 10 respuestas, estamos ante un programa RF 10: El número de respuestas sin refuerzo es constante en todo el entrenamiento. Cuando estamos en la situación de refuerzo continuo se trataría de un programa RF 1.
- Si es de razón variable (RV), el número de respuestas entre refuerzo y refuerzo varía por lo general
aleatoriamente o siguiendo pautas complejas. Por ejemplo, RV 7 implica que la media de respuestas
sin refuerzo es 7, pero el número de respuestas para obtener refuerzo es variable; el programa RV 7,
6, 11, 3, 8 indica que la razón variable se repite según este ciclo de número de respuestas sin refuerzo.
En cuanto a los criterios de intervalo ocurre exactamente lo mismo:
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
215
- Cuando el tiempo entre refuerzo y refuerzo es constante entonces nos encontramos ante un programa
de intervalo fijo (IF). Por ejemplo, IF 6': cada seis minutos se refuerza siempre contingentemente a
la respuesta más próxima a este intervalo.
- Cuando el intervalo entre refuerzo y refuerzo varía de un modo aleatorio entonces estamos ante un
programa de intervalo variable (IV).
La Tabla 3 nos resume esta clasificación de tipos de programas simples de refuerzo (adaptada de
Cruz, 1989, p. 178).
Tabla 3: Tipos de programas simples de refuerzo.
RAZÓN
Nº de respuestas
emitidas
INTERVALO
Periodo de tiempo
transcurrido
Fija
RF
IF
Variable
RV
IV
Contingencia
de refuerzo
b) Resultados o efectos conductuales
Lo interesante es el efecto que produce en la respuesta la aplicación de cada uno de estos programas. En la Figura 9. tenemos la representación en registro acumulativo de la conducta típica al
aplicar estos programas simples. Como vemos en la Figura, cada programa produce un perfil conductual diferente.
RV
Respuestas
acumuladas
RF
IV
IF
Refuerzos
Tiempo
Figura 9: Representación gráfica de la adquisición con cada programa de refuerzo simple.
Con los programas de razón:
- Se consigue un nivel de ejecución (expresado en tasa de respuestas), generalmente superior al obtenido con los programas de intervalo, son más motivantes pues depende de cuánto responde (no de
cuándo).
- El programa que consigue la tasa más alta es el programa de razón variable siendo además muy estable.
- Otra característica importante de los programas de razón es que la propia conducta del sujeto controla la frecuencia de recompensa: El sujeto se da cuenta que dando más respuestas obtiene antes el refuerzo, por tanto incrementa la tasa de respuesta si está interesado en obtener más refuerzos en menos tiempo.
216
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Con los programas de intervalo:
- Se produce una tasa de respuestas inferior a la conseguida con los programas de razón.
- Los programas IF producen una ejecución "en festoneado": la tasa de respuestas aumenta hasta que
llega el momento en que se proporciona el refuerzo y, una vez logrado éste, la ejecución disminuye
para progresivamente volver a aumentar hasta la aparición del siguiente refuerzo. Algunos autores
dicen que este tipo de programa desarrolla en el sujeto un sentido del intervalo temporal entre las
recompensas, por tanto, siguiendo a Tarpy, esta ejecución se basa en una expectativa de estímulo,
siendo en este caso el estímulo el intervalo temporal, el cual actúa como estímulo discriminativo que
le indica al sujeto cuándo debe responder.
- Los programas IV producen una tasa estable de respuestas, pero relativamente baja, ya que el sujeto
no puede valerse del intervalo temporal para predecir la aparición de la recompensa, pues el refuerzo aparece siguiendo unos intervalos temporales de duración aleatoria.
Así pues, la mayor diferencia entre los programas de razón y los de intervalo radica en que en los
programas de razón el sujeto puede controlar la aparición del refuerzo, mientras que en los programas
de intervalo la frecuencia de la recompensa no depende tanto de la ejecución, sino de factores externos
a ésta.
Estos resultados son los obtenidos en experimentos de laboratorio. También se han intentado aplicar estos modelos a la vida cotidiana. Hay determinadas conductas cotidianas que podrían explicarse
por estas contingencias de refuerzo al tener una ejecución parecida. Ejemplos de cada programa simple
serían:
RF: Trabajo a destajo.
IF: El sueldo mensual.
RV: Conducta ante una máquina tragaperras o conducta de juego en general.
IV: Conducta de pescar o cazar.
No obstante, el problema en la vida cotidiana está en especificar claramente cuál es exactamente la
respuesta o qué componente de la misma se refuerza o incluso qué es lo que refuerza a cada sujeto.
Así, la conducta de pescar puede ser la de tirar la caña o el tiempo que está echada.
3.2.2. Programas de refuerzo compuestos
Son aquellos que refuerzan una respuesta de acuerdo con los requisitos de dos o más programas
operando al mismo tiempo -una descripción más detallada la tenemos en Ferster y Skinner (1957) y
Reynolds (1968). Se subdividen en dos tipos:
a) En función de la tasa de respuesta
PROGRAMAS DE REFUERZO CONJUNTIVOS
En estos programas deben cumplirse las condiciones de los programas implicados (dos, generalmente) para que el sujeto reciba el refuerzo. En la Figura 10 podemos observar la representación gráfica característica de los puntos o líneas de refuerzo con todos estos programas. En caso de líneas verticales hay un criterio temporal para obtener el refuerzo; en caso de líneas horizontales es un criterio de
número de respuestas.
Un ejemplo sería CONJ RF 10 IF 5'. Esto indica que para la primera vez que se da el refuerzo debe
cumplirse que, como mínimo, el sujeto haya dado 10 respuestas y como mínimo hayan transcurrido 5'.
Cuando el sujeto llegue a la línea de refuerzo marcada es cuando se le refuerza y este punto va a ser el
eje de coordenadas para la administración del siguiente refuerzo.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
217
PROGRAMAS DE REFUERZO ALTERNATIVOS
Basta con que se cumpla uno de los programas para que se administre el refuerzo. Ejemplo: ALT
RF 10 IF 5'. Se refuerza al sujeto cuando llegue a cualquiera de las dos líneas y este punto va a ser,
como en el caso anterior, el vértice de los ejes de coordenadas para la administración del subsiguiente
refuerzo.
PROGRAMAS DE REFUERZO DIFERENCIALES (RDB Y RDA)
Estos programas se dedican a reforzar según los tiempos entre respuestas (TER) y básicamente hay
dos tipos: RDA (programa diferencial de tasas altas) y RDB (programa diferencial de tasas bajas):
- Con TER cortos tenemos los programas diferenciales de tasas altas o programas RDA (tal y como se
denominan en modificación de conducta). El RDA es parecido al programa alternativo, pero en el
RDA sólo se refuerza un programa que, además, es de razón (línea horizontal del gráfico correspondiente de la Figura 10) mientras que el programa de refuerzo alternativo reforzaría también en la
línea vertical de dicha Figura. Esto obliga al sujeto a mantener una tasa de respuestas alta. Por ejemplo, un RDA 25 segs. 40 respuestas, implica que para obtener refuerzo el sujeto tiene que dar al menos 40 respuestas antes de que transcurra ese tiempo desde la última respuesta reforzada. Es pues un
programa que se utiliza cuando se pretende mantener una tasa alta de respuesta. En el ejemplo de un
niño que come con mucha lentitud, se le está aplicando RDA cuando se le permite tomar dulce (refuerzo) si se come todas las patatas del plato (criterio de razón) en no más de diez minutos (criterio
de intervalo). En este caso no sólo nos interesa que el sujeto haga algo, sino que la haga con cierta
rapidez o frecuencia.
- Otro programa diferencial es el programa diferencial de tasas bajas o programa RDB -también muy
utilizado en modificación de conducta-. Según este programa, se refuerza cuando pasa cierto tiempo
y no se sobrepasa un número predeterminado de respuestas (se refuerza en la línea horizontal siempre que la tasa de respuesta no pase por la horizontal). Así por ejemplo, un programa RDB 40 segs.
15 respuestas, implica que desde la última respuesta reforzada el sujeto debe dar menos de 15 respuestas en ese tiempo si quiere obtener refuerzo. Al final del entrenamiento RDB el sujeto, por decirlo de un modo coloquial, intuye que debe responder pocas veces para recibir refuerzo. Este programa
es utilizado para corregir los excesos conductuales (hiperactividad, disfemia, etc.).
b) En función de criterios externos
PROGRAMAS TÁNDEM
Se utilizan dos programas simples que se presentan siempre en el mismo orden. Deben satisfacerse
los requisitos del primer programa para iniciar el segundo y el refuerzo sólo se da tras el segundo. Por
ejemplo, Tándem IF 1' RF5, supone que el refuerzo se da tras la quinta respuesta si ha pasado un minuto. Es parecido al conjuntivo con la diferencia de que en éste hay un orden secuencial de los dos
programas y en aquel no.
PROGRAMAS MIXTOS
Hay dos o más programas alternándose según un orden aleatorio pero al acabar cada programa el
sujeto recibe refuerzo. Por ejemplo, Mixto IF1' RF5 consistiría en que se puede reforzar tras un minuto
o por cinco respuestas, dependiendo del programa que el experimentador tenga en vigor. Es igual que
el alternativo excepto en que es el experimentador el que determina el orden de programa en vigor.
218
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Conjuntivo
Entrelazado
creciente
Entrelazado
decreciente
Alternativo
RDB
RDA
Figura 10: Representación gráfica de la ejecución con alguno de los programas de refuerzo compuestos.
PROGRAMAS DE REFUERZO ENTRELAZADOS
En estos programas lo característico es que a lo largo del entrenamiento varía el número de respuestas necesario para obtener refuerzo. Se refuerza tras la realización de un número determinado de
respuestas, pero para el siguiente refuerzo se aumenta o disminuye el número de respuestas necesarias
para la obtención del refuerzo.
Cuando se aumenta el número de respuestas hablamos de un programa entrelazado creciente y, obviamente, cuando se disminuye estamos ante un programa entrelazado decreciente. Un ejemplo cotidiano de programa entrelazado creciente sería el que se da en las asignaturas de bachillerato y EGB
que son acumulativas, es decir, que los conocimientos adquiridos en cursos inferiores son imprescindibles para adquirir los de cursos siguientes (matemáticas, idiomas, etc.). Con estos programas se corre
el riesgo de llegar a una extinción si el sujeto no llegara a recibir nunca el refuerzo como consecuencia
del aumento progresivo del número de respuestas necesarias para recibir dicho refuerzo. En el programa entrelazado decreciente el número de respuestas necesarias para obtener refuerzo cada vez es menor con el paso del tiempo.
3.2.3. Programas de refuerzo señalizados
PROGRAMAS DE REFUERZO MÚLTIPLES
Son aquellos en los que se hacen intervenir dos o más programas de refuerzo simples, presentados
en forma sucesiva y, generalmente, cada uno de ellos en presencia de un estímulo discriminativo diferente. Podríamos poner como ejemplo un programa RF cuyo ED fuese una luz verde; pasado un tiempo
determinado se sigue un programa RV con una luz amarilla y, finalmente, un programa IF con una luz
roja como ED. Lo que se observa es que el sujeto adapta su ejecución a la tasa de cada uno de esos
programas. Más tarde, ante la sola aparición del ED, el sujeto es capaz de manifestar la ejecución correspondiente al programa con el que estaba vinculado. El único inconveniente de estos programas es
que en la transición de un programa a otro la ejecución no cambia inmediatamente y por tanto se presentan interacciones o interferencias entre ellos. Es similar al programa mixto pero con E D para cada
programa.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
219
PROGRAMAS DE REFUERZO ENCADENADOS
Son parecidos al programa tándem pero se intercala un ED entre ambos programas. Por ejemplo,
encadenado IF1' RF5 supone que tras un minuto aparece ED y en su presencia la quinta respuesta es
reforzada.
3.3. Programas para diferentes respuestas: Programas concurrentes y conducta de elección
3.3.1. Programas concurrentes
Se trata de reforzar dos o más respuestas diferentes, cada una siguiendo un programa de refuerzo
distinto, a su vez, con un estímulo discriminativo distinto y operando al mismo tiempo todos los programas como en casos anteriores. La ejecución en cada respuesta se adecua a cada uno de estos programas. En modificación de conducta puede ser útil la combinación concurrente de programas de refuerzo junto con programas de extinción; así, en el tratamiento de los alcohólicos, proporcionar refuerzo social al no beber y ausencia de refuerzo al beber.
3.3.2. Contingencias concurrentes: Conducta de elección
Dentro del condicionamiento instrumental de recompensa, se han realizado una serie de interesantes investigaciones sobre lo que se denomina "conducta de elección" (choice behavior) en situaciones
de programas concurrentes. Cuando a un sujeto se le da la posibilidad de dar más de una respuesta para obtener el refuerzo, se trata de averiguar los factores y la forma en que elige dar una u otra respuesta
o la forma en que la tasa de respuestas difiere en un caso o en otro.
En ámbito experimental, la conducta de elección entre dos programas se ha estudiado en laberintos
en forma de T con ratas o en cajas de Skinner con dos palancas. En estas situaciones, descritas por varios autores (entre otros, Rachlin, 1976), se llegó a establecer lo que se denomina la ley de la igualación -propuesta inicialmente por Herrnstein en 1961-. Según esta ley, los sujetos tienden a equiparar la
tasa a la que emiten una determinada respuesta con la tasa relativa de refuerzo contingente a dicha respuesta. Si un sujeto se encuentra ante dos respuestas, cada una de las cuales se somete a programas que
difieren en la frecuencia de refuerzo, no se limita a responder al programa más favorable sino que distribuye sus respuestas de tal forma que el número relativo de respuestas a uno de los programas igualará al número relativo de reforzadores obtenidos con ese programa. La razón entre las tasas de respuesta a cada programa igualará a la razón entre las tasas de refuerzo. Es una ley cuantitativa y predice
la tasa de respuestas en función de la tasa de refuerzo y viceversa; se expresa de la forma siguiente:
Ra
ra
=
Ra + Rb
ra + r b
donde, R = tasa de respuestas,
r = tasa de refuerzos recibidos,
a y b = programas o situaciones.
De este modo, si la tasa relativa de respuestas es igual con ambos programas de refuerzo la razón resultante de Ra /(Ra + Rb) será de 0.5. Si es más favorable el programa a, la razón será superior a 0.5 e
inferior en el caso contrario. El mismo cálculo se puede hacer para la tasa relativa de refuerzo. Por
tanto, conociendo tres de las cuatro variables, mediante la Ley de Igualación podremos averiguar la
cuarta variable.
El ejemplo del Cuadro 5 nos ilustra esta Ley.
220
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
Así pues, podemos predecir la tasa de respuestas esperada en distintas situaciones a partir de las
contingencias de refuerzo previstas para cada una de ellas; y viceversa: nos puede interesar predecir
las contingencias de refuerzo que se han de disponer para una ejecución determinada en distintas situaciones.
Una consecuencia aplicada de estas investigaciones es que se puede predecir que el sujeto dedica
más tiempo a las alternativas mas favorables, ya que cuanto mayor es el valor reforzante de una respuesta por comparación con otras respuestas alternativas, mayor será el tiempo invertido en la ejecución de dicha respuesta. Por lo tanto, la ley de la igualación proporciona una información decisiva sobre el valor de la recompensa: permite estimar la potencia de un reforzador en relación con otros reforzadores.
Cuadro 5: Ejemplo de aplicación de la Ley de Igualación.
Veamos un caso en que conocemos ra, rb y Ra, y queremos averiguar Rb. Supongamos, siguiendo el ejemplo de Herrnstein, un programa a de IV 6' y un programa b IV 2'. Si conocemos la tasa de respuesta con uno de esos programas (por
ejemplo, Ra= 40), podremos hallar la que se puede obtener con el otro. Esto requiere aplicar la Ley de la igualación y para
ello, seguiremos los siguientes pasos:
1) Primero hay que transformar los programas de refuerzo en tasa de refuerzos recibidos en una unidad de tiempo común.
En este ejemplo:
- Con un programa a del tipo IV 6' se recibe un refuerzo cada 6 minutos, o sea, 10 refuerzos por hora; es decir, se recibe
una tasa máxima de refuerzo (ra) de 10 por hora.
- En un programa b del tipo IV 2' se recibe un refuerzo cada dos minutos, o sea, una tasa de refuerzo (rb) de 30 por hora.
ra
10
2) Sustituir los datos de tasa de refuerzo recibidos en la ecuación:
=
= 0.25
ra + rb
10 + 30
Vemos que la razón resultante es inferior a 0.5 y por tanto favorable al programa b pues éste tiene una tasa de refuerzo
mayor.
3) Sustituir la tasa de respuesta conocida en la ecuación y despejar la incógnita correspondiente a la tasa de respuesta
desconocida: Dado que Ra= 40, entonces,
Ra
Ra + Rb
40
=
40 + Rb
Como ra /(ra + rb )= 0.25, pasando este
dato a la fórmula principal, tenemos:
40 = 0.25 (40 + Rb); 40 = 10 + 0.25 Rb; Rb = (40-10)/0.25 = 120.
Vemos pues que la tasa de respuestas en el programa b es más alta que en el programa a, lo cual es lógico pues b está
sometido a una tasa de refuerzo más favorable.
También se ha demostrado que no sólo se ajusta la ejecución a la frecuencia de refuerzo, sino a la
cualidad o tipo de recompensa y a la cantidad, demora y duración del refuerzo. Además, la ley de
igualación no es exclusiva de elecciones entre dos alternativas sino que se da también en situaciones
con más de dos alternativas, con estimulación aversiva e incluso cuando hay un sólo programa simple
en vigor pero otras actividades a la vez. Esto tiene interés aplicado en modificación de conducta pues,
por ejemplo ante conductas problemáticas no sólo hay que tener en cuenta la frecuencia de su reforzamiento sino la frecuencia de reforzamiento de otras actividades (si es mayor la primera que las segundas el sujeto seguirá con mayor probabilidad esas conductas problema). Para averiguarlo, basta
con comparar las tasas de respuesta (Ra) y refuerzo (ra) con la conducta objetivo y las de otras actividades (Ro y ro):
Ra
ra
=
Ra + R0
ra + r 0
La ley de igualación se cumple sobre todo con programas de intervalo, en los cuales el sujeto suele
escoger el programa con intervalo de refuerzo más corto. Cuando se trata de programas de razón, el
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
221
sujeto escoge el que implique menos respuestas por refuerzo, es decir, maximizan la ejecución (si se
quiere una terminología más coloquial, siguen la ley del mínimo esfuerzo).
3.4. Condiciones especificas de refuerzo parcial en humanos
Según la revisión efectuada por Huertas (1992) -véase también Benjumea, 1994, para revisión-, hay
algunas condiciones para la adquisición del condicionamiento de recompensa que sólo se dan en
humanos y que difieren de las condiciones y resultados en animales. Estas diferencias se producen en
virtud de nuestras posibilidades o capacidades relacionadas con:
- formular reglas verbales que gobiernen nuestra conducta,
- aprovecharnos de las instrucciones verbales que recibimos,
- aprovechar la experiencia previa de reforzamiento, y
- darle valor informativo (y no sólo hedónico) a los reforzadores.
3.4.1. Reglas verbales
La conducta resultante de la aplicación de programas de refuerzo puede depender de las expectativas o reglas verbales implícitas que establece el sujeto. Se ha demostrado en este sentido una alta correlación entre cómo creen los sujetos que son las contingencias de refuerzo (en entrevistas postexperimento) y el patrón de respuestas que muestran. Así, por ejemplo, si se les aplica un programa IF
pero los sujetos creen que la aparición del refuerzo depende del número de respuestas (programa RF),
mostrarán una tasa alta de respuestas como si fuera un programa de razón; y por el contrario, los que
crean que depende del tiempo transcurrido mostrarán una tasa tipo IF. Como recordamos, en animales
la ejecución resultante de un programa IF era en festoneado (cosa que no ocurre en humanos, excepto
en niños menores de cinco años). La influencia del lenguaje es pues decisiva puesto que puede alterar
las expectativas y representaciones asociativas que la mera experiencia directa podría generar en los
sujetos.
3.4.2. Efecto de las instrucciones verbales
Las instrucciones verbales inducen expectativas y pueden modificar completamente la ejecución.
En el experimento citado anteriormente y en otros, fueron las instrucciones verbales las que modificaron los resultados:
- Aplicando un programa IF a los sujetos que se les dijo que la aparición del refuerzo dependía del número de respuestas obtenían una ejecución tipo RF.
- Aplicando un programa IV cuando se les dio instrucciones falsas de que iban a seguir un programa
IF mostraron inicialmente una tasa baja (aunque luego fue aumentando).
3.4.3. Experiencia previa de reforzamiento
En humanos, ésta es una condición considerada decisiva y fuente de la gran variabilidad obtenida
en los experimentos. Así,
- se ha observado que sujetos sometidos previamente a programas RF, con programas IF mostraban tasas altas de respuesta;
- sin embargo, sujetos sometidos previamente a programas RDB, con IF exhibían tasas bajas de respuesta.
222
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
En definitiva, la experiencia previa crea unas expectativas sobre cuáles son las reglas del experimento, dándose cierta resistencia al cambio.
3.4.4. Valor informativo del refuerzo
En humanos el refuerzo no sólo tiene un valor motivacional hedónico sino también informativo, en
términos de retroalimentación o de solución positiva de un problema. En animales, los reforzadores
suelen ser primarios mientras que en humanos tienen más valor informativo que hedónico, aportan información sobre lo apropiado o inapropiado de la conducta.
Algunos programas de refuerzo como el IV son poco informativos (variaciones importantes en la
ejecución apenas producen cambios en el número de refuerzos) y es por esto por lo que hay grandes
variaciones en la ejecución. Sin embargo, en programas como el RDB hay menos diferencias individuales.
Cuando el refuerzo actúa más en su sentido informativo o de retroalimentación (feedback) de la
conducta que en su sentido de recompensa, funcionará más claramente fortaleciendo la motivación
intrínseca del sujeto. El refuerzo no será tanto un premio como una indicación de la competencia y
buen hacer del sujeto. Hay que notar que el mismo tipo de consecuencia puede cumplir una función
esencialmente de control sobre la conducta (según el significado tradicional del refuerzo) o más bien
una función informativa, lo cual va a depender en buena medida de la manera de administrar ese refuerzo y el acompañamiento verbal con que se hace.
4. CONDICIONES PARA LA EXTINCIÓN
4.1. Operaciones, consecuencias y parámetros
4.1.1. Operación experimental y procedimientos de extinción
La extinción consiste en la reducción o eliminación de la respuesta al retirar el reforzador que aparecía tras la misma durante la adquisición. Se pasa pues de la operación experimental E-R-E a la de ER (ver Tema 1). Si en el condicionamiento clásico se eliminaba la contingencia o correlación entre
estímulo y consecuencia, aquí se hace entre respuesta y consecuencia. También aquí se aprecia el
fenómeno de la recuperación espontánea (y por tanto la inhibición condicionada).
Se han descrito varios procedimientos que inducen la extinción en el condicionamiento de recompensa:
1) Supresión de la recompensa en los ensayos de extinción (es el procedimiento más usual y típico);
2) Presentación aleatoria (habiéndose dado o no la respuesta) de la recompensa (produce peor extinción o incluso ninguna extinción);
3) Entrenamiento de omisión o presentar la recompensa en momentos en que el sujeto no responde (se
da recompensa por no responder). Produce peor extinción que el método 1;
4) Contracondicionamiento de respuesta, en el que se da la recompensa sólo tras respuestas incompatibles con la que se quiere extinguir; produce buena extinción comparable con la del método 1.
4.1.2. Consecuencias o efectos generales
Citaremos en primer lugar los efectos conductuales u operacionales concretos, y en segundo lugar,
los efectos generales sobre el proceso de aprendizaje instrumental.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
223
Durante los ensayos de extinción se aprecian generalmente en la conducta los siguientes efectos:
1º) Al comienzo de los ensayos de extinción se suele registrar un paradójico incremento breve de la
tasa de respuesta, tal vez, como dice Bandura (1969; trad. 1983, p. 369), "en un intento por producir los reforzamientos a los que estaba acostumbrado". Así por ejemplo, un niño está acostumbrado a recibir lo que quiere tras una rabieta. Si la madre decide no darle lo que pide (si insiste en
no reforzarlo), con toda seguridad la rabieta aumentará hasta hacerse insoportable.
2º) También al comienzo puede ocurrir un cambio en la topografía de respuesta, por tanto un incremento de otras respuestas alternativas. De aquí se deduce que al comenzar la extinción la forma de
la conducta se hace más variable. Si con la rabieta no obtiene lo que busca, intentará otras respuestas (dar patadas, salir corriendo, etc.).
3º) Tras estos momentos iniciales se produce una reducción gradual en la frecuencia de respuesta
hasta tasas muy bajas. En el ejemplo mencionado, todo es cuestión de que resista la persona encargada de no proporcionar el refuerzo (veremos que hay procedimientos alternativos menos duros para esas personas, por ejemplo, refuerzo de conductas alternativas, etc.).
Otro ejemplo: Si al girar el pomo de una puerta (R) ésta se solía abrir en el pasado (E ref) pero no
ahora (y sin causa justificada), intentaremos varias veces girar el pomo de la puerta (incremento en la
tasa de respuesta), empujaremos, tiraremos del pomo, incluso podríamos tener reacciones más violentas con la puerta (cambio en la topografía de respuesta) hasta que al final desistimos (extinción de respuesta).
En cuanto a los efectos sobre el proceso de aprendizaje, según Tarpy (1981; trad. 1986, p. 228), la
disminución de la aparición de la respuesta ocurre por dos motivos:
- por la reducción de la correlación R-C (respuesta-consecuencia) y
- por la adquisición de una nueva expectativa basada en la nueva correlación R - no C (respuesta-no
consecuencia).
4.1.3. Parámetros
Tres de los parámetros más usados en experimentación, descritos gráficamente en la Figura 11, son
los siguientes:
(2) Número
de
respuestas
Extinción
Adquisición
(1)
(3)
TIEMPO
Figura 11: Representación gráfica de un ejemplo de aplicación de los tres parámetros de medida de la extinción en el condicionamiento de
recompensa.
224
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
1) Tasa a la que llega a bajar la respuesta tras un tiempo determinado (prefijado por el experimentador) después de iniciar los ensayos de extinción.
2) El número total de respuestas emitidas desde que se inicia la extinción hasta que cesa la acción de
responder.
3) Tiempo desde el inicio de los ensayos de extinción hasta que, o bien cesa la respuesta o bien llega
a una tasa muy baja por debajo de la cual ni descenderá ni aumentará durante un período relativamente largo.
4.2. Condiciones generales durante la adquisición que afectan a la extinción
en el condicionamiento de recompensa
Se citan diversos factores o variables que favorecen la extinción (García Sevilla, 1987). Aquí citaremos sólo las condiciones generales que aplicadas durante la adquisición del condicionamiento de recompensa afectan posteriormente a la extinción y las resumiremos en dos grupos: factores motivacionales y factores de entrenamiento.
4.2.1. Factores motivacionales
1) Magnitud del reforzador. Nos referimos tanto al número de reforzadores como a la cantidad de cada reforzamiento. En cualquier caso, a mayor magnitud más rápida es la extinción posterior, siempre y cuando no se varíe la magnitud de la recompensa a lo largo de los ensayos de adquisición (si
ocurriera esto último, entonces la extinción se hace mucho más lenta).
2) Demora de la recompensa: En términos generales, la demora entre la respuesta y el reforzador durante la adquisición dificulta la extinción (aumenta la resistencia a la extinción). Ahora bien, según
resume Tarpy (1981; trad. 1986, p. 256), una demora constante en los ensayos de adquisición apenas afecta a la extinción (provoca una extinción similar a la que se da sin demora en la recompensa), pero si la demora ocurre sólo en algunos ensayos, la extinción es más lenta.
3) Nivel de privación: A mayor nivel de privación (por ejemplo, más hambre o más sed) mayor resistencia a la extinción (Cruz, 1989).
4.2.2. Factores de entrenamiento
4) Duración y número de ensayos de adquisición: Si el reforzamiento es continuo, al aumentar la duración y número de ensayos de adquisición, aumentará también la velocidad de extinción, y sólo se
produce una mayor resistencia a la extinción al aumentar el número de ensayos si se proporcionan
pequeñas dosis de recompensa durante la adquisición (que mantenga niveles altos de impulso).
5) Esfuerzo de respuesta: Se trata del esfuerzo físico que requiere la respuesta que se ha de extinguir.
La extinción es más rápida cuando se exige un mayor esfuerzo para emitir la respuesta en los ensayos de extinción. En ámbitos experimentales esta variable se manipula inclinando el corredor recto
o aumentando el contrapeso de la palanca en la Caja de Skinner (Cruz, 1989).
6) Experiencia previa de entrenamiento en extinción: Cuantas más veces haya tenido el organismo
experiencia en extinción, dichas experiencias pasadas harán que la extinción sea más rápida.
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
225
4.3. La extinción tras adquisición con refuerzo parcial
Cuando sólo se refuerzan algunas respuestas durante la adquisición, la extinción sigue las pautas
marcadas por el efecto del refuerzo parcial de Humphreys, o sea, una determinada conducta es más resistente a la extinción si se aprende mediante refuerzo parcial. Bajo condiciones de refuerzo parcial
durante la adquisición, los factores citados afectan de modo diferente a la extinción y aparecen otros
factores importantes. Veámoslos:
4.3.1. Condiciones específicas
Al igual que en el condicionamiento clásico, el refuerzo parcial durante la adquisición hará aumentar la resistencia a la extinción. Pero hay condiciones específicas de esta situación que afectan a los resultados en la extinción:
1) Magnitud de recompensa: Al utilizar refuerzo continuo la extinción era más rápida al aumentar la
magnitud de la recompensa. Sin embargo, ocurre lo contrario con refuerzo parcial: aumenta la resistencia a la extinción si se aumenta la magnitud de recompensa. También, cuanto mayor es el
número de reforzamientos mayor resistencia a la extinción.
2) Número de ensayos de adquisición: La resistencia a la extinción que sigue al refuerzo parcial aumenta según aumenta el número de ensayos de adquisición.
3) Porcentaje de ensayos de recompensa (durante la adquisición): Es uno de los parámetros que más
afecta, y mantiene con la resistencia a la extinción una función en forma de U invertida, de tal modo que la extinción es más rápida cuando el porcentaje de ensayos reforzados durante la adquisición es muy alto o muy bajo. Véase este efecto en la Figura 12.
+
Resistencia a
la extinción
-
% Recompensa
+
Figura 12: Relación entre nivel resistencia a la extinción y nivel de recompensa durante la adquisición.
4) Orden de aplicación de refuerzo continuo y parcial: Aumenta la resistencia a la extinción cuando el
refuerzo parcial sigue al refuerzo continuo durante la adquisición.
5) Pautas o programas de refuerzo: El refuerzo alternativo (sucesión de ensayos reforzados y no reforzados) es menos resistente a la extinción (produce extinción más rápida) que el refuerzo aleatorio (Capaldi, 1958; Rudy, 1971; cit. por Tarpy, 1981), pero si el entrenamiento es muy reducido se
invierte este principio (Capaldi y Hart, 1962; cit. por Tarpy, 1981).
226
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
El tipo de extinción resultante tras adquisición con programas de refuerzo simple varía con los
programas utilizados. En la Figura 13 podemos observar el registro acumulativo resultante durante
la extinción de los cuatro programas simples.
Programas IF: Producen una tasa de respuesta inicial alta, reducción rápida de la ejecución, reanudación festoneada de la misma cada vez más breve y pausas cada vez más largas.
Programas RF: Pausas repentinas cada vez más largas, tasa elevada de respuesta igual que en la
adquisición pero con la diferencia de que aquí cada vez duran menos los períodos de respuesta.
Programas RV: Al principio tasa alta de respuesta, luego períodos repentinos cada vez mayores de
descanso. Muy resistente a la extinción.
Programa IV: Reducción constante en la tasa de respuesta sin que se registren pausas repentinas.
Máximo tiempo hasta lograr la extinción.
Adquisición
Extinción
RV
RF
Respuestas
acumuladas
IV
IF
Tiempo
Figura 13: Representación gráfica de la extinción según adquisición mediante programas simples de refuerzo.
4.3.2. Teorías del efecto de refuerzo parcial
Vamos a considerar las tres principales teorías al respecto. Fueron propuestas en distinas épocas y
con distinta fuerza predictiva y operativa, pero siguen teniendo cierta vigencia desde la perspectiva integradora del enfoque de Tarpy (1981).
a) Hipótesis de la discriminación y la expectativa
Según Humphreys (1939), el refuerzo hace aumentar la fuerza de la respuesta instrumental y produce anticipación o expectativas aprendidas de reforzamiento, lo cual favorece la adquisición. Durante
la adquisición, el sujeto tiene expectativas de recibir la recompensa; durante la extinción se crea una
contraexpectativa o expectativa de no recompensa, la cual tarda más tiempo en formarse cuando se utiliza refuerzo parcial durante la adquisición. Esto hace que la extinción sea más lenta. Sin embargo, esta hipótesis se abandonó durante mucho tiempo por la dificultad en el tratamiento experimental.
El mismo Humphreys propuso otra hipótesis según la cual la discriminación de las condiciones de
extinción es mejor tras la adquisición con el 100 % de ensayos recompensados. Con refuerzo parcial
en la adquisición, los ensayos sin refuerzo son semejantes a los de extinción, por lo cual el sujeto tiene
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
227
dificultad para distinguir ensayos de adquisición y extinción. Sin embargo, no se pudo confirmar esta
hipótesis pues cuando se hizo un experimento intercalando una fase de ensayos con refuerzo continuo
entre la fase de adquisición con refuerzo parcial y la fase de extinción no mejoró esta última.
b) Hipótesis de la frustración
En realidad, la teoría general de la extinción basada en la interferencia por frustración propuesta
inicialmente por Amsel se elaboró para explicar el efecto de refuerzo parcial.
Con refuerzo continuo en los ensayos de adquisición el sujeto no tiene experiencia de frustración.
Sí con refuerzo parcial, pues los ensayos no reforzados generan en el sujeto un estado motivacional o
impulso de frustración de índole aversiva, con lo cual al llegar a la fase de extinción la frustración
forma parte del contexto estimular previo y por tanto la respuesta se prolonga y se hace más resistente
a la extinción. Las claves ambientales de frustración forman parte del complejo estimular de la adquisición y por tanto durante la extinción el sujeto tolerará mejor la frustración y la extinción será más
lenta.
c) Hipótesis secuencial de Capaldi
Capaldi (1966, 1967), reelaborando la teoría de los post-efectos de Sheffield (1949) -según la cual
los ensayos reforzados o no reforzados producen post-efectos (o sea, estímulos internos distintivos
memorizados) que persisten hasta el ensayo siguiente-, viene a decir que en la adquisición con refuerzo parcial también se generan post-efectos de no recompensa. En muchos ensayos en que la respuesta
es recompensada, entre los estímulos que la preceden se encuentra el de los post-efectos (el recuerdo)
de ensayos previos no recompensados y cuanto más larga es la secuencia de ensayos no reforzados,
previos a cualquier ensayo reforzado, mejor se puede establecer el post-efecto mnemónico de la no recompensa, con lo cual este complejo estimular no diferirá mucho del presente en la extinción y así ésta
será mucho más lenta.
Según Capaldi, los factores principales (durante la adquisición con refuerzo parcial) que permitirán
una extinción más lenta son tres (llamando R a los ensayos reforzados y N a los no reforzados):
- La longitud N o número de ensayos no recompensados que preceden a cada ensayo R (en este caso a
mayor longitud N corresponden una extinción más lenta); o sea, cuanto más largas sean las secuencias N menor porcentaje de ensayos reforzados y mayor resistencia a la extinción.
- Número de veces que ocurre una longitud N, es decir, número de transiciones N-R (a mayor diferencia entre las diversas secuencia N extinción más lenta).
- Número de longitudes N diferentes (a mayor diferencia entre las diversas secuencias N extinción más
lenta).
d) Integración teórica de Tarpy
En realidad, todas estas aproximaciones teóricas no son incompatibles pues, según Tarpy (1981),
en el contexto estimular de la adquisición con refuerzo parcial se incluyen tanto los post-efectos
mnemónicos de no recompensa como los motivacionales-emocionales de frustración, todo lo cual hace
que la formación de contraexpectativas (expectativas de no recompensa) durante la extinción sea mucho más lenta pues las claves más sobresalientes de esta fase (post-efectos de no recompensa y de frustración) ya estaban presentes en la fase de adquisición en la que aparecía recompensa y así es más difícil para el sujeto discriminar entre ambas fases, con lo cual la extinción se enlentece.
228
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
5. PRINCIPALES APLICACIONES
5.1. Condicionamiento instrumental y clínica
5.1.1. Procedimientos de modificación de conducta
Milby (1982) propone una clasificación de las técnicas operantes de modificación de conducta en la
cual se incluyen métodos para iniciar nuevas conductas, para incrementar o mantenerlas, reducirlas o
eliminarlas, restringirlas a ciertas situaciones y estrategias combinadas. Añadimos un último apartado
respecto al procedimiento general de manejo de contingencias.
a) Métodos para iniciar nuevas conductas: Moldeamiento y modelado
Para iniciar nuevas conductas las técnicas más usadas son el moldeamiento (shaping) o método de
aproximaciones sucesivas y el modelado (modeling):
- El moldeamiento (véase aptdo. 1.4.2.a) supone reforzar conductas que se asemejen a la conducta objetivo y no reforzar las que menos se asemejen; conforme avanza el entrenamiento progresivamente
se irán reforzando las conductas más similares a la objetivo y se irán extinguiendo por no reforzamiento el resto.
- El modelado es aprendizaje observacional o vicario: se observa el condicionamiento efectuado en
modelos o a través de demostraciones. Es un método similar al citado en el próximo Capítulo 7, referente a control de estímulos con instigadores de demostración.
b) Métodos para incrementar o mantener conductas
Los métodos más conocidos para incrementar o mantener conductas implican el uso del refuerzo
positivo (recompensas) y del refuerzo condicionado (por ejemplo, economía de fichas, contratos de
contingencias, etc.). Se procura en estos casos iniciar el entrenamiento con refuerzo casi continuo y
progresivamente hacerlo parcial con los programas de refuerzo recomendados en este capítulo. Otra
técnica para el mismo objetivo es el refuerzo negativo mediante procedimientos de escape o evitación
(ver Tema 5). También los procedimientos de control de estímulo (ver Tema 5) y de control ambiental (permitir la conducta sólo en presencia de determinados estímulos o en determinado ambiente) entran dentro de este grupo.
c) Métodos para reducir o eliminar conductas
Para reducir o eliminar conductas se emplean técnicas de:
- Saciación (exposición masiva a los estímulos reforzantes),
- Práctica negativa (repetición masiva de la respuesta problema), como por ejemplo realizar deliberadamente un tic nervioso durante 30 minutos seguidos todos los días.
- Procedimientos de castigo por aplicación de estimulación punitiva (serán expuestos en el Capítulo
8).
- Procedimientos de extinción, que algunos autores (por ejemplo, Drabman, 1977) los consideran
también de castigo por supresión de reforzadores. Como técnicas aplicadas de extinción tendríamos:
- Métodos de uso exclusivo de extinción:
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
229
- Extinción simple, en la que sólo se retira el reforzador. Las principales desventajas de este método radica en que posee unos efectos retrasados (es un procedimiento lento) y produce un incremento inicial temporal en la tasa e intensidad de la respuesta que se desea extinguir (con la consiguiente frustración por parte del que aplica el procedimiento, si no está advertido de ello).
- Costo de respuesta: Supresión contingente de reforzadores previamente adquiridos respecto a
una respuesta. Si se está siguiendo un sistema de fichas, se trata de perder fichas contingentemente a la conducta inapropiada.
- Tiempo-fuera (time-out): Supresión contingente de la oportunidad de lograr refuerzo positivo
mediante aislamiento social contingente. Por ejemplo, tras la conducta no deseada se lleva al sujeto a otro lugar aislado durante un período de tiempo mínimo (10 minutos). Combina supresión
de refuerzo con cambio estimular, retirando pues reforzadores y estímulos discriminativos.
- Combinados con refuerzo diferencial, tales como las técnicas:
- Refuerzo diferencial de omisión, o también llamado entrenamiento de omisión, consistente en
proporcionar el refuerzo en cualquier otro momento que no sea contingente a la respuesta, y preferentemente cuando el sujeto no esté emitiendo ninguna respuesta.
- Refuerzo diferencial de otras conductas (RDO): Tiene una variante que es el refuerzo diferencial de conductas incompatibles (RDI) y consiste en reforzar selectivamente aquellas que no se
pueden realizar cuando se ejecuta la que se trata de omitir.
- RDB (refuerzo diferencial de tasas bajas -descrito en este capítulo-).
En conjunto, las técnicas de extinción y sobre todo de refuerzo diferencial, tienen ventajas sobre las
que aplican estimulación aversiva directa pues producen un efecto duradero de reducción conductual. Para su uso, tal y como indican Sulzer-Azaroff y Mayer (1977), hay tres requisitos importantes:
- deben identificarse todas y cada una de las fuentes de reforzamiento,
- deben mantenerse las condiciones de extinción durante un tiempo suficiente, y
- deben combinarse con el refuerzo de las conductas deseables.
d) Métodos para restringir conductas a ciertas situaciones y técnicas combinadas
Las más útiles son las técnicas de control de estímulo (véase el Tema 5). Cualesquiera de las
técnicas anteriores pueden combinarse entre sí para casos concretos.
e) El manejo de contingencias
El procedimiento general aplicado para incrementar, mantener, reducir o eliminar conductas, en
modificación de conducta se denomina manejo de contingencias. El terapeuta de conducta suele seguir
tres fases (Rimm y Masters, 1979; Klein, 1991; trad. esp. 1994, p. 189):
I) Evaluación.- Medir la frecuencia de las conductas inapropiadas y apropiadas, especificar las condiciones en las que se producen e identificar los reforzadores que mantienen la conducta problema y
los que pueden servir para las conductas adecuadas.
II) Contrato de contingencias.- Se establecen las nuevas relaciones entre respuestas y reforzadores y el
método para la administración de los mismos.
III) Intervención y evaluación de resultados.- Se aplica el tratamiento y se evalúan los cambios producidos.
230
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
5.1.2. Condicionamiento instrumental de respuestas autonómicas: Biofeedback
a) Los primeros experimentos de Miller y colaboradores
En los años 60, dentro de las teorías conductistas de aprendizaje, se planteó la polémica de si el CC
era un proceso o tipo de aprendizaje totalmente distinto al condicionamiento instrumental o si eran meramente dos manifestaciones de un mismo proceso de aprendizaje. Efectivamente, eran reconocidas
varias diferencias de procedimiento entre los dos tipos de condicionamiento, pero a nivel teórico la
polémica era mayor. Uno de los argumentos era que no había en realidad tantas diferencias y que si
subyace un solo proceso de aprendizaje se podría efectuar un condicionamiento instrumental de las
respuestas típicas del CC, o sea, las fisiológicas, neurovegetativas o autonómicas, que son respuestas
involuntarias. Como contrapartida también sería posible un CC de respuestas instrumentales. Algunos
autores intentaron en el ámbito experimental desarrollar la primera hipótesis: el condicionamiento instrumental de respuestas autonómicas.
Neal Miller y colaboradores y Kimmel fueron, entre otros, los que iniciaron este tipo de investigación. Estos autores hicieron sus estudios experimentales con animales y la investigación pionera es la
de Miller y Dicara, realizada en 1967 y en la que se logró condicionar la tasa cardiaca de ratas mediante técnicas de recompensa y discriminación. El Cuadro 6 describe detalladamente este experimento.
Cuadro 6: Experimento de Miller y Dicara (1967) de condicionamiento instrumental de tasa cardíaca en ratas.
Fases
I) La primera fase fue la preparación quirúrgica de las ratas, mediante la implantación de electrodos conectados a un electrocardiograma. Se implantaron electrodos también en el cerebro en la zona de recompensa encefálica (efecto placentero). Paralizaron la musculatura voluntaria o esquelética del animal (ya que la tasa cardíaca podría verse alterada por sus
movimientos), para lo cual emplearon curare (droga con lo que el animal se mantenía consciente y con los órganos sensoriales funcionales pero que paraliza su musculatura esquelética).
II) A continuación, se iniciaba el condicionamiento instrumental del ritmo cardíaco y para ello hacían aparecer un estímulo
discriminativo compuesto de luz y sonido. Observaban el ritmo cardíaco y esperaban a que se produjera un cambio espontáneo en el ritmo cardíaco según un criterio determinado y contingentemente se administraba la recompensa. Durante todo este tiempo estuvo activo el estímulo discriminativo, el cual se suprimía durante 20 segundos, una vez asignada
la recompensa al animal; pasado este tiempo se volvía a activar y se iniciaba otra vez el proceso y así sucesivamente
repetidas veces.
A medida que avanzaba el entrenamiento se iban incrementando el número de latidos necesarios para obtener refuerzo. La sesión duraba 90 minutos y se utilizaron dos grupos de sujetos: A un grupo se le recompensaba por acelerar
el ritmo cardíaco y a otro por disminuirlo.
Al final, al exponer a los animales solamente al estímulo discriminativo (sin recompensa) se producía la respuesta
vegetativa.
Resultados
La ejecución resultante fue la que se expresa en la Figura 14.
RITMO CARDIACO
Promedio en látidos / min.
500
450
Recompensa por
aceleración
400
350
Recompensa por
aceleración
300
0
60
90
30
MINUTOS DE ADIESTRAMIENTO
Figura 14: Resultados del experimento de Miller y Dicara (1967).
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
231
Esto fue un descubrimiento muy importante y generó al principio una gran cantidad de investigación experimental básica que rápidamente pasaría a la investigación aplicada clínica. En un principio a
este fenómeno se le denominó condicionamiento instrumental de respuestas autonómicas, pero posteriormente pasó a llamarse biofeedback, cuya traducción literal sería bio-retro-alimentación. La investigación en este área ha sido sumamente extensa y ha llevado a configurar toda un área de aplicación: la
medicina conductual o comportamental; en este área, estas técnicas han llegado a ser las más frecuentemente utilizadas, ya que son técnicas que permiten modificar (voluntariamente) respuestas fisiológicas, cosa no factible mediante CC. Tampoco ha de entenderse como una panacea aplicable a todo tipo
de problemas clínicos psicosomáticos.
Pese al entusiasmo inicial, en el ámbito experimental no dejaron de aparecer problemas. Así, estos
experimentos de Miller eran difíciles de replicar, lo cual hizo dudar un poco respecto a su validez. No
obstante, la necesidad práctica fue tal que, a pesar de estos impedimentos, se pasó directamente a su
aplicación.
b) Las técnicas aplicadas de biofeedback
El biofeedback se puede definir como la utilización de técnicas de condicionamiento instrumental
para la producción de cambios en respuestas fisiológicas internas, del tipo del ritmo cardíaco, actividad electrodérmica, presión sanguínea, actividad eléctrica cerebral (ondas "alfa"), temperatura corporal
o basal, pH estomacal, actividad electromiográfica, etc. El nombre de biofeedback se debe a que esta
técnica o conjunto de técnicas recompensan al sujeto o le proporcionan artificialmente feedback (o conocimiento de resultados) acerca de la realización de alguna respuesta biológica (generalmente de tipo
autonómico) que de un modo natural no podría obtener.
Hay dos enfoques teóricos en cuanto a la explicación de por qué se modifica la conducta vegetativa
mediante biofeedback:
- El feedback como recompensa: Lo que permite la modificación de las respuestas autonómicas es la
influencia directa de la recompensa.
- El feedback como información: Lo que permite la modificación de dichas respuestas es meramente el
valor informativo de la retroalimentación. Lo que se le permite al sujeto en estas situaciones es tener
un feedback sobre sus respuestas autonómicas que antes no poseía: una serie de aparatos permiten
una retroalimentación artificial de esas respuestas.
Para que estas técnicas sean efectivas lo ideal es que se den las dos circunstancias: que haya un feedback visual o auditivo proporcionado por el mismo aparato y, por otro lado, que exista algún tipo de
recompensa. Las recompensas más utilizadas dentro de estas técnicas, según Tarpy, son: la alabanza o
elogio verbal, dinero (sobre todo en experimentos financiados), refuerzo negativo o evitación de descargas o sonidos molestos, etc.
El problema de estas técnicas, todavía no resuelto, atañe a la generalización o transferencia de estos
cambios o nuevo control del sujeto sobre este tipo de respuestas, del laboratorio o gabinete clínico a la
vida real, en la que no van a estar presentes los aparatos utilizados.
La técnica básica del biofeedback aplicado tiene según Carrobles y Godoy (1987), cinco fases una
vez conectado el aparato para detectar las variaciones fisiológicas:
1) Detección y transformación de la señal (desde los electrodos a la unidad central de registro y medida)
2) Amplificación (se procesa y analiza la señal en el aparato de biofeedback correspondiente)
3) Procesamiento y simplificación (filtrado) de la señal.
4) Conversión a señales auditivas o visuales
232
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
5) Información al sujeto (feedback)
Los trastornos a los que más se han aplicado estas técnicas son los siguientes: trastornos musculares
(rehabilitación motora), problemas vasculares (hipertensión, arritmias cardíacas, etc), problemas de
ansiedad (sobre todo con AED y electromiografía), asma y problemas respiratorios, insomnio, trastornos sexuales y trastornos gastrointestinales.
5.2. Condicionamiento instrumental y enseñanza
Aunque en la actualidad los métodos basados en el condicionamiento han dejado paso a métodos
más activos de tipo cognitivo, su interés sigue radicando en dos áreas de la enseñanza: el proceso
didáctico y la organización y manejo de la clase.
5.2.1. Métodos aplicados al proceso didáctico
Cuando hablamos del proceso didáctico nos referimos a determinados aspectos de la situación
didáctica, en particular a la disposición adecuada del material que el sujeto debe aprender. Una muestra de ello es la enseñanza programada de Skinner y sus ramificaciones tecnológicas posteriores en la
enseñanza asistida por ordenador y en la enseñanza personalizada.
La enseñanza programada (Skinner, 1954) propone un conjunto de técnicas y reglas para disponer los materiales didácticos de modo que los alumnos pueden emplearlos para autoenseñarse en un
determinado tema. Se dispone el material mediante preguntas y respuestas con confirmación inmediata
(refuerzo contingente) y práctica distribuida en pequeñas unidades; previamente el sujeto conoce los
objetivos de cada unidad, comprueba el material y fija su propio ritmo de aprendizaje. Siguiendo estos
principios ya en los años 30 se idearon las primeras "máquinas de enseñar", precedentes de la actual
enseñanza asistida por ordenador (EAO). En cualquier caso, se elaboraron dos tipos de programas:
Los programas lineales, iniciados por Skinner y según los cuales los alumnos deben elaborar activamente una respuesta y no simplemente optar por una preestablecida, Si los alumnos formulaban una
respuesta errónea conocían el error inmediatamente viendo después la respuesta correcta. En los programas ramificados o de opciones múltiples, a los alumnos se les ofrece diversas opciones de respuesta.
La enseñanza programada tiene la utilidad de que al fragmentar el material en pequeñas unidades,
el profesor entiende mejor todos los objetivos de la docencia y el alumno tiene feedback inmediato de
su respuesta. Además permite individualizar o personalizar la enseñanza al llevar cada alumno su propio ritmo.
Uno de los primeros sistemas personalizados de enseñanza fue propuesto por Keller (1966), un
psicólogo de orientación conductista que desarrolló un sistema de enseñanza individualizada para universitarios que no se basaba en máquinas o materiales especiales sino en fragmentar los materiales y
aprender en pequeñas unidades con unos objetivos y orientaciones específicos para su estudio. Los
alumnos estudian por su cuenta y periódicamente son examinados de modo que han de superar las
pruebas para seguir a las etapas siguientes. Hay textos y manuales confeccionados con arreglo a estas
normas de enseñanza programada, incluso textos de psicología. De éstos uno de los más antiguos es el
manual de psicología conductista Análisis de la conducta, de Holland y Skinner (1961).
La reciente introducción del ordenador en la escuela optimiza al máximo todas estas posibilidades
de la enseñanza programada (ver Solomon, 1986; para revisión). En general, el ordenador potencia
enormemente los logros de la enseñanza programada. Por ejemplo, la tecnología multimedia, con los
materiales didácticos elaborados para dispositivos tipo CD-ROM, permiten una enseñanza multimedia
que combina textos, imágenes (estáticas o dinámicas) e incluso hipertexto, que favorecen la inmedia-
Tema 4: Aprendizaje mediante condicionamiento instrumental de recompensa
233
tez e interacción con el material didáctico. La más reciente todavía (finales de los 90) expansión acelerada de las telecomunicaciones a través de Internet, potencia mucho más esas posibilidades por su inmediatez, accesibilidad y bajo coste.
5.2.2. Métodos aplicados a la organización y manejo de la clase
Los más relacionados con el condicionamiento son los derivados del condicionamiento operante.
Los podemos clasificar en: métodos centrados en la conducta positiva, métodos de desarrollo de nuevas conductas, métodos para hacer frente a conductas indeseables y métodos grupales (véase Marcos,
1994b, para ampliación de aplicaciones).
a) Métodos centrados en la conducta positiva
Siguen obviamente los principios de refuerzo. En el contexto educativo uno de los reforzadores
más poderosos es la atención del profesor, la cual puede adoptar formas diversas: que el profesor esté
pendiente, que muestre aprobación, que elogie verbalmente o con gestos al alumno por lo que hace,
etc. Estas formas positivas son siempre más eficaces que las formas aversivas tal y como ha quedado
suficientemente demostrado en diversos estudios.
Además puede ser más eficaz el refuerzo de la conducta deseable acompañado del no refuerzo de la
conducta indeseable. Se trata de cualquiera de los métodos de refuerzo diferencial reseñados en apartados precedentes.
En clase puede ser también muy eficaz el refuerzo vicario. Al tratarse de una situación grupal, el
refuerzo de la conducta deseable de otro, es decir, el refuerzo del modelo ejerce sobre la misma conducta del observador una influencia positiva.
b) Métodos para desarrollar nuevas conductas
Para desarrollar nuevas conductas y para hacer frente a conductas indeseables son indispensables
los procedimientos citados anteriormente, o sea, moldeamiento, modelado y control de estímulos, por
un lado, y extinción, castigo y saciación por otro.
c) Los métodos grupales
Se basan en el refuerzo de la conducta del grupo como conjunto. Hay dos posibilidades: refuerzo
de toda la clase en función de la conducta de un sólo alumno y refuerzo de cada alumno premiando a
todos y cada uno en función de la conducta. En estos casos pueden utilizarse refuerzos positivos o refuerzos secundarios mediante fichas o contratos de contingencias.
Los métodos grupales tienen especial interés cuando se quiere fortalecer conductas de apoyo mutuo
entre los alumnos y aumentar la experiencia de interdependencia.
6. PRÁCTICAS DE AUTOEVALUACIÓN DEL TEMA 4
4-1: Las cañas de pescar construidas con fibra de carbono atraen fuertemente los rayos en las tormentas, así que un pescador recoge y
guarda su caña en cuanto ve los primeros relámpagos en el cielo. La conducta de recoger y guardar la caña es:
a) Una conducta de escape.
b) Una conducta de evitación.
c) Una conducta reforzada positivamente.
d) Una respuesta condicionada clásicamente.
234
Universidad de Murcia. Grado Psicología. Asignatura: Aprendizaje, 6 cr. 2º curso, 1º. cuatr., curso 2010/11
4-2: A un atleta se le exige, temporada tras temporada, una cierta mejora de sus marcas personales para poder seguir disfrutando de una
beca. Con él se está aplicando:
a) El automoldeamiento.
b) El moldeamiento.
c) El castigo por supresión.
d) El castigo por aplicación.
4-3: El entrenamiento de omisión provocará una emoción de:
a) Alivio o relajación.
b) Expectación positiva.
c) Miedo.
d) Frustración.
4-4: Para enseñar a un niño a vestirse solo, la madre le da “estrellas doradas” de cartulina (intercambiables por un regalo), una por cada
prenda que el niño se pone solo. La madre proporciona:
a) Refuerzos primarios, en programa de razón variable (RV).
b) Refuerzos condicionados, según un reforzamiento parcial.
c) Refuerzos condicionados, según un reforzamiento continuo.
d) Refuerzos sociales, según un reforzamiento continuo.
4-5: A un niño que está aprendiendo a no mojar la cama por las noches, sus padres le permiten ver un video de dibujos animados cada día
que se despierta con la cama seca. Los padres están aplicando:
a) El principio de inhibición reactiva.
b) El principio de inhibición recíproca.
c) El efecto de refuerzo parcial.
d) El principio de Premack.
4-6: Como administradora de un restaurante de comida rápida, Teresa sabe que un representante de la compañía puede visitarla en cualquier momento, haciéndose pasar por cliente, y evaluar la calidad de la comida y el servicio. Como resultado, ella elabora un plan permanente de mantenimiento y limpieza al cual se ciñe cada día, ¿cuál es el programa de refuerzo que está empleando la compañía para asegurar una ejecución adecuada?:
a) IF
b) IV
c) RF
d) RV
Anotaciones y observaciones