Download Cap. 5 Fundamentos del condicionamiento operante o instrumental

Document related concepts

Condicionamiento operante wikipedia , lookup

Reforzamiento wikipedia , lookup

Modificación de conducta wikipedia , lookup

Teoría del aprendizaje social wikipedia , lookup

Castigo (psicología) wikipedia , lookup

Transcript
Cap. 5 Fundamentos del condicionamiento operante o instrumental
Se analizarán las situaciones d aprendizaje en las q los Es q encuentra un organismo
son resultado directo d su conducta, a la cual se hace referencia como dirigida a metas.
Ej. perro – intruso se aproxima – perro ladra – resultado: extraño se va. Como el
ladrido tiene consecuencias claras, es tentador concluir q el perro lo hizo para producir esa
consecuencia – ladrido dirigido a esa meta.
Cierto aspecto de la conducta es instrumental en la producción de un estimulo o
resultado significativo. El comportamiento tiene lugar porq acciones similares han
generado la misma clase d resultado en el pasado. Al comportamiento q se da por haber
sido previamente instrumental en la generación d ciertas consecuencias: conducta
instrumental.
¿Cómo puede investigarse el condicionamiento instrumental? Una forma seria ir al
medio natural y buscar ejemplos de conductas dirigidas a metas, pero esto es ificil porque
tal forma de comportamiento es compleja de aislar sin manipulación experimental.
I Primeras investigaciones de condicionamiento instrumental
Comenzó con Thorndike, cuya intención original era estudiar la inteligencia animal.
Creó una serie d cajas problemas para sus experimentos. Su procedimiento d
entrenamiento consistía en colocar un gato hambriento en la caja con algo d comida afuera,
a la vista del animal. La tarea para el gato era aprender a salir d la caja y obtener el alimento.
Creó diferentes tipos d cajas problemas que exigían distintas respuestas para salir. En
las más simples, los movimientos inicialmente azarosos lo llevaban a escapar y a acceder a
la comida, con ensayos repetidos el animal salia cada vez mas rapido. Y en las más
complejas, el escape mejoraba con la práctica pero de manera más lenta, ya q el felino tenía
q jalar una cuerda, presionar un pedal y abrir uno d dos pestillos para salir.
Para Thorndike los resultados de estos estudios, reflejaban el aprendizaje d una
asociación entre el E (caja) y la R (escapar). A medida q la asociación se hacia más fuerte,
la R era más rápida, esta asociación era fortalecida siempre y cuando fuera seguida se una
consecuencia exitosa.
Formuló la ley del efecto: establece q si una R en presencia de un E es seguida por un
acontecimiento satisfactorio, se fortalece la asociación entre E y R, por el contrario, si a la
R le sigue un acontecimiento molesto, la asociación E-R se debilita.
De acuerdo con esta ley, los animales aprenden una asociación entre la R y los E
presentes en el momento en q ésta ocurre. La consecuencia d la R no es uno d los
elementos d la asociación. La consecuencia d satisfacción o d molestia sirven para
fortalecer o debilitar las asociación entre la R y la situación E. Por lo tanto esta ley implica
un aprendizaje E-R.
II Planteamientos modernos para el estudio del condicionamiento instrumental
1. Procedimiento de ensayo discreto: son parecidos al método que empleo
Thorndike en cuanto a que en cada ensayo d entrenamiento termina con el retiro del
animal del aparato y la R instrumental se ejecuta solo una vez en cada intento. Este
procedimiento a veces se lleva acabo en cierto tipo de laberintos, su utilización la introdujo
W.S. Small.
Existen diferentes tipos d laberinto:
- Laberinto d callejón recto: Posee una caja d inicio en un extremo y una caja meta
en el opuesto. A la rata se le coloca en la caja de inicio al comienzo de cada ensayo. Se le
permite que haga su recorrido por el corredor hasta que alcanza la meta que, por lo general,
contiene un reforzador.
- Laberinto en forma de T: Consta d una caja d inicio y dos cajas meta, ubicadas el
los extremos d la T. Como tiene 2 cajas T es muy adecuado para estudiar conducta de
elección.
La conducta en un laberinto puede cuantificarse midiendo q tan rápido llega el animal
d la caja d inicio a la meta, lo q se denomina velocidad d carrera, la cual aumenta con
ensayos repetidos. Otra medida común es la latencia, q es el tiempo q le lleva al animal
dejar la caja y empezar a desplazarse por el corredor, el cual se vuelve más corto, conforme
progresa el entrenamiento.
2. Procedimientos de operante libre: permiten q el animal repita la R instrumental
libremente una y otra vez. El método de operante libre fue concebido por Skinner para
estudiar la conducta de manera mas continua de lo que es posible con los laberintos.
Skinner estaba interesado en analizar en el laboratorio una forma d comportamiento
q fuese representativa d toda actividad en curso q ocurre d manera natural. Propuso el
concepto d operante como una forma d dividir la conducta en unidades censurablemente
significativas.
La caja de Skinner es una cámara pequeña q contiene una palanca q la rata puede
desplazar hacia debajo d manera repetida y cuenta también con un mecanismo q puede
entregar un reforzador (alimento o agua). Se utiliza para estudiar conducta operante libre.
(se coloca: rata hambrienta en la caja, comida conectada electrónicamente al sist. de
suministro de alimento---rata presiona la palanca----comida cae)
Una R operante es una R definida por el efecto q produce en el medio. El aspecto
fundamental no son los músculos asociados a la conducta, si no la manera en q ésta opera
en el medio. Diferentes Rs musculares constituyen la misma operante, si la conducta tiene
el mismo efecto sobre el medio (lo importante es q presione la palanca,
independientemente d q la rata la presione con la pata derecha, izquierda, la cola, etc).
- Entrenamiento de comedero y moldeamiento: casi todas las ratas cuando se
colocan en una caja d Skinner no presionan la palanca d manera frecuente. Para establecer
la conducta d presión d palanca se realizan pasos preliminares. Primero se hace un
condicionamiento clásico: parear el sonido del suministrador de comida (comedero) y la
comida en el plato. Luego de suficientes pareamientos, el sonido llega a provocar una R d
seguimiento d señales: rata se acerca al plato donde está la pella. Esta fase preliminar d
condicionamiento, se denomina entrenamiento de comedero.
Para facilitar la adquisición d una nueva R operante, los experimentadores emplean
una estrategia, llamada moldeamiento: q implica 2 tácticas complementarias: reforzar
aproximaciones sucesivas a la R requerida y no reforzar las formas anteriores de R. El
moldeamiento exige el entrenamiento d componentes o Rs q se aproximen a la conducta
final. Una vez q se ha establecido una R operante como, presión d palanca, la forma en la q
el organismo cumple con la operación requerida en el medio no importa. Con amplio
entrenamiento las Rs se vuelven mas eficaces y llegan a implicar menos desgaste de energía.
- Moldeamiento d la forma d la Respuesta: Los procedimientos d moldeamiento
pueden emplearse no sólo para entrenar nuevas operantes, sino también para enseñar
características o parámetros nuevos d R instrumental.
En un estudio d laboratorio, Deich, Allan y Zeigler moldearon la R d abrir el pico en
palomas q picoteaban por un reforzamiento alimentario. Las aves lo hacían por alimento
con el pico ligeramente abierto. Se sirvieron d un transductor especial para medir q tanto
mantenías las aves el pico abierto mientras picoteaban una tecla d Rs. Primero se reforzó a
las palomas por picotear independientemente de si tenia el pico abierto, luego se le reforzó
solo en los casos de que picotearan con el pico abierto.
La variabilidad d Rs garantiza q al menos algunas d las q ocurren, estén en la
dirección q el investigador quiere moldear. Así pues, el moldeamiento aprovecha la
variabilidad inherente d la conducta, sin la cual los procedimientos d moldeamiento no
tendrían éxito. Los aspectos d los resultados de este experimento demuestran q el
moldeamiento puede generar nuevas formas d R (formas nunca antes ejecutadas por el
organismo).
- Tasa de respuesta como medida de la conducta operante: la ventaja principal d
los métodos d operante libre sobre las técnicas de ensayo discreto pata el estudio de la
conducta instrumental es q los primeros permiten una observación continua del
comportamiento por largos períodos. Con oportunidades continuas d R, el organismo, y no
el experimentador, es el q determina la frecuencia d R instrumental.
Skinner propuso q la tasa de ocurrencia d la conducta operante se empleará como
una medida d probabilidad d R. Las Rs muy probables ocurren d manera frecuente y tienen
una elevada tasa, mientras q las poco probables, casi nunca tienen lugar y presentan una
tasa baja.
- Registrador acumulativo: Skinner creó un instrumento para medir la tasa d
conducta en el tiempo: registrador acumulativo. Este consiste en un tambor rotativo q saca
papel del registrador, a una velocidad constante y una plumilla q descansa sobre la
superficie del papel.
Si no hay Rs, la plumilla traza una línea horizontal, si el animal presiona la palanca, la
plumilla se desplaza un paso hacia arriba en el papel, al final la distancia vertical sería el
total d Rs q hace el animal. Como el papel sale del registrador a una velocidad constante, la
distancia vertical es el tiempo transcurrido en la sesión. La pendiente d la línea hecha por el
registrador representa la tasa d Rs.
Este instrumento ofrece una representación visual completa de cuando y que tan
frecuentemente responde el animal durante la sesión.
III Procedimientos d condicionamiento instrumental
En el condicionamiento instrumental, una R se relaciona con un suceso ambiental, el
cual puede ser agradable o desagradable, cuando es agradable se le denomina E apetitivo y
cuando es desagradable E aversivo. La R instrumental puede producir la presentación del
E, en este caso se dice q hay una contingencia positiva entre la R y el q resulta d ella, o
disminuir o eliminar un E, en cuyo caso se dice q hay una contingencia negativa entre la R y
su resultado. Que el resultado d un procedimiento d condicionamiento sea un aumento o
una disminución en la tasa d Rs depende tanto d la contingencia entre R y resultado como
d la naturaleza del mismo.
Procedimientos comunes de conducta operante difieren en el tipo de estimulo
(apetitivo o aversivo) controlado por la respuesta instrumental y si la respuesta produce o
elimina el estimulo.
Reforzamiento positivo: hace referencia a los procedimientos en los q la R
instrumental activa produce un E apetitivo, hay una contingencia positiva entre la R y el E.
Si se da la R se presenta el E y si no se da la R, no se presenta el E. El procedimiento
genera un aumento en la tasa d R. (Ej. comida a la rata cuando presiona la palanca, no
comida cuando no la presiona)
Castigo: hace referencia a los procedimientos en los q la R instrumental produce un
E aversivo, hay una contingencia positiva porque si hay R se presenta el E aversivo, y si no
hay R, no se presenta el E aversivo. Este procedimiento genera una disminución en la tasa
d R. (Ej. reprender a un niño por correr en la calle).
Disminuye la probabilidad futura de la respuesta instrumental y por lo tanto, se
llaman procedimientos punitivos o de castigo. Como en el castigo hay una cointingencia
positiva también es conocido como castigo positivo.
Reforzamiento negativo: hace referencia a los procedimientos en los q la R
instrumental termina o previene la presentación d un E aversivo. Siempre está presente en
E aversivo, por lo tanto hay una contingencia negativa, si hay R, el E aversivo se elimina, si
no se da la R el E aversivo continua. Este procedimiento genera un aumento en la tasa de R
si es un estimulo aversivo. Existen 2 tipos d reforzamiento negativo:
- Escape: se presenta el E aversivo, la R instrumental puede eliminarlo. La presencia
de un estimulo aversivo establece la ocasión para que se emita la respuesta
instrumental, a la que refuerza entonces la terminación del estimulo aversivo. (Ej. alto
volumen del radio- apagarlo).
- Evitación: el E está programado para q ocurra en el futuro, entonces la R
instrumental previene el E aversivo. (Ej. en el laboratorio, puede programarse que la
rata reciba descargas al final d un E d advertencia, no obstante, si emite la R
instrumental durante este E, la descarga no se dará).
Entrenamiento por omisión: hace referencia a los procedimientos en los cuales la R
instrumental impide un E apetitivo. Hay una contingencia negativa porque si hay R
instrumental, no se da o entrega el E apetitivo, si no hay R instrumental si se da o se
entrega el E apetitivo. El entrenamiento por omisión desalienta las respuestas o produce un
efecto punitivo.
Este entrenamiento es por lo general el método preferido para desalentar conductas
humanas porque, a diferencia dl castigo, no implica dar un estimulo aversivo (ej: mandar a
un niño a su habitación, quitar la licencia de conducir).
También es conocido como reforzamiento diferencial de otras conductas (RDO).
Este procedimiento genera una disminución en la tasa d R. Se le da el E apetitivo siempre q
realice una R diferente a la del procedimiento.
Nombre
Contingencia d respuesta y
resultado
Resultado
Reforzamiento positivo
Positivo: R genera un E apetitivo.
Castigo (positivo)
Positivo: R general un E aversivo.
Reforzamiento negativo (escape
o evitación)
Negativo: R elimina o previene la
ocurrencia d un E aversivo.
Reforzamiento o aumento d la
tasa d R.
Castigo o disminución en la tasa
d R.
Reforzamiento o aumento en la
tasa d R.
Entrenamiento por omisión
(RDO)
Negativo: E elimina o previene la
ocurrencia d un E apetitivo.
Castigo o disminución en la tasas
d la R.
IV Elementos fundamentales del condicionamiento instrumental
La esencia de la conducta instrumental es que controla sus consecuencias.
El condicionamiento instrumental comprende fundamentalmente 3 elementos: una R,
un resultado (reforzador) y una relación (contingencia) entre la R y el resultado.
 La Respuesta Instrumental: el resultado de los procedimiento del
condicionamiento instrumental depende en parte de la naturaleza de la respuesta
que se condiciona.
a. Reforzamiento d una R existente: en un corredor, las ratas tienen q ir de la caja d
inicio a la caja meta para obtener el reforzador, los participantes en estos experimentos, no
tienen q aprender la R comprendida en la tarea. Una rata ya sabe correr cuando se le pone
por 1ª vez en un corredor, lo q aprende en el corredor es hacia a donde correr y porque
hacerlo.
b. Creación d nuevas unidades d R: en comparación con un corredor, el entrenamiento
d presión d palanca, si requiere aprender una nueva R. Casi ninguna rata ha tenido la
oportunidad d presionar una palanca, por lo q es necesario, moldearla mediante el
reforzamiento d aproximaciones sucesivas.
¿Cómo se hace este moldeamiento y q se consigue? Las ratas no son del todo
inexpertas en los diversos componentes conductuales d presionar una palanca. La presión d
una palanca requiere q la rata se pare en sus patas traseras, extienda una pata y presione.
Probablemente estas Rs, el roedor las haya hecho antes, ¿Qué aprende d nuevo la rata?
Aprende a reunir los diferentes componentes d la conducta d presión d palanca en una R
coordinada y efectiva. El condicionamiento instrumental d presión d palanca implica el
reordenamiento d componentes familiares d la conducta d la rata. El reforzamiento lleva a
la creación d una nueva unidad de respuestas, formada por una unidad de respuestas
familiares
c. Variabilidad conductual o estereotipia: tanto Thorndike como Skinner, pusieron el
acento en que el reforzamiento aumenta la probabilidad de que la respuesta instrumental se
repitan en el futuro. El condicionamiento instrumental produce repeticiones de la misma
respuesta que genera uniformidad o estereotipia en el comportamiento. El aumento de las
respuestas estereotipadas se desarrolla si lo permite o requiere el procedimiento de
condicionamiento instrumental. Esto no significa que el condicionamiento operante no
pueda estar asociado en la generación de respuestas creativas o variables.
La variabilidad de respuesta puede ser la base del reforzamiento instrumental.
- La variabilidad en las respuestas se puede mantener y aumentar mediante reforzamiento.
De esta manera la variabilidad de la repuesta puede establecerse como una operante.
- En ausencia de reforzamiento explicito de la variabilidad de respuesta, las respuestas se
vuelven mas estereotipadas con condicionamiento instrumental continuo. De esta manera,
la consecuencia característica del reforzamiento instrumental es una disminución en la
variabilidad de la respuesta.
d. Relevancia o pertenencia en el condicionamiento instrumental: El
condicionamiento instrumental puede actuar sobre componentes de respuesta manifiestos
o sobre dimensiones abstractas de conducta. Así como en el condicionamiento clásico (que
para que tenga lugar más rápidamente, el EC debe pertenecer al EI), las relaciones análogas
de relevancia también ocurren en el condicionamiento instrumental.
Thorndike fue el primero en observar las diferencias en la condicionabilidad de
diversas respuestas con reforzamiento (Ej. Palanca, bostezo, arañar para salir de la caja).
Propuso el concepto de pertenencia: ciertas respuestas naturalmente “pertenecen al”
reforzador por la historia evolutiva de los animales. Es por eso que en ciertas especies,
determinadas respuestas no persisten como respuestas instrumentales fuertes y auténticas
cuando se les refuerza.
Estudio reciente que muestra el concepto de pertenencia: pez espinoso, morder –
presentación de otro macho, morder – presentación hembra. La conducta de morder fue
mas fuerte cuando se presentaba el macho que la hembra porque el pez suele tener esta
conducta con otros machos cuando busca cortejar, y no con la hembra. Por lo tanto el
morder pertenece mas a el refuerzo del otro macho que el de la hembra.
Breland y Breland (1961) observaron también varias limitaciones en el
condicionamiento instrumental en intentos por condicionar respuestas instrumentales con
reforzamiento alimentario en diversas especies. Plantearon el concepto de arrastre
instintivo: desviación gradual de la conducta instrumental que se aleja de las respuestas
requeridas para obtener reforzamiento por respuestas características de la especie o
“instintivas” relacionadas con el reforzador y con otros estímulos en la situación
experimental. (ej: mapache-moneda, cerdo-moneda)
e. Sistema de conducta y limitaciones en el condicionamiento instrumental: De
acuerdo con la teoria de los sistemas de conducta cuando a un animal se le priva de
alimento y se encuentra en una situación en la que es posible que encuentre comida, se
activa su sistema alimentario, y comienza a dedicarse al forrajeo y otras Rs relacionadas con
el alimento.
La eficacia de la técnica en aumentar una R instrumental dependerá de la
compatibilidad de tal R con la organización preexistente del sistema alimentario. La
naturaleza de otras Rs que surgen durante el proceso de entrenamiento (o arrastre
instintivo) dependerán de los componentes conductuales del sistema alimentario que se
activen por medio del condicionamiento instrumental.
De acuerdo con los enfoques del sistema de conducta, podrían predecirse las Rs que
aumentarían con reforzamiento alimentario si se estudia lo que hacen los animales cuando se activa
su sistema alimentario en ausencia de condicionamiento instrumental. La susceptibilidad de varias Rs
al reforzamiento alimentario puede predecirse a partir de la forma en que éstas son
modificadas por la privación de alimento, que supuestamente refleja su compatibilidad con
el sistema alimentario. (Ej. hámsteres hambrientos- conductas de excavar, escarbar y
levantarse, no conductas de autocuidado).
Otra forma de determinar si una R es parte de un sistema de conducta es llevar a cabo un
experimento de condicionamiento clásico: Un EC llega a provocar componentes del sistema de
conducta activados por el EI. Si el arrastre instintivo refleja respuestas del sistema de
conducta, las respuestas relacionadas con el arrastre instintivo serían patentes en un
experimento de condicionamiento clásico. El arrastre instintivo representa la intrusión de
respuestas apropiadas para el sistema de conducta que se activa durante el transcurso del
condicionamiento instrumental.
Conforme al enfoque se los sistemas de conducta, las diferencias preexistentes del
sistema de conducta, activadas por un procedimiento de condicionamiento, llevarán a
diferencias en la clase de Rs que se condicionan fácilmente con tal procedimiento. Las
respuestas preexistentes de un sistema de conducta pueden variar de una especie y un
reforzador a otros. El enfoque de los sistemas de conducta pronostica que tales diferencias
llevarían a modificaciones correspondientes en la facilidad para el condicionamiento de esas
Rs.
 El Reforzador Instrumental
a. Cantidad y calidad del reforzador: una modificación en la cantidad del reforzador lo
puede hacer cualitativamente distinto. Los aumentos en la cantidad y calidad del reforzador
producen tasas más elevadas de respuestas. En las situaciones de operante libre, los efectos
de la magnitud del reforzador son más complejos y dependen del programa de
reforzamiento utilizado lo mismo que de otros factores. (ej: ratas – agua con sacarina, acido
cítrico o harina).
b. Modificaciones en la cantidad o calidad del reforzador: Plantea la posibilidad de
que la eficacia de un reforzador dependa no sólo de sus propiedades, sino también de
cómo se compara con otros que el individuo ha experimentado. Numerosos estudios han
demostrado que los efectos de una cantidad y un tipo particulares de reforzador dependen
de la cantidad y calidad de los reforzadores que el individuo ha experimentado con
anterioridad. La investigación ha demostrado que una buena recompensa es tratada como
especialmente buena luego del reforzamiento con una recompensa pobre, y una
recompensa pobre se trata como especialmente pobre luego del reforzamiento con una
buena recompensa.
Crespi fue el primero en describir los efectos de la modificación en la cantidad de la
recompensa. Investigaciones de Melldren (Ej.: ratas – recompensa: G-P, G-G, P-G, P-P)
han concluido que la respuesta a la nueva recompensa fue aumentada por la experiencia
previa con una magnitud contrastante. Fenómenos sucesivos contrastantes conductuales:
- Contraste conductual positivo: aumento de las respuestas por una recompensa
favorable como consecuencia de una experiencia previa con resultados menos atractivos.
La recompensa favorable parece en especial buena para los individuos que antes
experimentaron un peor resultado.
- Contraste conductual negativo: disminución en las respuestas por una
recompensa desfavorable debido a una experiencia previa con un mejor resultado. La
recompensa desfavorable parece especialmente mala para los individuos que antes
experimentaron una mejor recompensa.
- Contraste conductual simultáneo: los distintos efectos de contraste son
mediados por diferentes mecanismos. Todos los efectos de contraste ilustran que a la
eficacia de un reforzador en una situación la determina en parte la experiencia del
organismo con reforzadores en otras situaciones. Esto ocurre cuando las condiciones de la
recompensa se alternan con frecuencia, con una clave diferente que señalaba cada
condición de recompensa.
 La relación de respuesta y reforzador: La conducta instrumental genera sus
consecuencias y es controlada por estas. En algunos casos, hay una fuerte relación
entre lo que hace la persona y la consecuencia subsiguiente. En otras situaciones la
relación entre la conducta y sus consecuencias podría ser imperfecta. La conducta
instrumental eficaz exige la sensibilidad a la relación entre respuesta y reforzador.
Consiste en dos factores independientes uno de otro:
1. Medición del tiempo entre la Rs y el reforzador: si el reforzador se presenta
inmediatamente después de la Rs se dice que hay contigüidad temporal.
2. Causalidad: la medida en que la Rs instrumental es necesaria y suficiente para la
presentación del reforzador, a lo que se llama contingencia entre R y reforzador.
a. Efectos de la contigüidad temporal
Grice: condicionamiento instrumental requiere proporcionar el reforzador de manera
inmediata después de la ocurrencia de la Rs instrumental. El aprendizaje instrumental
puede ser trastocado en demoras como de 0.5 segundos. La investigación más reciente
indica que el aprendizaje instrumental es posible con demora tan largas como de 30
segundos.
Con todo, el hecho sigue siendo que el aprendizaje instrumental es trastocado por el
retraso de la presentación del reforzador de la ocurrencia de la Rs instrumental.
¿Por qué el condicionamiento instrumental es susceptible al reforzamiento demorado?
Una posible R a esta interrogante la proporciona la reconsideración del hecho de que la
conducta consiste de un torrente en curso y continuo de actividades.
Cuando el reforzamiento se demora luego de la ejecución de una respuesta especificada
(R1), el organismo no deja de hacer cosas, sino que sigue dando otras Rs. Si la R1 libera el
reforzador pero éste no se entrega sino hasta después de cierto tiempo, el reforzador puede
ocurrir de inmediato después de alguna otra Rs. Para asociar la R1 con el reforzador, el
organismo debe tener alguna forma de distinguirla de otras respuestas durante el intervalo
de demora.
La investigación ha identificado 2 formas para facilitar el aprendizaje con reforzamiento
demorado:
1. Proporcionar un reforzador secundario o condicionado inmediatamente después de la respuesta
instrumental, aún cuando el reforzador primario no tenga lugar sino hasta cierto tiempo
después. Es empleado por adiestradores de animales y entrenadores. Un reforzador
secundario o condicionado es un estímulo condicionado que se ha asociado con
anterioridad con el reforzador. Los reforzadores condicionados pueden servir para tender
un puente de demora entre la Rs instrumental y el suministro del reforzador primario.
2. Marcar la R instrumental objetivo de alguna manera para hacerla distinguible de las
otras actividades del organismo. La eficacia de un procedimiento de marcaje la demostraron por
primera vez Lieberman, McIntosh y Thomas (1979) en un experimento en el que las ratas
en el grupo marcado aprendieron la Rs instrumental con la demora de 60 segundos de
reforzamiento mucho mejor que los animales en el grupo no marcado. (Ej. Pág. 147)
b. La contingencia entre respuesta y reforzador
la contingencia hace referencia a la medida en que la entrega del reforzador depende de
la ocurrencia previa de la respuesta instrumental. Aunque el reforzador se demore solo se
proporciona si el organismo da la respuesta instrumental. Una relación causal perfecta entre
la Rs y el reforzador no basta para producir Rs instrumentales fuertes. Tales datos llevaron
a los primeros investigadores a concluir que la contigüidad entre Rs y reforzador, más que
la contingencia, es el factor fundamental que produce el aprendizaje instrumental. No
obstante, la investigación subsecuente ha descartado este punto de vista porque no se
justifica.
c. El experimento de superstición de Skinner (imp. Para la controversia acerca de la
función de la contigüidad en comparación con la contingencia en el aprendizaje
instrumental)
 Procedimiento: el investigador colocó palomas en cámaras experimentales separadas e
hizo que el equipo entregara un poco de alimento cada 15 segundos independientemente
de lo que hicieran las aves. Después de cierto tiempo, volvió a ver lo que las palomas
estaban haciendo.
 Resultados: A Skinner le parecía que las palomas respondían como si su conducta
controlara la entrega del reforzador cuando, en realidad, el alimento era proporcionado de
manera independiente del comportamiento a esto lo denomino conducta supersticiosa.
La explicación descansa en la idea del reforzamiento accidental o adventicio, que alude
al pareamiento accidental de una Rs con la entrega del reforzador. Los animales siempre
están haciendo algo aun cuando no se requieran respuestas particulares para obtener
alimento. Skinner sugirió que cualquiera que fuese la Rs de una paloma acertase antes de
darle alimento, esta se fortalecería y aumentaría su frecuencia por el reforzamiento
(alimento).
Cada pareamiento accidental aumenta aún más la probabilidad de la Rs y por lo
tanto luego de un rato, la Rs tendrá lugar con la suficiente frecuencia como para que se
identifique como conducta supersticiosa.
El experimento parecía apoyar el hecho de que la contigüidad temporal era el
principal factor responsable del aprendizaje y propuso que no es necesaria una contingencia
de respuesta y reforzador positiva para el condicionamiento instrumental.
1. Reinterpretación del experimento de superstición
Staddon y Simmelhag: definieron y midieron la ocurrencia de muchas Rs como la
orientación al comedero, picotear la tecla de Rs, etc. Registraron la frecuencia de cada Rs de
acuerdo con el momento en que ocurrían durante el intervalo entre entregas sucesivas
gratuitas de alimento.
 Resultados: algunas Rs tuvieron lugar predominantemente hacia el final del intervalo
entre reforzadores sucesivos, era mucho mas probable que ocurriesen al final del intervalo
entre las entregas de alimento que en otros momentos, a las que llamaron respuestas
terminales. Otras actividades aumentaron su frecuencia entre las entregas de alimento y
después disminuyeron al acercarse el momento de la siguiente entrega, a las que llamaron
respuestas interinas. Sin embargo, no variaba mucho de una paloma a otra qué acciones
eran Rs interinas y terminales y además no encontraron pruebas de efectos de
reforzamiento accidental. Las Rs no siempre aumentaron en frecuencia simplemente
porque coincidieron con la entrega del alimento, la cual parecía estar influida solo en la
fuerza de respuestas terminales, aun en las fases iniciales del entrenamiento.
 La investigación subsiguiente ha proporcionado muchas pruebas adicionales de que las
presentaciones periódicas de un reforzador producen regularidades conductuales, en que
algunas Rs predominan al final del intervalo entre presentaciones sucesivas de alimento y
otras que preponderan a principio del intervalo entre alimentos.
2. Explicación de la periodicidad de las respuestas interinas y terminales
Staddon y Simmelhag (1971) propusieron que las Rs terminales son Rs específicas de
las especies que reflejan la anticipación de alimento conforme se acerca el momento de la
siguiente presentación de alimento. Al contrario, veían las Rs interinas como reflejo de
otras fuentes de motivación que se destacaban al inicio del intervalo entre alimentos,
cuando la presentación del alimento es poco probable.
En comparación, los investigadores posteriores han favorecido las aproximaciones en
las que se considera que las Rs terminales e interinas son manifestaciones distintas del
mismo sistema motivacional. La mas desarrollada de estas formulaciones alternativas es la
teoria de los sistemas de conducta. De acuerdo con la teoría de los sistemas de conducta, el
sistema alimentario se activa en los animales privados de alimento a los que se da pequeñas
porciones de comida de manera periódica. Justo antes de la entrega predecible de alimento,
la conducta se dirige hacia el lugar en el que el alimento está a punto de darse. Así, la
distribución de actividades que se desarrollan con entregas periódicas de un reforzador
depende de la naturaleza de tal reforzador (Ej. dif conductas se desarrollan con
presentaciones de agua o de alimento).
d. Efectos de la controlabilidad de los reforzadores
Una fuerte contingencia entre una respuesta instrumental y un reforzador significa que
esencialmente la respuesta controla el reforzador. Con una fuerte contingencia, que el
reforzador tenga lugar depende de que se haya dado la respuesta instrumental.
Los estudios han proporcionado un amplio cuerpo de pruebas sobre la sensibilidad de
la conducta a las contingencias entre respuesta y reforzador. La mayor parte de la
investigación se ha centrado en los efectos de control sobre la estimulación aversiva.
Uno de los estudios fueron proporcionados por Seligman, Overmier y Maier, quienes
investigaron los efectos de la exposición a descargas incontrolables en el aprendizaje de
escape y evitación posterior en los perros. Descubrieron que la exposición a descargas
incontrolables afectó el aprendizaje subsecuente: Efecto de Desamparo Aprendido
1. Diseño Triádico:
Los experimentos del desamparo aprendido se han realizado mediante el diseño
triádico, este implica dos fases, una de exposición y otra de condicionamiento.
(revisar Pág. 1151 ultimo párrafo)
GRUPO
Grupo E
(escape)
Grupo A (acoplado)
Grupo R
(restringido)
FASE DE
EXPOSICIÓN
Descarga controlable
FASE DE
RESULTADO
CONDICIONAMIENTO
Escape y Evitación
Aprendizaje
de
evitación rápido
Descarga
acoplada Escape y Evitación
Aprendizaje
de
no controlable
evitación lento
Restringido al aparato Escape y Evitación
Aprendizaje
de
evitación rápido
Descubrimiento: los efectos de la estimulación aversiva durante la fase de
exposición dependen de su es posible o no escapar de la descarga. La exposición a
descargas incontrolables en el grupo A durante la exposición produce un grave trastorno en
el aprendizaje escape evitación subsecuente. En la fase de condicionamiento del
experimento, el grupo A por lo general muestra una ejecución mucho mas pobre de escape
– evitación que el grupo E y el R.
El hecho de que el grupo A muestre un déficit en el aprendizaje subsecuente en
comparación con el grupo E indica que los animales son sensibles a las diferencias de
procedimiento entre la descarga controlable y la acoplada e incontrolable. La diferencia de
procedimiento primaria entre los grupos E y A es la presencia de una contingencia entre
respuesta y reforzador para el grupo E pero no para el A, muestra que los animales son
sensibles a la contingencia entre respuesta y observador.
2. La hipótesis de desamparo aprendido
Explicación de los estudios que emplean el diseño triádico. Se fundó en la conclusión
de que los animales pueden percibir la contingencia entre su conducta y la entrega de un
reforzador.
Supone que durante la exposición a descargas incontrolables, los animales aprenden
que las descargas son independientes de su conducta y llegan a esperar que en el futuro los
reforzadores sigan siendo independientes de su conducta. Esta falta de control futura mina
su capacidad de aprender nuevas respuestas instrumentales.
El déficit de aprendizaje tiene lugar por dos motivos:
- la expectativa de falta de control futura hace que resulte más difícil de aprender una
contingencia entre respuesta y reforzador subsecuente
- la expectación de falta de control futura reduce la motivación de respuestas
Instrumentales.
Hay que distinguir la hipótesis y el efecto de desamparo: el efecto es el patrón de
resultados obtenidos con el diseño triádico y la hipótesis supone que el déficit de
aprendizaje en el grupo A es producido por la percepción de la falta de control.
3. Déficit de actividad:
- A los investigadores les preocupó que el déficit de aprendizaje observado en el grupo A
fuera resultado de que los animales aprendían a permanecer inactivos en respuesta a la
descarga durante la fase de exposición. Congruente con esto algunas situaciones,
descargas no controlables producen una disminución en el movimiento motor, o
perseverancia de la respuesta y esto es responsable de los déficits de ejecución
subsecuentes).
-
Hay situaciones en que los efectos sobre el aprendizaje probablemente no se deban a la
supresión de movimiento causada por la descarga no controlable. Por lo tanto una
hipótesis de inactividad aprendida no puede explicar todos los casos de desamparo
aprendido.
4. Déficit de atención
¿Por qué la falta de control sobre los reforzadores produce un déficit en el aprendizaje
si el efecto no se debe a una merma en la actividad?  posibilidad  la descarga
incontrolable hace que los animales pongan menos atención a sus acciones. Si una criatura
deja de prestar atención a su conducta, tendrá dificultades para asociar sus acciones con
reforzadores en el condicionamiento de escape y evitación lo mismo que en otras formas
de condicionamiento instrumental.
Experimento por Maier, Jackson y Tomie: un animal que deja de poner atención a su
conducta por exposición a descargas que no pueden controlar se enfrenta al mismo
problema que uno que recibe reforzamiento retardado. En ambos casos, los animales
tienen dificultad para calcular cuál de sus acciones genera la entrega del reforzador.
Sugirieron que las manipulaciones que facilitan el aprendizaje con el reforzamiento
demorado pueden ayudar también a los animales expuestos a descargas incontrolables.
Postularon que la atención reducida a la conducta instrumental también puede paliarse
mediante la introducción de una clave de retroalimentación de respuesta externa o estímulo
de marca. Su predicción fue que las ratas a las que se dio descargas no controlables no
serían afectadas en su aprendizaje de escape subsecuente si cada respuesta instrumental era
marcada por un estímulo externo.
Se hizo una latencia de escape promedio durante la fase de condicionamiento para
cuatro grupos de ratas en un experimento de desamparo aprendido. Durante la fase de
exposición el grupo E recibió descargas de las que podían escapar, los grupos A y A-M
(acoplado y marcado) recibieron descargas acopladas e incontrolables y el grupo R no
recibió descargas. Durante la fase de condicionamiento se presentó un breve estímulo de
marca después de cada respuesta de escape para los sujetos en el grupo A-M. el indicador
consistió en apagar las luces por .75 seg, la presencia de este indicador eliminó por
completo el déficit de aprendizaje que de otra forma se hubiera producido por la
exposición previa a la descarga no controlable. El grupo A-M se desempeño mucho mejor
que el A y los demás grupos.
Resultado: marcar la respuesta instrumental redujo el déficit de desamparo aprendido. Esto
sugiere que una de las fuentes del déficit de aprendizaje es una reducción en la atención a
las respuestas que ejecuta el animal.
5. Relaciones estímulo en el condicionamiento de escape
Las interpretaciones anteriores se concentran en los efectos perjudiciales de la
exposición a descargas no controlables. Sin embargo, una cuestion importante es porque la
exposición a descargas no es tan nociva si el animal puede ejecutar una respuesta para
escapar de la descarga.
La característica que define la conducta de escape es que la respuesta instrumental
resulta en la terminación de un estímulo aversivo. Sin embargo, hay también relaciones
estímulo especiales en un procedimiento de escape que son potencialmente muy
importantes. Dar la respuesta de escape tiene por consecuencia claves internas de
retroalimentación de respuesta.
- Estímulos:
a) Claves de retroalimentación de cesación de descarga: estímulos producidos por la
respuesta se experimentan al principio de la respuesta de escape justo antes de desactivarse
la descarga.
b) Claves de retroalimentación de señal de seguridad: estímulos generados por la respuesta
se experimentan conforme el animal completa la respuesta, justo después de que se ha
desactivado la descarga al principio del intervalo entre ensayos. Tales claves en las descargas
evitables son confiablemente seguidas por el intervalo entre ensayos y, por consecuencia,
por la ausencia de descarga, estas claves se vuelven inhibidores condicionados del temor y
limitan o inhiben el temor provocado por las claves contextuales de la cámara experimental.
Para los animales a los que se dio la descarga acoplada e incontrolable no existen tales
señales, porque en su caso las descargas y los períodos libres de descarga no son
predecibles. Por ello es más probable que las claves contextuales de la cámara en la que se
aplicaron las descargas se condicionen para provocar temor con descargas no controlables.
Conclusión sobre la contigüidad y la contingencia:
- Organismos son sensibles a la contigüidad lo mismo que a la contingencia entre una
respuesta instrumental y un reforzador. Actúan en conjunto para generar aprendizaje
- Ambos factores sirven para concentrarse en los efectos del reforzamiento sobre la
respuesta instrumental.
- La relación causal o contingencia asegura que el reforzador se entregue sólo después de
la ocurrencia de la respuesta instrumental especificada.
La relación de contigüidad asegura que otras actividades no irrumpan entre la respuesta
especificada y el reforzador, lo que evita que interfieran en el condicionamiento de la
respuesta objetivo.