Download Pausas post-reforzamiento

Document related concepts

Reforzamiento wikipedia , lookup

Transcript
Tema 3:
Condicionamiento instrumental:
entrenamiento de recompensa
Prof. Pablo Adarraga
[email protected]
Concepto y tipos de refuerzo positivo
Los R+ pueden ser…
• Estímulos concretos, simples (p.e., un trocito de comida, una
sonrisa)
• Configuraciones estimulares complejas (p.e. un amplio
conjunto de signos de aprobación que incluya gestos,
palabras y tonos de voz)
• Posibilidades conductuales: p.e., permiso para usar la
consola durante un tiempo, dejar salir al perro al jardín.
Principio de Premack
• Conductas de alta probabilidad: las que espontáneamente se
hacen a menudo.
• Conductas de baja probabilidad: las que espontáneamente se
hacen raras veces o nunca.
• Premack: cuando una CBP va seguida a menudo de una CAP,
la primera resulta reforzada (aumenta su probabilidad).
• El Pº de Premack afirma que ésta es precisamente la
naturaleza del refuerzo.
Reforzadores primarios y secundarios
• Son reforzadores primarios los que funcionan de forma
innata para todos los miembros normales de una especie.
• Son reforzadores secundarios aquellos cuya capacidad de
reforzar no es innata, sino que se debe a aprendizajes
previos del organismo.
– Condicionados: han adquirido su poder por
condicionamiento clásico, asociándose a un primario: el
clicker, el ruido de la máquina expendedora…
– No condicionados: dinero, victoria en juegos, etc.
El clicker
• Es el reforzador secundario por excelencia en el
entrenamiento de muchos animales.
• Permite señalar con precisión el momento en que el
organismo “se ha ganado el reforzador” con su conducta.
R+ en humanos
• Por las características de nuestra especie, hay algunos
reforzadores que tienden a funcionar bien casi siempre. Por
ejemplo:
– Atención por parte de otros. Gestos de comprensión,
interés, etc.
– Signos de aprecio, valoración, prestigio, jerarquía.
– Logro, victoria, triunfo, éxito…
Factores del entrenamiento de recompensa
Factores del entrenamiento de recompensa
Factores: variables (independientes) de las que depende su
eficacia
Hay muchos; en términos generales los principales son:
• Magnitud de la recompensa
• Demora de la recompensa
• Impulso
y el más importante:
• Programa de refuerzo
Magnitud del reforzador
• Aumentos en la cantidad o calidad del reforzador mejoran la
actuación del organismo en la situación de adquisición
• Sin embargo, las recompensas cuantiosas producen
conductas menos estables, que se extinguen más
fácilmente.
Estribillo:
El buen psicólogo es
tacaño
rácano
cutre
con los reforzadores positivos.
Magnitud del reforzador
Atención a los efectos de contraste:
• Reducir súbitamente la magnitud de la recompensa durante
la adquisición empeora la actuación del organismo, y puede
perturbar el aprendizaje
• Aumentarla mejora la actuación, y a veces puede mejorar
también un poco el aprendizaje.
Demora de la recompensa
Es el intervalo entre la R y el R+
• Cuanto más breve, mejor.
• A partir de una cierta demora (pocos segundos) ya no se
produce condicionamiento
• Una vez que el organismo emite la R, tenemos una breve
ventana para reforzarla
• Se puede alargar mucho mediante secundarios encadenados.
Demora de la recompensa
Estribillo:
El refuerzo YA
Impulso
Es el estado motivacional del organismo respecto a aquello que
usamos como R+
• Por ejemplo, no es probable que funcionen recompensas
alimentarias con un animal saciado.
• En el laboratorio se operativiza en términos de deprivación:
gato 12 horas sin beber, rata al 80% de su peso…
• No confundir con motivadores típicamente humanos, como
los incentivos, salarios, objetivos, metas vitales, etc.
• En humanos: muy importante asegurarlo, para no emplear
“recompensas equivocadas”.
Programas de refuerzo
Refuerzo continuo y refuerzo parcial
Refuerzo continuo:
• Hay contingencia perfecta entre R y R+
• Es decir, siempre que se da la R se obtiene recompensa
• Es fácil ver que esto es un caso muy particular
• En la vida real no suele ocurrir mucho
• No es ni mucho menos la pauta de refuerzo más eficaz
Refuerzo parcial:
• La contingencia entre R y R+ no es perfecta
• No siempre que se da la R se obtiene recompensa
• Aquí son posibles infinidad de pautas distintas (programas)
• Más realista, y a menudo más eficaz
Programa de refuerzo: concepto
Es una regla que especifica la pauta con que se administran los
refuerzos según responda el organismo.
Por ejemplo:
– Dar recompensa sólo a las respuestas impares (primera,
tercera, quinta, etc.)
– Recompensar sólo las conductas que se mantengan al
menos dos minutos sin interrupción
– Dar la recompensa sólo a las respuestas que se emiten
transcurridos 10 segundos o más desde la anterior.
– Etc. etc.
Programa de refuerzo: concepto
En sentido estricto, un programa de refuerzo es una regla sin
ambigüedad ninguna, totalmente precisa. Por ejemplo:
– Dar recompensa sólo a las respuestas impares (primera,
tercera, quinta, etc.) es un programa de refuerzo.
– Dar recompensa a la mitad de las respuestas no lo es
(resulta impreciso: hay muchas maneras distintas de
hacerlo).
Este sentido estricto es muy importante en laboratorio; no
tanto en la clínica o el mundo natural.
Y en efecto, el mundo natural está lleno de programas de
refuerzo.
Programa de refuerzo: tipos
Hay infinidad. Sólo veremos algunos de los más importantes
Tipos generales:
– Básicos o simples: se refieren a una sola R, y exigen una
condición simple para administrar la recompensa
– Complejos: Son combinaciones de los anteriores: una sola
R, pero una exigencia compuesta para dar recompensa.
– Concurrentes: se refieren a dos o más Rs alternativas en la
misma situación.
– Otros: programas de duración, de tasas bajas, etc.
Programas básicos
Hay cuatro tipos:
– Razón fija
– Razón variable
– Intervalo fijo
– Intervalo variable
Programas básicos: Razón fija
• Se recompensa cada enésima R emitida por el organismo: la
quinta, la novena, la vigésima…
• Es decir, se exige al organismo un número fijo de Rs. para
darle cada recompensa
• Notación: RF-5, RF-9, RF-20…
Programa RF-5
Ultimo R+
recibido
Nuevo R+
5ª respuesta
Tiempo
Programas básicos: Razón variable
• Es como RF, pero se exige al organismo un número variable
de Rs. para darle cada recompensa.
• Por ejemplo, en un RV-5:
– Damos la primera recompensa a la 7ª R.
– Segunda recompensa a la 3ª R.
– Tercera recompensa a la 6ª
– Etc.
• Y globalmente, la media aritmética de las recompensas
exigidas es 5
• Notación: RV-5, RV-9, RV-20…
• Los programas RV, por tanto, mantienen siempre cierta
incertidumbre sobre “cuándo toca” recibir R+
• Son más “naturales que los RF.
Programas básicos: Intervalo fijo
• Se recompensa la primera R emitida por el organismo una
vez transcurrido un intervalo desde la última recompensa
administrada
• Tras cada recompensa hay un “tiempo muerto”
• Notación: IF-5”, IF-30”, IF-90”…
Programa IF-10”
Ultimo R+
recibido
Nuevo R+
Rs no reforzadas
(dentro del
intervalo)
1ª R tras
el fin del
intervalo
Tiempo
Intervalo de 10”
Programas básicos: Intervalo variable
• Es como IF, pero la duración del intervalo es diferente para
cada recompensa (oscilando en torno a un promedio).
• Por ejemplo, en un IV-10” podría suceder lo siguiente:
– El intervalo “muerto” tras la primera recompensa dura 5”.
– El intervalo tras la segunda recompensa dura 14”.
– El intervalo tras la tercera recompensa dura 6”
– Etc.
• Y globalmente, la media aritmética de los intervalos aplicados
es de 10”
• Notación: IV-5”, IV-25”, IV-120”…
• Los programas IV, por tanto, mantienen cierta incertidumbre
sobre cuándo la recompensa vuelve a estar disponible
• Son más “naturales que los IF.
Razón fija: efectos en la R.
• Producen una tasa de respuesta (TR) alta, tanto más alta
cuanto mayor sea la razón.
• La respuesta es tanto más difícil de extinguir cuanto
mayor sea la razón (RF-1 se extingue muy fácilmente)
• Asimismo, la TR resultante es bastante estable (constante)
• Esa estabilidad se reduce cuando la tasa es muy alta:
aparecen las pausas post-reforzamiento.
• Pausas post-reforzamiento: el organismo detiene sus
respuestas transitoriamente justo después de recibir la
recompensa (parece como si se tomara un descanso).
Razón variable: efectos en la R.
• TR muy alta (incluso más que con RF) y tanto más alta
cuanto mayor sea la razón.
• Se obtiene una R muy difícil de extinguir, llegando a
cronificarse.
• TR muy estable (constante)
• No aparecen pausas post-reforzamiento, salvo en valores
altísimos, y a veces ni así.
Intervalo fijo: efectos en la R.
• TR no muy alta y tanto más baja cuanto mayor sea el valor
del intervalo.
• Con adquisiciones prolongadas, aparece el efecto de
festoneado.
• Efecto de festoneado: El organismo aprende a concentrar
todas sus respuestas cerca del fin del intervalo
• Es como si le hubiera “cogido el tranquillo” al programa: justo
después de recibir refuerzo no vale la pena responder, pero
cuando el intervalo está cerca de su fin es muy probable que
una R reciba recompensa.
Intervalo variable: efectos en la R.
• TR no muy alta y tanto más baja cuanto mayor sea el valor
del intervalo.
• TR muy estable (constante): sin variaciones locales
sistemáticas.
• No aparece efecto de festoneado: El programa no tiene un
“ritmo” temporal que el organismo pueda aprender y
aprovechar.
• Muy utilizados para la implantación de líneas base
conductuales.
Programas básicos: efectos generales
• Los programas de razón dan TRs altas
• Los programas variables dan TRs estables, constantes.
• Estos resultados son muy consistentes entre especies
(incluida la nuestra).