Download refuerzo

Document related concepts

Condicionamiento operante wikipedia , lookup

Modificación de conducta wikipedia , lookup

Reforzamiento wikipedia , lookup

Ingeniería del comportamiento wikipedia , lookup

Teoría del aprendizaje social wikipedia , lookup

Transcript
Tema 3: Bases de psicología
del aprendizaje.
Condicionamiento operante
Análisis Funcional de la Conducta
Condicionamiento operante
• Aprender de los resultados de nuestra conducta.
• Repetiremos las conductas que nos funcionan bien,
y no repetiremos las que den resultados dañinos.
Condicionamiento clásico
• Aprendemos a usar las señales que presagian
sucesos importantes para nosotros
• Ello nos permitirá “anticipar” dichos sucesos e
iniciar de antemano las conductas más adaptativas
respecto a ellos.
¿Clásico o instrumental?
• En el CI el organismo recibe o no el premio, el
castigo etc. dependiendo de su conducta. Si
estudias, te dan chuches; si no, no.
• En el CC el organismo recibe la señal (la campana)
Y a continuación el “evento señalizado” (la carne)
con independencia de su conducta.
Condicionamiento operante
Condicionamiento operante
Antecedente
Caja de Skinner
Respuesta
Pulsar palanca
Consecuente
Pellet (comida)
Condicionamiento operante
Antecedente
Con los amigos
Respuesta
Decir burrada
Consecuente
Risas, celebración
Condicionamiento operante
Antecedente
Mesa familiar
Respuesta
Decir burrada
Consecuente
Bronca
Condicionamiento operante
Antecedente
A solas con pareja
Respuesta
Quejarse
Consecuente
Atención
Condicionamiento operante
Antecedente
Con hermano
Respuesta
Quejarse
Consecuente
---
Resultado
• La fuerza de esa respuesta se modifica, para las
situaciones en que esté presente el antecedente
• Lo que es lo mismo, esa R se hace más o menos
probable para el futuro.
– Cuando la fuerza de la R aumenta, decimos que
el consecuente es un refuerzo
– Cuando la fuerza de la R disminuye, decimos
que el consecuente es un castigo
Consecuente – refuerzo positivo y negativo
• Refuerzo positivo (R+ o ”erre más”):
– La conducta aumenta, se fortalece (eso es lo que significa
“refuerzo”)
– el organismo obtiene algo, se le administra alguna
cosa, el ambiente le da algo (eso quiere decir “positivo”).
– Típicamente, algo “agradable”
• Refuerzo negativo (R- o ”erre menos”):
– La conducta aumenta, se fortalece (refuerzo)
– El organismo deja de recibir o experimentar algo, se le
“quita” algo (eso quiere decir “negativo”).
– Típicamente, algo nocivo o dañino.
Consecuente – castigo positivo y negativo
• Castigo positivo (C+ o ”ce más”):
– La conducta se reduce (eso es lo que significa “castigo”)
– El organismo recibe algo, se le administra alguna cosa,
el ambiente le da algo (eso es lo que significa “positivo”).
– Típicamente, algo doloroso, dañino, nocivo
• Castigo negativo (C- o ”ce menos”):
– La conducta se reduce ( “castigo”)
– El organismo deja de recibir o experimentar algo, se le
“quita” algo (eso es lo que significa “negativo”).
– Típicamente, algo beneficioso, grato, apetitivo.
Consecuente:
R+ y R-
Ejemplos
• Cuando se pone quejica, el novio la consuela y le
da mimos, pero sus amigas ya han aprendido a
ignorarla en tales casos.
• Sus chistes obscenos son muy celebrados por los
compañeros, pero su chica no le hace ni caso
• No soporta la casa hecha un desastre;
inmediatamente se pone a ordenar para sentirse
mejor
Consecuente:
R+ y R-
Ejemplos
• Dejó de hablar de política en el trabajo; todo el
mundo le miraba con desprecio cuando lo hacía
• Su propuesta fue acogida con total indiferencia.
Contingencia
Relación estadística (probabilística) entre la R y el
consecuente.
• Es cuestión de grado.
• Es máxima si siempre que el organismo emita la
respuesta, y sólo entonces, recibe el consecuente.
• Si el consecuente no sigue siempre a la R, la
contingencia es más baja.
• Contingencias de refuerzo y de castigo
Elementos del CI: Contingencia
La relación entre la magnitud de la contingencia y la
eficacia del condicionamiento no es simple:
• Si se puede recibir el consecuente sin realizar la
conducta, el condicionamiento pierde eficacia.
• Si se recibe el consecuente sólo en algunas Rs (no
en todas), el reforzamiento se hace más eficaz,
pero el castigo se debilita.
Antecedente
• Estímulo o configuración estimular que permite al
organismo identificar la situación en que está
activa una contingencia de refuerzo o de castigo
• A veces el CI queda muy vinculado al antecedente,
otras veces es relativamente independiente de él.
• No confundir con “historia” o “suceso del pasado”.
Elementos del CI: Antecedente
El antecedente se denomina también “estímulo
discriminativo”.
Dos tipos:
• ED o E+ : indica la disponibilidad de un
consecuente (la contingencia está activa)
• EΔ o E- : informa de su no-disponibilidad
(contingencia no vigente o inactiva).
La distinción terminológica entre “antecedente” y
“E. discriminativo” debe entenderse como muy
flexible.
Moldeado (“shaping”)
Consecución gradual de una R que no estaba
presente en el repertorio conductual del
organismo, mediante reforzamiento de Rs que son
aproximaciones sucesivas a la deseada.
Es el principal procedimiento de aprendizaje de Rs
genuinamente nuevas para el organismo.
No confundir con “moDELado” (modeling):
aprendizaje de una conducta observando a otro
efectuarla.
Adquisición y extinción
• Periodos en que, respectivamente, se produce o se
elimina el condicionamiento
• Exponer al organismo a una determinada
contingencia o eliminar ésta.
• En laboratorio o clínica, se llama así también al
procedimiento concreto empleado para ello.
Mantenimiento
Aquellas circunstancias que impiden que una
conducta entre en extinción.
A menudo son contingencias de refuerzo.
El análisis del mantenimiento de las conductas
problemáticas es uno de los aspectos más
importantes de la intervención clínica.
Tipos de entrenamiento en CO
Positivo
(dar)
Negativo
(quitar)
Refuerzo (R aumenta)
Castigo (R disminuye)
Entrenamiento
de recompensa
Entrenamiento de
castigo
Entrenamiento de
escape
Entrenamiento de
evitación
Entrenamiento de
omisión / LRS
Entrenamiento de recompensa
Los R+ pueden ser…
• Estímulos concretos, simples (p.e., un trocito de comida, una
sonrisa)
• Configuraciones estimulares complejas (p.e. un amplio
conjunto de signos de aprobación que incluya gestos,
palabras, tonos de voz…)
Principio de Premack
• Conductas de alta probabilidad: las que espontáneamente se
hacen a menudo.
• Conductas de baja probabilidad: las que espontáneamente se
hacen raras veces o nunca.
• Premack: cuando una CBP va seguida a menudo de una CAP,
la primera resulta reforzada (aumenta su probabilidad).
• El Pº de Premack afirma que ésta es precisamente la
naturaleza del refuerzo.
Reforzadores primarios y secundarios
• Son reforzadores primarios los que funcionan de forma
innata para todos los miembros normales de una especie.
• Son reforzadores secundarios aquellos cuya capacidad de
reforzar no es innata, sino que se debe a aprendizajes
previos del organismo.
– Condicionados: han adquirido su poder por
condicionamiento clásico, asociándose a un primario: el
clicker, el ruido de la máquina expendedora…
– No condicionados: dinero, victoria en juegos, etc.
El clicker
• Es el reforzador secundario por excelencia en el
entrenamiento de muchos animales.
• Permite señalar con precisión el momento en que el
organismo “se ha ganado el reforzador” con su conducta.
R+ en humanos
• Por las características de nuestra especie, hay algunos
reforzadores que tienden a funcionar bien casi siempre.
Algunos de los más importantes son:
– Atención por parte de otros. Gestos de comprensión,
interés, etc.
– Signos de aprecio, valoración, prestigio, jerarquía.
– Logro, victoria, triunfo, éxito…
Factores del entrenamiento de recompensa
Factores del entrenamiento de recompensa
Los principales son:
• Magnitud de la recompensa
• Demora de la recompensa
• Impulso
y el más importante:
• Programa de refuerzo
Magnitud del reforzador
• Aumentos en la cantidad o calidad del reforzador mejoran la
actuación del organismo en la situación de adquisición
• Sin embargo, las recompensas cuantiosas producen
conductas menos estables, que se extinguen más
fácilmente.
Magnitud del reforzador
Atención a los efectos de contraste:
• Reducir súbitamente la magnitud de la recompensa durante
la adquisición empeora la actuación del organismo, y puede
perturbar el aprendizaje
• Aumentarla mejora la actuación, y a veces puede mejorar
también un poco el aprendizaje.
Demora de la recompensa
Es el intervalo entre la R y el R+
• Cuanto más breve, mejor.
• A partir de una cierta demora (pocos segundos) ya no se
produce condicionamiento
• Una vez que el organismo emite la R, tenemos una breve
ventana para reforzarla
• Se puede alargar mucho mediante secundarios encadenados;
esto es especialmente importante en humanos.
Impulso
Es el estado motivacional del organismo respecto a aquello que
usamos como R+
• Por ejemplo, no es probable que funcionen recompensas
alimentarias con un animal saciado.
• En el laboratorio se operativiza en términos de deprivación:
gato 12 horas sin beber, rata al 80% de su peso…
• En humanos: muy importante asegurarlo, para no emplear
“recompensas equivocadas”.
Programas de refuerzo
Refuerzo continuo y refuerzo parcial
Refuerzo continuo:
• Hay contingencia perfecta entre R y R+
• Es decir, siempre que se da la R se obtiene recompensa
• Es fácil ver que esto es un caso muy particular
• En la vida real no suele ocurrir mucho
• No es ni mucho menos la pauta de refuerzo más eficaz
Refuerzo parcial:
• La contingencia entre R y R+ no es perfecta
• No siempre que se da la R se obtiene recompensa
• Aquí son posibles infinidad de pautas distintas (programas)
• Más realista, y a menudo más eficaz
Programa de refuerzo: concepto
Es una regla que especifica la pauta con que se administran los
refuerzos según responda el organismo.
Por ejemplo:
– Dar recompensa sólo a las respuestas impares (primera,
tercera, quinta, etc.)
– Recompensar sólo las conductas que se mantengan al
menos dos minutos sin interrupción
– Dar la recompensa sólo a las respuestas que se emiten
transcurridos 10 segundos o más desde la anterior.
– Etc. etc.
Programa de refuerzo: concepto
En sentido estricto, un programa de refuerzo es una regla sin
ambigüedad ninguna, totalmente precisa. Por ejemplo:
– Dar recompensa sólo a las respuestas impares (primera,
tercera, quinta, etc.) es un programa de refuerzo.
– Dar recompensa a la mitad de las respuestas no lo es
(resulta impreciso: hay muchas maneras distintas de
hacerlo).
Este sentido estricto es muy importante en laboratorio; no
tanto en la clínica o el mundo natural.
Y en efecto, el mundo natural está lleno de programas de
refuerzo.
Programa de refuerzo: tipos
Hay infinidad. Sólo veremos algunos de los más importantes
Tipos generales:
– Básicos o simples: se refieren a una sola R, y exigen una
condición simple para administrar la recompensa
– Complejos: Son combinaciones de los anteriores: una sola
R, pero una exigencia compuesta para dar recompensa.
– Concurrentes: se refieren a dos o más Rs alternativas en la
misma situación.
– Otros: programas de duración, de tasas bajas, etc.
Programas básicos
Hay cuatro tipos:
– Razón fija
– Razón variable
– Intervalo fijo
– Intervalo variable
Programas básicos: Razón fija
• Se recompensa cada enésima R emitida por el organismo: la
quinta, la novena, la vigésima…
• Es decir, se exige al organismo un número fijo de Rs. para
darle cada recompensa
• Notación: RF-5, RF-9, RF-20…
Programa RF-5
Ultimo R+
recibido
Nuevo R+
5ª respuesta
Tiempo
Razón fija: efectos en la R.
• Producen una tasa de respuesta (TR) alta, tanto más alta
cuanto mayor sea la razón.
• La respuesta es tanto más difícil de extinguir cuanto
mayor sea la razón (RF-1 se extingue muy fácilmente)
• Asimismo, la TR resultante es bastante estable (constante)
• Esa estabilidad se reduce cuando la tasa es muy alta:
aparecen las pausas post-reforzamiento.
• Pausas post-reforzamiento: el organismo detiene sus
respuestas transitoriamente justo después de recibir la
recompensa (parece como si se tomara un descanso).
Programas básicos: Razón variable
• Es como RF, pero se exige al organismo un número variable
de Rs. para darle cada recompensa.
• Por ejemplo, en un RV-5:
– Damos la primera recompensa a la 7ª R.
– Segunda recompensa a la 3ª R.
– Tercera recompensa a la 6ª
– Etc.
• Y globalmente, la media aritmética de las recompensas
exigidas es 5
• Notación: RV-5, RV-9, RV-20…
• Los programas RV, por tanto, mantienen siempre cierta
incertidumbre sobre “cuándo toca” recibir R+
• Son más “naturales que los RF.
Razón variable: efectos en la R.
• TR muy alta (incluso más que con RF) y tanto más alta
cuanto mayor sea la razón.
• Se obtiene una R muy difícil de extinguir, llegando a
cronificarse.
• TR muy estable (constante)
• No aparecen pausas post-reforzamiento, salvo en valores
altísimos, y a veces ni así.
Programas básicos: Intervalo fijo
• Se recompensa la primera R emitida por el organismo una
vez transcurrido un intervalo desde la última recompensa
administrada
• Tras cada recompensa hay un “tiempo muerto”
• Notación: IF-5”, IF-30”, IF-90”…
Programa IF-10”
Ultimo R+
recibido
Nuevo R+
Rs no reforzadas
(dentro del
intervalo)
1ª R tras
el fin del
intervalo
Tiempo
Intervalo de 10”
Intervalo fijo: efectos en la R.
• TR no muy alta y tanto más baja cuanto mayor sea el valor
del intervalo.
• Con adquisiciones prolongadas, aparece el efecto de
festoneado.
• Efecto de festoneado: El organismo aprende a concentrar
todas sus respuestas cerca del fin del intervalo
• Es como si le hubiera “cogido el tranquillo” al programa: justo
después de recibir refuerzo no vale la pena responder, pero
cuando el intervalo está cerca de su fin es muy probable que
una R reciba recompensa.
Programas básicos: Intervalo variable
• Es como IF, pero la duración del intervalo es diferente para
cada recompensa (oscilando en torno a un promedio).
• Por ejemplo, en un IV-10” podría suceder lo siguiente:
– El intervalo “muerto” tras la primera recompensa dura 5”.
– El intervalo tras la segunda recompensa dura 14”.
– El intervalo tras la tercera recompensa dura 6”
– Etc.
• Y globalmente, la media aritmética de los intervalos aplicados
es de 10”
• Notación: IV-5”, IV-25”, IV-120”…
• Los programas IV, por tanto, mantienen cierta incertidumbre
sobre cuándo la recompensa vuelve a estar disponible
• Son más “naturales que los IF.
Intervalo variable: efectos en la R.
• TR no muy alta y tanto más baja cuanto mayor sea el valor
del intervalo.
• TR muy estable (constante): sin variaciones locales
sistemáticas.
• No aparece efecto de festoneado: El programa no tiene un
“ritmo” temporal que el organismo pueda aprender y
aprovechar.
• Muy utilizados para la implantación de líneas base
conductuales.
Otros programas de refuerzo
Algunos especialmente importantes:
• Programas RDB
• Programas de duración
• Programas concurrentes
– Concurrentes RF-RF
– Concurrentes IV-IV
– Concurrentes encadenados
Programas concurrentes
• Dos o más operantes sometidos cada uno a una
contingencia de refuerzo distinta.
• Reflejan una situación más natural: normalmente tenemos
varias alternativas de conducta posibles.
• En laboratorio se emplean cajas de Skinner modificadas,
con 2 o más palancas.
Palanca A
Comedero
Palanca B
Programas concurrentes RF-RF
Dos palancas, cada una de ellas sometida a un
programa de RF distinto
• Por ejemplo, a: RF-5 B: RF-15
• A la larga, el organismo aprende a maximizar el
operante más “rentable”
Este resultado tiene una implicación muy
importante para el campo profesional:
Refuerzo diferencial de alternativas:
• Es posible reducir o eliminar una conducta
aumentando la tasa de refuerzo de otras
incompatibles con ella.
Extinción
Extinción
Proceso muy importante por sí mismo:
• Indicador de la efectividad de la previa adquisición
• Potente técnica de eliminación de conductas problemáticas
Extinción: curso temporal
Fases típicas de la extinción:
1. Explosión (o pico) de respuesta
– Aumento transitorio de la TR y de la intensidad
– Problemático en la práctica profesional
2. Aumento de la variabilidad en la morfología de R
3. Aumento de conductas alternativas
4. Alteraciones emocionales (frustración, agresividad)
– Tener en cuenta en la intervención
5. Descenso y caída de la TR (hasta cero)
6. Recuperación espontánea
– Va siendo cada vez menor hasta la extinción total
– Importante contar con ella en la intervención
Extinción y castigo negativo
• En ambos casos, la conducta del organismo da
lugar a la privación de un estímulo apetitivo
• Extinción: el estímulo que no se recibe es
precisamente el refuerzo que estaba manteniendo
la conducta
• C- : el E apetitivo que se deja de recibir puede ser
cualquiera.
• En la práctica puede resultar difícil distinguirlos.
También pueden ocurrir a la vez: una conducta
puede ir seguida de la ausencia del E que la
mantenía y ADEMAS de la ausencia de otros.
Casos particulares de condicionamiento
instrumental
Conducta supersticiosa
Skinner, 1948: condicionamiento accidental
• Palomas reciben comida cada 15” de forma no
contingente
• La mayoría desarrollan pautas de conducta extrañas
• Parecían haberse condicionado respecto a la conducta que
casualmente estaban realizando al recibir la comida
• Es como si creyeran que la conducta era la causante de la
aparición de la comida; de ahí que se llame “conducta
supersticiosa”
• Algunas supersticiones humanas (rituales, creencias
erróneas) se forman así, pero la mayoría depende de
otros aspectos (transmisión cultural, etc.)
Condicionamiento operante verbal
• Cuando la R, el consecuente o ambos son de naturaleza
lingüística o paralingüística
• Podemos conseguir cambios muy importantes y diversos
en la conducta verbal, como por ejemplo:
– Alterar preferencias por estructuras gramaticales
– Eliminar muletillas
– Reforzar términos “cultos”
– Aumentar o reducir el tiempo que se habla de un tema
– Etc. etc.
• Enorme importancia práctica
Efectos de interferencia en evitación/escape
• El organismo es sometido durante un tiempo a
descargas eléctricas moderadamente intensas y
prolongadas
• A continuación se le pasa a una situación de
adquisición de evitación/escape en caja de
lanzadera, usando las mismas descargas
• Efecto de interferencia: se observa que el
organismo no aprende.
• Este fenómeno constituye la base experimental
del concepto de indefensión aprendida, y a
menudo interviene en problemas como el estrés
postraumático, etc.
Evitación
Evitación discriminada
• Incluye un antecedente o ED, que es contingente
con la aparición del E aversivo.
• Si el organismo responde al primero, impide
(evita) la aparición del segundo.
• Al principio de la fase de adquisición el organismo
no ha aprendido todavía a evitar el EI, pero se
produce ya una contingencia de escape.
Evitación discriminada: problemas
• Las Rs aprendidas por evitación discriminada
tiende a cronificarse.
• El organismo llega a ser tan eficaz en la
prevención del E.aversivo que mantiene la
conducta “crónicamente”.
• Muchas conductas problemáticas son de evitación.
• Cuando la conducta de evitación se cronifica, es
difícil entender su mantenimiento.
• Hay varias hipótesis para tratar de explicarlo.
Entrenamiento de castigo
Factores de la eficacia del castigo
• E. aversivo intenso (desde el principio)
• E. aversivo inmediato (demora muy baja)
• Mantener la contingencia hasta la total
desaparición de R
• E. aversivo novedoso, poco familiar.
Curiosamente, es exactamente lo contrario de lo
que se suele hacer espontáneamente.
Pensamiento, lenguaje y AFC
Pensamiento y AFC
• Los pensamientos y las verbalizaciones
desempeñan regularmente el papel funcional de
cualquier elemento de la cadena.
• Si “son” o no conductas es otra cuestión.