Download Tema 4 Aprendizaje: Condicionamiento operante • Respuestas

Document related concepts

Condicionamiento operante wikipedia , lookup

Modificación de conducta wikipedia , lookup

Reforzamiento wikipedia , lookup

Ingeniería del comportamiento wikipedia , lookup

Enseñanza programada wikipedia , lookup

Transcript
Tema 4 Aprendizaje: Condicionamiento operante
• Respuestas evocadas (cc) o emitidas (co)
▼
ANTECEDENTES HISTÓRICOS
▼ Selección natural de las especies de Darwin: variedad y selección. Lo mismo puede
aplicarse a las conductas.
• En el condicionamiento operante la consecuencia actúa como seleccionador
▼ Thorndike y la Ley del Efecto
▼
Experimento con gatos http://www.youtube.com/watch?v=BDujDOLre-8
• Utilizó la latencia como evaluación del aprendizaje
• Llamó a la conducta operante, aprendizaje por ensayo y error
• Su explicación fue que la consecuencia placentera reforzaba la conexión E-R:
situación-respuesta (conexionismo). Si la consecuencia es desagradable, se
debilita esa conexión.
▼ El análisis experimental del comportamiento de Skinner
• Acuñó los términos condicionamiento operante (el sujeto opera sobre su
ambiente) e instrumental (la conducta es un instrumento para conseguir algo)
▼
Critica la explicación conexionista E-R
• Tanto en el condicionamiento operante como en el clásico, sólo se deben
tener en cuenta los eventos observables: estímulos y conducta, y no
asociaciones de "naturaleza interna"
• Skinner se centró en las relaciones funcionales entre la conducta y sus
consecuencias
▼
Novedad metodológica
• La operante libre: no hace falta la intervención del experimentador (como en
los experimentos de Thorndike): la conducta puede ocurrir en cualquier
momento
•
▼
DEFINICIÓN DE CONDICIONAMIENTO OPERANTE
• Las conductas operantes están más relacionadas con lo que sucede después que
con los estímulos anteriores. Están determinadas por las consecuencias que han
tenido en el pasado. Son emitidas, no elicitadas.
• El condicionamiento operante puede fortalecer o debilitar respuestas que formaban
parte del repertorio conductual del organismo o incluso dar lugar a la aparición de
respuestas nuevas.
▼ La contingencia de tres términos
• Estímulo discriminativo, respuesta y consecuencia
▼
El estímulo discriminativo (Ed)
• No provocan la respuesta (como en el condicionamiento clásico), sino que
señalan la ocasión para que si la conducta se presenta sea seguida por una
consecuencia
• Es decir, el Ed puede ejercer un fuerte control sobre la conducta (pueden
afectar a su probabilidad) pero no "provoca" la respuesta
• Cuando una respuesta operante no va seguida de una consecuencia
reforzaste, el estímulo que la precede se conoce como estímulo delta (E∆).
Lógicamente, en presencia de un E∆ la probabilidad de respuesta disminuye.
▼
La respuesta
• Una respuesta operante se define por el efecto que provoca en el ambiente,
es decir, se define por su función: las respuestas que provocan los mismos
efectos son ejemplos de una misma clase de respuestas.
▼
El reforzador
• Es cualquier suceso que al hacerse contingente con una respuesta cambia su
probabilidad futura
• Esta es una definición funcional, que ignora la forma concreta del estímulo o
suceso.
▼ Reforzamiento condicionado
• Se puede producir reforzamiento condicionado o secundario, por ejemplo,
el dinero (igual que ocurría con el condicionamiento clásico de segundo
orden)
▼ Aclaraciones
▼
Reforzador-reforzamiento
• El reforzador es el evento o consecuencia aperitiva y el reforzamiento es el
procedimiento o proceso. Cuando la consecuencia es aversiva se habla de
castigo (como proceso), aunque no de evento castigador (punisher)
▼
Respuesta discreta-operante libre
• En la primera sólo se puede medir una respuesta en cada ensayo (p.e.
laberinto, o caja de Thorndike). Se suele tomar como variable dependiente la
latencia. Requiere la intervención del experimentador.
• En la operante libre se suele usar como variable dependiente la tasa o la
probabilidad de respuesta.
▼
Topografía-función
▼ La conducta se puede clasificar en términos estructurales o funcionales
▼
Desde el punto de vista estructural se habla de la topografía o forma
de la respuesta, p.e. secuencia de movimientos.
• También puede modificarse por sus consecuencias
• La función habla de las relaciones de la respuesta con los estímulos
antecedentes y las consecuencias.
• El control de un reforzador puede estar limitado por la topografía de la
respuesta (que pueden ser propias de cada especie)
▼
Instancia de respuesta y clase de respuesta (unidad conductual)
• Skinner describió las relaciones conductuales como la correlación entre una
clase de estímulo y una clase de respuesta. Es un enfoque molar.
• Una instancia de respuesta es la unidad mínima de conducta y se refeire a la
ocurrencia particular de respuesta tomando en cuenta además su topografía
▼
Interacciones clásicas y operantes en el control de la conducta
• En contraste con el cc, se necesita que el organismo está activo: para poder
reforzar o castigar una conducta, ésta debe estar en el repertorio del
organismo
▼ Si no está en el repertorio, se puede instaurar: ¿cómo?
▼
Automoldeamiento
• Lo que en principio es condicionamiento clásico se puede convertir en
operante si hacemos que el reforzador dependa de la respuesta de
picoteo de la tecla iluminada (pasaría de ser un EC a un Ed)
▼ Distinguir entre condicionamiento clásico y operante puede ser artificial: la
relación del organismo con el medio es más compleja
• Aunque parece que hay distintos mecanismos cerebrales para cada tipo
▼
PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE
• Procesos conductuales reproducibles: tienen un patrón identificable bajo condiciones
objetivamente especificadas y sin reproducibles en diferentes individuos
▼ Contingencia: relación de dependencia funcional entre dos componentes de un
condicionamiento
• Positiva: en condicionamiento operante, cuando una respuesta es seguida de una
consecuencia
• Negativa, cuando una respuesta elimina o previene la aparición de una
consecuencia
•
▼ Procedimientos destinados a aumentar conductas
▼
Reforzamiento positivo (o entrenamiento de recompensa)
• Las consecuencias aperitivas pueden ser reforzadores primarios (p.e. comida)
o secundarios (elogios, dinero...)
▼ El animal tiene que estar motivado (p.e. hambriento) para obtener el
reforzador
• Se les suele privar (aunque están más gordas que las ratas en libertad)
▼ Para que el animal adquiera una nueva conducta que no está en su
repertorio se usa el moldeamiento o método de aproximaciones
sucesivas.
• Reforzar respuestas que se aproximen a la respuesta final exigida y dejar
de reforzarlas según se va aproximando a la respuesta final.
▼
Escape y evitación (reforzamiento negativo)
• Escape: eliminar o detener un evento o estímulo aversivo
• Evitación: impedir que se presente el estímulo aversivo
• Normalmente los procedimientos comienzan con el escape y continúan con la
evitación
▼ Procedimientos destinados a disminuir conductas
▼
Castigo
• Contingencia positiva entre una conducta y una consecuencia aversiva
• Para castigar una respuesta antes ha tenido que ser reforzada
▼
Entrenamiento de omisión o castigo negativo
• Contingencia negativa entre una conducta y una consecuencia aperitiva
▼ Efectos colaterales de los procedimientos aversivos (evitación-escape y
castigo)
▼
Desaconsejan su uso por razones éticas y efectos colaterales
• Efectos emocionales que inhiben la conducta al principio, pero que se van
disipando
• La estimulación aversiva puede asociarse con otros estímulos de la situación
e inhibir las conductas deseables.
• El castigo se suele asociar más con quien lo ejecuta que con la conducta
indeseada: rechazará a la persona en lugar de cambiar su comportamiento
▼ La extinción en el reforzamiento positivo
• Una respuesta que se reforzaba se deja de reforzar: disminuye la respuesta
• La extinción de los procedimientos aversivos se explicará en el capítulo del
control aversivo
▼
La conducta no se elimina de forma absoluta
• Recuperación espontánea (si se deja pasar tiempo tras la extinción)
▼
Además de disminuir la respuesta, tiene otros efectos sobre la conducta
• Estallido de extinción: aumento de la conducta en los primeros momentos en
los que no se presenta el reforzador
• Aumento de la variabilidad de respuesta
• (Ejemplo del padre que deja de atender al niño que le interrumpe)
▼ Provoca también frustración, respuestas emocionales incondicionadas
• Una de ellas es la agresión
▼
Resistencia a la extinción: tasa de respuesta durante las sesiones de
extinción
▼ Efecto del sobreentrenamiento: el reforzamiento continuo provoca menos
resistencia a la extinción que uno parcial o intermitente (efecto del
reforzamiento parcial en la extinción)
• Ejemplo: llanto de los niños
▼
Explicaciones de esta paradoja
• en el reforzamiento continuo es más fácil distinguir adquisición y
extinción
• Una generalización de la situación de reforzamiento intermitente a la de
extinción
• Contacto con las contingecias: en el reforzamiento parcial (p.e. RF 50),
cada 50 respuestas hay una de extinción. En el continuo, habría 50.
• Teoría de la frustración (Amsel): durante el reforzamiento parcial el
animal aprende a responder aunque no reciba recompensa, cuando
sabe que va a ser frustrado, algo que continua en la extinción
▼ Variables que influyen
• Magnitud del reforzador: si el reforzamiento es continuo, disminuye la
resistencia a la extinción; si es parcial, la aumenta
• Inmediatez de la recompensa: cuando la demora es corta, la resistencia a
la extinción es mayor (tragaperras)
▼
Algunas teorías relacionan la extinción con el olvido
▼ Pero la extinción es algo diferente: no es lo contrario a la adquisición (un
desaprendizaje), sino un nuevo tipo de aprendizaje
▼
Tres fenómenos que ilustran esto
• Renovación: recuperación de la respuesta extinguida en un contexto
diferente al de la extinción
• Restauración de la conducta de extinción, si se vuelve a colocar a los
sujetos en el contexto de extinción
• Restablecimiento: tras la extinción, se presenta el reforzador aunque de
forma no contingente: se vuelve a presentar la conducta extinguida
• Estos fenómenos muestran que las claves tienen un control sobre la
conducta (la extinción es específica del contexto en el que ha ocurrido) y
que este control se desvanece con el tiempo
▼
FENÓMENOS DEL CONDICIONAMIENTO OPERANTE
▼ La conducta supersticiosa
▼
Una respuesta azarosa va seguida de un reforzador accidentalmente
(contigüidad sin contingencia)
▼ Skinner: experimento con palomas: reciben comida cada 15 segundos y
realizan conductas estereotipadas (que por casualidad fueron reforzadas en
los primeros ensayos)
▼
Staddon y Simmelhag dan otra explicación:
▼ las conductas se podrían agrupar en dos categorías:
• Conductas de Ínterin, en medio del intervalo
• Conductas terminales, al final del intervalo: picotear en el comedero
o cerca
• No es reforzamiento casual, sino respuestas innatas dependiendo de la
probabilidad de reforzamiento
• En resumen, unas conductas supersticiosas estarían explicadas por
reforzamiento accidental (Skinner) y otras por tendencias innatas relacionadas
con el paso del tiempo y la aparición de reforzadores en ambientes naturales
▼
Conducta supersticiosa en humanos: juegos de azar, deporte...
• Las personas que tienen gran necesidad de control sobre los eventos
desarrollan conductas supersticiosas con más facilidad
▼ Herrstein
• supersticiones idiosincráticas, debidas a la experiencia personal
• supersticiones sociales, residuo de contingencias previas de reforzamiento
que ya no eran efectivas
▼ Deriva instintiva y el concepto de relevancia
• No se puede condicionar cualquier tipo de conducta
• Hay relaciones de relevancia o pertinencia entre respuestas y reforzadores, es
decir hay respuestas más fáciles o difíciles de reforzar con ciertos tipos de
reforzadores, debido a la historia evolutiva de la especie
• Experimentos de los Breland con cerdos, mapaches...: deriva instintiva:
respuestas naturales relacionadas con la comida, incompatibles con las que se
quieren condicionar
▼ Cantidad y calidad de la recompensa: el contraste conductual
• La efectividad de un reforzador depende de la comparación con él mismo (de sus
cambios de magnitud o calidad) o con otros
▼
Experimento de Mellgren
•
• Contraste conductual positivo: las ratas que mejoran su recompensa corren
más deprisa
• Contraste conductual negativo: las ratas que empeoran su recompensa corren
más despacio
• La sensibilidad de un individuo hacia la mejora o empeoramiento de
recompensas depende del estado emocional en que se encuentre
▼ Indefensión aprendida
• Controlabilidad de las consecuencias aversivas
▼
Seligman
• Indefensión aprendida: los animales sin control desarrollan una reacción
emocional y un comportamiento pasivo ante circunstancias parecidas,
parecido a la depresión
▼ Experimento
•
• El grupo que recibió descargas inescapables en la fase de preexposición
aprendió más lentamente en la fase de escape-evitación
• Explicación: hipótesis de la indefensión aprendida: el grupo acoplado tiene la
expectativa de que su conducta no tiene efecto sobre las consecuencias
aversivas
▼
¿Cómo reducir el efecto de indefensión?
• Forzando a los perros a cruzar la barrera durante varios ensayos: situar al
sujeto en una situación en la que no pueda fallar
• Se puede prevenir: inmunización, cuando un sujeto tiene una experiencia
previa con descargas escapables
▼ Efectos de la demora del reforzador: el marcado
• La demora del reforzamiento puede disminuir o aumentar la conducta
• Procedimiento de marcado: una forma de evitar efectos de la demora es marcar
la respuesta haciendo que esta pueda diferenciarse de otros eventos que ocurren
en el periodo de demora
▼
Lieberman y cols.:
•
• Dos grupos de ratas: grupo marcado (se les sacaba del corredor tras elegir el
brazo blanco o negro) y no marcado (pasaban a la caja de demora)
• Los primeros aprendían mejor la relación brazo negro - comida
▼ Devaluación del reforzador
• Asociar el reforzador con un estímulo de naturaleza contraria (p.e. comida-cloruro
de litio)
▼
Experimento Colwill y Rescorla
• Dos posibles respuestas (palanca y tirador) que van seguidas de dos tipos de
reforzadores (comida o agua con azúcar)
• 2º fase: se asocia uno de los reforzadores con cloruro de litio para producirles
malestar
• Se comprueba que el animal realiza menos la respuesta asociada con el
reforzador "devaluado"
▼
En otros casos, la devaluación no afecta a la respuesta
▼ Hay que distinguir entre
• Acción instrumental, dependiente por el valor de sus consecuencias
• Hábitos: no dependen del valor del reforzador
▼ Experimento de Adams
• Un grupo de ratas dio 100 respuestas reforzadas con comido y otro 500
• La devaluación del reforzador sólo tuvo un efecto claro en los de 100
• La práctica prolongada produce una conducta más rígida, yautomática
• Ejemplo de conductas compulsivas en humanos (adicción a drogas)