Download Tema 4 Aprendizaje: Condicionamiento operante • Respuestas
Document related concepts
Transcript
Tema 4 Aprendizaje: Condicionamiento operante • Respuestas evocadas (cc) o emitidas (co) ▼ ANTECEDENTES HISTÓRICOS ▼ Selección natural de las especies de Darwin: variedad y selección. Lo mismo puede aplicarse a las conductas. • En el condicionamiento operante la consecuencia actúa como seleccionador ▼ Thorndike y la Ley del Efecto ▼ Experimento con gatos http://www.youtube.com/watch?v=BDujDOLre-8 • Utilizó la latencia como evaluación del aprendizaje • Llamó a la conducta operante, aprendizaje por ensayo y error • Su explicación fue que la consecuencia placentera reforzaba la conexión E-R: situación-respuesta (conexionismo). Si la consecuencia es desagradable, se debilita esa conexión. ▼ El análisis experimental del comportamiento de Skinner • Acuñó los términos condicionamiento operante (el sujeto opera sobre su ambiente) e instrumental (la conducta es un instrumento para conseguir algo) ▼ Critica la explicación conexionista E-R • Tanto en el condicionamiento operante como en el clásico, sólo se deben tener en cuenta los eventos observables: estímulos y conducta, y no asociaciones de "naturaleza interna" • Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias ▼ Novedad metodológica • La operante libre: no hace falta la intervención del experimentador (como en los experimentos de Thorndike): la conducta puede ocurrir en cualquier momento • ▼ DEFINICIÓN DE CONDICIONAMIENTO OPERANTE • Las conductas operantes están más relacionadas con lo que sucede después que con los estímulos anteriores. Están determinadas por las consecuencias que han tenido en el pasado. Son emitidas, no elicitadas. • El condicionamiento operante puede fortalecer o debilitar respuestas que formaban parte del repertorio conductual del organismo o incluso dar lugar a la aparición de respuestas nuevas. ▼ La contingencia de tres términos • Estímulo discriminativo, respuesta y consecuencia ▼ El estímulo discriminativo (Ed) • No provocan la respuesta (como en el condicionamiento clásico), sino que señalan la ocasión para que si la conducta se presenta sea seguida por una consecuencia • Es decir, el Ed puede ejercer un fuerte control sobre la conducta (pueden afectar a su probabilidad) pero no "provoca" la respuesta • Cuando una respuesta operante no va seguida de una consecuencia reforzaste, el estímulo que la precede se conoce como estímulo delta (E∆). Lógicamente, en presencia de un E∆ la probabilidad de respuesta disminuye. ▼ La respuesta • Una respuesta operante se define por el efecto que provoca en el ambiente, es decir, se define por su función: las respuestas que provocan los mismos efectos son ejemplos de una misma clase de respuestas. ▼ El reforzador • Es cualquier suceso que al hacerse contingente con una respuesta cambia su probabilidad futura • Esta es una definición funcional, que ignora la forma concreta del estímulo o suceso. ▼ Reforzamiento condicionado • Se puede producir reforzamiento condicionado o secundario, por ejemplo, el dinero (igual que ocurría con el condicionamiento clásico de segundo orden) ▼ Aclaraciones ▼ Reforzador-reforzamiento • El reforzador es el evento o consecuencia aperitiva y el reforzamiento es el procedimiento o proceso. Cuando la consecuencia es aversiva se habla de castigo (como proceso), aunque no de evento castigador (punisher) ▼ Respuesta discreta-operante libre • En la primera sólo se puede medir una respuesta en cada ensayo (p.e. laberinto, o caja de Thorndike). Se suele tomar como variable dependiente la latencia. Requiere la intervención del experimentador. • En la operante libre se suele usar como variable dependiente la tasa o la probabilidad de respuesta. ▼ Topografía-función ▼ La conducta se puede clasificar en términos estructurales o funcionales ▼ Desde el punto de vista estructural se habla de la topografía o forma de la respuesta, p.e. secuencia de movimientos. • También puede modificarse por sus consecuencias • La función habla de las relaciones de la respuesta con los estímulos antecedentes y las consecuencias. • El control de un reforzador puede estar limitado por la topografía de la respuesta (que pueden ser propias de cada especie) ▼ Instancia de respuesta y clase de respuesta (unidad conductual) • Skinner describió las relaciones conductuales como la correlación entre una clase de estímulo y una clase de respuesta. Es un enfoque molar. • Una instancia de respuesta es la unidad mínima de conducta y se refeire a la ocurrencia particular de respuesta tomando en cuenta además su topografía ▼ Interacciones clásicas y operantes en el control de la conducta • En contraste con el cc, se necesita que el organismo está activo: para poder reforzar o castigar una conducta, ésta debe estar en el repertorio del organismo ▼ Si no está en el repertorio, se puede instaurar: ¿cómo? ▼ Automoldeamiento • Lo que en principio es condicionamiento clásico se puede convertir en operante si hacemos que el reforzador dependa de la respuesta de picoteo de la tecla iluminada (pasaría de ser un EC a un Ed) ▼ Distinguir entre condicionamiento clásico y operante puede ser artificial: la relación del organismo con el medio es más compleja • Aunque parece que hay distintos mecanismos cerebrales para cada tipo ▼ PROCEDIMIENTOS BÁSICOS DEL CONDICIONAMIENTO OPERANTE • Procesos conductuales reproducibles: tienen un patrón identificable bajo condiciones objetivamente especificadas y sin reproducibles en diferentes individuos ▼ Contingencia: relación de dependencia funcional entre dos componentes de un condicionamiento • Positiva: en condicionamiento operante, cuando una respuesta es seguida de una consecuencia • Negativa, cuando una respuesta elimina o previene la aparición de una consecuencia • ▼ Procedimientos destinados a aumentar conductas ▼ Reforzamiento positivo (o entrenamiento de recompensa) • Las consecuencias aperitivas pueden ser reforzadores primarios (p.e. comida) o secundarios (elogios, dinero...) ▼ El animal tiene que estar motivado (p.e. hambriento) para obtener el reforzador • Se les suele privar (aunque están más gordas que las ratas en libertad) ▼ Para que el animal adquiera una nueva conducta que no está en su repertorio se usa el moldeamiento o método de aproximaciones sucesivas. • Reforzar respuestas que se aproximen a la respuesta final exigida y dejar de reforzarlas según se va aproximando a la respuesta final. ▼ Escape y evitación (reforzamiento negativo) • Escape: eliminar o detener un evento o estímulo aversivo • Evitación: impedir que se presente el estímulo aversivo • Normalmente los procedimientos comienzan con el escape y continúan con la evitación ▼ Procedimientos destinados a disminuir conductas ▼ Castigo • Contingencia positiva entre una conducta y una consecuencia aversiva • Para castigar una respuesta antes ha tenido que ser reforzada ▼ Entrenamiento de omisión o castigo negativo • Contingencia negativa entre una conducta y una consecuencia aperitiva ▼ Efectos colaterales de los procedimientos aversivos (evitación-escape y castigo) ▼ Desaconsejan su uso por razones éticas y efectos colaterales • Efectos emocionales que inhiben la conducta al principio, pero que se van disipando • La estimulación aversiva puede asociarse con otros estímulos de la situación e inhibir las conductas deseables. • El castigo se suele asociar más con quien lo ejecuta que con la conducta indeseada: rechazará a la persona en lugar de cambiar su comportamiento ▼ La extinción en el reforzamiento positivo • Una respuesta que se reforzaba se deja de reforzar: disminuye la respuesta • La extinción de los procedimientos aversivos se explicará en el capítulo del control aversivo ▼ La conducta no se elimina de forma absoluta • Recuperación espontánea (si se deja pasar tiempo tras la extinción) ▼ Además de disminuir la respuesta, tiene otros efectos sobre la conducta • Estallido de extinción: aumento de la conducta en los primeros momentos en los que no se presenta el reforzador • Aumento de la variabilidad de respuesta • (Ejemplo del padre que deja de atender al niño que le interrumpe) ▼ Provoca también frustración, respuestas emocionales incondicionadas • Una de ellas es la agresión ▼ Resistencia a la extinción: tasa de respuesta durante las sesiones de extinción ▼ Efecto del sobreentrenamiento: el reforzamiento continuo provoca menos resistencia a la extinción que uno parcial o intermitente (efecto del reforzamiento parcial en la extinción) • Ejemplo: llanto de los niños ▼ Explicaciones de esta paradoja • en el reforzamiento continuo es más fácil distinguir adquisición y extinción • Una generalización de la situación de reforzamiento intermitente a la de extinción • Contacto con las contingecias: en el reforzamiento parcial (p.e. RF 50), cada 50 respuestas hay una de extinción. En el continuo, habría 50. • Teoría de la frustración (Amsel): durante el reforzamiento parcial el animal aprende a responder aunque no reciba recompensa, cuando sabe que va a ser frustrado, algo que continua en la extinción ▼ Variables que influyen • Magnitud del reforzador: si el reforzamiento es continuo, disminuye la resistencia a la extinción; si es parcial, la aumenta • Inmediatez de la recompensa: cuando la demora es corta, la resistencia a la extinción es mayor (tragaperras) ▼ Algunas teorías relacionan la extinción con el olvido ▼ Pero la extinción es algo diferente: no es lo contrario a la adquisición (un desaprendizaje), sino un nuevo tipo de aprendizaje ▼ Tres fenómenos que ilustran esto • Renovación: recuperación de la respuesta extinguida en un contexto diferente al de la extinción • Restauración de la conducta de extinción, si se vuelve a colocar a los sujetos en el contexto de extinción • Restablecimiento: tras la extinción, se presenta el reforzador aunque de forma no contingente: se vuelve a presentar la conducta extinguida • Estos fenómenos muestran que las claves tienen un control sobre la conducta (la extinción es específica del contexto en el que ha ocurrido) y que este control se desvanece con el tiempo ▼ FENÓMENOS DEL CONDICIONAMIENTO OPERANTE ▼ La conducta supersticiosa ▼ Una respuesta azarosa va seguida de un reforzador accidentalmente (contigüidad sin contingencia) ▼ Skinner: experimento con palomas: reciben comida cada 15 segundos y realizan conductas estereotipadas (que por casualidad fueron reforzadas en los primeros ensayos) ▼ Staddon y Simmelhag dan otra explicación: ▼ las conductas se podrían agrupar en dos categorías: • Conductas de Ínterin, en medio del intervalo • Conductas terminales, al final del intervalo: picotear en el comedero o cerca • No es reforzamiento casual, sino respuestas innatas dependiendo de la probabilidad de reforzamiento • En resumen, unas conductas supersticiosas estarían explicadas por reforzamiento accidental (Skinner) y otras por tendencias innatas relacionadas con el paso del tiempo y la aparición de reforzadores en ambientes naturales ▼ Conducta supersticiosa en humanos: juegos de azar, deporte... • Las personas que tienen gran necesidad de control sobre los eventos desarrollan conductas supersticiosas con más facilidad ▼ Herrstein • supersticiones idiosincráticas, debidas a la experiencia personal • supersticiones sociales, residuo de contingencias previas de reforzamiento que ya no eran efectivas ▼ Deriva instintiva y el concepto de relevancia • No se puede condicionar cualquier tipo de conducta • Hay relaciones de relevancia o pertinencia entre respuestas y reforzadores, es decir hay respuestas más fáciles o difíciles de reforzar con ciertos tipos de reforzadores, debido a la historia evolutiva de la especie • Experimentos de los Breland con cerdos, mapaches...: deriva instintiva: respuestas naturales relacionadas con la comida, incompatibles con las que se quieren condicionar ▼ Cantidad y calidad de la recompensa: el contraste conductual • La efectividad de un reforzador depende de la comparación con él mismo (de sus cambios de magnitud o calidad) o con otros ▼ Experimento de Mellgren • • Contraste conductual positivo: las ratas que mejoran su recompensa corren más deprisa • Contraste conductual negativo: las ratas que empeoran su recompensa corren más despacio • La sensibilidad de un individuo hacia la mejora o empeoramiento de recompensas depende del estado emocional en que se encuentre ▼ Indefensión aprendida • Controlabilidad de las consecuencias aversivas ▼ Seligman • Indefensión aprendida: los animales sin control desarrollan una reacción emocional y un comportamiento pasivo ante circunstancias parecidas, parecido a la depresión ▼ Experimento • • El grupo que recibió descargas inescapables en la fase de preexposición aprendió más lentamente en la fase de escape-evitación • Explicación: hipótesis de la indefensión aprendida: el grupo acoplado tiene la expectativa de que su conducta no tiene efecto sobre las consecuencias aversivas ▼ ¿Cómo reducir el efecto de indefensión? • Forzando a los perros a cruzar la barrera durante varios ensayos: situar al sujeto en una situación en la que no pueda fallar • Se puede prevenir: inmunización, cuando un sujeto tiene una experiencia previa con descargas escapables ▼ Efectos de la demora del reforzador: el marcado • La demora del reforzamiento puede disminuir o aumentar la conducta • Procedimiento de marcado: una forma de evitar efectos de la demora es marcar la respuesta haciendo que esta pueda diferenciarse de otros eventos que ocurren en el periodo de demora ▼ Lieberman y cols.: • • Dos grupos de ratas: grupo marcado (se les sacaba del corredor tras elegir el brazo blanco o negro) y no marcado (pasaban a la caja de demora) • Los primeros aprendían mejor la relación brazo negro - comida ▼ Devaluación del reforzador • Asociar el reforzador con un estímulo de naturaleza contraria (p.e. comida-cloruro de litio) ▼ Experimento Colwill y Rescorla • Dos posibles respuestas (palanca y tirador) que van seguidas de dos tipos de reforzadores (comida o agua con azúcar) • 2º fase: se asocia uno de los reforzadores con cloruro de litio para producirles malestar • Se comprueba que el animal realiza menos la respuesta asociada con el reforzador "devaluado" ▼ En otros casos, la devaluación no afecta a la respuesta ▼ Hay que distinguir entre • Acción instrumental, dependiente por el valor de sus consecuencias • Hábitos: no dependen del valor del reforzador ▼ Experimento de Adams • Un grupo de ratas dio 100 respuestas reforzadas con comido y otro 500 • La devaluación del reforzador sólo tuvo un efecto claro en los de 100 • La práctica prolongada produce una conducta más rígida, yautomática • Ejemplo de conductas compulsivas en humanos (adicción a drogas)