Download Cap. 5 Fundamentos del condicionamiento operante o instrumental
Document related concepts
Transcript
Cap. 5 Fundamentos del condicionamiento operante o instrumental Se analizarán las situaciones d aprendizaje en las q los Es q encuentra un organismo son resultado directo d su conducta, a la cual se hace referencia como dirigida a metas. Ej. perro – intruso se aproxima – perro ladra – resultado: extraño se va. Como el ladrido tiene consecuencias claras, es tentador concluir q el perro lo hizo para producir esa consecuencia – ladrido dirigido a esa meta. Cierto aspecto de la conducta es instrumental en la producción de un estimulo o resultado significativo. El comportamiento tiene lugar porq acciones similares han generado la misma clase d resultado en el pasado. Al comportamiento q se da por haber sido previamente instrumental en la generación d ciertas consecuencias: conducta instrumental. ¿Cómo puede investigarse el condicionamiento instrumental? Una forma seria ir al medio natural y buscar ejemplos de conductas dirigidas a metas, pero esto es ificil porque tal forma de comportamiento es compleja de aislar sin manipulación experimental. I Primeras investigaciones de condicionamiento instrumental Comenzó con Thorndike, cuya intención original era estudiar la inteligencia animal. Creó una serie d cajas problemas para sus experimentos. Su procedimiento d entrenamiento consistía en colocar un gato hambriento en la caja con algo d comida afuera, a la vista del animal. La tarea para el gato era aprender a salir d la caja y obtener el alimento. Creó diferentes tipos d cajas problemas que exigían distintas respuestas para salir. En las más simples, los movimientos inicialmente azarosos lo llevaban a escapar y a acceder a la comida, con ensayos repetidos el animal salia cada vez mas rapido. Y en las más complejas, el escape mejoraba con la práctica pero de manera más lenta, ya q el felino tenía q jalar una cuerda, presionar un pedal y abrir uno d dos pestillos para salir. Para Thorndike los resultados de estos estudios, reflejaban el aprendizaje d una asociación entre el E (caja) y la R (escapar). A medida q la asociación se hacia más fuerte, la R era más rápida, esta asociación era fortalecida siempre y cuando fuera seguida se una consecuencia exitosa. Formuló la ley del efecto: establece q si una R en presencia de un E es seguida por un acontecimiento satisfactorio, se fortalece la asociación entre E y R, por el contrario, si a la R le sigue un acontecimiento molesto, la asociación E-R se debilita. De acuerdo con esta ley, los animales aprenden una asociación entre la R y los E presentes en el momento en q ésta ocurre. La consecuencia d la R no es uno d los elementos d la asociación. La consecuencia d satisfacción o d molestia sirven para fortalecer o debilitar las asociación entre la R y la situación E. Por lo tanto esta ley implica un aprendizaje E-R. II Planteamientos modernos para el estudio del condicionamiento instrumental 1. Procedimiento de ensayo discreto: son parecidos al método que empleo Thorndike en cuanto a que en cada ensayo d entrenamiento termina con el retiro del animal del aparato y la R instrumental se ejecuta solo una vez en cada intento. Este procedimiento a veces se lleva acabo en cierto tipo de laberintos, su utilización la introdujo W.S. Small. Existen diferentes tipos d laberinto: - Laberinto d callejón recto: Posee una caja d inicio en un extremo y una caja meta en el opuesto. A la rata se le coloca en la caja de inicio al comienzo de cada ensayo. Se le permite que haga su recorrido por el corredor hasta que alcanza la meta que, por lo general, contiene un reforzador. - Laberinto en forma de T: Consta d una caja d inicio y dos cajas meta, ubicadas el los extremos d la T. Como tiene 2 cajas T es muy adecuado para estudiar conducta de elección. La conducta en un laberinto puede cuantificarse midiendo q tan rápido llega el animal d la caja d inicio a la meta, lo q se denomina velocidad d carrera, la cual aumenta con ensayos repetidos. Otra medida común es la latencia, q es el tiempo q le lleva al animal dejar la caja y empezar a desplazarse por el corredor, el cual se vuelve más corto, conforme progresa el entrenamiento. 2. Procedimientos de operante libre: permiten q el animal repita la R instrumental libremente una y otra vez. El método de operante libre fue concebido por Skinner para estudiar la conducta de manera mas continua de lo que es posible con los laberintos. Skinner estaba interesado en analizar en el laboratorio una forma d comportamiento q fuese representativa d toda actividad en curso q ocurre d manera natural. Propuso el concepto d operante como una forma d dividir la conducta en unidades censurablemente significativas. La caja de Skinner es una cámara pequeña q contiene una palanca q la rata puede desplazar hacia debajo d manera repetida y cuenta también con un mecanismo q puede entregar un reforzador (alimento o agua). Se utiliza para estudiar conducta operante libre. (se coloca: rata hambrienta en la caja, comida conectada electrónicamente al sist. de suministro de alimento---rata presiona la palanca----comida cae) Una R operante es una R definida por el efecto q produce en el medio. El aspecto fundamental no son los músculos asociados a la conducta, si no la manera en q ésta opera en el medio. Diferentes Rs musculares constituyen la misma operante, si la conducta tiene el mismo efecto sobre el medio (lo importante es q presione la palanca, independientemente d q la rata la presione con la pata derecha, izquierda, la cola, etc). - Entrenamiento de comedero y moldeamiento: casi todas las ratas cuando se colocan en una caja d Skinner no presionan la palanca d manera frecuente. Para establecer la conducta d presión d palanca se realizan pasos preliminares. Primero se hace un condicionamiento clásico: parear el sonido del suministrador de comida (comedero) y la comida en el plato. Luego de suficientes pareamientos, el sonido llega a provocar una R d seguimiento d señales: rata se acerca al plato donde está la pella. Esta fase preliminar d condicionamiento, se denomina entrenamiento de comedero. Para facilitar la adquisición d una nueva R operante, los experimentadores emplean una estrategia, llamada moldeamiento: q implica 2 tácticas complementarias: reforzar aproximaciones sucesivas a la R requerida y no reforzar las formas anteriores de R. El moldeamiento exige el entrenamiento d componentes o Rs q se aproximen a la conducta final. Una vez q se ha establecido una R operante como, presión d palanca, la forma en la q el organismo cumple con la operación requerida en el medio no importa. Con amplio entrenamiento las Rs se vuelven mas eficaces y llegan a implicar menos desgaste de energía. - Moldeamiento d la forma d la Respuesta: Los procedimientos d moldeamiento pueden emplearse no sólo para entrenar nuevas operantes, sino también para enseñar características o parámetros nuevos d R instrumental. En un estudio d laboratorio, Deich, Allan y Zeigler moldearon la R d abrir el pico en palomas q picoteaban por un reforzamiento alimentario. Las aves lo hacían por alimento con el pico ligeramente abierto. Se sirvieron d un transductor especial para medir q tanto mantenías las aves el pico abierto mientras picoteaban una tecla d Rs. Primero se reforzó a las palomas por picotear independientemente de si tenia el pico abierto, luego se le reforzó solo en los casos de que picotearan con el pico abierto. La variabilidad d Rs garantiza q al menos algunas d las q ocurren, estén en la dirección q el investigador quiere moldear. Así pues, el moldeamiento aprovecha la variabilidad inherente d la conducta, sin la cual los procedimientos d moldeamiento no tendrían éxito. Los aspectos d los resultados de este experimento demuestran q el moldeamiento puede generar nuevas formas d R (formas nunca antes ejecutadas por el organismo). - Tasa de respuesta como medida de la conducta operante: la ventaja principal d los métodos d operante libre sobre las técnicas de ensayo discreto pata el estudio de la conducta instrumental es q los primeros permiten una observación continua del comportamiento por largos períodos. Con oportunidades continuas d R, el organismo, y no el experimentador, es el q determina la frecuencia d R instrumental. Skinner propuso q la tasa de ocurrencia d la conducta operante se empleará como una medida d probabilidad d R. Las Rs muy probables ocurren d manera frecuente y tienen una elevada tasa, mientras q las poco probables, casi nunca tienen lugar y presentan una tasa baja. - Registrador acumulativo: Skinner creó un instrumento para medir la tasa d conducta en el tiempo: registrador acumulativo. Este consiste en un tambor rotativo q saca papel del registrador, a una velocidad constante y una plumilla q descansa sobre la superficie del papel. Si no hay Rs, la plumilla traza una línea horizontal, si el animal presiona la palanca, la plumilla se desplaza un paso hacia arriba en el papel, al final la distancia vertical sería el total d Rs q hace el animal. Como el papel sale del registrador a una velocidad constante, la distancia vertical es el tiempo transcurrido en la sesión. La pendiente d la línea hecha por el registrador representa la tasa d Rs. Este instrumento ofrece una representación visual completa de cuando y que tan frecuentemente responde el animal durante la sesión. III Procedimientos d condicionamiento instrumental En el condicionamiento instrumental, una R se relaciona con un suceso ambiental, el cual puede ser agradable o desagradable, cuando es agradable se le denomina E apetitivo y cuando es desagradable E aversivo. La R instrumental puede producir la presentación del E, en este caso se dice q hay una contingencia positiva entre la R y el q resulta d ella, o disminuir o eliminar un E, en cuyo caso se dice q hay una contingencia negativa entre la R y su resultado. Que el resultado d un procedimiento d condicionamiento sea un aumento o una disminución en la tasa d Rs depende tanto d la contingencia entre R y resultado como d la naturaleza del mismo. Procedimientos comunes de conducta operante difieren en el tipo de estimulo (apetitivo o aversivo) controlado por la respuesta instrumental y si la respuesta produce o elimina el estimulo. Reforzamiento positivo: hace referencia a los procedimientos en los q la R instrumental activa produce un E apetitivo, hay una contingencia positiva entre la R y el E. Si se da la R se presenta el E y si no se da la R, no se presenta el E. El procedimiento genera un aumento en la tasa d R. (Ej. comida a la rata cuando presiona la palanca, no comida cuando no la presiona) Castigo: hace referencia a los procedimientos en los q la R instrumental produce un E aversivo, hay una contingencia positiva porque si hay R se presenta el E aversivo, y si no hay R, no se presenta el E aversivo. Este procedimiento genera una disminución en la tasa d R. (Ej. reprender a un niño por correr en la calle). Disminuye la probabilidad futura de la respuesta instrumental y por lo tanto, se llaman procedimientos punitivos o de castigo. Como en el castigo hay una cointingencia positiva también es conocido como castigo positivo. Reforzamiento negativo: hace referencia a los procedimientos en los q la R instrumental termina o previene la presentación d un E aversivo. Siempre está presente en E aversivo, por lo tanto hay una contingencia negativa, si hay R, el E aversivo se elimina, si no se da la R el E aversivo continua. Este procedimiento genera un aumento en la tasa de R si es un estimulo aversivo. Existen 2 tipos d reforzamiento negativo: - Escape: se presenta el E aversivo, la R instrumental puede eliminarlo. La presencia de un estimulo aversivo establece la ocasión para que se emita la respuesta instrumental, a la que refuerza entonces la terminación del estimulo aversivo. (Ej. alto volumen del radio- apagarlo). - Evitación: el E está programado para q ocurra en el futuro, entonces la R instrumental previene el E aversivo. (Ej. en el laboratorio, puede programarse que la rata reciba descargas al final d un E d advertencia, no obstante, si emite la R instrumental durante este E, la descarga no se dará). Entrenamiento por omisión: hace referencia a los procedimientos en los cuales la R instrumental impide un E apetitivo. Hay una contingencia negativa porque si hay R instrumental, no se da o entrega el E apetitivo, si no hay R instrumental si se da o se entrega el E apetitivo. El entrenamiento por omisión desalienta las respuestas o produce un efecto punitivo. Este entrenamiento es por lo general el método preferido para desalentar conductas humanas porque, a diferencia dl castigo, no implica dar un estimulo aversivo (ej: mandar a un niño a su habitación, quitar la licencia de conducir). También es conocido como reforzamiento diferencial de otras conductas (RDO). Este procedimiento genera una disminución en la tasa d R. Se le da el E apetitivo siempre q realice una R diferente a la del procedimiento. Nombre Contingencia d respuesta y resultado Resultado Reforzamiento positivo Positivo: R genera un E apetitivo. Castigo (positivo) Positivo: R general un E aversivo. Reforzamiento negativo (escape o evitación) Negativo: R elimina o previene la ocurrencia d un E aversivo. Reforzamiento o aumento d la tasa d R. Castigo o disminución en la tasa d R. Reforzamiento o aumento en la tasa d R. Entrenamiento por omisión (RDO) Negativo: E elimina o previene la ocurrencia d un E apetitivo. Castigo o disminución en la tasas d la R. IV Elementos fundamentales del condicionamiento instrumental La esencia de la conducta instrumental es que controla sus consecuencias. El condicionamiento instrumental comprende fundamentalmente 3 elementos: una R, un resultado (reforzador) y una relación (contingencia) entre la R y el resultado. La Respuesta Instrumental: el resultado de los procedimiento del condicionamiento instrumental depende en parte de la naturaleza de la respuesta que se condiciona. a. Reforzamiento d una R existente: en un corredor, las ratas tienen q ir de la caja d inicio a la caja meta para obtener el reforzador, los participantes en estos experimentos, no tienen q aprender la R comprendida en la tarea. Una rata ya sabe correr cuando se le pone por 1ª vez en un corredor, lo q aprende en el corredor es hacia a donde correr y porque hacerlo. b. Creación d nuevas unidades d R: en comparación con un corredor, el entrenamiento d presión d palanca, si requiere aprender una nueva R. Casi ninguna rata ha tenido la oportunidad d presionar una palanca, por lo q es necesario, moldearla mediante el reforzamiento d aproximaciones sucesivas. ¿Cómo se hace este moldeamiento y q se consigue? Las ratas no son del todo inexpertas en los diversos componentes conductuales d presionar una palanca. La presión d una palanca requiere q la rata se pare en sus patas traseras, extienda una pata y presione. Probablemente estas Rs, el roedor las haya hecho antes, ¿Qué aprende d nuevo la rata? Aprende a reunir los diferentes componentes d la conducta d presión d palanca en una R coordinada y efectiva. El condicionamiento instrumental d presión d palanca implica el reordenamiento d componentes familiares d la conducta d la rata. El reforzamiento lleva a la creación d una nueva unidad de respuestas, formada por una unidad de respuestas familiares c. Variabilidad conductual o estereotipia: tanto Thorndike como Skinner, pusieron el acento en que el reforzamiento aumenta la probabilidad de que la respuesta instrumental se repitan en el futuro. El condicionamiento instrumental produce repeticiones de la misma respuesta que genera uniformidad o estereotipia en el comportamiento. El aumento de las respuestas estereotipadas se desarrolla si lo permite o requiere el procedimiento de condicionamiento instrumental. Esto no significa que el condicionamiento operante no pueda estar asociado en la generación de respuestas creativas o variables. La variabilidad de respuesta puede ser la base del reforzamiento instrumental. - La variabilidad en las respuestas se puede mantener y aumentar mediante reforzamiento. De esta manera la variabilidad de la repuesta puede establecerse como una operante. - En ausencia de reforzamiento explicito de la variabilidad de respuesta, las respuestas se vuelven mas estereotipadas con condicionamiento instrumental continuo. De esta manera, la consecuencia característica del reforzamiento instrumental es una disminución en la variabilidad de la respuesta. d. Relevancia o pertenencia en el condicionamiento instrumental: El condicionamiento instrumental puede actuar sobre componentes de respuesta manifiestos o sobre dimensiones abstractas de conducta. Así como en el condicionamiento clásico (que para que tenga lugar más rápidamente, el EC debe pertenecer al EI), las relaciones análogas de relevancia también ocurren en el condicionamiento instrumental. Thorndike fue el primero en observar las diferencias en la condicionabilidad de diversas respuestas con reforzamiento (Ej. Palanca, bostezo, arañar para salir de la caja). Propuso el concepto de pertenencia: ciertas respuestas naturalmente “pertenecen al” reforzador por la historia evolutiva de los animales. Es por eso que en ciertas especies, determinadas respuestas no persisten como respuestas instrumentales fuertes y auténticas cuando se les refuerza. Estudio reciente que muestra el concepto de pertenencia: pez espinoso, morder – presentación de otro macho, morder – presentación hembra. La conducta de morder fue mas fuerte cuando se presentaba el macho que la hembra porque el pez suele tener esta conducta con otros machos cuando busca cortejar, y no con la hembra. Por lo tanto el morder pertenece mas a el refuerzo del otro macho que el de la hembra. Breland y Breland (1961) observaron también varias limitaciones en el condicionamiento instrumental en intentos por condicionar respuestas instrumentales con reforzamiento alimentario en diversas especies. Plantearon el concepto de arrastre instintivo: desviación gradual de la conducta instrumental que se aleja de las respuestas requeridas para obtener reforzamiento por respuestas características de la especie o “instintivas” relacionadas con el reforzador y con otros estímulos en la situación experimental. (ej: mapache-moneda, cerdo-moneda) e. Sistema de conducta y limitaciones en el condicionamiento instrumental: De acuerdo con la teoria de los sistemas de conducta cuando a un animal se le priva de alimento y se encuentra en una situación en la que es posible que encuentre comida, se activa su sistema alimentario, y comienza a dedicarse al forrajeo y otras Rs relacionadas con el alimento. La eficacia de la técnica en aumentar una R instrumental dependerá de la compatibilidad de tal R con la organización preexistente del sistema alimentario. La naturaleza de otras Rs que surgen durante el proceso de entrenamiento (o arrastre instintivo) dependerán de los componentes conductuales del sistema alimentario que se activen por medio del condicionamiento instrumental. De acuerdo con los enfoques del sistema de conducta, podrían predecirse las Rs que aumentarían con reforzamiento alimentario si se estudia lo que hacen los animales cuando se activa su sistema alimentario en ausencia de condicionamiento instrumental. La susceptibilidad de varias Rs al reforzamiento alimentario puede predecirse a partir de la forma en que éstas son modificadas por la privación de alimento, que supuestamente refleja su compatibilidad con el sistema alimentario. (Ej. hámsteres hambrientos- conductas de excavar, escarbar y levantarse, no conductas de autocuidado). Otra forma de determinar si una R es parte de un sistema de conducta es llevar a cabo un experimento de condicionamiento clásico: Un EC llega a provocar componentes del sistema de conducta activados por el EI. Si el arrastre instintivo refleja respuestas del sistema de conducta, las respuestas relacionadas con el arrastre instintivo serían patentes en un experimento de condicionamiento clásico. El arrastre instintivo representa la intrusión de respuestas apropiadas para el sistema de conducta que se activa durante el transcurso del condicionamiento instrumental. Conforme al enfoque se los sistemas de conducta, las diferencias preexistentes del sistema de conducta, activadas por un procedimiento de condicionamiento, llevarán a diferencias en la clase de Rs que se condicionan fácilmente con tal procedimiento. Las respuestas preexistentes de un sistema de conducta pueden variar de una especie y un reforzador a otros. El enfoque de los sistemas de conducta pronostica que tales diferencias llevarían a modificaciones correspondientes en la facilidad para el condicionamiento de esas Rs. El Reforzador Instrumental a. Cantidad y calidad del reforzador: una modificación en la cantidad del reforzador lo puede hacer cualitativamente distinto. Los aumentos en la cantidad y calidad del reforzador producen tasas más elevadas de respuestas. En las situaciones de operante libre, los efectos de la magnitud del reforzador son más complejos y dependen del programa de reforzamiento utilizado lo mismo que de otros factores. (ej: ratas – agua con sacarina, acido cítrico o harina). b. Modificaciones en la cantidad o calidad del reforzador: Plantea la posibilidad de que la eficacia de un reforzador dependa no sólo de sus propiedades, sino también de cómo se compara con otros que el individuo ha experimentado. Numerosos estudios han demostrado que los efectos de una cantidad y un tipo particulares de reforzador dependen de la cantidad y calidad de los reforzadores que el individuo ha experimentado con anterioridad. La investigación ha demostrado que una buena recompensa es tratada como especialmente buena luego del reforzamiento con una recompensa pobre, y una recompensa pobre se trata como especialmente pobre luego del reforzamiento con una buena recompensa. Crespi fue el primero en describir los efectos de la modificación en la cantidad de la recompensa. Investigaciones de Melldren (Ej.: ratas – recompensa: G-P, G-G, P-G, P-P) han concluido que la respuesta a la nueva recompensa fue aumentada por la experiencia previa con una magnitud contrastante. Fenómenos sucesivos contrastantes conductuales: - Contraste conductual positivo: aumento de las respuestas por una recompensa favorable como consecuencia de una experiencia previa con resultados menos atractivos. La recompensa favorable parece en especial buena para los individuos que antes experimentaron un peor resultado. - Contraste conductual negativo: disminución en las respuestas por una recompensa desfavorable debido a una experiencia previa con un mejor resultado. La recompensa desfavorable parece especialmente mala para los individuos que antes experimentaron una mejor recompensa. - Contraste conductual simultáneo: los distintos efectos de contraste son mediados por diferentes mecanismos. Todos los efectos de contraste ilustran que a la eficacia de un reforzador en una situación la determina en parte la experiencia del organismo con reforzadores en otras situaciones. Esto ocurre cuando las condiciones de la recompensa se alternan con frecuencia, con una clave diferente que señalaba cada condición de recompensa. La relación de respuesta y reforzador: La conducta instrumental genera sus consecuencias y es controlada por estas. En algunos casos, hay una fuerte relación entre lo que hace la persona y la consecuencia subsiguiente. En otras situaciones la relación entre la conducta y sus consecuencias podría ser imperfecta. La conducta instrumental eficaz exige la sensibilidad a la relación entre respuesta y reforzador. Consiste en dos factores independientes uno de otro: 1. Medición del tiempo entre la Rs y el reforzador: si el reforzador se presenta inmediatamente después de la Rs se dice que hay contigüidad temporal. 2. Causalidad: la medida en que la Rs instrumental es necesaria y suficiente para la presentación del reforzador, a lo que se llama contingencia entre R y reforzador. a. Efectos de la contigüidad temporal Grice: condicionamiento instrumental requiere proporcionar el reforzador de manera inmediata después de la ocurrencia de la Rs instrumental. El aprendizaje instrumental puede ser trastocado en demoras como de 0.5 segundos. La investigación más reciente indica que el aprendizaje instrumental es posible con demora tan largas como de 30 segundos. Con todo, el hecho sigue siendo que el aprendizaje instrumental es trastocado por el retraso de la presentación del reforzador de la ocurrencia de la Rs instrumental. ¿Por qué el condicionamiento instrumental es susceptible al reforzamiento demorado? Una posible R a esta interrogante la proporciona la reconsideración del hecho de que la conducta consiste de un torrente en curso y continuo de actividades. Cuando el reforzamiento se demora luego de la ejecución de una respuesta especificada (R1), el organismo no deja de hacer cosas, sino que sigue dando otras Rs. Si la R1 libera el reforzador pero éste no se entrega sino hasta después de cierto tiempo, el reforzador puede ocurrir de inmediato después de alguna otra Rs. Para asociar la R1 con el reforzador, el organismo debe tener alguna forma de distinguirla de otras respuestas durante el intervalo de demora. La investigación ha identificado 2 formas para facilitar el aprendizaje con reforzamiento demorado: 1. Proporcionar un reforzador secundario o condicionado inmediatamente después de la respuesta instrumental, aún cuando el reforzador primario no tenga lugar sino hasta cierto tiempo después. Es empleado por adiestradores de animales y entrenadores. Un reforzador secundario o condicionado es un estímulo condicionado que se ha asociado con anterioridad con el reforzador. Los reforzadores condicionados pueden servir para tender un puente de demora entre la Rs instrumental y el suministro del reforzador primario. 2. Marcar la R instrumental objetivo de alguna manera para hacerla distinguible de las otras actividades del organismo. La eficacia de un procedimiento de marcaje la demostraron por primera vez Lieberman, McIntosh y Thomas (1979) en un experimento en el que las ratas en el grupo marcado aprendieron la Rs instrumental con la demora de 60 segundos de reforzamiento mucho mejor que los animales en el grupo no marcado. (Ej. Pág. 147) b. La contingencia entre respuesta y reforzador la contingencia hace referencia a la medida en que la entrega del reforzador depende de la ocurrencia previa de la respuesta instrumental. Aunque el reforzador se demore solo se proporciona si el organismo da la respuesta instrumental. Una relación causal perfecta entre la Rs y el reforzador no basta para producir Rs instrumentales fuertes. Tales datos llevaron a los primeros investigadores a concluir que la contigüidad entre Rs y reforzador, más que la contingencia, es el factor fundamental que produce el aprendizaje instrumental. No obstante, la investigación subsecuente ha descartado este punto de vista porque no se justifica. c. El experimento de superstición de Skinner (imp. Para la controversia acerca de la función de la contigüidad en comparación con la contingencia en el aprendizaje instrumental) Procedimiento: el investigador colocó palomas en cámaras experimentales separadas e hizo que el equipo entregara un poco de alimento cada 15 segundos independientemente de lo que hicieran las aves. Después de cierto tiempo, volvió a ver lo que las palomas estaban haciendo. Resultados: A Skinner le parecía que las palomas respondían como si su conducta controlara la entrega del reforzador cuando, en realidad, el alimento era proporcionado de manera independiente del comportamiento a esto lo denomino conducta supersticiosa. La explicación descansa en la idea del reforzamiento accidental o adventicio, que alude al pareamiento accidental de una Rs con la entrega del reforzador. Los animales siempre están haciendo algo aun cuando no se requieran respuestas particulares para obtener alimento. Skinner sugirió que cualquiera que fuese la Rs de una paloma acertase antes de darle alimento, esta se fortalecería y aumentaría su frecuencia por el reforzamiento (alimento). Cada pareamiento accidental aumenta aún más la probabilidad de la Rs y por lo tanto luego de un rato, la Rs tendrá lugar con la suficiente frecuencia como para que se identifique como conducta supersticiosa. El experimento parecía apoyar el hecho de que la contigüidad temporal era el principal factor responsable del aprendizaje y propuso que no es necesaria una contingencia de respuesta y reforzador positiva para el condicionamiento instrumental. 1. Reinterpretación del experimento de superstición Staddon y Simmelhag: definieron y midieron la ocurrencia de muchas Rs como la orientación al comedero, picotear la tecla de Rs, etc. Registraron la frecuencia de cada Rs de acuerdo con el momento en que ocurrían durante el intervalo entre entregas sucesivas gratuitas de alimento. Resultados: algunas Rs tuvieron lugar predominantemente hacia el final del intervalo entre reforzadores sucesivos, era mucho mas probable que ocurriesen al final del intervalo entre las entregas de alimento que en otros momentos, a las que llamaron respuestas terminales. Otras actividades aumentaron su frecuencia entre las entregas de alimento y después disminuyeron al acercarse el momento de la siguiente entrega, a las que llamaron respuestas interinas. Sin embargo, no variaba mucho de una paloma a otra qué acciones eran Rs interinas y terminales y además no encontraron pruebas de efectos de reforzamiento accidental. Las Rs no siempre aumentaron en frecuencia simplemente porque coincidieron con la entrega del alimento, la cual parecía estar influida solo en la fuerza de respuestas terminales, aun en las fases iniciales del entrenamiento. La investigación subsiguiente ha proporcionado muchas pruebas adicionales de que las presentaciones periódicas de un reforzador producen regularidades conductuales, en que algunas Rs predominan al final del intervalo entre presentaciones sucesivas de alimento y otras que preponderan a principio del intervalo entre alimentos. 2. Explicación de la periodicidad de las respuestas interinas y terminales Staddon y Simmelhag (1971) propusieron que las Rs terminales son Rs específicas de las especies que reflejan la anticipación de alimento conforme se acerca el momento de la siguiente presentación de alimento. Al contrario, veían las Rs interinas como reflejo de otras fuentes de motivación que se destacaban al inicio del intervalo entre alimentos, cuando la presentación del alimento es poco probable. En comparación, los investigadores posteriores han favorecido las aproximaciones en las que se considera que las Rs terminales e interinas son manifestaciones distintas del mismo sistema motivacional. La mas desarrollada de estas formulaciones alternativas es la teoria de los sistemas de conducta. De acuerdo con la teoría de los sistemas de conducta, el sistema alimentario se activa en los animales privados de alimento a los que se da pequeñas porciones de comida de manera periódica. Justo antes de la entrega predecible de alimento, la conducta se dirige hacia el lugar en el que el alimento está a punto de darse. Así, la distribución de actividades que se desarrollan con entregas periódicas de un reforzador depende de la naturaleza de tal reforzador (Ej. dif conductas se desarrollan con presentaciones de agua o de alimento). d. Efectos de la controlabilidad de los reforzadores Una fuerte contingencia entre una respuesta instrumental y un reforzador significa que esencialmente la respuesta controla el reforzador. Con una fuerte contingencia, que el reforzador tenga lugar depende de que se haya dado la respuesta instrumental. Los estudios han proporcionado un amplio cuerpo de pruebas sobre la sensibilidad de la conducta a las contingencias entre respuesta y reforzador. La mayor parte de la investigación se ha centrado en los efectos de control sobre la estimulación aversiva. Uno de los estudios fueron proporcionados por Seligman, Overmier y Maier, quienes investigaron los efectos de la exposición a descargas incontrolables en el aprendizaje de escape y evitación posterior en los perros. Descubrieron que la exposición a descargas incontrolables afectó el aprendizaje subsecuente: Efecto de Desamparo Aprendido 1. Diseño Triádico: Los experimentos del desamparo aprendido se han realizado mediante el diseño triádico, este implica dos fases, una de exposición y otra de condicionamiento. (revisar Pág. 1151 ultimo párrafo) GRUPO Grupo E (escape) Grupo A (acoplado) Grupo R (restringido) FASE DE EXPOSICIÓN Descarga controlable FASE DE RESULTADO CONDICIONAMIENTO Escape y Evitación Aprendizaje de evitación rápido Descarga acoplada Escape y Evitación Aprendizaje de no controlable evitación lento Restringido al aparato Escape y Evitación Aprendizaje de evitación rápido Descubrimiento: los efectos de la estimulación aversiva durante la fase de exposición dependen de su es posible o no escapar de la descarga. La exposición a descargas incontrolables en el grupo A durante la exposición produce un grave trastorno en el aprendizaje escape evitación subsecuente. En la fase de condicionamiento del experimento, el grupo A por lo general muestra una ejecución mucho mas pobre de escape – evitación que el grupo E y el R. El hecho de que el grupo A muestre un déficit en el aprendizaje subsecuente en comparación con el grupo E indica que los animales son sensibles a las diferencias de procedimiento entre la descarga controlable y la acoplada e incontrolable. La diferencia de procedimiento primaria entre los grupos E y A es la presencia de una contingencia entre respuesta y reforzador para el grupo E pero no para el A, muestra que los animales son sensibles a la contingencia entre respuesta y observador. 2. La hipótesis de desamparo aprendido Explicación de los estudios que emplean el diseño triádico. Se fundó en la conclusión de que los animales pueden percibir la contingencia entre su conducta y la entrega de un reforzador. Supone que durante la exposición a descargas incontrolables, los animales aprenden que las descargas son independientes de su conducta y llegan a esperar que en el futuro los reforzadores sigan siendo independientes de su conducta. Esta falta de control futura mina su capacidad de aprender nuevas respuestas instrumentales. El déficit de aprendizaje tiene lugar por dos motivos: - la expectativa de falta de control futura hace que resulte más difícil de aprender una contingencia entre respuesta y reforzador subsecuente - la expectación de falta de control futura reduce la motivación de respuestas Instrumentales. Hay que distinguir la hipótesis y el efecto de desamparo: el efecto es el patrón de resultados obtenidos con el diseño triádico y la hipótesis supone que el déficit de aprendizaje en el grupo A es producido por la percepción de la falta de control. 3. Déficit de actividad: - A los investigadores les preocupó que el déficit de aprendizaje observado en el grupo A fuera resultado de que los animales aprendían a permanecer inactivos en respuesta a la descarga durante la fase de exposición. Congruente con esto algunas situaciones, descargas no controlables producen una disminución en el movimiento motor, o perseverancia de la respuesta y esto es responsable de los déficits de ejecución subsecuentes). - Hay situaciones en que los efectos sobre el aprendizaje probablemente no se deban a la supresión de movimiento causada por la descarga no controlable. Por lo tanto una hipótesis de inactividad aprendida no puede explicar todos los casos de desamparo aprendido. 4. Déficit de atención ¿Por qué la falta de control sobre los reforzadores produce un déficit en el aprendizaje si el efecto no se debe a una merma en la actividad? posibilidad la descarga incontrolable hace que los animales pongan menos atención a sus acciones. Si una criatura deja de prestar atención a su conducta, tendrá dificultades para asociar sus acciones con reforzadores en el condicionamiento de escape y evitación lo mismo que en otras formas de condicionamiento instrumental. Experimento por Maier, Jackson y Tomie: un animal que deja de poner atención a su conducta por exposición a descargas que no pueden controlar se enfrenta al mismo problema que uno que recibe reforzamiento retardado. En ambos casos, los animales tienen dificultad para calcular cuál de sus acciones genera la entrega del reforzador. Sugirieron que las manipulaciones que facilitan el aprendizaje con el reforzamiento demorado pueden ayudar también a los animales expuestos a descargas incontrolables. Postularon que la atención reducida a la conducta instrumental también puede paliarse mediante la introducción de una clave de retroalimentación de respuesta externa o estímulo de marca. Su predicción fue que las ratas a las que se dio descargas no controlables no serían afectadas en su aprendizaje de escape subsecuente si cada respuesta instrumental era marcada por un estímulo externo. Se hizo una latencia de escape promedio durante la fase de condicionamiento para cuatro grupos de ratas en un experimento de desamparo aprendido. Durante la fase de exposición el grupo E recibió descargas de las que podían escapar, los grupos A y A-M (acoplado y marcado) recibieron descargas acopladas e incontrolables y el grupo R no recibió descargas. Durante la fase de condicionamiento se presentó un breve estímulo de marca después de cada respuesta de escape para los sujetos en el grupo A-M. el indicador consistió en apagar las luces por .75 seg, la presencia de este indicador eliminó por completo el déficit de aprendizaje que de otra forma se hubiera producido por la exposición previa a la descarga no controlable. El grupo A-M se desempeño mucho mejor que el A y los demás grupos. Resultado: marcar la respuesta instrumental redujo el déficit de desamparo aprendido. Esto sugiere que una de las fuentes del déficit de aprendizaje es una reducción en la atención a las respuestas que ejecuta el animal. 5. Relaciones estímulo en el condicionamiento de escape Las interpretaciones anteriores se concentran en los efectos perjudiciales de la exposición a descargas no controlables. Sin embargo, una cuestion importante es porque la exposición a descargas no es tan nociva si el animal puede ejecutar una respuesta para escapar de la descarga. La característica que define la conducta de escape es que la respuesta instrumental resulta en la terminación de un estímulo aversivo. Sin embargo, hay también relaciones estímulo especiales en un procedimiento de escape que son potencialmente muy importantes. Dar la respuesta de escape tiene por consecuencia claves internas de retroalimentación de respuesta. - Estímulos: a) Claves de retroalimentación de cesación de descarga: estímulos producidos por la respuesta se experimentan al principio de la respuesta de escape justo antes de desactivarse la descarga. b) Claves de retroalimentación de señal de seguridad: estímulos generados por la respuesta se experimentan conforme el animal completa la respuesta, justo después de que se ha desactivado la descarga al principio del intervalo entre ensayos. Tales claves en las descargas evitables son confiablemente seguidas por el intervalo entre ensayos y, por consecuencia, por la ausencia de descarga, estas claves se vuelven inhibidores condicionados del temor y limitan o inhiben el temor provocado por las claves contextuales de la cámara experimental. Para los animales a los que se dio la descarga acoplada e incontrolable no existen tales señales, porque en su caso las descargas y los períodos libres de descarga no son predecibles. Por ello es más probable que las claves contextuales de la cámara en la que se aplicaron las descargas se condicionen para provocar temor con descargas no controlables. Conclusión sobre la contigüidad y la contingencia: - Organismos son sensibles a la contigüidad lo mismo que a la contingencia entre una respuesta instrumental y un reforzador. Actúan en conjunto para generar aprendizaje - Ambos factores sirven para concentrarse en los efectos del reforzamiento sobre la respuesta instrumental. - La relación causal o contingencia asegura que el reforzador se entregue sólo después de la ocurrencia de la respuesta instrumental especificada. La relación de contigüidad asegura que otras actividades no irrumpan entre la respuesta especificada y el reforzador, lo que evita que interfieran en el condicionamiento de la respuesta objetivo.