Download TEMA 6 - Apuntes Grado Psicología

Document related concepts

Condicionamiento operante wikipedia , lookup

Reforzamiento wikipedia , lookup

Modificación de conducta wikipedia , lookup

Principio de Premack wikipedia , lookup

Enseñanza programada wikipedia , lookup

Transcript
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
PRINCIPIOS DE APRENDIZAJE Y CONDUCTA
PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE ELECCIÓN
TEMA 6
Objetivo
Los programas de reforzamiento son importantes porque determinan la tasa y el patrón
de las respuestas instrumentales. En primer lugar se describen los programas simples de
razón fija y variable, y los de intervalo fijo y variable, así como los patrones de
respuesta instrumental producidos por estos programas. Después se describen los
programas de reforzamiento de tasas de respuesta, para continuar con el análisis de la
conducta de elección.
INTRODUCCIÓN
Una forma particularmente interesante de elección es la que se da entre beneficios modestos a
corto plazo frente a beneficios mayores a largo plazo, debido a que estas alternativas representan el
dilema del autocontrol.
Un programa de reforzamiento es un programa, o regla que determina cómo y cuándo la
ocurrencia de una respuesta irá seguida de un reforzador. Los programas de reforzamiento que
incluyen relaciones similares entre los estímulos, las respuestas y los reforzadores, normalmente
producen patrones similares de conducta.
Los programas de reforzamiento influyen tanto en la forma de aprender una respuesta
instrumental como en la forma en que se mantiene por el reforzamiento. Los programas de
reforzamiento se investigan normalmente en cajas de Skinner que permiten una observación continua
de la conducta, por lo que pueden observarse y analizarse realmente los cambios en la tasa de
respuesta.
PROGRAMAS SIMPLES DE REFORZAMIENTO INTERMITENTE
En los programas simples, un factor determina qué ocurrencia de la respuesta instrumental se
refuerza.
PROGRAMAS DE RAZÓN
La característica definitoria de un programa de razón es que el reforzamiento depende sólo del
número de respuestas que el organismo realiza. Si este número es uno, cada ocurrencia de la respuesta
instrumental provocará la entrega del reforzador. Este tipo de programa se denomina técnicamente
Reforzamiento Continuo RFC.
El reforzamiento continuo no suele suceder fuera del laboratorio. Las situaciones en las que la
respuesta se refuerza sólo alguna vez involucran un Reforzamiento Parcial o Intermitente.
Razón Fija.
En un programa como éste, hay una razón fija entre el número de respuestas que la rata
realiza y el número de reforzadores que consigue. Por ejemplo, siempre se dan 10 respuestas
por cada reforzador.
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 1
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
Los programas de razón fija se dan en la vida cotidiana siempre que es necesario un
número fijo de respuestas para conseguir el reforzamiento.
Un programa de reforzamiento continuo constituye también un programa de razón fija. El
reforzamiento continuo es una razón fija de una respuesta por reforzador.
En un programa de reforzamiento intermitente de razón fija se da una tasa constante y
alta, una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de
comenzar el número requerido de respuestas.
La tasa cero de respuesta que se observa justo después del reforzamiento se denomina
Pausa Posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento
de la razón se denomina Carrera de la Razón.
El efecto Tensión de la Razón, hace referencia al deterioro en la respuesta que sucede
cuando el requerimiento de respuesta de una razón fija se incremente demasiado rápido.
La pausa Posreforzamiento podría recibir la etiqueta más apropiada de pausa prerazón.
Razón Variable.
Un procedimiento en que se necesita un número de respuestas distinto para la entrega de
cada recompensa se denomina Procedimiento de Razón Variable RV. Los investigadores pueden,
por ejemplo, entrenar a una paloma para realizar 10 respuestas para conseguir la primera
recompensa, 13 para conseguir la segunda, y así sucesivamente. El valor numérico del programa
de razón variable indica el número medio de respuestas requerido para conseguir el
reforzador.
Los programas de razón variable se encuentran en la vida cotidiana siempre y cuando se
requiera una cantidad impredecible de esfuerzo para obtener un reforzador. Los jugadores
empedernidos tienen que jugar a la máquina para ganar, pero nunca saben cuántas jugadas
producirán la combinación ganadora.
Debido a que el número de respuestas necesario para conseguir el reforzamiento no es
predecible, las pausas predecibles en la tasa de respuesta son menos probables con los
programas de RV que con los programas de RF.
PROGRAMAS DE INTERVALO
En los programas de razón, el reforzamiento depende sólo del número de respuestas que el
organismo ha realizado. En los programas de intervalo, las respuestas son reforzadas sólo si ocurren
cuando ha transcurrido una cierta cantidad de tiempo y el sujeto ha realizado la conducta instrumental
requerida.
Intervalo Fijo.
En un programa simple de intervalo, una respuesta se refuerza sólo si se da después de
que haya transcurrido un tiempo desde la última entrega del reforzador. En un Programa de
Intervalo Fijo IF, el tiempo establecido no varía de una ocasión a la siguiente.
A medida que el tiempo para la disponibilidad del próximo reforzador se acerca, la tasa
de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una
aceleración en el registro acumulativo hacia el final del IF. El patrón de respuesta que se
desarrolla con los programas de reforzamiento de IF se denomina Festón del Intervalo Fijo.
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 2
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
Es importante darse cuenta de que un programa de IF no garantiza que el reforzador se
proporcionará en algún momento a lo largo del intervalo de tiempo. Se requieren respuestas
instrumentales para conseguir el reforzador en los programas de intervalo, del mismo modo que
en los programas de razón. El intervalo determina sólo cuándo el reforzador está disponible, no
cuándo se entrega.
Intervalo Variable.
En un Programa de Intervalo Variable IV, las respuestas se refuerzan si se dan tras haber
transcurrido un intervalo variable desde la administración del reforzador previo o desde el
comienzo del programa.
Los programas de intervalo variable se hallan en situaciones donde se requiere una
cantidad de tiempo impredecible para preparar o dispensar el reforzador. Un mecánico que no
dice cuándo tendrá a punto el coche impone un programa de IV. El tiempo que tiene que pasar
antes de que el coche esté listo es impredecible.
Como en los programas de intervalo fijo, el sujeto tiene que realizar la respuesta
instrumental para obtener el reforzador.
COMPARACIÓN DE LOS PROGRAMAS DE RAZÓN Y DE INTERVALO
Existen notables similitudes, tanto los programas de razón fija como los de intervalo fijo
producen una pausa Posreforzamiento después de la administración de cada reforzador. Además,
tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la
administración del siguiente reforzador. Por el contrario, los programas de razón variable y de
intervalo variable mantienen tasas estables de respuesta, sin pausas predecibles.
En cambio, los programas de intervalo y de razón activan diferentes cambios neuroquímicos en
el cerebro. La conducta mantenida por programas de intervalo está mediada por el sentido temporal
del organismo, mientras que los mecanismos temporales no están involucrados en la actuación con los
programas de razón.
La primera evidencia sobre las diferencias fundamentales entre los programas de razón y de
intervalo fue proporcionada por un importante experimento de Reynolds. La paloma reforzada con el
programa de RV respondió a una tasa mucho más alta que la paloma reforzada con el programa de
IV. El programa de RV motivó una conducta instrumental mucho más vigorosa.
Reforzamiento Diferencial del Tiempo Interrespuesta.
¿Por qué los programas de razón son capaces de producir tasas de respuesta más altas
que los programas de intervalo? El factor crítico es el espaciamiento entre respuestas que se da
justo antes del reforzamiento. El intervalo entre una respuesta y la siguiente se denomina Tiempo
Interrespuesta o TIR. El intervalo entre sucesivas respuestas es también un parámetro conductual
que puede moldearse mediante el reforzamiento. Si se refuerzan TIRs cortos, será más probable
que el sujeto realice TIRs cortos. Un sujeto que produce sobre todo tiempos Interrespuesta cortos
responderá a una tasa alta. Por el contrario, un sujeto que produce sobre todo tiempos
Interrespuesta largos, responderá a una tasa baja.
¿Cómo determinan los programas de intervalo y de razón el reforzamiento de los tiempos
Interrespuesta? En un programa de razón, no existen restricciones acerca de cuándo cuentan las
respuestas para conseguir el reforzador. De hecho, cuanto más rápido complete el sujeto el
requerimiento de la razón, más rápido recibirá el reforzador. Un programa de razón favorece
tiempos interrespuesta cortos. Contrariamente, los programas de intervalo no favorecen los
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 3
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
tiempos Interrespuesta cortos, sino una ejecución con TIRs largos. Esto deriva en tasas de
respuesta más bajas que las que se observan en los programas de razón.
PROGRAMAS DE REFORZAMIENTO DE TASAS DE RESPUESTA
A pesar de que los programas de razón producen tasas de respuesta mayores que los
programas de intervalo comparables, ni uno ni otro requieren una tasa específica d respuesta para
conseguir el reforzamiento. Por el contrario, los Programas de Tasas de Respuesta requieren
específicamente que el organismo responda a una tasa particular para obtener el reforzador.
En los programas de tasas de respuesta, el reforzamiento de una respuesta particular depende
de cuán pronto ocurra tras la respuesta precedente. Puede establecerse un programa de
reforzamiento, por ejemplo, en el que una respuesta se refuerce sólo si ocurre dentro de los 5
segundos siguientes a la respuesta precedente. Si el animal realiza una respuesta cada 5 segundos, su
tasa de respuesta será de 12 por minuto. Por tanto, el programa proporciona reforzamiento si la tasa
de respuesta es de 12 por minuto o mayor. El organismo no será reforzado si su tasa de respuesta se
encuentra por debajo de 12 por minuto. Este procedimiento fomenta tasas altas de respuesta. Se
denomina Reforzamiento Diferencial de Tasas Altas, o RDA.
En los programas de RDA, una respuesta se refuerza sólo si ocurre antes de que haya
transcurrido cierta cantidad de tiempo tras la respuesta precedente. Se consigue el resultado opuesto
si se refuerza una respuesta sólo si ocurre después de que haya trascurrido cierta cantidad de tiempo
desde la respuesta previa. Este tipo de procedimiento se denomina Reforzamiento Diferencial de Tasas
Bajas, o RDB. Los programas RDB fomentan que los sujetos respondan lentamente. Los programas de
tasas de respuestas se encuentran fuera del laboratorio.
CONDUCTA DE ELECCIÓN: PROGRAMAS CONCURRENTES
Los programas de reforzamiento que se han descrito hasta ahora, incluyen una única respuesta y
el reforzamiento de esa respuesta. La conducta es algo más que la repetición de respuestas
individuales. Las situaciones de elección pueden ser bastante complicadas. La situación de elección
más simple consta de dos respuestas alternativas, cada una de éstas seguida por un reforzador de
acuerdo con su propio programa de reforzamiento.
Las aproximaciones recientes al estudio de la conducta de elección utilizan cajas de Skinner
equipadas con dos manipulandos, como dos teclas. En el experimento típico, responder en cada tecla
es reforzado según algún programa de reforzamiento. Los dos programas funcionan al mismo tiempo,
y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se
denomina Programa Concurrente.
MEDIDAS DE LA CONDUCTA DE ELECCIÓN
La conducta de elección de un individuo en un programa concurrente se refleja en la distribución
de su conducta entre dos respuestas alternativas. Esto se puede medir de varias formas. Una técnica
común es calcular la Tasa Relativa de Respuesta de cada alternativa. La tasa relativa de respuesta en
la tecla A, por ejemplo, se calcula dividiendo la tasa de respuesta en la tecla A por la tasa total de
respuesta, donde RA es la tasa de respuesta en la tecla A y RB es la tasa en la tecla B.
RA/(RA + RB)
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 4
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
La tasa relativa de reforzamiento conseguido para cada alternativa de respuesta pude
calcularse de una manera semejante a la tasa relativa de respuesta. Por ejemplo, la tasa relativa de
reforzamiento para la alternativa A es la tasa de reforzamiento de la respuesta A dividida por la
tasa total de reforzamiento (la suma de la tasa de recompensa conseguida en el lado A más la tasa
de recompensa conseguida en el lado B), donde rA y rB representan las tasas de reforzamiento
obtenidas en cada alternativa de respuesta.
rA/(rA + rB)
LA LEY DE LA IGUALACIÓN
La tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en
esa alternativa. Herrnstein estableció la Ley de la Igualación.
Hay dos expresiones matemáticas comunes de la ley de la igualación. En una formulación, las
tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporción de las
tasas de respuesta y de reforzamiento totales, como sigue:
RA/(RA + RB) = rA/(rA + rB)
Como antes, RA y RB en esta ecuación representan las tasas de respuesta en las teclas A y B, y rA
y rB representan las tasas de reforzamiento conseguidas en cada alternativa de respuesta.
La segunda formulación de la ley de la igualación es más simple, las tasas de respuesta y de
reforzamiento en una alternativa se expresan como una proporción de las tasas de respuesta y
reforzamiento en la otra alternativa, como sigue:
RA/RB = rA/rB
Ambas expresiones matemáticas representan el mismo principio básico, que las tasas relativas de
respuesta se igualan con las tasas relativas de reforzamiento.
Infraigualación, Supraigualación y Sesgo de Respuesta
La ley de igualación indica que las elecciones son una función ordenada de las tasas de
reforzamiento. Las tasas relativas de respuesta no siempre se igualan exactamente con las tasas
relativas de reforzamiento.
La mayoría de los ejemplos en los que la conducta de elección no se corresponde
perfectamente con la relación de igualación pueden acomodarse añadiendo los parámetros, b y
s.
RA/RB = b (rA/rB)s
El parámetro s representa la sensibilidad de la conducta de elección a las tasas relativas
de reforzamiento para las alternativas de respuesta. Cuando ocurre una igualación perfecta, s
es igual a 1,0, en cuyo caso las tasas relativas de respuesta son una función directa de las tasas
relativas de reforzamiento.
Un tipo de desviación de la igualación perfecta incluye una sensibilidad reducida de la
conducta de elección a las tasas relativas de reforzamiento. Estos resultados se refieren a la
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 5
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
Infraigualación y pueden acomodarse mediante la ecuación anterior dotando al exponente s de
un valor menor que 1,0.
En otros ejemplos, la tasa relativa de respuesta es más sensible a la tasa relativa de
reforzamiento de lo que se predice para una igualación perfecta. Éstos resultados se denominan
Supraigualación y pueden acomodarse en la ecuación anterior dotando al exponente de un
valor mayor que 1,0.
Es más probable que las elecciones muestren sensibilidad reducida a las tasas relativas de
reforzamiento que sensibilidad elevada las mismas. En consecuencia, la infraigualación se
encuentra más a menudo que la supraigualación. El parámetro de sensibilidad puede estar
influido por numerosas variables, incluyendo la especie animal, el esfuerzo o la dificultad
incluida en el cambio de una alternativa a la otra, y los detalles de cómo se construyen las
alternativas del programa. En general, hacer más difícil el cambio de una alternativa de
respuesta a la otra incrementa el parámetro de sensibilidad; cuando cambiar es más difícil, los
organismos son más sensibles a las tasas relativas de reforzamiento para las alternativas de
respuesta.
El parámetro b de la ecuación anterior representa el sesgo de respuesta. En el
experimento original de Herrnstein, los animales eligen entre dos respuestas del mismo tipo
(picotear una tecla de respuesta), y cada respuesta se refuerza con el mismo tipo de reforzador
(un corto periodo de acceso a la comida). Los sesgos de respuesta influyen en la elección
cuando las alternativas de respuesta son diferentes (por ejemplo, picotear una tecla y presionar
con la pata en un pedal). El parámetro b es también importante cuando el reforzador
proporcionado para las dos respuestas es diferente. Una preferencia (o sesgo) por una
respuesta o un reforzador sobre la otra influye en el parámetro del sesgo b. En ausencia de
sesgos, b es igual a 1,0.
La Ley de la Igualación y el Valor del Reforzador
Se ha encontrado que la tasa relativa de respuesta es una función de la cantidad relativa
de cada reforzador, así como la demora relativa de reforzamiento. También se ha hallado que
las tasas relativas de respuesta están determinadas por la patabilidad de los reforzadores.
La Ley de la Igualación en los Programas Simples de Reforzamiento
¿Cómo puede una ley que describe la distribución de respuesta entre varias alternativas
ser aplicada una sola respuesta?
Incluso las situaciones de respuesta única pueden involucrar una elección. En un programa
simple, el sujeto recibe no sólo reforzamiento explícito por realizar una respuesta operante
específica, sino también recompensas intrínsecas de las otras actividades que puede realizar.
Por tanto, el reforzamiento total incluye las recompensas extrínsecas programadas tanto como
las fuentes de reforzamiento no programadas. Este tipo de análisis permite la aplicación de la
ley de la igualación a programas de reforzamiento de respuesta única.
La tasa de respuesta estará directamente relacionada con la tasa de reforzamiento para
esa respuesta de una forma negativamente acelerada. La tasa de respuesta disminuirá a
medida que aumente la tasa de las otras fuentes de reforzamiento. Dos maneras de modificar
la tasa de una respuesta son mediante el cambio de su tasa de reforzamiento o mediante el
cambio de la tasa de las otras fuentes de reforzamiento.
Es ampliamente aceptado que responder en una situación de respuesta única es una
función negativamente acelerada de la tasa de reforzamiento para esa respuesta. La utilidad
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 6
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
de la igualación como una teoría de la conducta en situaciones operantes de respuesta única se
ha puesto recientemente en duda.
MECANISMOS DE LA LEY DE LA IGUALACIÓN
La ley de la igualación está establecida en función de las tasas de respuesta y de
reforzamiento prometidas sobre la duración total de las sesiones experimentales. Ignora cuando se
realizan las respuestas individuales. Igualmente, las teorías molares de la igualación ignoran qué
podría ocurrir a nivel de las respuestas individuales. Las teorías molares explican agregados de
respuesta y se relacionan con la distribución total de respuestas y reforzadores en las situaciones de
elección.
En contraste con las teorías molares, las teorías moleculares se centran en lo que ocurre a nivel
de las respuestas individuales y consideran la relación de igualación como resultado neto de estas
elecciones individuales. Otras teorías proporcionan caracterizaciones de la conducta que no son
molares ni moleculares, sino algo intermedio entre ellas; una de estas teorías es el mejoramiento.
Igualación y Maximización de las Tareas de Reforzamiento
Los animales cambian una y otra vez entre las alternativas para recibir tantos
reforzadores como le sea posible. La idea de que los organismos maximizan el reforzamiento
ha sido utilizada para explicar la conducta de elección en los niveles de análisis tanto molecular
como molar.
Maximización Molecular: los organismos siempre eligen cualquier alternativa de respuesta
con mejores probabilidades de que sea reforzada en ese momento. Consideremos, por
ejemplo, una paloma. Cuanto más tiempo permanezca la paloma en la tecla A, más
probabilidad habrá de que transcurra el requisito de intervalo para la tecla B, y que el
reforzamiento esté disponible por el picoteo de B. Al alternar, la paloma puede obtener
el reforzador en la tecla B. Ahora, cuanto más tiempo continué picoteando en la tecla B,
más probable será que la tecla A esté lista para el reforzamiento. Shimp propuso que la
relación de igualación es un subproducto de una alternancia prudente cuando la
probabilidad de reforzamiento en la tecla de respuesta alternativa es mayor que la
probabilidad de reforzamiento en la tecla de respuesta actual.
Maximización Molar: las teorías molares de la maximización presuponen que el organismo
distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de
reforzamiento que consiguen a la larga. Las teorías molares se centran en agregados de
conducta sobre algún período de tiempo más que en las respuestas de elección individual.
La teoría de la maximización molar fue originalmente formulada para explicar la
elección en programas concurrentes construidos con componentes de razón. En los
programas concurrentes de razón, los animales responden exclusivamente en el
componente de razón que requiere el menor número de respuestas.
Debido a que otras distribuciones de respuesta pueden dar como resultado
cantidades semejantes de recompensa, la maximización molar no puede explicar por qué
la conducta de elección se distribuye de forma tan cercana la relación de igualación en
los programas concurrentes IV-IV y no de otras formas igualmente efectivas.
Otro desafío para la igualación molar lo proporcionan los resultados de estudios en
los cuales hay una elección entre un programa de razón variable y uno de intervalo
variable. En un programa de razón variable, el organismo puede obtener reforzamiento
en cualquier momento realizando el número requerido de respuestas. Por contra, en un
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 7
http://apuntesgradopsicologia.wordpress.com
Principios de Aprendizaje y Conducta
programa de intervalo variable, el sujeto tiene que responder sólo de vez en cuando para
obtener casi el máximo número de recompensas posibles. Dadas estas diferencias, para el
máximo beneficio de un programa concurrente RV-IV, los sujetos deberían concentrar sus
respuestas en la alternativa de razón variable y responder sólo ocasionalmente en el
componente de intervalo variable. La evidencia muestra que los animales favorecen el
componente de RV pero no de forma tan fuerte como predice la maximización molar.
Mejoramiento: los mecanismos de mejoramiento operan en una escala temporal que está
entre la escala temporal de las teorías molar y molecular.
Adviértase que el mejoramiento no se refiere a elegir la mejor alternativa en ese
momento (maximización molecular) o hacer que a largo plazo algo sea tan bueno como se
pueda (maximización molar). El mejoramiento se refiere a la meta más modesta (o
"inocente") de sólo hacer que la situación sea mejor.
Las teorías molares se centran en las tasas globales de respuesta y reforzamiento,
calculadas sobre la duración total de una sesión experimental. Por contra, las tasas locales
están calculadas sólo sobre el periodo de tiempo que un sujeto dedica a una alternativa
particular de respuesta. Por ejemplo, si la situación incluye dos opciones, A y B, la tasa
local de respuesta en A se calcula dividiendo la frecuencia de respuesta en A por el
tiempo que el sujeto dedica a responder en A.
La tasa local de una respuesta es siempre mayor que su tasa global.
La teoría del mejoramiento asume que los organismos cambian de una alternativa
de respuesta a otra para mejorar la tasa local de reforzamiento que están recibiendo. Se
asume que los ajustes de la distribución de la conducta entre las alternativas continúan
hasta que el organismo está obteniendo la misma tasa local de recompensa en todas las
alternativas.
2ER SEMESTRE
Miguel Ángel Llamas Romero
Página 8