Download 1 polemica conceptual: requisito de respuesta

Document related concepts
no text concepts found
Transcript
POLEMICA CONCEPTUAL: REQUISITO DE RESPUESTA,
REFORZAMIENTO NEGATIVO, COSTE DE RESPUESTA, CASTIGO
NEGATIVO.
La polémica se origina a raíz de la aparición del artículo de Luis Valero para la sección Vida
Cotidiana Una técnica de reforzamiento negativo para escalonar el tráfico de entrada y salida de
vacaciones al que Julio Varela hace el siguiente comentario.
Comentario (Julio Varela):
Creo que aquí hay una identificación conceptual errónea. Quiero comprar un pantalón
que cuesta 10 euros. En el momento de compra, ¿recibo un castigo de 10 euros? Pero si está
en barata y vale 6 euros, ¿al pagar 6 euros, soy reforzado negativamente al recibir un castigo
menor?
Creo que hay una confusión entre "requisito de respuesta" y reforzamiento negativo.
Luis Valero responde con el siguiente anexo.
Anexo de Luis Valero:
AUTOPISTAS, REFORZAMIENTO NEGATIVO Y COSTE DE RESPUESTA
Pues quizás tenga confundidos los conceptos. Pero creo que son dos conceptos
diferentes: (1) la contingencia que mantiene la respuesta, y (2) los requisitos exigidos para que
aparezca reforzamiento. En el caso de las autopistas, la contigencia es de reforzamiento
negativo y las exigencias de respuesta solo son el cambio de horas en las que circular con el
coche, pero disminuye la cantidad pagada por ello (se elimina o disminuye algún evento).
Reforzamiento negativo y coste de respuesta:
Por lo que se sobre "reforzamiento negativo" consiste en la eliminación de algún evento
contingente a la respuesta y esto hace aumentar la probabilidad de esa respuesta. La
contingencia se define por su efecto.
El coste de respuesta seria una forma de castigo por eliminación de algún tipo evento
(generalmente un reforzador) tras cada respuesta. Cuando se paga en una autopista la
contingencia es doble: se obtiene un transito rápido y tranquilo por una vía (ref.positivo) y al
mismo tiempo se ha de pagar una cuota por utilizar esa autopista (coste de respuesta).
Weiner (1962) parece ser el primero que aplicó el coste de respuesta en experimento
con humanos. En un tablero con puntos, como reforzadores condicionados, quitaba un punto
cada vez que el individuo daba una respuesta incorrecta. A ello seguía un tiempo fuera corto.
Después de una serie de ensayos era suficiente con quitar un punto para disminuir la conducta.
El coste de respuesta operaba como una estimulación aversiva. En Kanfer y Phillips se
describen algunos de las primeras aplicaciones del coste de respuesta en problemas clínicos
(obesidad, tartamudeo, economía de fichas). En todos los casos, se describe como una técnica
de castigo, que puede conseguirse de dos formas: (a) eliminando un reforzador contingente a
la respuesta, o (b) aumentando el esfuerzo o número de respuestas por la misma unidad de
reforzador positivo conseguida (Ferster y Skinner, 1957).
Así pues, una de las formas de aumentar o disminuir el coste de respuesta es aumentar
o disminuir a su vez las exigencias o los criterios de esa respuesta. Cuando por el mismo
1 reforzador se exige mayor cantidad o intensidad de respuesta es una técnica de castigo, puesto
que la respuesta disminuye. Pero cuando por el mismo reforzador se exige menor intensidad de
respuesta es una técnica de reforzamiento, y la respuesta aumenta.
Toda contingencia es relativa a las condiciones ambientales y la historia de
interacciones previas del individuo con ese ambiente. En unas condiciones de castigo -en
experimentos animales, pej., - con un shock eléctrico de 80 V, la disminución del shock a 30 V
puede actuar de reforzador (negativo -pues- según la definición operacional de esta
contingencia). Incluso en otras condiciones, puede llegar a actuar como estímulo discriminativo
de una contingencias reforzante, y aumentar también la probabilidad de respuesta.
En el ejemplo que siempre se pone de reforzamiento negativo: ante un gran ruido
ambiental, se cierra la puerta y se elimina el ruido. También entrecerrar la puerta y disminuir la
intensidad del sonido -aunque no sea completa- estaría bajo reforzamiento negativo.
Economía conductual y compras:
Por otro lado, siguiendo tu ejemplo, cada comportamiento de compra (p.ej., un
pantalón) supone un reforzamiento positivo por la prenda obtenida y simultáneamente un
castigo por coste de respuesta (al tener que dejar 10 euros al dependiente). Dependiendo de la
historia previa del individuo con ese pantalón y ese dinero, la conducta se fortalecerá en el
futuro o no. En el caso que se añadan otros reforzadores sobre la compra, como la atención de
los amigos, la marca famosa del pantalón, lo útil de la prenda, etc., aumentara ese
comportamiento. En el caso de que el coste de respuesta sea excesivo (la persona no tiene ese
dinero a final de mes, hay otra tienda que lo tiene 8 euros, la inflación aumenta el precio, etc.)
la respuesta de compra disminuirá.
Y, por el contrario, en las temporadas de rebajas cuando bajan los precios, el hecho de
comprar el mismo pantalón por menos dinero (rebajas 50%) supone una disminución del coste,
y por tanto, un aumento de la respuesta de compra. Las rebajas son una forma de
reforzamiento negativo. La conducta de compra es una respuesta de elección con dos
contingencias simultaneas, y dominara aquella que produzca mayor probabilidad de
reforzamiento.
En el caso del dinero como “economía de fichas generalizada” que todos tenemos, el
pago con dinero es la eliminación de un reforzador, luego coste de respuesta. Que también
puede obtenerse aumentando la cantidad de dinero a pagar por el mismo reforzador. El efecto
típico de la inflación económica.
Luego si el coste de respuesta es una técnica de castigo, y el dinero perdido es la
estimulación aversiva, puede afirmarse que la eliminación de ese castigo será un reforzamiento
negativo. Básicamente la respuesta de ahorrar dinero en una compra es una respuesta de
evitación.
En los estudios sobre “economía conductual” (Green y Kagel, 1987) se intentan estudiar
las condiciones para una respuesta de elección (p.ej., entre dos productos) o bien la relación
coste beneficio en las decisiones económicas. En este contexto, la razón coste/beneficio que
denominan “unidad de precio” sería la proporción entre los requisitos de respuesta y la
magnitud de reforzador. En ese ejemplo de la autopistas, sería la proporción entre el dinero
pagado (es un requisito de respuesta y supone también un coste de respuesta) y la magnitud
del reforzador obtenido (los kilómetros recorridos o el tiempo ganado). Este tipo de
experimentos en laboratorio con animales ha mostrado que la preferencia o elección se produce
siempre en aquellas condiciones donde la unidad de precio sea más baja, es decir, menor
respuesta con mayor reforzamiento (en el ejemplo sería la condición de rebaja del precio de la
autopista). Y cuando las unidades de precio entre dos alternativas son muy bajas (dos
productos muy rebajados) se prefiere la de mayor cantidad de reforzamiento; mientras que
2 cuando las dos unidades de precio son muy elevadas (dos productos muy caros) se elige la de
menor requisito de respuesta (Bickel, W.K., Green, L. y Vuchinich, R.E., 1997; Foster y
Hackenberg, 2004, Madden, Bickel y Jacob, 2000).
Los conductores eligen:
Luego, permitiéndome la licencia de generalizar a humanos, podría afirmar que un
conductor puesto ante la disyuntiva de elegir entre coger la autopista a horas punta (con el
mismo coste económico y con menor reforzamiento, una unidad de precio más alta), o bien
coger la autopista en horas “valle” apenas sin circulación y a mitad de precio (con menor coste
económico y con mayor reforzamiento, una unidad de precio más baja), elegirá esta última
opción con mayor probabilidad. Siempre que no se añadan otras variables, por ejemplo, que no
salga del trabajo hasta las 5, o que la suegra no tenga preparadas las maletas a la hora de
salir.
Con todo es una hipótesis a comprobar, que parece confirmarse por los datos. En
Madrid en el último puente de mayo se produjeron unos atascos monumentales, de miles de
conductores atrapados en las autovías durante kilómetros. En el puente de junio en Barcelona
la circulación ha sido intensa pero fluida, y no han aparecido en la prensa atascos de tráfico a
destacar. La DGT tendrá los datos al respecto.
Por cierto, es importante hacer ver a los psicólogos y al publico en general, que este
tipo de cosas son realmente experimentos sociales, y no los que se hacen con gaseosa…
Bueno, un poco extenso, pero quizás serviría para crear otra discusión en la pagina web
sobre "reforzamiento negativo".
Referencias:
•
•
•
•
•
•
•
Bickel, W.K., Green, L., y Vuchinich, R.E. (1995). Behavioral economics.
JEAB, 55, 145-154.
Ferster. C.B. y Skinner, B.F. (1957). Programas de reforzamiento.
Nueva York: Appleton-Century-Croft.
Foster, T.A., Hackenberg, T.D. (2004). Unit price and choice in a tokenreinforcement context. JEAB, 81, 5-25.
Green, L. y Kagel, J. (1987). Advances in behavioral economics.
Orwoodk NJ. Ablex Publising Corp.
Kanfer, P.H., y Phillips, J.S. (1977). Principios de aprendizaje en la
terapia del comportamiento. Mexico: Trillas.
Madden, G.J., Bickel, W.K., y Jacobs, E.A. (2000). Three predictions of
the economic concepts of unit in a choice context. JEAB, 73, 45-64.
Weiner, H. (1962). Some effects of response cost upon human operant
behavior. JEAB, 5, 201-208.
Respuesta de Julio Varela:
Bueno, realmente tenemos una discusión e insisto que se trata de una confusión.
En primer lugar, me limitaré a argumentar solo en términos de las definiciones
existentes en el análisis operante, posteriormente haré alusión a algunas cuestiones
económicas que conforman una microteoría, basada en un modelo económico (no conductual)
que algunos psicólogos skinnerianos han usado para tratar de estudiar fenómenos relacionados
en esa área y que son relativos a la investigación sobre el desempeño bajo programas
concurrentes, conocidos como estudios sobre “elección”. Ojalá esto no desvíe la discusión.
3 Efectivamente, el reforzador se define a partir de sus efectos, no puede definirse a
priori. Si la tasa de respuesta a la que un estímulo es contingente (condicional) se mantiene o
aumenta, se trata de un reforzador. La clasificación que hace Skinner de los reforzadores como
positivos o negativos debe entenderse en el sentido de que es algo que se añade o que se resta
(elimina). Por tanto, si la respuesta tiene como consecuencia que se presente un estímulo, se
trata de un reforzador positivo. En otro caso, si la consecuencia de la respuesta evita que se
presente un estímulo, éste es un reforzador negativo y se le conoce también como estímulo
aversivo. Hasta aquí creo que no hay polémica.
Los programas de reforzamiento son especificaciones de lo que un organismo debe
hacer antes de conseguir el reforzamiento (Ferster y Skinner, 1957). Digamos, que los
programas de reforzamiento especifican los criterios de una respuesta. Ante un RF10, se
requerirán (requisito) 9 respuestas previas y la décima será reforzada. O bien, en un programa
de IF se reforzará sólo aquella respuesta que cubra el criterio de ser la primera que ocurra
cuando haya transcurrido el periodo indicado por el programa. Por ejemplo, si se trata de un
IF30”, la primer respuesta que ocurra después de ese intervalo será reforzada. Todo programa,
al igual que toda tarea experimental, supone explícita o implícitamente la existencia de un
requisito de respuesta. La respuesta que cubra tal requisito cumple con la tarea y si no ocurre
de acuerdo al requisito entonces no estará disponible el reforzador. Supongamos que un
individuo, bajo un RF10 ha respondido 9 veces. El reforzador se presentará sólo hasta que el
organismo responda nuevamente, al cumplimentarse el criterio (requisito).
Supongamos que alguien aplica un programa de reforzamiento RF20 hasta que se
estabiliza la respuesta. Por alguna causa acorde a su investigación, decide cambiar el programa
a un RF5. Ahora el individuo responde menos veces y obtiene el reforzador. En este sencillo
ejemplo, no es necesario hablar de ninguna técnica de castigo, simplemente se reduce el
criterio de respuesta para recibir el reforzador. Cada respuesta de la primera hasta la 19ª -que
forma parte de una cadena de 20-, no es castigada al no otorgarse reforzamiento. En todo
caso, existe argumentación de que el reforzamiento intermitente produce una resistencia a la
extinción. Reforzar intermitentemente (retirar el reforzamiento) no es castigo, de acuerdo a la
definición tradicional. De igual forma, reducir el criterio de respuesta ante un programa, no es
extinción, tampoco es castigo, se trata simplemente de reducir el criterio de respuesta ante el
cambio del programa. Sólo es eso.
Si se arguyera que dicha reducción del requisito de respuesta es castigo, entonces
habría que conciliar el conflicto conceptual: reforzamiento vs. castigo en el mismo
procedimiento, siendo que el primero incrementa la tasa y el segundo la decrementa o elimina.
Reducir la tasa de respuestas a partir de una reducción del criterio (programa) no es castigo.
Consideremos un ejemplo que servirá de base para nuestra argumentación. Un
estudiante debe responder correctamente 10 preguntas de un examen para obtener 10 de
calificación. Después de aplicar dos exámenes (de biología e historia), el profesor considera que
el examen de biología es correcto pero se da cuenta que cinco reactivos del examen de historia
estaban mal planteados y que otros no habían sido parte de la temática vista en clase. Así,
mantiene el criterio de otorgar a cada respuesta del examen de biología un punto, y en el caso
del examen de historia, decide reducir el criterio y calificar el examen con 10 si se responde
correctamente a 5 de las 10 preguntas. En este caso, cada respuesta correcta a cada pregunta
correcta vale 2 puntos. Una buena ejecución en el examen de biología consiste de 10
respuestas correctas mientras que en el de historia la buena ejecución requiere de 5 para
obtener la misma calificación.
Si el alumno reprueba biología o historia, será castigado mediante una calificación
reprobatoria. Pero será reforzado si su calificación es aprobatoria. Supongamos que en el
primer caso (biología) respondió correctamente 6 preguntas y por tanto su calificación será 6.
Si en el caso de historia respondió correctamente 4 preguntas, su calificación será de 8. Hablar
de extinción, castigo o coste de respuesta, en cualquiera de los dos casos, es un sinsentido.
4 Para los skinnerianos, el ejemplo anterior puede ser analizado como programa de RF1
(examen de biología) y un ejemplo de RF1 con doble reforzamiento (examen de historia).
Aunque me parece burda la conceptuación, concedamos que así es.
El año siguiente, el maestro de nuestro ejemplo anterior, decide aplicar el mismo
examen de biología pero en horarios diferentes, dado que considera que mientras más
temprano los alumnos son más inteligentes aunque al alumno le cueste trabajo levantarse
temprano. Así, decide que quien se presente al examen (que consta de 10 preguntas) a las 7
de la mañana, bastará con que conteste correctamente 5 de ellas para aprobar con 10. Pero,
quien se presente a las 8.00 (horario normal) cada respuesta valdrá un punto. Todos tienen
oportunidad de obtener 10, el reforzamiento será el mismo (obtener 10), el examen es el
mismo, pero los criterios de respuesta son diferentes: levantarse temprano o llegar a la hora
consuetudinaria.
Siguiendo la terminología skinneriana (de manera muy flexible), alguien podría
considerar que en esta ocasión, el programa de reforzamiento, para cada alumno es
concurrente, esto es, el alumno puede optar por presentar el examen más temprano (RF1) o
más tarde (RF1 con doble reforzamiento). Si se presenta más temprano (mayor esfuerzo para
levantarse), podrá contestar menos preguntas para obtener el 10. Si se presenta más tarde
(menor esfuerzo), tendrá que contestar las 10 preguntas correctamente si desea obtener la
calificación máxima (10). El alumno puede elegir si se presenta a las 7 o a las 8 sabiendo que
en cada caso, sus respuestas tendrán un valor diferente(1) . De acuerdo a la concepción
skinneriana, en este ejemplo no existe el castigo.
¿De dónde sale el argumento de que transitar por una autopista con descuento implica
el reforzamiento negativo y se trata de un coste de respuesta? Me atrevo a considerar que el
argumento se basa en los trabajos desarrollados en el área de lo que podríamos denominar
como “microteoría conductual económica” que emana de los innumerables trabajos
desarrollados en relación a la investigación animal bajo programas concurrentes. El tema
obligado es: la elección.
Los programas de reforzamiento concurrentes se definen como aquellos en los operan
dos programas (criterios de respuesta) diferentes simultáneamente y para ello, la caja de
Skinner está provista de dos palancas. En una de ellas (la derecha, por ejemplo), se programa
el reforzamiento bajo un RF30 y en la otra (la izquierda), el programa de reforzamiento se basa
en un RF10. El animal alternará entre uno u otro programa pero, finalmente, responderá más
fácilmente a la palanca que opera bajo un programa de RF10. Hace menos y obtiene lo mismo.
Digamos que en la palanca de la izquierda hay una rebaja, un descuento, una tarifa reducida, o
como se le quiera llamar, y en la palanca de la derecha hay que responder más para obtener lo
mismo. Suponer que un mayor requisito es sinónimo de castigo, violenta el concepto
skinneriano. Skinner (1938) nunca sugirió, definió o postuló que una mayor tasa o intensidad
de respuesta implicara un procedimiento de castigo. Recordemos que su “hallazgo” del
reforzamiento intermitente (Skinner, 1956) sólo obedeció a que no tenía suficiente alimento
para poder terminar su investigación en el tiempo programado. En lugar de entregar una
porción de alimento por cada respuesta, empezó a proporcionar el alimento cada dos o tres
respuestas. Skinner nunca consideró que al aumentar el requisito de respuesta se implicara un
procedimiento de castigo como es el coste de respuesta.
Las investigaciones iniciales y recientes en este campo (Herrnstein, 1958; Foster y
Hackenberg, 2004), en ningún momento aluden a una combinación de los procedimientos de
reforzamiento y castigo. En todo caso, aluden al coste-beneficio que tiene la respuesta. Y aquí,
creo que surge la confusión. El concepto coste-beneficio no tiene relación conceptual con coste
de respuesta,. El primer término se deriva de la economía no de la psicología skinneriana y
alude a las consecuencias de la respuesta en términos de menor o mayor ganancia. Ganar
menos de lo esperado, para los ecónomos equivale a un coste; el segundo, originalmente se
definió como un procedimiento de castigo (Weiner, 1962) y empleado exitosamente en
pacientes psiquiátricos (Ayllon y Azrin, 1968).
5 El coste de respuesta a la skinneriana, difícilmente puede usarse en la investigación
tradicional con animales privados ya que implica que el individuo dispone de reforzadores que
ha obtenido y no ha usado. Un animal privado, en general no almacena el alimento o la bebida
disponible, lo consume. Si el ser humano actuara igual entonces, en el momento de que una
persona recibiera su salario, se lo gastaría todo, inmediatamente y sabemos que aunque puede
ocurrir, usualmente esto no sucede. El ser humano puede ahorrar o no gastar inmediatamente
su salario (reforzadores secundarios, según la lógica skinneriana). De esta forma, a un niño se
le puede decir que cada vez que haga sus deberes escolares, se le pondrá un punto azul en un
folio y si final de la semana tiene 3 o más puntos azules se le invitará a dar un paseo por el
parque y un helado (no recuerdo cómo se le dice a esto en España). Sin embargo, cada vez
que no realice sus deberes, se le pondrá un punto rojo. Por cada punto rojo, perderá uno azul.
Esta, no otra, es la técnica del coste de respuesta. La técnica se define como el castigo de una
respuesta mediante el retiro de reforzadores positivos ganados. Si el niño responde
incorrectamente, perderá un reforzador positivo, esto es, se castiga la respuesta incorrecta.
Expuesto esto, no veo cómo el pagar en una caseta de peaje pueda concebirse como
castigo cuando en realidad es una transacción. ¿Cuál es la respuesta incorrecta? Yo sólo estoy
pagando lo que cuesta el uso de una carretera. Claro, puedo optar por horarios diferentes, cada
uno con requisitos (costes) diferentes. La barata, reducción de precios, oferta, descuento, dos
por uno, o como se llame la promoción, sólo incluye la reducción de requisito no la aplicación
de castigo mediante la eliminación de reforzadores negativos.
Curiosamente, algunas de mis referencias son las mismas que empleó Luis.
Referencias:
•
•
•
•
•
Ayllon T. y Azrin N. (1968). Economía de fichas. Trad. al cast. México:
Trillas.
Foster T.A., Hackenberg T.D. (2004). Unit price and choice in a tokenreinforcement context. Journal of Experimental Analysis of Behavior,
81, 5-25.
Herrnstein R.J. (1958). Some factors including behavior in a two-choice
situation. Transactions of the New York Academy of Sciences,12, 3535.
Skinner B. F. (1938). The Behavior of Organisms. New York; Appleton
Century Crofts.
Weiner, H. (1962). Some effects of response cost upon human operant
behavior. Journal of Experimental Analysis of Behavior, 5, 201-208.
Respuesta de Luis Valero:
En todas las definiciones iniciales, completamente de acuerdo, al igual que sobre los
programas de reforzamiento y requisitos de repuesta. Pero en esta explicación de la reducción
de requisitos de respuesta, ya no tanto.
De acuerdo en que se trata de dos conceptos diferenciados, pero mi argumentación es
que al reducir los criterios o requisitos de respuesta la probabilidad de esta respuesta aumenta,
y correspondería a la definición de “reforzamiento negativo” al haberse reducido una parte de la
estimulación aversiva.
En el caso que pones sobre experimentación animal con un programa de RF20 y luego
se reduce a RF5, efectivamente el cambio introducido por el experimentador es reducir el
numero de respuestas exigidas para entregar el reforzador, pero la probabilidad de
reforzamiento por respuesta aumenta, y ello aumenta también la probabilidad de responder (en
el primer caso Ref/Resp = 0.05, y en el segundo Ref/Resp = 0.20). En este caso podría
6 considerarse (y repito “podría”, es un análisis teórico y habría que ver los efectos) como
reforzamiento positivo el cambio de una situación a otra.
De hecho, en el otro ejemplo escolar con el cambio de preguntas del examen, de
valorar 1 punto por pregunta o valorar 2 puntos por pregunta, habrá que ver la cantidad de
alumnos que se presentarían a uno y otro examen (estoy seguro que al segundo muchos mas),
además de las concomitantes respondientes de alegría de los alumnos al aumentarles la
valoración de sus preguntas de examen.
En el caso contrario, el paso de un programa RF5 a otro RF20, efectivamente es un
aumento en los requisitos de respuesta, pero el efecto conseguido podría analizarse como
castigo por disminución del reforzador, incluso puede darse extinción. Por eso el paso de un
programa a otro ha de hacerse lentamente.
Pero, por otro lado, en el ejemplo que iniciamos sobre el pago y rebaja en el precio de
la autopista, no se trata de un programa con reforzamiento variable concurrente, como los que
describes que efectivamente serian un comportamiento de elección y ya esta. Sino de una única
respuesta ante el control de peaje: pagar una cantidad de dinero determinada por utilizar esa
autopista. En esa situación, pagar dinero es deshacerse de un reforzador ya adquirido y entrar
en la autopista, sería acceder a un reforzador de actividad.
Es una respuesta con una doble contingencia, de castigo negativo o coste de respuesta,
por un lado, y de reforzamiento positivo por otro. No seria una respuesta de elección o
concurrente, sino en todo caso –y siendo muy estrictos- en cadena. Necesariamente primero
hay que pagar para acceder a la autopista después.
En otro ejemplo de coches. Habitualmente se considera que las multas de tráfico es
una técnica de coste de respuesta, nos castigan y “quitan” el dinero por aparcar mal o ir a
demasiada velocidad. Si en esa situación, el conductor/a habla con el policía de trafico, se hace
la victima, le da alguna excusa, que esta embarazada, etc., y el guardia reduce o elimina la
multa, ahora ese comportamiento se supone estaría bajo reforzamiento negativo, porque ha
eliminado la multa. Pues de igual forma, si se circula por la autoría a una hora determinada y
ello cuesta la mitad de precio que habitualmente, o incluso es gratis a determinadas horas,
pues aumentar la conducta de circular por esa autoría, y puede analizarse como reforzamiento
negativo.
Otro ejemplo, habitual en España, la “hora feliz” en los pubs y bares, cuando ofrecen
2x1 las copas a una hora determinada (20-22 horas), y con ello aumentan la clientela y el
ambiente del local. Si hay una disminución en el precio y aumenta la conducta, eso corresponde
a la definición de reforzamiento negativo. Por cierto, estoy seguro que, en tu ejemplo, serán
mayoría los alumnos que madruguen a las 7h., para hacer el examen y se les valore al doble las
preguntas, (aunque me demandarían por el trato injusto entre alumnos ;)))
Por ultimo, por la explicación del otro mensaje, no creo que tenga confundidos los
términos de “coste de respuesta” (como en los ejemplos anteriores), y el de “coste/beneficio”
de tipo económico. Ambos son diferentes, y los expuse en un intento de explicar una respuesta
del conductor de toma de decisiones entre unas ganancias y unas perdidas. Efectivamente
tienen un origen económico, pero esos análisis pueden aplicarse perfectamente a este tipo de
comportamientos donde hay dinero por medio.
Bien, y por ultimo, si este posible aumento de los conductores en las autopistas no es
explicable por “reforzamiento negativo”, ¿cuál es la contingencia? ¿la reducción de requisitos de
respuesta?. Si fuese sólo así, ¿por qué pagar la autopista con tarjeta de crédito, que también
reduciría los requisitos de respuesta, no aumenta el número de conductores que circulan, pero
sí aumenta cuando reducen los precios?.
7 Respuesta de Julio Varela:
Debido a que tenemos acuerdo en las definiciones básicas y que los ejemplos son los
que parecen estar en polémica, me quedaré en las definiciones básicas y perdón por la
insistencia.
1. Reforzamiento positivo. En el momento en que aparece la respuesta Ra se produce la
presentación del estímulo Ex. Si la tasa de Ra aumenta, se define a Ex como reforzador
positivo.
2. Reforzamiento negativo. En el momento en que aparece la respuesta Rb, no se produce la
presentación, desaparece o se reduce algún parámetro del estimulo Ey. Si la tasa de Rb
aumenta, se define al efecto de Ey como reforzador negativo y Ey se nomina como estímulo
negativo (o aversivo).
APUNTE: Bajo este sistema lógico, la tasa de respuesta es clave para identificar si un estímulo
es un reforzador. Si se incrementa la tasa ante la presentación del estimulo, éste es positivo
pero si el estimulo se elimina, es negativo.
3. El castigo. En el momento en que aparece la respuesta Rc, y se presenta el estímulo Ey,
consecuentemente la tasa de respuesta Rc disminuye drásticamente o desaparece.
4. La extinción. En el momento en que aparece la respuesta Rd, y se presenta el estímulo Ey, la
tasa de respuesta Rd tiende a disminuir gradualmente.(2)
6. El coste de respuesta. En el momento en que aparece la respuesta Rc, al sujeto se le retira
un Ex y la tasa de respuesta Rc tiende a desaparecer.
APUNTE: En el marco lógico anterior, la respuesta Ra es aquella que el experimentador espera
que ocurra (requerida por el programa). Socialmente, se le identifica con respuestas
adecuadas, positivas, sociales, adaptadas o como se les quiera denominar.
APUNTE: En cambio, las respuestas Rb y Rc son respuestas no esperadas o no requeridas por
el programa. Socialmente son respuestas incorrectas, negativas, inadecuadas, mala onda,
antisociales, psicópatas, etc.
APUNTE: La respuesta Rd puede o no esperarse, y esto depende de la operación.
7. El estímulo Ex es positivo. El estimulo Ey es negativo (o aversivo).
Como se puede observar, en el castigo (4) y en el coste de respuesta (6), la respuesta que
ocurre es inesperada (Rc), esto es, es una respuesta inadecuada.
La extinción (5) se usa para respuestas tipo Rd que, dependiendo de la operación, puede ser
una respuesta tipo Ra o Rc. El reforzamiento intermitente es un ejemplo de extinción de Ra. Por
otro lado, aplicar la “ley del hielo a alguien” es un ejemplo de extinción de Rc (inadecuada).
APUNTE: Es importante notar que en todos los casos descritos, que definen los procedimientos,
se trata de una sola respuesta y una sola contingencia (condicionalidad).
Hasta aquí, con base en las definiciones básicas, podemos argumentar lo siguiente:
a) No existe castigo en el coste de respuesta. O es coste o es castigo, no puede definirse como
sinónimo.
b) Podemos afirmar lo mismo respecto a la extinción: se trata de extinción o de coste, pero no
puede afirmarse algo diferente.
8 c) Mucho menos puede argumentarse que en el coste de respuesta exista castigo y extinción.
Las referencias citadas por Luis y por mí en los escritos anteriores se ciñen a estas definiciones.
No hay más.
Ahora entramos en el terreno pantanoso de la conducta humana.
En la investigación animal operante, el único análogo de transacción (yo doy, tú me
das) que existe, surge de la investigación con monos de donde salió originalmente la palabra
“token” que tradujimos al castellano como ficha. Y se usaron fichas simplemente porque los
animales no usan el dinero. Las fichas fueron bautizadas como “reforzadores simbólicos” y que
podían intercambiarse por reforzadores primarios (u otros reforzadores secundarios o
simbólicos). Si yo doy algo, lo que doy debe ser un “reforzador”, y lo que yo reciba, debe ser un
“reforzador”. Es una transacción de reforzadores y las respuestas implicadas son del tipo Ra
(esperadas), no son del tipo Rc (no esperadas).
Por esto, pagar cierta cantidad de dinero por transitar en una autovía, es un simple
caso de transacción de reforzador no primario (uso de autovía) por uno simbólico (dinero). Si
cobran 1000 pelas pago ese dinero. Si cobran 500 pelas, también lo pago. Ambos casos son
transacciones. En ninguno, considerando las definiciones básicas, es argumentable el coste de
respuesta, el castigo o la extinción.
Y finalmente, el terreno escabroso que ya ha causado algunas diferencias y que sé que
existe discrepancia: decir que se incrementa la tasa (número de automovilistas que transitan en
el horario con peaje reducido) es una extrapolación poco afortunada de los conceptos
empleados en el laboratorio. En éste ámbito, la tasa de respuestas siempre se refiere a la tasa
del INDIVIDUO. En el caso de las autovías, se está haciendo alusión a una tasa poblacional, no
individual. Por tanto, desde mi punto de vista, conceptualmente no hay consistencia.
Estaré atento a la respuesta y comentarios de Luis y de cualquier otra persona pero por
mi parte, creo que con esto argumento que sí hay una confusión conceptual en el caso
analizado de las autovías
Gracias por su paciencia ante estos largos mensajes.
Respuesta Final de Luis Valero:
Creo que estamos llegando a algunos acuerdos y puntos en común. Aunque en algunos puntos
nos vamos alejando del tema.
De acuerdo en las definiciones iniciales sobre las contingencias básicas, y en las
definiciones en un contexto de laboratorio. Pero no tanto, en cuanto a la definición de “Ra”
como respuestas correctas, adecuadas, sociales, adaptativas, etc., y “Rb” como incorrectas,
inadecuadas, etc. Sería una distinción sólo desde el punto de vista del experimentador, cuando
se trata de una contingencia programada, o una situación escolar o de tratamiento, donde el
terapeuta administra las posibles contingencias. La respuesta que se analiza puede ser
esperada o inesperada, adecuada o inadecuada, la distinción la hace el observador si es él
quien aplica las consecuencias.
Pero en circunstancias naturales, no existen Ra ni Rb, sólo la contingencia, las
consecuencias que siguen a una respuesta y alteran sus parámetros futuros. No hay que
suponer intención en la madre que “castiga” al niño quitándole que vea los dibujos animados
en TV (otro ejemplo de coste de respuesta), sino la simple contingencia. Dependiendo del
efecto, afirmaremos que la respuesta ha sido “reforzada” o “castigada”, porque puede que el
comportamiento inadecuado del niño aumente.
9 Por cierto, creo que hay un error de escritura en los puntos 3 (castigo) y 4 (extinción),
das la misma definición. Se supone que en extinción se elimina el Ey (reforzador que antes
seguía a la conducta). La diferencia respecto a “coste de respuesta” es que se elimina cualquier
evento, cualquier otro reforzador, no necesariamente el que con anterioridad seguía a esa
respuesta. Ambas serian definidas como contingencias de “castigo negativo”.
Citando las definiciones de los clásicos, Honig (1966/75, pags 456-470) da esa
definición ya mencionada anteriormente sobre castigo, e incluye a continuación cuatro
procedimientos de castigo: presentación de estimulación aversiva o punitiva, presentación de
estimulación aversiva condicionada, tiempo fuera de reforzamiento positivo, y coste de
respuesta. En su texto también clásico de Kanfer y Phillips (1970/77, pags. 359-360) incluyen
entre los “modelos para el control aversivo del comportamiento”: saciedad, extinción, tiempo
fuera y costo de respuesta. En un texto más actual y aplicado sobre modificación de conducta,
Martin y Pear (1999/96, pags. 174-176) presentan la misma clasificación de los tipos de
“estímulos punitivos”: castigo físico, reprimendas verbales como aversivos condicionados,
tiempo fuera y costo de respuesta. En el libro de técnicas de modificación de conducta de
Labrador et al. (1995, pag. 515), un clásico español sobre el tema, se iguala el coste de
respuesta como castigo negativo.
Por tanto, mi primera afirmación (y de esta creo que no me bajo) es que el “castigo
negativo”, aquel en que se elimina algún evento contingente a la respuesta y disminuye su
probabilidad, incluye diversos procedimientos que son: extinción, tiempo fuera y coste de
respuesta. Los tres, con sus diferentes formas de aplicación, son procedimientos de castigo.
Por otro lado, mi segunda afirmación (y creo que tengo argumentos para mantenerme
todavía en ella) es que el pago de dinero por utilizar una autopista es un comportamiento con
una doble contingencia de coste de respuesta y de reforzamiento positivo. No hay ninguna
razón para extrañarse que un mismo comportamiento pueda tener dos contingencias
simultáneamente, y que además esto pueda ocurrir en la vida diaria.
De hecho, he encontrado el experimento clásico en los programas de reforzamiento con
castigo, con un programa de reforzamiento positivo y de castigo, ambos simultáneamente. Es
un experimento de Azrin et al. (1963) con palomas donde primero reforzaron con comida el
picoteo sobre la tecla, hasta mantenerlas estable con un programa RV 3 minutos, después se
introdujo castigo según un programa RF1, simultáneamente sobre la misma tecla. Es decir, la
paloma picaba la tecla, recibía una descarga y a continuación la comida. En la tercera fase,
cambiaron el programa RF del castigo, con niveles de RF100 a RF1000, y observaron que
cuanto mayor era el programa menos tasa de respuesta se suprimía. Es decir, cuanto menos
probable era el castigo mas aumentaba la respuesta operante.
El parecido con el pago por pasar por una autopista y los diferentes precios, no puede
ser mayor.
Bien, si consideramos que pagar dinero por algo es un coste de respuesta (castigo
negativo), y si consideramos también este experimento anterior, el hecho de disminuir el pago
de autopista (menor probabilidad de castigo) aumentara la conducta de utilizar esa autopista.
La disminución del programa de castigo aumenta la conducta, lo cual –según la definición- sería
reforzamiento negativo.
Creo que el análisis es correcto, el razonamiento también es lógico, y los datos sobre
los efectos de las rebajas en la conducta del consumidor (de lo que hay bastantes estudios
empíricos) confirman esta hipótesis. Aunque se pueda estar de acuerdo o no con el uso de
algunos de esos términos.
Por último, aunque ya es apartarnos del tema de debate en esta ocasión, es importante
señalar que uno de los parámetros habituales de registro de un comportamiento es la
10 frecuencia o bien la tasa de respuesta. Pero existen otros más, y respecto a la conducta de
grupo también existen diversos parámetros de medición como el número de personas o
usuarios, la frecuencia o tiempo de uso, los productos de la conducta de grupo, etc., que son
perfectamente válidos en una investigación empírica (y conductual), y que de hecho se utilizan
con diseños de caso único en investigación comunitaria. Por ejemplo, el número de coches que
paran con semáforo ámbar en un determinado cruce, el número de coches que circulan por
encima de una velocidad dada, la cantidad de atropellos o accidentes en una carretera
determinada, la cantidad de litros de gasolina vendidos en una determinada estación, y por
supuesto, el numero de coches que atraviesan el control de una autopista a una hora
determinada.
Referencias:
•
•
•
•
•
Azrin, N.H., Holz, W.C., y Hake, D.R. (1963). Fixed-ratio punishment.
JEAB, 6, 141-184.
Labrador, F.J., Cruzado, J.A., y Muñoz, M. (1995). Manual de técnicas
de modificación y terapia de conducta. Madrid: Pirámide.
Kanfer, F.H. y Phillips, J.S. (1970/77). Principios de aprendizaje en la
terapia del comportamiento. Mexico: Trillas.
Martin, G. y Pear, J. (1996/99). Modificación de conducta: qué es y
cómo aplicarla. Madrid: Prentice Hall.
Honig, W.K. (1966/75). Conducta Operante: investigación y
aplicaciones. Mexico: Trillas.
Respuesta Final de Julio Varela:
Había comentado que con mi mensaje anterior terminaba mi plática pero ... Viendo tu
respuesta, tengo que agregar algunos puntos a manera de conclusiones.
A. Totalmente de acuerdo que en circunstancias naturales no existe ni Ra ni Rb, … y tampoco
existen los programas de reforzamiento. Estos son producto de programaciones hechas en
laboratorio o escenarios estricta o relativamente controlados por alguien: el experimentador.
B. Efectivamente, cometí no uno sino dos errores en mi descripción de extinción (la del castigo
es correcta). En el caso de extinción debí haber escrito:
4. La extinción. En el momento en que aparece la respuesta Ra, y no se presenta el estímulo
Ex, la tasa de respuesta Ra tiende a disminuir gradualmente.
C. Gracias, ya sé a quién responsabilizar del error clásico conceptual de igualar el coste de
respuesta con el castigo negativo: a Labrador.
D. En tu primer afirmación, de la cual no te bajas, planteas un punto muy importante: la
distinción entre la funcionalidad de la contingencia y el criterio del experimentador. Una
respuesta Ra que durante varias sesiones ha sido reforzada mediante Ey, de pronto, el
experimentador decide aplicar la extinción y por tanto retira Ex (reforzador positivo). ¿La
respuesta de la rata eliminó el estímulo Ex por ser aversivo?
E. Totalmente
contingencias
contingencias,
mi comentario
de acuerdo en que no hay ninguna razón para extrañarse que pueda haber dos
simultaneas, lo que sí es de extrañarse es que se considere que hay dos
cuando en realidad hay una sola, como se describe en el caso básico (punto 6 de
anterior).
F. El estudio de Azrin, Holz y Hake (1963) no se desarrolló un programa de reforzamiento
simple, tiene dos componentes y un sólo operandum. En ningún momento, bajo nueva revisión
11 con lupa, encontré la argumentación o alusión al coste de respuesta. Los autores hablan de
supresión y reducción de tasa ante la presentación del castigo (estimulo aversivo), sólo eso.
Referencias:
•
Azrin, N.H., Holz, W.C., y Hake, D.R. (1963). Fixed-ratio punishment.
JEAB, 6, 141-184.
NOTAS:
(1) No quiero desviarme del tema central de discusión pero si se considera correcta esta forma
skinneriana de considerar la ejecución, habría que aclarar muchas cosas, entre otras: ¿La
respuesta que se refuerza es la de levantarse a cierta hora? ¿Es la respuesta de responder
correctamente a cada pregunta? ¿Son ambas? Sigo con el tema y perdón por la irrupción.
(2) Esta definición es errónea pero se mantiene pues será comentada en mensajes posteriores.
[email protected]
Grupo Contextos 2010
12