Le conditionnement opérant : modèles de causalité ou modèles de finalité ? - article ; n°1 ; vol.81, pg 139-160

De
Publié par

L'année psychologique - Année 1981 - Volume 81 - Numéro 1 - Pages 139-160
Résumé
La définition de la conduite opérante ou instrumentale comme étant régie par ses conséquences peut être entendue de deux façons, soit que le sujet tente de s'approprier le maximum de renforçateurs compte tenu des contraintes de la situation (modèles de finalité), soit que les renforçateurs soient responsables d'une modification durable de l'état du sujet qui affecte sa conduite (modèles de causalité). La confrontation de ces deux classes de modèles montre que la différence initiale dans le mode d'interprétation s'accompagne d'autres différences, dont la plus importante actuellement concerne le type de résultats considérés. Outre les prédictions quantifiées des variations de certains paramètres lorsqu'on modifie les exigences du programme, les modèles de finalité permettent de formuler différemment certains aspects de la conduite opérante, et de suggérer de nouvelles questions.
Summary
The definition of operant (or instrumental) behaviour as behaviour governed by its consequences can be interpreted in two ways, either (a) that the subject tries to achieve the maximum number of reinforcers compatible with the situation (purposive models), or (b) that the reinforcers produce a lasting modification in the state of the subject which affects his behaviour (causal model). A comparison of these two classes of model reveals that these basic differences of interpretation are associated with differences of other kinds, the most important of which concern the type of data considered. In addition to quantitative predictions about variations in some of the behavioural parameters as a function of modifications in requirements of the reinforcement schedule, purposive models allow different formulations of certain aspects of operant behaviour, and so suggest new questions.
22 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : jeudi 1 janvier 1981
Lecture(s) : 15
Nombre de pages : 23
Voir plus Voir moins

C. George
Le conditionnement opérant : modèles de causalité ou modèles
de finalité ?
In: L'année psychologique. 1981 vol. 81, n°1. pp. 139-160.
Résumé
La définition de la conduite opérante ou instrumentale comme étant régie par ses conséquences peut être entendue de deux
façons, soit que le sujet tente de s'approprier le maximum de renforçateurs compte tenu des contraintes de la situation (modèles
de finalité), soit que les renforçateurs soient responsables d'une modification durable de l'état du sujet qui affecte sa conduite
(modèles de causalité). La confrontation de ces deux classes de modèles montre que la différence initiale dans le mode
d'interprétation s'accompagne d'autres différences, dont la plus importante actuellement concerne le type de résultats
considérés. Outre les prédictions quantifiées des variations de certains paramètres lorsqu'on modifie les exigences du
programme, les modèles de finalité permettent de formuler différemment certains aspects de la conduite opérante, et de
suggérer de nouvelles questions.
Abstract
Summary
The definition of operant (or instrumental) behaviour as behaviour governed by its consequences can be interpreted in two ways,
either (a) that the subject tries to achieve the maximum number of reinforcers compatible with the situation (purposive models), or
(b) that the reinforcers produce a lasting modification in the state of the subject which affects his behaviour (causal model). A
comparison of these two classes of model reveals that these basic differences of interpretation are associated with differences of
other kinds, the most important of which concern the type of data considered. In addition to quantitative predictions about
variations in some of the behavioural parameters as a function of modifications in requirements of the reinforcement schedule,
purposive models allow different formulations of certain aspects of operant behaviour, and so suggest new questions.
Citer ce document / Cite this document :
George C. Le conditionnement opérant : modèles de causalité ou modèles de finalité ?. In: L'année psychologique. 1981 vol.
81, n°1. pp. 139-160.
doi : 10.3406/psy.1981.28365
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1981_num_81_1_28365L'Année Psychologique, 1981, 81, 139-160
REVUES CRITIQUES
Laboratoire de Psychologie1, Université de Paris VIII
ERA 235 du CNRS
LE CONDITIONNEMENT OPÉRANT :
MODÈLES DE CAUSALITÉ
OU DE FINALITÉ?
par Christian George
SUMMARY
The definition of opérant (or instrumental) behaviour as behaviour
governed by its consequences can be interpreted in two ways, either (a) that
the subject tries to achieve the maximum number of reinforcers compatible
with the situation (purposive models), or (b) that the produce
a lasting modification in the state of the subject which affects his behaviour
(causal model). A comparison of these two classes of model reveals that
these basic differences of interpretation are associated with differences of
other kinds, the most important of which concern the type of data considered.
In addition to quantitative predictions about variations in some of the
behavioural parameters as a function of modifications in requirements of
the reinforcement schedule, purposive models allow different formulations
of certain aspects of opérant behaviour, and so suggest new questions.
I. — ' Modèles de causalité et modèles de finalité
Notre propos est de confronter, à propos du conditionnement
opérant, les modèles de causalité, plus familiers, aux modèles de finalité
d'apparition récente en ce domaine, afin de discerner les caractéristiques
et les avantages des seconds. L'origine des modèles de finalité doit être
recherchée dans le cadre conceptuel fourni par l'analyse des systèmes
(ou encore systémique, théorie des systèmes, cybernétique...), bien que
tous les travaux exposés ne se réfèrent pas toujours explicitement à
celle-ci. On se bornera à introduire quelques notions ou distinctions
nécessaires à notre propos, en renvoyant le lecteur qui désirerait disposer
1. 2, rue de la Liberté, 93526 Saint-Denis Cedex 2. Christian George 140
d'une introduction à l'approche systémique aux ouvrages existants
(tout particulièrement Walliser, 1977).
On a représenté dans la figure 1 un schéma très simple des relations
entre un organisme, considéré pour l'instant comme un système non
analysé, et son environnement extérieur. De tels schémas ne sont pas
rares en psychologie, mais il en existe des variantes diverses qui ne
sont pas anodines et peuvent entraîner des erreurs d'interprétation
(Powers, 1978). La variable d'entrée I est subdivisée en une variable IA
qui résulte de l'activité du système, et une variable IB indépendante
de celle-ci ; IB peut être considérée comme une perturbation dans le
SYSTEME °B ■b
i
i
FONCTION f
°A 'a en VIRONNEMENT
FONCTION g
Fig. 1. — Représentation de l'organisme comme un système non analysé
en interaction avec son environnement. IA et IB désignent les entrées
dépendantes et indépendantes du comportement du système, OA et OB les
sorties qui affectent et n'affectent pas les entrées du système.
contrôle exercé par l'organisme sur son environnement. De la même
façon la variable de sortie peut être subdivisée en une variable OA qui
affecte l'entrée considérée et une variable OB sans effet sur celle-ci.
Deux fonctions sont considérées, une fonction g qui exprime les valeurs
de l'entrée IA en fonction des valeurs de la sortie OA, et une fonction /
ou fonction du système qui donne les valeurs de O en des
entrées. Dans le conditionnement opérant, IA sera identifié avec le débit
des stimulus renforçateurs produits par l'activité du sujet, IB avec des
modifications dans la présentation des renforçateurs qui échappent au
contrôle du sujet (par exemple, nourriture « gratuite »), OA avec le
débit des réponses instrumentales et OB avec des comportements
dépendants des entrées mais sans effet sur celles-ci (par exemple, cer
taines réponses collatérales). La fonction g désigne le programme de
renforcement, et la fonction / fera correspondre aux variations du débit
des stimulus renforçateurs les variations de la performance.
Un tel schéma ne préjuge en rien de l'interprétation proposée par
le chercheur, de causalité ou de finalité. Le système sera de causalité
si on considère que la relation entre les entrées et les sorties exprimée
par la fonction / est imputable à un rapport de cause à effet. Dans ce Le conditionnement opérant 141
cas, la distinction entre les deux composantes IA et IB de la variable
d'entrée peut éventuellement être jugée sans intérêt (cf. les réponses
« superstitieuses » : Skinner (1948) considère que les stimulus renfor
çateurs, qu'ils soient produits ou non par le sujet, ont le même effet).
Le même système sera dit de finalité si on peut montrer que la fonction /
engendre des valeurs de la variable de sortie dont chacune constitue
une des solutions possibles, ou la solution unique, à un problème ;
celui-ci consiste à maintenir une variable hypothétique qu'il convient
de spécifier entre certaines limites, ou à optimiser cette variable. Un
sous-ensemble des systèmes de finalité, les systèmes optimisants, pour
lesquels le problème ne comporte qu'une seule solution, admettent
toujours une traduction possible en système de causalité ; par contre,
le passage inverse d'une lecture de causalité à une lecture de finalité
n'est pas toujours possible (Walliser, 1977). On notera que cette définition
d'un système de finalité ne fait pas appel à la notion d'intention, et ne
repose pas sur une analyse du système en sous-systèmes. On peut tenter
de pousser plus loin l'analyse ou s'interroger sur l'opportunité d'intro
duire des notions complémentaires lorsqu'on désire comprendre comment
fonctionne le système. Ainsi on pourra rechercher s'il existe des méca
nismes de régulation active utilisés par le système pour poursuivre sa
finalité, ou encore rechercher si la finalité effectivement poursuivie
est conforme à d'éventuelles intentions. On notera enfin que la présence
d'une boucle externe de rétroaction comme sur le schéma de la figure 1
ne constitue pas un critère permettant de savoir si le système doit être
considéré comme de causalité ou de finalité.
Les remarques précédentes montrent qu'on ne saurait assimiler les
modèles de causalité et de finalité à deux classes d'hypothèses mutuel
lement exclusives. Le choix entre les deux approches peut procéder
soit d'un point de vue qu'on entend privilégier, soit de la conviction
ou de la constatation que l'une d'elles rend mieux compte des phéno
mènes étudiés. Il ne manque pas d'arguments a priori en faveur des
modèles de finalité en psychologie. Ainsi on peut considérer que ces
derniers doivent être privilégiés parce qu'ils sont plus conformes à la
conception d'un individu doué d'une certaine autonomie par rapport
à son environnement et s'assignant à lui-même des objectifs ; ou encore
qu'ils offrent un moyen de comparer les solutions adoptées par l'individu
en réponse à des problèmes très divers et permettent ainsi d'assurer la
jonction avec les travaux réalisés dans d'autres secteurs de la psychol
ogie, voire dans d'autres disciplines (notamment l'économie). Cepen
dant notre propos sera plutôt de rechercher, en l'état actuel de nos
connaissances sur le conditionnement opérant, quels sont les bénéfices
effectifs apportés par les modèles de finalité. Dans ce but, nous expo
serons succinctement les différents modèles de finalité disponibles, que
nous confronterons à trois modèles de causalité « représentatifs ».
L'extension du domaine de validité que s'assigne chaque modèle étant Christian George 142
l'un des critères possibles de jugement, nous mentionnerons tout d'abord
le type de régularité privilégié par les modèles de finalité, celle-ci
n'ayant encore fait l'objet d'aucune publication en français.
II. — L'adaptation aux programmes : fonctions de rétroaction
ET FONCTIONS DE RÉPONSE
Pour chaque programme, le montant des gains dépend de la conduite
adoptée. Cela est particulièrement clair avec les programmes à propor
tion fixe FR. En désignant par R le débit des renforçateurs, et par P le
200-
1 2 3 4 5 6 7
NOMBRE DE RENFORÇATEURS PAR MINUTE
Fig. 2. — Les programmes de proportion : fonctions de rétroaction (en
pointillé) pour quelques programmes FR, sur lesquelles on a surimposé la
fonction de réponse (en trait plein) ajustée aux résultats du rat 4F de
Barofsky et Hurwitz (1968 ; les programmes ont été présentés dans un
ordre croissant d'exigence au cours de sessions de 30 mn). ■
1
1
conditionnement opérant 143 Le
débit des réponses instrumentales, on a pour chaque programme FR
la relation linéaire R = P/C, où C est le nombre requis de réponses
pour obtenir un renforçateur. De telles fonctions sont appelées « fonction
de rétroaction » par Baum (1973) et « fonction du programme » par
Staddon (1979). Les fonctions de rétroaction pour les programmes à
proportion variable VR sont identiques à celles des FR
(%• 2).
On peut également définir des fonctions de rétroaction pour les
programmes d'intervalle fixe FI. En supposant que le débit de réponse
est uniforme, le graphe de la fonction comporte deux segments recti-
lignes, le premier de pente positive, le second de pente nulle (voir sur la
figure 3 le tracé FI 10 s). Lorsque le débit de réponse est faible, en
sorte que l'intervalle inter-réponse est supérieur à la durée t de la
période de non-disponibilité du renforçateur, et donc à l'intervalle
OSEC. MIN. SEC. SEC
100. 1 i 1 n o
1
1 1 1
/TX
50. X
h
/;
/, i -__i_'i— i i — ^-— — i , ' i — ~"
2 3 4 5 6 7
NOMBRE DE RENFORÇATEURS PAR MINUTE
Fig. 3. — Les programmes d'intervalle : fonctions de rétroaction pour
le programme FI 10 s et pour quelques programmes VI, sur lesquelles on a
surimposé la fonction de réponse ajustée aux résultats moyens des rats du
groupe contrôle normal de Porter et al. (1974 ; les programmes ont été
présentés dans un ordre croissant d'exigence au cours de sessions de 30 mn).
minimum entre deux renforçateurs, chaque réponse est renforcée, et
R = P. Lorsque le débit de réponse est élevé, l'intervalle inter-réponse
est inférieur à t, une fraction des réponses ne sont pas récompensées,
et le débit des renforçateurs demeure constant lorsque le débit de
réponse augmente, et égal au débit maximum des renforçateurs autorisé
par le programme, soit R = lft. Avec un programme d'intervalle
variable VI, il faut émettre plus de réponses pour obtenir le même débit 144 Christian George
de renforcement qu'avec un programme FI ayant le même paramètre t,
car la durée de la période de non-disponibilité du renforçateur est, dans
de nombreux cas, inférieure à l'intervalle moyen «.Les fonctions de
rétroaction sont alors plus difficiles à établir. Deux estimations ont été
proposées, l'une par Baum (1973), l'autre par Staddon (1979).
Ces analyses permettent de discerner quelle est la conduite qui assure
la maximisation des renforçateurs sans élévation inutile du nombre de
réponses. Bien que de telles analyses « formelles » aient été condamnées
par Skinner (1966), il n'est pas sans intérêt de pouvoir localiser la
conduite effective d'un individu par rapport à la conduite qui est
optimale selon le critère qui vient d'être énoncé. Le débit moyen
stabilisé d'un sujet se traduit par un point sur la fonction de rétroaction
correspondant au programme. La question se pose de savoir comment
sont distribués les points lorsqu'on change de programme. Ainsi lor
squ'un sujet passe successivement de FR 5 à FR 10 et à FR 20, maintient-
il constant son débit de réponse, ce qui entraînera une chute des gains,
élève-t-il au contraire son débit de façon à assurer l'invariance de ceux-ci,
ou adopte-t-il une conduite intermédiaire ? La fonction qui relie le
débit effectif de réponse au débit de renforcement lorsqu'on modifie
le paramètre d'une même classe de programmes a été appelée fonction
de réponse par Staddon (1979). Nous avons représenté sur les figures 2
et 3 de telles fonctions obtenues avec des sujets animaux, car avec des
sujets humains la gamme des programmes utilisés est moins étendue,
et les résultats sont plus fluctuants. La fonction a habituellement une
allure parabolique avec les FR et VR, et comporte une
augmentation du débit de réponse lorsque les exigences du programme
augmentent, puis une diminution celles-ci deviennent exces
sives, avec un maximum situé dans la zone 40 à 80 réponses par renfor
çateur. Dans quelques études la fonction est linéaire, mais selon
Staddon (1979) cela survient lorsque la gamme des programmes n'est
pas très étendue, ou avec des procédures spéciales. La fonction de
réponse pour les programmes FI et VI est également une ellipse, avec
par comparaison aux programmes de rapport un moindre débit de
réponse pour un même débit de renforcement. La valeur des différents
points d'une fonction de réponse dépend de nombreux facteurs (quant
ité de nourriture ou d'eau octroyée par renforçateur, durée de la
session, force requise pour actionner le levier...), mais l'allure générale
demeure la même dans un grand nombre de travaux.
Ces fonctions de réponse constituent l'objet d'étude privilégié des
modèles de finalité. Le postulat de base étant que les sujets optimisent
une variable hypothétique qui intègre le débit des renforçateurs sans se
réduire évidemment à celui-ci, les hypothèses sur ce qui est optimisé
seront testées par la prédiction de l'allure générale de la fonction de
réponse ou des valeurs successives prises par cette fonction. Les prédic
tions tiennent compte des contraintes imputables aux programmes de Le conditionnement opérant 145
renforcement, et éventuellement d'autres contraintes (temps, satiété...).
Les modèles de finalité présentent évidemment un grand intérêt lorsque
le comportement prédit ne peut l'être à partir de la connaissance des
contraintes en jeu, c'est-à-dire lorsque ce comportement n'est pas
strictement déterminé par celles-ci. L'exemple de la contrainte de temps
dans les programmes PR et VR permet d'illustrer ceci. On a vu que
lorsque le nombre C de réponses requis par renforcement augmente, le
débit de réponse croît jusqu'à un maximum puis décroît. Mais lorsque
C augmente, dans des sessions de durée constante, le temps disponible
pour émettre des réponses instrumentales augmente aussi puisque le
nombre de renforçateurs reçus diminue et, de ce fait, le temps consacré
p 4b
/
\ y
/ \
i
(M ß f \
temps session. et session La activités la Fig. figure consommation consacré expérimentale En 4. exhaustives 4 — l'absence a Relations concerne à ces du deux et de et renforçateur mutuellement entre le toute celles activités, cas les contrainte où dues contraintes le et R. sujet aux exclusives, T Les correspond due exigences répartit axes dues à un OP l'activité à programme son la à et d'un la durée OR temps programme instrumentale représentent limitée de totale entre renforced'une deux de FR. la le P
ment (session contrôle de base), les différentes répartitions possibles de la
durée T de la session se situent sur la droite Tp Tr. Les droites OA et OB
représentent pour les programmes FR 1 et FR 5 le temps consacré à l'activité
instrumentale pour obtenir un nombre croissant de renforçateurs, en suppo
sant ici que la durée d'exécution d'une réponse instrumentale est égale à la
durée de consommation d'un renforçateur. Les points A et B représentent la
répartition du temps imposée par la conjonction de la contrainte due à la
limitation de la durée de la session et de la contrainte due au programme FR 1
ou FR 5. La figure 4 b concerne le cas où interviennent trois activités
exhaustives et mutuellement exclusives, P, R et les autres activités Q. En
l'absence de toute contrainte due à un programme, les différentes répartitions
possibles de la durée limitée d'une session se situent dans le plan délimité
par le triangle Tp Tr T?. La contrainte due à un programme FR 5 entraîne
des répartitions situées dans le plan OBQ. L'intersection de ces deux plans
est la ligne Tq B, qui représente toutes les répartitions possibles du temps
entre les trois activités lorsqu'il y a conjonction des deux contraintes. 146 Christian George
à leur consommation diminue également. Si on suppose qu'au cours
d'une session de durée T le répertoire comportemental de l'animal ne
comporte que deux activités exhaustives et mutuellement exclusives,
par exemple la réponse instrumentale et la réponse de consommation,
les diverses répartitions possibles du temps total entre ces deux activités
se situeront toutes sur une droite de pente négative dans un espace à
deux dimensions où les deux axes de coordonnées correspondent à la
durée de chaque activité (fig. 4). Si sur ce graphique on trace la fonction
de rétroaction correspondant à un programme de proportion parti
culier, elle coupe la droite précédente en un seul point. Le comportement
de l'animal est donc ici strictement déterminé par la double contrainte
de temps et de programme. Pour bien montrer la spécificité et la supé
riorité des modèles de finalité, certains auteurs vont s'intéresser à des
situations comportant plus de « degrés de liberté » en ce sens que la
conduite est analysée en un nombre de variables supérieur au nombre
de contraintes (par exemple, en envisageant au moins trois réponses
mutuellement exclusives et exhaustives).
III. — Les modèles de finalité
1) Le modèle de la valeur pondérée de Mazur
Le de Mazur (1975, 1977, 1979) entend intégrer deux résultats
capitaux obtenus dans l'étude du renforcement et du conditionnement
opérant. Le premier concerne le principe de la relativité des renfor
çateurs, énoncé par Premack (1965, 1971). Ce principe repose sur
l'évaluation de la probabilité de différentes activités spontanées dans
une session contrôle où elles peuvent se manifester librement sans
contrainte instrumentale. Il stipule qu'une activité particulière A de
probabilité p agit comme renforçateur pour les activités de probabilité
inférieure à p, et punisseur pour les de
supérieure à p, si on introduit une contrainte instrumentale telle que
l'accès à l'activité A soit rendu dépendant de la réalisation préalable
d'une autre activité. Ainsi la propriété d'être renforçateur ou punisseur
ne résulte pas de caractéristiques intrinsèques d'une activité ou de
l'événement-stimulus qui intervient dans cette activité, et de ce fait
elle n'est pas constante : elle dépend de la relation avec l'activité instru
mentale. Ce principe, maintes fois confirmé chez l'animal et chez l'homme,
met fin à des décennies de polémiques sur la nature des renforçateurs
et punisseurs. Le deuxième résultat capital est la « loi de l'ajustement »
d' Herrnstein (1961, 1970), mise en évidence dans des situations avec
programmes concurrents (deux clés ou leviers sont présents simult
anément dans le local expérimental, et correspondent à deux programmes
distincts ; le sujet peut répartir librement son activité entre les deux
programmes). La loi déclare que la proportion du nombre total de
réponses instrumentales consacrée à un programme se stabilise vers une Le conditionnement opérant 147
valeur qui correspond à la proportion du nombre total de renforçateurs
procurés par le même programme, soit :
Pi Ri
Pi + P2 Ri + R2
où Pj et P2 désignent le nombre de coups de becs sur les clés 1 et 2
ou le nombre d'appuis sur les leviers 1 et 2, et Rx et R2 le nombre de
renforçateurs obtenus en agissant sur les dispositifs 1 et 2. Baum et
Rachlin (1969) ont proposé une autre version de cette loi en substituant
le temps consacré à agir sur chacun des deux dispositifs au nombre de
réponses effectuées ; en outre, ils considèrent que l'équation de l'ajust
ement devrait intégrer des variables additionnelles par rapport au
nombre ou au débit des renforçateurs (par exemple le délai réponse-
renforçateur), de façon à mieux évaluer le bénéfice de la conduite
instrumentale correspondant à chaque programme ; ils désignent par le
terme « valeur » l'ensemble des variables intervenant dans cette rééva
luation, d'où une nouvelle formulation de la loi de l'ajustement :
_
+ T2 Vx + V2 Ti
où T désigne le temps et V la valeur.
Mazur intègre ces deux courants de recherche dans son modèle. Il
considère trois types d'activités, l'activité instrumentale i, l'activité
de consommation du renforçateur r, et les autres activités o, et il suppose
que leur valeur respective est proportionnelle au temps qui leur est
consacré au cours de la session contrôle, soit : TJV^ == Tr/Vr = To/Vo.
Si on introduit une dépendance instrumentale, le temps consacré à
l'activité instrumentale (et partant, le débit de celle-ci) sera prédit en
traitant la séquence « activité instrumentale -f consommation » comme
une catégorie plus large combinant deux activités initialement distinctes,
et en utilisant l'équation :
où T' est la durée d'une activité pendant la session instrumentale ;
la valeur de la séquence i + r est la somme de la valeur de chacun des
deux constituants, pondérée par la proportion de la durée de la séquence
complète qui est nécessaire à l'exécution de chacun des constituants
compte tenu des contraintes du programme. (Par exemple, si les valeurs
de l'activité instrumentale et de l'activité de consommation estimées au
cours de la session contrôle sont respectivement 1 et 100, et si dans
un programme FR 10 il faut actionner le levier pendant 10 s pour
obtenir de la nourriture consommée en 5 s, la valeur globale de la
séquence sera : 1x2/3+ 100 x 1/3 = 34.) Lorsqu'on augmente les
exigences des programmes de proportion, la valeur absolue de la séquence

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.