Conduites instrumentales et estimations des durées chez l'animal - article ; n°1 ; vol.69, pg 209-246

De
Publié par

L'année psychologique - Année 1969 - Volume 69 - Numéro 1 - Pages 209-246
38 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1969
Lecture(s) : 10
Nombre de pages : 39
Voir plus Voir moins

Marc Blancheteau
Conduites instrumentales et estimations des durées chez
l'animal
In: L'année psychologique. 1969 vol. 69, n°1. pp. 209-246.
Citer ce document / Cite this document :
Blancheteau Marc. Conduites instrumentales et estimations des durées chez l'animal. In: L'année psychologique. 1969 vol. 69,
n°1. pp. 209-246.
doi : 10.3406/psy.1969.27658
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1969_num_69_1_27658CONDUITES INSTRUMENTALES ET ESTIMATIONS
DES DURÉES CHEZ L'ANIMAL
par Marc Blancheteau
Laboratoire de Psychologie expérimentale
et comparée de la Sorbonne associé au C.N.R.S.
Les premières études expérimentales concernant l'adaptation des
conduites animales à l'existence d'un délai entre un signal donné et
l'événement qui lui fait suite ont été menées par Pavlov (1927) et par
ses élèves (Pimenov, 1907 ; Grossmann, 1909 ; Dobrovolski, 1911 ;
Théocritova, 1912). Ces travaux ont souvent été commentés
(Fraisse, 1957) et le principal problème qui se pose à leur sujet est de
savoir pourquoi la réponse conditionnée peut être différée. On peut voir,
en effet, dans ce phénomène une simple conséquence des modalités
temporelles du renforcement lui-même : ces réponses sont tardives
pour les mêmes raisons qu'elles sont également labiles, facilement sujettes
à inhibition externe et sont précédées par une inhibition génér
alisée menant parfois au sommeil, c'est-à-dire en définitive parce que
le signal et le stimulus absolu ne sont pas assez rapprochés dans le temps
ce qui entraîne une faiblesse de la liaison conditionnelle. Cependant,
il est également permis de penser que la précision temporelle dont
témoigne le réflexe conditionné de trace laisse supposer que le temps
lui-même est un signal et que l'animal adapte sa conduite à la durée
perçue comme un stimulus discriminatif.
Ce domaine de recherches a également été abordé au moyen d'expér
iences d'apprentissage classique et de conditionnement instrumental.
Les sujets animaux ont rarement été des chiens, mais principalement
des rats et des pigeons, parfois des singes ; d'autre part, les délais utilisés
sont en général inférieurs à ceux des praticiens du conditionnement
classique : ils n'excèdent jamais cinq minutes et le plus souvent ne dépas
sent pas 30 s. Nous rappellerons tout d'abord les premiers travaux effec
tués au moyen d'allées, de labyrinthes et de boîtes à choix, et nous
considérerons ensuite le remarquable développement qu'a donné à ces
études la technique du conditionnement opérant.
A. PSYCHOL. 69 14 210 REVUES CRITIQUES
PREMIÈRES ÉTUDES
I. — Temps de parcours et durée de contention
Les premiers auteurs ont adopté le matériel expérimental classique
de leur époque, à savoir le labyrinthe que parcourent des rats ; ce choix
s'explique d'autant mieux que l'étude des indices guidant l'orientation
spatiale de ces animaux faisait alors l'objet de très nombreux travaux,
et que certains chercheurs avaient supposé que l'un de ces indices pouvait
bien être le temps de parcours.
Un certain nombre d'expériences de ce type ont consisté à présenter
au rat un carrefour de deux allées qui se rejoignent plus loin pour aboutir
à un même but où se trouve la nourriture ; l'une des allées est plus
longue que l'autre et requiert un temps de parcours supérieur
(de Camp, 1920), ou bien dans chaque allée le rat subit un confinement
d'une durée déterminée (Cléments, 1923 ; Sams et Tolman, 1925 ;
Mori, 1954), de sorte que l'animal doit choisir l'allée la plus courte ou
bien celle où il est détenu le moins longtemps. Il y parvient effectiv
ement dans la plupart des cas, mais il faut que la différence des temps
de détention, par exemple, varie au moins du simple au quadruple
pour que le choix du rat s'avère constant. Anderson (1932) a utilisé un
appareil à choix comportant quatre portes menant à autant de comparti
ments où le rat est retenu 1, 2, 3 ou 4 mn respectivement avant d'en
sortir pour aller manger ; les taux de choix correspondants, après apprent
issage, sont : 72 %, 19 %, 6 % et 3 %. Avec deux portes seulement, cet
auteur est parvenu à faire différencier à huit rats, en 50 essais, des durées
variant du simple au double et comprises entre 30 s et 4 mn, mais en
100 essais quatre rats seulement ont pu différencier 1 et 1,5 mn, ou 2
et 3 mn.
Quoi qu'il en soit ces résultats sont justifiables de l'interprétation
qu'en donne Hull (1936) dans sa théorie du gradient de but : les réponses
d'orientation au carrefour dont le délai de renforcement sont les plus
courts ont le plus de chances d'être émises, et il est normal que le rat
évite les longs parcours ou les longs confinements, non du fait d'une
discrimination temporelle, mais simplement parce que la liaison condi
tionnelle n'est pas aussi forte dans ce cas que celle des réponses suivies
à plus bref délai par la satisfaction alimentaire.
Les travaux suivants échappent à cette critique, car la durée de
contention ne peut jouer dans ces expériences qu'un rôle d'indice discri-
minatif. Elles sont réalisées au moyen d'un labyrinthe en forme de lettre
T, dans la branche d'introduction duquel le rat subit une contention
pouvant durer, par exemple, 10 ou 30 s (Cowles et Finan, 1941) ou bien
5 ou 45 s, différence pouvant être réduite à 5 et 10 s en fin d'apprentis
sage (Heron, 1949). Après un confinement de longue durée le rat devra,
par exemple, tourner à droite, tandis qu'il tournera à gauche si le confi- BLANCHETEAU 211 M.
nement a été bref. Dans ces conditions, il a fallu 600 essais pour que
6 rats sur 9 parviennent au critère de 65 à 78 % de réussites dans l'expé
rience de Gowles et Finan ; dans celle de Heron les 12 sujets réussissent
9 essais sur 10 quand il faut comparer 5 et 45 s, mais 4 rats seulement
atteignent ce critère lorsqu'il s'agit de distinguer 5 de 20 s ; notons que
l'on retrouve ici le rapport liminaire du simple au quadruple signalé
par les premiers auteurs.
Crutchfleld (1939) utilise une allée droite surélevée flanquée d'une
série de chambres équidistantes et semblables entre elles, dont une seule
contient la nourriture. Lâché en un point quelconque de l'allée, le rat
(aveugle) doit parcourir toujours la même distance, ou marcher pendant
le même temps, pour parvenir à ce but. En fait, sa réussite apparaît
bien comme une discrimination de distances, et non de temps de par
cours : les valeurs de ceux-ci ne présentent aucune corrélation avec la
correction des choix effectués, et leur variabilité excède beaucoup celle
des distances parcourues. Le temps ne semble donc pas jouer un rôle
d'indice valable dans l'orientation spatiale.
Nous venons de considérer des expériences dont la motivation est
appetitive ; d'autres expériences ont, au contraire, mis en jeu la moti
vation aversive causée par le choc électrique. Le schéma en est le suivant :
le rat est placé dans une chambre qui sera électriflée après une durée
t, durant laquelle il peut passer dans une seconde chambre et sortir,
mais non immédiatement, car cette chambre est électriflée au moment
de l'introduction du rat dans l'appareil et ne cessera de l'être qu'après
un temps t' inférieur à t : la durée t — t' représente l'intervalle temporel
« de sûreté » durant lequel le rat peut s'échapper sans recevoir aucun
choc. Réalisée pour la première fois par Ruch (1931) qui situait son inter
valle de sûreté aux alentours de 7 mn, cette expérience a été reprise par
Buytendijk, Fishel et Ter Laag (1935) avec 4 mn, puis par Stott et
Ruch (1939) avec 4 mn également. Ces divers auteurs ont trouvé des
taux de réussite ordinairement inférieurs à 50 %, sauf si la période
t — t' est relativement très longue : 65 % de succès quand t = 7 mn
et t' = 30 s, mais 22 à 50 % seulement quand t — 5 mn et t' = 2 mn 40 s,
d'après Stott et Ruch ; la précision de l'estimation des durées s'avère
donc, ici encore, assez faible. On observe généralement une forte ten
dance à l'anticipation, et Buytendijk et al. ont noté pendant le délai
d'attente une évolution constante en trois stades de la conduite du rat :
indifférence, puis agitation, puis tension. Nous avons nous-même repris
ce type d'expérience et obtenu les mêmes résultats (Blancheteau, 1964),
nous avons observé comme Buytendijk l'évolution de la conduite
d'attente et nous avons noté son rôle dans l'adaptation temporelle
(Blancheteau, 1967 b) ; enfin, nous avons mis en évidence les dépendances
séquentielles d'essai à essai relatives aux erreurs d'estimation et à leur
correction (Blancheteau, 1967 a). Nous reviendrons plus loin sur ces
divers points, dont nous trouverons d'abondants exemples dans les
études de conditionnement opérant. 212 REVUES CRITIQUES
II. — Temps de présentation d'un stimulus
Dans les expériences précédentes le temps à estimer ne représentait
pour l'animal qu'une interdiction de déplacement plus ou moins longue,
d'où un risque de frustration pouvant interférer avec la valeur purement
discriminative de la durée en question. Woodrow (1928) évita cet
inconvénient ; il faisait entendre à un singe deux coups de marteau
séparés par un intervalle variable : s'il était de 4,5 s l'animal trouvait
ensuite à manger dans une boîte à nourriture, mais s'il était de 1,5 s
la boîte était vide. Le sujet apprenait ainsi à n'ouvrir la boîte qu'après
avoir reconnu l'intervalle le plus long. Pour obtenir 90 % de réponses
correctes, il a fallu environ 3 000 essais à deux macaques qui, ensuite,
sont parvenus à différencier 3,75 s, puis 3,2 s de 1,5 s ; pour discriminer
de cet étalon temporel la durée de 2,25 s les deux singes n'ont pu atteindre
que 75 % de succès, et ont échoué avec 1,87 s.
Sans anticiper beaucoup sur ce qui va suivre, disons que cette pro
cédure a été peu reprise en conditionnement opérant, où nous n'en trou
vons que deux exemples. Reynolds et Catania (1962) présentent à des
pigeons un disque alternativement éclairé ou non selon une périodicité
irrégulière ; le picorage du disque n'est récompensé que pendant les
phases d'éclairement, et uniquement si elles sont consécutives à de longues
périodes de non-éclairement et non à des périodes brèves. On compare
les fréquences de coups de bec donnés à la suite de ces durées, et on
constate encore une différence appréciable lorsque celles-ci sont aussi
rapprochées que 27 et 30 s. Rilling (1967) laisse le pigeon déclencher
lui-même l'initiation du stimulus à estimer, en becquetant un disque
situé entre deux autres ; ce disque s'illumine alors pendant un certain
temps, long ou court, en fonction de quoi le sujet doit becqueter le
disque de gauche ou celui de droite pour obtenir sa nourriture ; nous
reviendrons plus loin sur cette expérience.
TRAVAUX DE CONDITIONNEMENT OPÉRANT
PROGRAMMES DE RENFORCEMENT
A SPÉCIFICATION TEMPORELLE
Les études de conditionnement opérant ont comme principale carac
téristique celle de prendre pour unique variable dépendante les varia
tions de la fréquence d'émission de la réponse conditionnée, qui tra
duisent sa plus ou moins grande probabilité d'apparition en fonction
des conditions de renforcement qui lui sont faites. Si donc on fait de
la durée s'écoulant entre deux réponses une des conditions de renforce
ment, on aura là une procédure de choix pour l'étude des estimations
temporelles. Cependant, il ne faut pas oublier que l'espacement moyen
des réponses ne fait que refléter leur probabilité, et donc finalement
leur renforcement effectif. Il y a donc un risque à considérer comme une
conduite guidée par un indice discriminatif de nature temporelle ce qui BLANCHETEAU 213 M.
n'est, en définitive, qu'une conséquence des contingences de renforce
ment et de la plus ou moins grande force de la liaison conditionnelle.
Ce problème n'a pas échappé aux instrumentalistes et nous verrons
comment il a pu être abordé et résolu.
Nous allons décrire les programmes de renforcement qui ont été
utilisés, les résultats qu'ils ont permis d'obtenir, et comment a pu
être formulée l'interprétation de ceux-ci. Nous examinerons d'abord
les comportements répondant à une motivation d'approche (faim, soif),
puis ceux qui ont une motivation aversive (chocs à éviter). Le lecteur
non familiarisé avec les désignations des programmes de renforcement
auxquels il sera fait allusion pourra se reporter, en annexe, à une brève
description de ceux-ci.
I. — Conduites d'approche
A) Intervalles temporels fixes et variables
Le programme le plus courant pour étudier l'estimation du temps est
celui d' « intervalle fixe » (fixed-interval ou F.I.). Au lieu que chaque
réponse d'appui sur un levier ou sur un disque entraîne la délivrance
immédiate d'une récompense alimentaire comme en « renforcement coup-
par-coup » ou C.Rf. (continuous reinforcement), l'animal doit attendre
qu'un certain laps de temps se soit écoulé depuis que la nourriture lui
a été fournie pour la dernière fois : avant l'expiration de ce délai les
réponses sont inefficaces, mais la première qui sera émise ensuite sera
aussitôt récompensée. L'intervalle en question peut aller de 5 s à 5 mn
selon les expériences, exceptionnellement 30 mn dans un travail de
Meyer (1966) reprenant la question du temps comme indice d'orientation
spatiale, cette fois chez le Pigeon voyageur. Parfois la durée de l'inter
valle est variable au sein d'un même programme de renforcement : on
parle alors d' « intervalle variable » ou V.l. (variable interval), mais il
ne semble pas que ce type de programme présente quelque avantage
que ce soit sur le précédent ou F.I. -.l'interprétation des résultats auxquels
il donne lieu est encore plus complexe, aussi considérerons-nous surtout
les données obtenues en « intervalle fixe ».
Dans ces conditions on constate que l'animal, qu'il soit rat, singe
ou pigeon, fait une « pause » à la suite de sa dernière récompense et qu'il
commence ensuite à donner la réponse instrumentale bien avant la fin
de l'intervalle, à un rythme progressivement accéléré. C'est de cette
sorte que la courbe d'enregistrement décrit en oblique des festons, d'où
le nom (scalloping) donné à ce phénomène qui est corollaire d'une anti
cipation et donc d'une surestimation temporelle de la part de l'animal.
Frester et Skinner (1957) ont les premiers observé et décrit les caracté
ristiques du comportement en F.I.
Skinner et Morse (1958) ont démontré que, pour l'animal, la probab
ilité de récompense va en croissant au cours du temps. Dans leur expé- 214 REVUES CRITIQUES
rience le rat n'appuie pas sur un levier, mais court dans une roue d'acti
vité en tournant le dos à la mangeoire ; au cours de l'apprentissage on
observe trois stades de répartition temporelle des réponses : tout d'abord
en salves irrégulières (bursts), elles s'organisent ensuite en pause initiale
et accélération finale comme nous l'avons vu, puis cette recrudescence
finale d'activité elle-même s'accélère négativement, car le rat quitte
de plus en plus souvent la roue pour aller visiter la mangeoire quand
approche la fin de l'intervalle. Ferster (1954) a montré que la pause
initiale n'est pas un effet dû à la récence de la récompense alimentaire
qui entraînerait une satiété, et que l'accélération finale dépend bien de
la différenciation temporelle. En effet, après avoir dressé des pigeons
en F.I. 60 s, il leur supprime tout éclairement pendant le début de chaque
intervalle : l'oiseau ne peut alors plus picorer, mais dès que la lumière
est rétablie, il picore aussitôt à un rythme accéléré, sans marquer de
pause, le temps écoulé seul semblant bien déterminer sa cadence de
réponse à un moment donné de l'intervalle.
L'accélération finale débute ordinairement dès la moitié du délai
de renforcement, et même avant en V.l. (Anger, 1956) ; c'est pourquoi,
afin d'obliger l'animal à grouper davantage ses réponses au moment où
celles-ci deviennent effectives, a-t-on imaginé la procédure de « durée
limitée » ou L.H. (limited-hold). Après un F.I. donné, l'appui sur le
levier devient effectif, mais seulement pendant un laps de temps donné :
ainsi aura-t-on, par exemple, F.I. 15 s — L.H. 5 s, ce qui veut dire
que pendant 15 s les appuis ne sont pas récompensés, puis qu'ils le sont
pendant 5 s, et qu'ensuite on recommence un nouveau F.I., ce programme
étant cyclique, que la nourriture ait été obtenue ou non. En fait cette
procédure, essayée sur des pigeons, n'a guère produit le résultat escompté,
mais simplement une accélération de la cadence des réponses lorsque
le rapport de la durée d'efficacité de la réponse à celle du cycle total
(F.I. + L.H.) est inférieur ou égal à 3 % (Hearst, 1958) sur un cycle
de 30 s, ou à 0,8 % (Clark, 1959) sur un cycle de 2 mn, c'est-à-dire
quand la durée du L.H. avoisine 1 s (Schoenfeld et Cumming, 1957) :
il y a alors disparition de l'accélération finale, comme s'il n'y avait
plus de discrimination temporelle et comme si l'animal répondait à un
programme de renforcement partiel fixe ou variable (fixed ratio ou F.R.,
ou variable ratio ou V.R.) requérant un grand nombre de réponses pour
une seule récompense. Si l'on réduit encore la durée du L.H., le rat peut
laisser échapper l'occasion d'obtenir sa nourriture malgré l'augmentation
de sa cadence de réponses, dont le taux de renforcement est ainsi
amoindri : il s'ensuit une extinction, c'est-à-dire que l'animal répond de
moins en moins souvent, il a donc de moins en moins de chances de le
faire au moment propice et, ne recevant aucun renforcement, il cesse
tout à fait de répondre (Hearst, 1960 ; Cumming et Schoenfeld, 1961).
Il s'agit là de conditions si rigoureuses que même une excellente
discrimination temporelle n'améliorerait pas la performance, car dans
les conditions où la cadence de réponses est accélérée au maximum, la M. BLANCHETEAU 215
durée du L.H. est si brève (0,5 à 1 s pour un cycle de 90 s) que le fait
de la signaler à l'oiseau par un bref éclairement ne l'aide guère à obtenir
la nourriture à ce moment (Weissman, 1961). En fait, si le sujet s'adapte
à ces conditions, c'est simplement en multipliant ses réponses pour
augmenter leur probabilité de coïncidence fortuite avec l'intervalle
limité de renforcement.
En s'en tenant à des durées de L.H. moins excessivement courtes,
Malott et Gumming (1964, 1966) ont pu montrer que l'anticipation est
inhérente à l'ajustement temporel de l'animal. Ils utilisèrent, dans un
F.I. 20 s, deux L.H. à la fois, un premier allant de la 2e à la 4e seconde,
et un second allant de la 8e à la 16e seconde. Or malgré la longue durée
de ce dernier, c'est sur le premier intervalle, et même sur son début,
que se massent les réponses. Les rats ne déplacent le mode temporel de
leurs appuis sur le second L.H. que si une de leurs réponses sur huit
seulement est récompensée pendant le premier L.H. alors que toutes le
sont pendant le second.
On a également essayé de réduire l'anticipation temporelle en donnant
un choc électrique aux pigeons pour tout appui : ils ont ainsi tout intérêt
à attendre suffisamment avant de répondre afin que la sanction de leur
picorage instrumental ne soit pas qu'un choc, mais également un apport
de nourriture (Azrin et Holz, 1961). Or, on observe bien un ralentiss
ement de la cadence de réponse, qui s'accompagne d'un taux de renforce
ment plus élevé, mais il ne s'agit pas d'estimation du temps : c'est un
simple effet de renforcement négatif dû à la « punition » (punishment)
systématique des appuis, qui diminue la probabilité d'émission. La
preuve en est que si l'on supprime les chocs, la cadence de réponse initiale
réapparaît et l'anticipation également.
B) Le programme D.R.L.
Si la procédure de L.H. et celle de « punition » se sont avérées déce
vantes pour réduire l'anticipation temporelle, il s'est trouvé par contre
un autre programme beaucoup plus efficace. Il s'agit du « renforcement
différentiel des basses cadences de réponse » ou D.R.L. (differential
reinforcement of low rates of responding). Dans cette procédure, la récom
pense peut être obtenue par la première réponse qui suit la délivrance
de la récompense précédente, à condition qu'elle ne se produise pas avant
un délai donné : sinon, le délai d'inefficacité est reconduit à partir de
la réponse anticipée. Par exemple, soit un D.R.L. 20 s : si la première a lieu à la 21e seconde, elle est récompensée aussitôt, mais si
elle a lieu à la 19e seconde, le sujet devra attendre encore au moins 20 s
(soit 39 au total) pour pouvoir obtenir sa nourriture.
De la sorte, l'anticipation est habituellement réduite par rapport
à ce qu'elle est habituellement en F.I., à tel point qu'on peut affiner
l'estimation temporelle en F.I. en y adjoignant un D.R.L. de moindre
durée sanctionnant les réponses émises au début de l'intervalle fixe
(Farmer et Schoenfeld, 1964 b), par exemple : F.I. 24 s — D.R.L. 10 s. 216 REVUES CRITIQUES
Cependant, le succès de cette procédure dépend pour beaucoup des
valeurs absolues de durée à estimer ; ainsi Farmer et Schoenfeld (1964 a)
et Staddon (1965) ont observé qu'en D.R.L. 10 à 20 s, le rythme de
réponses est régulier et que la moyenne des estimations correspond,
au bout d'une à deux semaines d'apprentissage, à la norme requise,
mais que pour 30 ou 40 s ou davantage, il apparaît beaucoup de surest
imations et aucun groupement net, même après un mois d'exercice, de
sorte que le taux de renforcement reste très bas. Catania et Reynolds
(1961) sont même d'avis que le contrôle temporel est pire en D.R.L.
qu'en F.I. de même durée chez le Pigeon, et Reynolds (1964) estime D.R.L. 20 s on ne peut formuler à l'égard de l'espacement tem
porel des réponses des pigeons une prédiction meilleure que celles qui
concernent la durée des communications téléphoniques intra-urbaines,
ou des réparations de machines électriques ! Malgré ces notations pes
simistes, il n'en reste pas moins que beaucoup d'auteurs comme
Sidman (1955 a, 1956 a) ont obtenu un net groupement des réponses
sur 18 ou 20 s en D.R.L. 21 s, durée qui représente un ordre de valeurs
temporelles très communément adopté pour ce type de programme.
Quoi qu'il en soit, on a essayé, comme le F.I., d'affiner la discr
imination temporelle, soit par la procédure d'intervalle limité (L.H.),
soit en punissant d'un choc les réponses anticipées. Les mêmes auteurs
qui avaient appliqué cette dernière procédure en F.I. l'ont appliquée
en D.R.L. 30 s et ont retrouvé les mêmes résultats (Holz et Azrin, 1963 ;
Holz, Azrin et Ulrich, 1963), à savoir que la cadence de réponse diminue
sous l'effet aversif des chocs, et donc que leur espacement temporel
augmente, ce qui entraîne une amélioration du taux de renforcement ;
cependant, cet effet ne dure pas, car dès suppression du choc, la
cadence s'accélère de nouveau et la conduite devient moins efficiente :
la sanction aversive n'a donc pas permis d'affiner la discrimination
temporelle.
Par contre, la procédure d'intervalle limité ou L.H. a donné, à ce
point de vue, des résutats intéressants, du moins dans la mesure où l'on
ne resserre pas excessivement les limites de l'intervalle pendant lequel
les réponses sont récompensées. Ainsi Conrad, Sidman et Herrnstein (1958)
constatent-ils qu'à partir d'un D.R.L. 20 s on peut passer au programme
D.R.L. 20 s — L.H. 20 s et réduire ensuite ce L.H. à 4 s, voire à 2 s
pour les meilleurs sujets. Le mode des réponses est alors situé en moyenne
à la 18e seconde, les plus précoces n'apparaissant qu'à la 12e seconde.
Kelleher, Fry et Cook ont comparé les distributions des réponses d'un
même sujet au cours de son apprentissage d'un D.R.L. 20 s. A la pre
mière session, plus de la moitié des appuis sont effectués avant la 6e
seconde ; à la 30e session les deux tiers des réponses sont émis entre la
12e et la 20e secondes ; c'est alors qu'on introduit un L.H. 5 s, et 70 %
des réponses se situent alors entre la 16e et la 28e seconde, ce qui consti
tue un bon groupement sur l'intervalle temporel proposé au sujet,
puisque alors 50 % des appuis sont récompensés. Ce groupement subsiste BLANCHETEAU 217 M.
même si l'on introduit la spécification supplémentaire F.R. 2 (il faut
deux réponses au lieu d'une seule pendant le L.H. pour obtenir la nourr
iture) ou si l'on réduit le L.H. à 1 s : 10 % des réponses sont encore
récompensées. Geller, de Marco et Seifter (1960) débutent directement
avec la procédure L.H. en donnant également à cet intervalle la durée
initiale de 20 s après un D.R.L. 20 s ; ils parviennent à réduire le L.H.
à 2 s : la moyenne des estimations temporelles se situe à 18 ou 20 s
suivant les sujets, dont 13 % des appuis en moyenne sont récompensés,
sans qu'il y ait extinction. Celle-ci se produit cependant si l'on resserre
encore les limites du L.H., car alors le taux de renforcement devient trop
faible.
De toute façon, c'est sur la limite inférieure du L.H. que se groupent
les estimations (Laties et Weiss, 1962) : c'est le même phénomène de
tendance à l'anticipation que celui que nous avons noté à propos de la
procédure F.I.-L.H. (Malott et Cumming, 1964, 1966).
C) Programmes doubles
D'intéressantes études de F.I. et de D.R.L. ont été réalisées en combi
nant l'usage de deux leviers ou de deux disques à becqueter. En général,
le sujet doit agir d'abord une fois sur le « manipulandum » n° 1 qui
déclenche une horlogerie (clock-key) déterminant un intervalle temporel
au terme duquel l'appui sur le « manipulandum » n° 2 (food-key) délivrera
la nourriture. Mechner, Guevrekian et Mechner (1963) ont ainsi dressé
des rats et des singes à des F.I. 30 s et même 60 s, et ils ont observé la
classique accélération de la cadence de réponse sur le levier n° 2 vers la
fin de l'intervalle. Des pigeons ont également été dressés de cette manière
par Hearst (1962) en F.I. 10 s, ainsi que par Hendry et Dillow (1966)
en F.I. 60 s ; ces derniers ont noté que la pause initiale dure environ la
moitié du délai imposé.
Reynolds (1966) a modifié cette procédure de la façon suivante :
on ne présente au pigeon qu'un seul disque, de couleur rouge, et l'oiseau
doit lui donner deux coups de bec séparés d'au moins 18 s ; si ce délai
est respecté, le disque devient bleu : il cesse alors d'être une clock-key
pour devenir une food-key et tout coup de bec qui lui est donné à ce
moment actionne le distributeur de nourriture, tout en le rendant rouge
à nouveau. Ceci était destiné à améliorer l'estimation temporelle par
rapport à ce qu'elle est en D.R.L. 20 s ordinaire, mais l'auteur ne se
déclare pas satisfait des résultats.
II. — Conduites d'évitement
Les programmes de renforcement à spécifications temporelles qui
utilisent la motivation aversive vis-à-vis des chocs électriques ressemblent
à ceux que nous venons de décrire ; ils sont principalement dus à l'ingé
niosité de Sidman et les animaux qui y sont soumis sont presque tou
jours des rats, rarement des pigeons.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.