Le caractère tout-ou-rien ou progressif de l'apprentissage de concepts : discussion théorique et examen de résultats expérimentaux - article ; n°1 ; vol.69, pg 143-160

De
Publié par

L'année psychologique - Année 1969 - Volume 69 - Numéro 1 - Pages 143-160
18 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1969
Lecture(s) : 21
Nombre de pages : 19
Voir plus Voir moins

R. Falmagne
Le caractère tout-ou-rien ou progressif de l'apprentissage de
concepts : discussion théorique et examen de résultats
expérimentaux
In: L'année psychologique. 1969 vol. 69, n°1. pp. 143-160.
Citer ce document / Cite this document :
Falmagne R. Le caractère tout-ou-rien ou progressif de l'apprentissage de concepts : discussion théorique et examen de
résultats expérimentaux. In: L'année psychologique. 1969 vol. 69, n°1. pp. 143-160.
doi : 10.3406/psy.1969.27655
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1969_num_69_1_27655NOTES
Université de Bruxelles
LE CARACTÈRE TOUT-OU-RIEN
OU PROGRESSIF
DE L'APPRENTISSAGE DE CONCEPTS :
DISCUSSION THÉORIQUE
ET EXAMEN DE RÉSULTATS EXPÉRIMENTAUX
par Rachel Falmagnf,
INTRODUCTION
Parmi les interprétations du phénomène d'apprentissage, deux
familles se dessinent, selon que le processus est vu comme une séquence
de stades distincts ou comme une évolution continue. Guthrie (1952)
représente l'apprentissage par l'établissement, selon un mode de tout-ou-
rien, de connexions entre les éléments de la situation stimulante et les
réponses. Köhler (1925) voit la résolution d'un problème comme une
séquence d' insights, ou restructurations brusques de la situation.
Pour Hull (1952) et Spence (1956), au contraire, la variable dont l'évo
lution caractérise l'apprentissage est une quantité, interprétée comme
une force de l'habitude, dont les transformations successives peuvent
être aussi faibles que l'on veut.
Il semble que ce soit là, plus qu'une différence fortuite ou verbale,
une prise de position conceptuelle. Citons par exemple Estes (1964) :
« Si... nous considérons des analogies entre les propriétés des systèmes
qui apprennent et celles d'autres systèmes que nous connaissons, ... nous
pouvons difficilement éviter d'être impressionnés par le fait qu'il est
dans la nature même des systèmes organisés de présenter des disconti
nuités, c'est-à-dire de brusques écarts par rapport à la proportionnalité
de la cause et de l'effet » (p. 16)... « J'en suis venu pour ma part à adopter
l'hypothèse de travail que tous les exemples de changement apparem
ment progressif sont simplement des cas d'analyse incomplète » (p. 25). 144 NOTES
Récemment, cette divergence a trouvé pour s'exprimer un nouveau
cadre, qui est celui des modèles stochastiques d'apprentissage. Ainsi,
la théorie dite « de l'échantillonnage des stimuli » constitue une formal
isation directe des idées de Guthrie, alors que dans les modèles dits
« linéaires », on peut retrouver la notion d'une force de là réponse qui
évolue de façon continue. Cette formalisation, qui permet de déduire
logiquement, à partir des affirmations théoriques, des conséquences
observables, a fait apparaître alors que, si les deux types de théories
peuvent se différencier sur la base d'arguments philosophiques, la dis
tinction au niveau empirique est souvent difficile. Il est bien connu
notamment que, dans une situation expérimentale particulière, deux
modèles analogues, mais dont l'un postule une évolution discrète au
fil des essais et dont l'autre est de type linéaire, conduiront souvent à
des prédictions soit identiques soit pratiquement indiscernables. Les
arguments discriminatifs des deux modèles reposeront en général
sur des prédictions très spécifiques, nécessitant une analyse fine des
données.
Pour cette raison, et dans la ligne des principes qui gouvernent
généralement la stratégie d'utilisation de ces modèles, la controverse
s'est quelque peu modifiée. Il ne s'agit plus de savoir si, « en réalité »,
l'apprentissage est graduel ou brusque. Des exigences de parcimonie
interviennent : les modèles doivent être le plus simples possible, la simpli
fication excessive éventuelle qu'ils représentent trouvant sa contre
partie dans la facilité du traitement et l'étendue des développements
accessibles. On essaiera souvent de ramener un phénomène, continu à
première vue, à une séquence de pas discontinus.
Une forme extrême de la notion d'apprentissage discontinu occupe
une position privilégiée et réapparaît périodiquement dans les préoc
cupations théoriques exprimées. Il s'agit de savoir, dans une situation
particulière, si l'apprentissage s'est effectué en une fois ou progressive
ment. Ici, le nombre d'échelons discrets qui caractériseraient hypothé-
tiquement est donc réduit à un.
L'hypothèse d'un apprentissage de ce type — historiquement
nommé « par tout-ou-rien » — est séduisante en raison de la simplification
extraordinaire que sa confirmation représenterait pour une élaboration
théorique. Une partie importante des travaux qui concernent l'apprentis
sage de discrimination d'une part, l'apprentissage d'associations par
paires d'autre part, est centrée sur cette question.
Des intérêts similaires se sont développés récemment pour la situa
tion d'identification de concepts, entraînant un foisonnement de résul
tats expérimentaux divers. L'abondance des données et leur apparence
contradictoire a mis en relief la nécessité d'un cadre logiquement cohérent
dans lequel peut être examinée la signification théorique des résultats
obtenus. Cet article tentera de préciser conceptuellement l'hypothèse
d'un apprentissage par tout-ou-rien, proposera une formulation spéci
fique de cette hypothèse dans une classe de modèles relatifs à la situation FALMAGNE 145 R.
d'identification de concepts, et donnera ensuite, pour cette situation, un
aperçu des résultats obtenus et des méthodes sur lesquelles ils sont
basés1.
LE PROBLÈME GÉNÉRAL
L'hypothèse d'un apprentissage par tout-ou-rien peut être formulée
à deux niveaux différents : elle peut être relative, soit aux mécanismes
hypothétiques, soit aux variables comportementales. Pour la logique de
l'interprétation des résultats expérimentaux, il est important de sou
ligner la distinction entre les affirmations relatives à ces deux niveaux
et de voir clairement le jeu des implications entre elles. Aussi, notre
objectif ici est d'arriver à poser clairement les deux questions suivantes :
Q 1. — Un apprentissage par tout-ou-rien au niveau intermédiaire
implique-t-il la prédiction d'une performance à évolution
brusque ?
Q 2. — Une évolution brusque de la performance implique-t-elle que
l'apprentissage s'effectue par tout-ou-rien au niveau inter
médiaire ?
Il convient de noter que ce problème est indépendant des problèmes
statistiques liés à la caractérisation d'une évolution particulière comme
brusque ou graduelle. Par ailleurs, l'examen des questions Q 1 et Q 2
nécessite la définition abstraite préalable des termes utilisés. C'est le
propos des pages suivantes.
Cette discussion concernera les modèles dont la structure peut être
schématisée comme suit. La plupart des modèles d'apprentissage ren
contrés dans la littérature, et en particulier les modèles
de concepts pourront prendre place dans ce cadre.
Considérons un apprentissage portant sur une ou plusieurs variables
comportementales Bx, B2J ..., B^ ... Le modèle postule une variable
intermédiaire W, censée être le facteur explicatif commun des évolutions
des variables Bj, et définit une relation L telle que, pour un sujet, à tout
moment t, correspond une valeur de W. Symboliquement, pour tout t,
L (t) = w.
On inclura aussi dans ce cadre le cas ou L est une loi probabiliste, ce
que nous noterons
L (t) = w,
où w désigne une distribution de probabilité sur W. Nous appellerons
niveau I du modèle (ou niveau intermédiaire) le couple (W, L).
1. Une tentative très proche de celle-ci a été réalisée par Rouanet et al.
(1967) pour la situation d'apprentissage de couples. On trouvera dans l'article
de Rouanet plusieurs concepts et distinctions semblables à ceux qui seront
présentés ici. Par ailleurs, une discussion formelle des problèmes liés à l'inte
rprétation théorique de résultats expérimentaux peut être trouvée dans
Rouanet (1965), où ces problèmes sont examinés dans le cadre d'un modèle
général. Deux applications expérimentales de ce cadre conceptuel sont pré
sentées dans le même article et dans Régnier et Rouanet (1966).
a. psvr.HOL. 69 10 I
146 NOTES
Le modèle postule ensuite les relations entre les valeurs de W et les
différentes variables B^ auxquelles il s'intéresse. De façon plus précise,
le modèle établit, pour chaque type de réponse enregistré, des prédictions
basées sur les valeurs de W. Ces prédictions peuvent éventuellement
être faites sous une forme probabiliste. Ainsi, dans le cas où la variable
considérée est une latence, on pourra faire correspondre à chaque valeur
de W une distribution de latences. Si la variable est une réponse du sujet,
la prédiction pourra concerner les probabilités des réponses.
Si gi, gz, ■ ■ ■ > gi, • ■ • sont les relations liant W et les variables Bi;
on a donc
gi H = bi,
ou, si les prédictions sont probabilistes,
gi M = \
où bi désigne une distribution de probabilité sur B;. Nous appellerons
niveau II du modèle l'ensemble des couples (git B^). La figure 1 résume
cette description des modèles auxquels nous nous intéresserons.
Les questions Q 1 et Q 2, reformulées dans le cadre qui vient d'être
défini, concernent les implications entre le caractère tout-ou-rien ou
Niveau Niveau II
Fig. 1. — Schéma des modèles auxquels s'applique la discussion
progressif de l'évolution de W et le caractère tout-ou-rien ou progressif
de l'évolution des variables Bt-. La fin de ce paragraphe examinera les
problèmes de définition préliminaires.
Au niveau des observables B», il est courant, et intuitiv
ement satisfaisant, de dire qu'il y a tout-ou-rien si le modèle comporte
deux prédictions seulement pour la variable considérée, par exemple valeurs possibles pour la probabilité individuelle d'erreurs, et
postule qu'il y a, à un moment donné, passage irréversible d'une valeur
à l'autre. On verra que souvent ce niveau est le seul qui soit considéré
dans les analyses de résultats centrées sur le caractère tout-ou-rien ou R. FALMAGNE 147
progressif de l'apprentissage, ce qui revient en fait à donner implicit
ement à la notion de tout-ou-rien une définition behavioriste.
Au niveau intermédiaire, la définition de sens commun d'un apprent
issage par tout-ou-rien paraît immédiate : il s'agira d'un type d'apprentdans lequel le sujet reste dans une ignorance complète jusqu'au
moment où il découvre la solution en une seule étape. Pour représenter
intuitivement cette idée, introduisons une variable A qui caractérise le
degré de connaissance du sujet, l'acquisition qu'il a effectuée depuis le
début de l'expérience. Un apprentissage par tout-ou-rien est alors un
type d'acquisition qui se fait sous la forme schématisée à la figure 2.1.
Trois exemples d'apprentissage que nous ne nommerons pas « par tout-ou-
rien » sont représentés aux figures 2.2, 2.3, 2.4. Dans ces figures, nous
désignons par 0 la valeur de A correspondant à une ignorance complète
et par ax la valeur supérieure de A, à une connaissance
parfaite.
Notre propos ici, en cherchant à définir ce qu'est un apprentissage
par tout-ou-rien au niveau intermédiaire, consistera en fait à délimiter
une classe de modèles d'apprentissage dans lesquels nous estimerons
que la variable A évolue selon la forme 2.1. En d'autres termes nous
2.1 2.2
2.3 " 2.4 "
Fig. 2. — Types d'évolution de A
tenterons, dans les pages suivantes, d'établir une relation arbitraire
mais aussi cohérente que possible entre les caractéristiques de l'évolution
de W et les types d'évolution de A.
RECHERCHE DE DÉFINITIONS
Quoique des considérations générales aient guidé cette discussion,
nous la restreindrons au cas des modèles stochastiques d'apprentissage,
avec plus particulièrement présents à l'esprit les modèles pertinents pour
l'apprentissage des concepts. 148 NOTES
Dans ce cadre, une formulation courante consiste à nommer états les
valeurs de la variable intermédiaire. On dit alors qu'à chaque essai le
sujet se trouve dans un état parmi ceux possibles, et on fait dépendre les
prédictions relatives aux diverses variables observables enregistrées de
l'état dans lequel se trouve le sujet. L'ensemble des états peut être
fini ou non.
Dans notre recherche d'un type de modèles d'apprentissage par
tout-ou-rien, une première restriction intuitivement souhaitable est
que la variable intermédiaire W, dont l'évolution caractérise l'apprent
issage, soit à valeurs discrètes, ce qui définit une classe de modèles
où le sujet ne peut se trouver que dans un nombre fini d'états. Il nous
faut à présent préciser les contraintes relatives à la structure de ces
états, c'est-à-dire les lois de passage d'un état à l'autre.
Dans la notion de « tout-ou-rien », le terme « tout » représente l'idée
qu'à un moment donné le sujet se trouve dans un état de connaissance
parfaite (ou quasi parfaite) et qu'il y reste. L'un des états postulés par
le modèle doit donc être un état absorbant, c'est-à-dire qu'à chaque essai
la probabilité de passer de cet état dans l'un quelconque des autres est
nulle1.
Pour la clarté de l'exposition, considérons à présent le cas simple où
le modèle comporte deux états seulement. Nous envisagerons ensuite
les modèles à plus de états, pour lesquels la démarche sera analogue
mais où des restrictions supplémentaires seront nécessaires. Dans le
cas d'un modèle à deux états, les contraintes énoncées jusqu'ici sont
suffisantes pour donner une définition de l'apprentissage par tout-ou-rien
(TOR) qui soit compatible avec le type d'évolution schématisé à la
figure 2.2. On dira qu'il y a apprentissage TOR si le modèle implique
que le sujet reste dans l'état initial jusqu'à un essai m après lequel il
passe définitivement dans l'état final. La courbe hypothétique repré
sentant l'évolution de la variable intermédiaire W pour un sujet a donc
la forme représentée à la figure 3. L'évolution de la variable A sera
naturellement du même type. En effet, lorsque le modèle postule deux
états seulement, ils sont généralement identifiés explicitement à un
état d'ignorance et à un état de connaissance, et les variables W et A
sont confondues (voir par exemple le modèle de Bower, 1961). Le pro
blème de la relation entre les valeurs de W et les valeurs de A ne se
posera véritablement que dans les modèles à plus de deux états.
Il est à remarquer que nous n'avons pas, jusqu'à présent, imposé aux
probabilités de transition d'être constantes au fil des essais. La notion
de tout-ou-rien telle qu'elle a été définie admet donc une augmentation
de la probabilité de passer dans l'état final au cours du temps. Le seul
1. On remarquera que des modèles de ce type postulent qu'il n'y a pas
d'oubli possible après la découverte de la solution. Ce postulat est très géné
ralement émis (au moins implicitement) dans les modèles existants, et rendu
plausible par la durée relativement brève des expériences considérées. FALMAGNE 149 R.
critère nécessaire d'un apprentissage TOR est que chaque réalisation
individuelle du processus présente un passage brusque d'un état d'igno
rance à un état final.
Dans le cas où les probabilités de transition sont indépendantes du
numéro de l'essai et du passé, on dira que le modèle postule un apprent
issage strictement par tout-ou-rien (STOR). Le processus caractérisant
l'apprentissage est dans ce cas une chaîne de Markov à deux états. La
propriété importante psychologiquement dans un tel processus est que
le sujet ne possède théoriquement aucune mémoire. Entre le début de
l'expérience et le moment où il passe dans l'état final, aucune acqui
sition ne prend place.
L'introduction de deux degrés de sévérité dans la notion de tout-ou-
Etat
final
Etat
initial
Fig. 3. — Réalisation individuelle
d'un modèle à deux états, avec u>i absorbant
rien peut être discutée. Nous pensons néanmoins que cette dualité est
utile, conceptuellement et pratiquement, notamment parce qu'elle
permet de situer des cas dont l'interprétation, autrement, serait équi
voque. (Référons-nous par exemple à la situation dite « d'apprentissage
latent ». Un modèle plausible pour cette consisterait à postuler
qu'au fil des essais non renforcés la probabilité de passer dans l'état
final augmente, mais que néanmoins le passage dans cet état s'effectue
en une fois lors d'un essai renforcé. Quoique le sujet reste dans le même
état lors des essais non renforcés, il se produit bien pendant cette période
une certaine acquisition, puisque la performance ultérieure dépend de la
longueur de cette séquence préliminaire.)
Examinons à présent le cas où le modèle postule plus de deux états.
Ce cas est particulièrement important dans le cadre de l'apprentissage
de concepts. Les modèles seront souvent, comme il est naturel de le faire,
formulés en termes d'aspects sur lesquels le sujet porte son attention,
ou d'hypothèses qu'il utilise. Les états du modèle sont alors identifiés
à ces foyers d'attention ou à ces hypothèses.
La restriction suivant laquelle l'un des états doit être absorbant
n'est plus suffisante ici pour définir une notion de tout-ou-rien cohérente
au sens de la variable A. Un contre-exemple extrême serait celui où
les états non absorbants présenteraient une structure en chaîne telle
que celle représentée à la figure 4. Dans une telle structure, il existe un
chemin inévitable entre l'état de départ Ej et l'état final E5, de telle 150 NOTES
sorte que, dans l'état E3) le sujet se trouve plus près de l'état final que
dans l'état E2, le terme « près » étant utilisé à la fois dans son sens intuitif
et au sens du nombre moyen d'essais nécessaires pour atteindre l'état
final.
Il est clair que la notion de tout-ou-rien n'admet plusieurs états
différents de l'état de connaissance que s'ils sont équivalents en ce sens
que le passage de l'un à l'autre ne constitue pas un progrès. Un modèle
sera dit « tout-ou-rien » si tous les états autres que l'état final corre
spondent à une même valeur de la variable A.
Divers critères peuvent être envisagés pour établir cette relation
d'équivalence. Nous choisirons de dire équivalents deux états / et /' si,
Fig. 4
Exemple de modèles à états en chaîne
pour tout essai n, la probabilité de passer dans l'état final a à tout essai
m > n est la même si l'on se trouve en / ou si l'on se trouve en /'. Ceci
revient à dire qu'à tout essai, le nombre moyen d'essais nécessaire pour
atteindre l'état a étant donné que l'on se trouve en / est égal au nombre
moyen d'essais nécessaire pour atteindre l'état a si l'on se trouve en /'.
Un modèle (L'apprentissage par tout-ou-rien (TOR) est, par conséquent,
un modèle dans lequel la probabilité de se trouver dans l'état a à l'essai
n est égale à
pn si l'on se trouve dans un état différent de a à l'essai n — 1 ;
1 si se en a à l'essai n — 1.
De même que la définition proposée pour le modèle à deux états,
cette définition n'implique pas la constance des pn au fil des essais ; la
seule condition nécessaire est l'équivalence des états différents de a,
à tout essai, dans le sens défini précédemment. Remarquons également
que cette définition n'exclut pas les modèles dans lesquels la probabilité
de certains états (différents de a) peut s'annuler à un essai donné,
puisque les pn sont des probabilités conditionnelles.
Nous appellerons apprentissage strictement par tout-ou-rien (STOR)
un apprentissage TOR dans lequel la probabilité de passer d'un état
/ ^aàun état /' # a est qn pour tout / et tout /', et dans lequel pn et
çnsont constants au fil des essais. Deux exemples de modèles STOR sont,
pour le cas à deux états, le modèle développé par Bower (1961) pour R. FALMAGNE 151
l'apprentissage de couples, et, pour le cas à plus de deux états, les modèles
de Bower et Trabasso (1963) et Restle (1962) pour l'apprentissage de
concepts.
RELATIONS ENTRE LES POSTULATS TOR ET STOR
ET LES VARIABLES COMPORTEMENTALES
Ces définitions nous permettent à présent d'examiner les impli
cations entre les affirmations concernant l'évolution des variables obser
vables (niveau II du modèle) et celles concernant l'apprentissage au
niveau intermédiaire (niveau I). Pour le niveau II, nous n'envisagerons
ici que la probabilité d'erreurs, la littérature n'offrant que des exemples
rarissimes d'étude d'autres variables dans le cas de de
concepts. Il va sans dire que cette discussion doit pouvoir être étendue
à d'autres variables observables.
De façon précise, le problème consiste à décider de la pertinence
des affirmations suivantes, où PES est mis pour « probabilité indivi
duelle d'erreurs stationnaire jusqu'à un certain point à partir duquel
elle devient nulle », où TOR et STOR sont mis dans le sens défini plus
haut, et où le symbole ->- représente l'implication logique1 :
1) TOR -> PES;
2) STOR ->
3) PES -> TOR ;
4)-> STOR.
On voit que les questions 1 et 2 d'une part, 3 et 4 de l'autre, repré
sentent une subdivision respectivement des questions Q 1 et Q 2 qui
sont le point de départ de notre démarche. La réponse à ces quatre
questions s'impose de façon directe, si l'on se réfère aux définitions du
paragraphe précédent et au cadre dans lequel nous nous sommes situés :
cette discussion concerne des modèles postulant un ensemble d'états,
un ensemble de prédictions pour chaque variable observable considérée,
et une fonction de l'ensemble des états dans l'ensemble des prédictions
(fig. 1). Ceci signifie qu'à chaque état ne peut correspondre qu'une pré
diction, et, dans le cas qui nous occupe, qu'à chaque état ne correspond
qu'une valeur de la probabilité d'erreurs. Sous cette condition, les
questions 1 à 4 reçoivent les réponses suivantes :
1) Un apprentissage par tout-ou-rien au niveau intermédiaire (TOR)
n'implique pas la prédiction d'une probabilité d'erreurs constante jusqu'à
un certain point à partir duquel elle devient nulle (PES).
Il suffit, pour le montrer, d'un seul contre-exemple. On le trouve
aisément si l'on observe que nous n'avons pas imposé aux différents états
/ ^ a de correspondre à la même probabilité d'erreurs.
Le fait de considérer comme équivalents au sens de A des états pour
1 . Le choix de ces questions, parmi toutes celles qui peuvent être posées, est
gouverné par des raisons pratiques liées à l'analyse de la littérature disponible.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.