Recherche d'une organisation interne dans un ensemble de données - article ; n°2 ; vol.75, pg 575-597

De
Publié par

L'année psychologique - Année 1975 - Volume 75 - Numéro 2 - Pages 575-597
Résumé
Dans un premier temps, on recense les différents indices de mesure du degré d'organisation (depuis Bousfield, 1953) et on cherche à comparer leurs avantages et leurs inconvénients respectifs. Ces mesures se font sur des listes de mots rappelés par des sujets. Parfois, ces listes sont organisées a priori en catégories par l'expérimentateur ; les classes sont donc connues à l'avance. D'autres fois, c'est le sujet qui induit, consciemment ou non sa propre organisation sur le matériel ; les groupements sont donc à définir par l'analyse.
Ensuite, on s'intéresse aux différentes méthodes qui permettent de classer un matériel, de déterminer la structure qui le sous-tend : clustering construction hiérarchique indicée, analyse des correspondances.
23 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1975
Lecture(s) : 10
Nombre de pages : 24
Voir plus Voir moins

D. Coquin-Viennot
Recherche d'une organisation interne dans un ensemble de
données
In: L'année psychologique. 1975 vol. 75, n°2. pp. 575-597.
Résumé
Dans un premier temps, on recense les différents indices de mesure du degré d'organisation (depuis Bousfield, 1953) et on
cherche à comparer leurs avantages et leurs inconvénients respectifs. Ces mesures se font sur des listes de mots rappelés par
des sujets. Parfois, ces listes sont organisées a priori en catégories par l'expérimentateur ; les classes sont donc connues à
l'avance. D'autres fois, c'est le sujet qui induit, consciemment ou non sa propre organisation sur le matériel ; les groupements
sont donc à définir par l'analyse.
Ensuite, on s'intéresse aux différentes méthodes qui permettent de classer un matériel, de déterminer la structure qui le sous-
tend : clustering construction hiérarchique indicée, analyse des correspondances.
Citer ce document / Cite this document :
Coquin-Viennot D. Recherche d'une organisation interne dans un ensemble de données. In: L'année psychologique. 1975 vol.
75, n°2. pp. 575-597.
doi : 10.3406/psy.1975.28113
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1975_num_75_2_28113Année psychol.
1975, 75, 575-597
RECHERCHE
D'UNE ORGANISATION MNÉMONIQUE INTERNE
DANS UN ENSEMBLE DE DONNÉES
par Daniele Coquin-Viennot
Laboratoire de Psychologie1 E.R.A. n° 417
Université de Poitiers
L'esprit humain est ainsi fait que lorsqu'il est en présence d'une
grande quantité d'objets, d'individus, disons de manière générale d'items,
il ne peut les appréhender globalement. Il est amené à construire des
regroupements, des classifications, des hiérarchies pour mieux les saisir.
Comment ces structures sont-elles construites ? Peut-on mesurer un
degré d'organisation ? Voilà des problèmes que les chercheurs ont voulu
résoudre afin d'étudier le rôle de différents facteurs sur les phénomènes
d'organisation, ou inversement afin d'étudier l'effet de l'organisation
sur certains comportements, en particulier dans le domaine de
l'apprentissage.
Historiquement, une des premières expériences portant sur les phé
nomènes d'organisation est due à Bousfield (1953). Elle est ainsi décrite
par M. F. Ehrlich (1972) : « On présente aux sujets (au nombre de 100)
une liste de 60 substantifs appartenant à 4 catégories différentes :
animaux, prénoms, professions, légumes (15 mots de chaque catégorie).
Les mots sont présentés dans un ordre aléatoire et on ne donne aux sujets
aucune information quant à leur nature. Tout de suite après la présent
ation, les sujets sont invités à reproduire, dans un ordre libre, le plus
grand nombre possible de mots. » L'auteur compare ensuite le nombre
de groupes réalisés par les sujets à celui qui serait dû à l'effet du hasard.
Dans d'autres cas, on cherche à mettre en relation la performance
de rappel et la manière dont le sujet organise ses réponses.
Dans l'exemple précédent, on étudie l'organisation des réponses du
sujet relativement à la classification prévue a priori par l'expérimentat
eur. D'autres expériences utilisent un matériel quelconque, ne présen
tant aucun « groupement » préalable. On se préoccupe alors de l'organi
sation mise en œuvre par chaque sujet sans faire référence à un
« rangement » extérieur à celui-ci. On pourra donc rencontrer des sujets
1. 95, avenue du Recteur-Pineau, 86 Poitiers. REVUES CRITIQUES 576
présentant le même taux d'organisation de leurs réponses, bien que les
critères de classification utilisés soient totalement différents.
Dans une première partie, nous traitons des indices qui montrent
l'existence d'une organisation plus ou moins structurée. Dans une
deuxième partie, nous parlons des méthodes qui permettent de découvrir
la nature interne de cette organisation.
A) MESURE ET MISE EN ÉVIDENCE DE L'ORGANISATION
Depuis la première tentative de Bousfield (1953) beaucoup d'indices
ont été construits pour montrer la tendance à organiser une liste d'items
au cours d'un rappel libre.
Certains de ces indices traduisent la tendance du sujet à reproduire
les catégories prévues par l'expérimentateur, on parlera alors d'organi
sation a priori ; d'autres mesurent une organisation propre au sujet,
mais non apparente dans le matériel de départ : l'organisation subjective
a posteriori. C'est ce critère qui nous donnera les deux grands paragraphes
de ce texte.
Avant de poursuivre, énonçons un certain nombre de principes que
les auteurs ont cherché à respecter ou au contraire à combattre. Nous
reviendrons sur ces principes dans le courant du texte.
L'indice exprimant l'organisation doit :
— avoir subi la correction du hasard ; i. e. lorsque les éléments étudiés
« ne sont pas organisés », ou plutôt sont répartis selon une organisation
due au hasard, l'indice doit être minimum.
— avoir un maximum et un minimum indépendants de la longueur de la
liste, du nombre de mots rappelés, du nombre de catégories, du nom
bre de mots par catégorie ;
— être lui-même indépendant de ces variables ;
— se distribuer selon une échelle d'intervalle de sorte que deux diff
érences numériquement égales entre indices aient la même signi
fication.
Ces conditions sont nécessaires pour permettre de comparer des
sujets organisant un même matériel ou des organisations obtenues sur
des matériels différents. Il s'agit, en somme, d'obtenir une normalisation
des indices.
INDICES D'ORGANISATION OBJECTIVE OU « A PRIORI »
Dans cette première partie, nous parlerons de l'organisation d'un
matériel groupé au préalable en catégories par l'expérimentateur. Ceci
est indispensable pour définir ce que Bousfield appelle une répétition :
« une séquence de deux mots appartenant à la même catégorie ». Le D. COQUIN-VIENNOT 577
nombre de répétitions (R) est le fondement de la plupart des indices
calculés dans ce cas.
Les notations changent d'un auteur à l'autre. Nous nous excusons
donc auprès des auteurs de modifier ces notations afin d'homogénéiser
les formules.
Nous adoptons dans tout le texte les conventions suivantes :
N longueur de la liste ;
n nombre de mots rappelés ;
c de catégories ;
nombre de rappelées ; k d'items dans la catégorie i ;
nombre rappelés dans la catégorie i ;
R de répétitions ;
min valeur minimum que peut prendre la variable x ; (x)
max maximum que la x ; (x)
E expérience mathématique de la variable aléatoire x ; (X)
(x\ o écart type de la variable aléatoire x ;
(0,1) x est un aléa numérique distribué selon une loi normale
réduite : de moyenne nulle, d'écart type égal à 1.
Le premier, Bousfield (1953) cherche un indice de Répétition IR (1)
mettant en évidence la tendance des sujets à regrouper les mots d'une
même catégorie au cours d'un rappel. Il compare la valeur de cet indice
calculée pour les sujets, à la valeur obtenue en réalisant une expérience
artificielle qui simule le hasard.
Plus tard, IR subit une modification (Bousfield et Cohen, 1955) qui
inclut la correction du hasard. Cette correction utilise p : probabilité
qu'un mot donné soit suivi d'un autre mot dans la même catégorie si
l'ordre de rappel est au hasard (on suppose, ce qui est douteux, que tous
les items présentés sont également disponibles). On obtient alors sous
l'hypothèse de l'indépendance des choix successifs :
P —
(n — l)p(l-p)
IR2 e ./f (0,1) ; mais IR2 dépend de p et de la longueur de la liste.
En réalité, Bousfield utilise surtout le Rapport de Répétition RR,
d'un emploi plus facile :
R
(3) RR = -
ou (3') RR = -^-^ ;
ou (4) MRR = n — k r . 578 REVUES CRITIQUES
RR dépend de k, nombre de catégories rappelées : RR ne peut prendre
la valeur maximum 1 que si le sujet ne rappelle qu'une catégorie !
MRR a pour 1 quel que soit le nombre de catégories rappelées,
mais son minimum varie avec ni, nombre de mots rappelés dans la caté
gorie i.
Sur le même modèle, Robinson (1966) construit VItem Clustering
Index, utilisable quand le nombre de mots par catégorie est constant.
(5) ICI^^n.«!,.
Mais cet indice n'atteint son maximum que si le sujet rappelle tous
les mots de la liste.
Bousfield (1966) modifle son hypothèse sur la disponibilité des items
à rappeler ; il suppose que :
— certains items ne sont pas utilisables ;
— à chaque étape, les mots qui restent à rappeler sont éga
lement disponibles.
Il compare alors le nombre de répétitions constaté chez un sujet
à ce que l'on obtiendrait si les items rappelés l'étaient dans un ordre
aléatoire en calculant la différence DB
'f;* "»'fa — *)
(6) db=R — E(R); E(R) =
i i n
Cette différence permet donc de chercher si un effet (d'organisation)
existe en comparant la réalité au hasard. Mais DB dépend de n et des n^ :
et ne permet aucune référence à un maximum ou à un minimum d'orga
nisation. DB ne permet donc aucune comparaison entre sujets au cours
d'une même expérience et encore moins entre expériences.
Shuell (1969) a fait une comparaison empirique de ces différents
indices par calcul d'intercorrélations. 336 étudiants font 4 essais appren
tissage-rappel sur une liste de 35 mots répartis en 7 catégories. Les résul
tats sont les suivants au quatrième essai :
RR R ICI IR, ni
n .89 .62 .85 .90 .78 .85
.85 .74 .79 .88 .92 ni
.96 ICI .95 .94 .93
R 1.00 .89 .99
.99 .92 IB,
RR .89
En fait, Dalrymple et Alford (1970) montrent que RR est un indice
fallacieux, parce qu'il dépend non seulement de n, mais aussi des n; .
L'auteur donne un exemple de trois listes qui ont même n, R et RR ;
pourtant R est le minimum possible pour l'une et, pour l'autre, le maxi- D. COQUIN-VIENNOT 579
mum possible. Ils proposent alors un nouvel indice G qui tient compte
du maximum et du minimum possibles (G est conçu d'après l'indice de
constance de Brunswik).
_ R — min (R)
*7) G = max (R) — min (R)
max (R) = n — k
( = 0 si n + 1 > 2 m
min (R) v { _ . . . „ = 2m — n — 1 si n -f 1 < 2 m [
m = nombre d'items de la catégorie la plus représentée au rappel.
C varie de 0 à 1. Donc en admettant que G soit distribué selon une
échelle d'intervalle sur [0,1], G permet des comparaisons entre sujets et
entre conditions. Mais G ne comporte pas la correction du hasard. L'au
teur construit alors DA = C — E(G)
R — E(R)
' (8) D A max (R) — min (R)
Mais DA perd la propriété essentielle de G : avoir un maximum et
un minimum bien définis et indépendants des différentes variables
envisagées.
Le même auteur (1971) reprend cet indice DA et le compare à l'indice
DB (66) et à l'indice z :
(9) x = —
sur lequel nous reviendrons plus loin. Ces indices sont calculés sur
300 suites de cinq catégories et de longueurs différentes (100 de 10 items,
100 de 20 et 100 de 30). Il montre ainsi empiriquement que z et DB sont
les plus sensibles à la longueur de la liste alors que D A est le plus stable.
Il constate d'autre part que MRR est relativement proche de DA.
C'est au contraire à cet indice z de Hudson-Dunn (1969) que vont
les préférences de Frankel et Cole (1971) : en effet, le maximum que peut
atteindre z augmente avec la longueur de la liste. Or, les auteurs estiment
qu'un clustering maximum réalisé par le sujet sur une longue liste nécess
ite une organisation plus forte qu'un clustering réalisé sur une liste plus
courte. Ils rejettent donc le point de vue des auteurs qui construisent
des indices dont le maximum est fixé à l'avance et est atteint dès que le
clustering est parfait quelles que soient la longueur et la structure de
la liste.
Roenker, Thompson et Brown (1971) cherchent à concilier la nécess
ité d'une correction du hasard et d'un indice qui varie entre deux bornes
fixes : ils reprochent à C et MRR de ne pas permettre une comparaison
directe avec le hasard et à max DA, max DB, E (MRR), E(C) de varier 580 REVUES CRITIQUES
avec le nombre de catégories retrouvées et avec la distribution des items
retrouvés dans ces catégories. Ils reprochent enfin à z de ne pas être
distribué normalement (l'hypothèse de normalité n'étant vraie que si les
items sont au hasard), d'être sophistiqué et de ne pas avoir de borne
supérieure.
Il proposent alors un indice : Adjusted Ratio of Clustering (ARC) en
précisant bien qu'il s'agit là d'une mesure empirique qui ne présume en
rien des mécanismes de clustering.
R — E(R)
(10) ARC = max R — E(R)'
On voit qu'il ne s'agit là que d'une modification de C. On a ainsi
un indice qui varie de 0 à 1 (si on élimine les cas de désorganisation
systématique), 0 représentant le hasard. Ils montrent que leur indice
vaut .50 pour une série présentant un « clustering moyen »... mais ils ne
précisent pas comment ils obtiennent une série présentant un « clustering
moyen ».
Colle (1972) étudie ces différents indices et reproche de manière géné
rale à leurs auteurs de « bricoler » des formules et de les ajuster à la petite
semaine sans s'intéresser à la théorie du clustering.
Il s'agit de savoir ce qu'on mesure et cela dépend souvent du contexte
de l'expérience. Le nombre de répétitions n'est pas le seul paramètre
possible pour une mesure de l'organisation. Colle montre que l'utilisation
d'un même paramètre pour tester des théories différentes peut conduire
à des résultats aberrants.
— Les indices sophistiqués risquent de mesurer des entités qui
n'existent pas : z de Frankel et Cole permet des comparaisons, mais n'est
pas un indice de mesure.
— L'existence d'un maximum constant, chaque fois que le clustering
maximum est atteint, est discutable. Frankel et Cole ne veulent pas
l'admettre. Mandler également donne des exemples de deux protocoles
différents dont le clustering est parfait, mais qui ne traduisent pas
nécessairement le même niveau de clustering. (Pour Mandler, une
suite AAAABBBB représente un plus haut niveau de clustering qu'une AABB.)
Que faire alors si l'on cherche à mettre en évidence l'organisation
dans un protocole donné ? Colle, tout en soulignant encore que l'approche
empirique est insuffisante pour répondre à des questions comme « le
lien entre clustering, N ou k » ou comme « le rôle de l'organisation dans le
rappel », et tout en rappelant qu'il faut d'abord définir la théorie à utiliser,
admet que la démarche empirique peut faire progresser les recherches.
Mais il faut alors utiliser un assortiment de paramètres. Ceux qui sont
étudiés ici ne sont pas exhaustifs, même si on se limite au problème des
mots adjacents ; d'autres indices comme le nombre de clusters de plus
de x mots peuvent être intéressants. D'autre part, il peut être utile de se D. COQUIN-VIENNOT 581
pencher sur le problème des items non adjacents, de ne pas tenir compte
de l'ordre, mais des distances entre mots, etc.
Toutefois, il semble possible d'établir une classification très grossière
des indices ci-dessus, selon le problème étudié :
— Si on cherche simplement à mettre en évidence l'existence d'un
phénomène d'organisation, on se contentera des indices qui tiennent
compte de la correction du hasard. Parmi eux, c'est (6) DB qui semble
le moins sophistiqué.
Mais actuellement, les chercheurs sont plus exigeants : ils ne se
satisfont plus d'une preuve de l'existence d'une organisation ; ils veulent
pouvoir faire des comparaisons et des mesures.
— Si, au cours d'une même expérience, on cherche à comparer des
taux d'organisation pour différents sujets qui apprennent une même
liste (même longueur, même nombre de catégories, même nombre de
mots par catégorie), il faut choisir des indices indépendants des perfor
mances de rappel : n, nit k. L'indice de Frankelet Colle (9) est peut-être
alors le meilleur.
— Si, enfin, on cherche à comparer des taux d'organisation obtenus
pour des listes différentes, il faut en plus neutraliser les variables N, N^
et C, ce qui nous conduit à utiliser Y Adjusted Ratio of Clustering :
ARG (10). Si, au contraire, on pense que le maximum d'organisation
doit dépendre de la longueur de la liste, on utilisera encore z (9).
L'essentiel reste bien entendu, lorsque l'on étudie l'influence réc
iproque de l'organisation et d'une variable x, de s'assurer, avant tout
calcul statistique de corrélation, de l'indépendance formelle entre x et
l'indice de mesure choisi pour l'organisation.
ORGANISATION SUBJECTIVE OU « A POSTERIORI »
Jusqu'ici, nous n'avons étudié les listes que du point de vue d'une
organisation acceptée au départ. Les critères envisagés ne permettent
pas de chiffrer ce qui se passe dans le cas où la liste n'est munie d'aucune a priori.
Pourtant, même dans ce cas, un sujet peut trouver certaines liaisons
entre les items, liaisons qui lui seront propres. Nous qualifierons d' « orga
nisation subjective » ou individuelle ou a posteriori, ce type d'orga
nisation.
Bien entendu, les tentatives de mesure de l'organisation menées dans
ce cadre seront applicables dans le cas d'organisation catégorielle ; mais
l'inverse n'est pas possible.
Le premier, Tulving (1962), définit son indice d'Organisation Subj
ective (SO) en se fondant sur le principe suivant : si deux mots sont
fortement liés, le rappel de l'un induit immédiatement le rappel de
l'autre. Par conséquent, dans le cas d'une organisation forte, on consta
tera une stabilité d'un essai à l'autre dans la formation des couples
A. PSYCHOL. 75 19 582 REVUES CRITIQUES
composés d'un mot et de son successeur immédiat. En fait, c'est cette
stabilité et rien d'autre que tente de mesurer SO.
Tulving fonde son indice sur la théorie de l'information. Pour lui,
SO n'est autre que « le bruit produit par le sujet en tant que canal de
transmission ». Il utilise pour son calcul la notion d'entropie d'un événe
ment lié à la réalisation d'un autre événement.
Calcul de SO : pour chaque bloc d'essais, on construit un tableau
carré de correspondance (N + 1) x (N + 1)- (Les N mots de la ligne
plus une ligne ou colonne : zéro.) Pour chaque essai du bloc, on coche la
case ij si le mot i précède immédiatement le mot /. Si le mot / est le
premier, on coche la case Oj . On obtient dans chaque case i;-un nombre ntj
variant de 0 au nombre total d'essais du bloc.
(11) SO =
SO se présente comme une fraction de l'organisation (stabilité)
parfaite et varie de 0 à 1. On étudie l'évolution de SO au cours des blocs
successifs.
Dans une expérience donnée, Tulving a montré que la performance (P)
de rappel croît comme log SO. Le coefficient de corrélation entre P et SO
vaut .96. Ce rôle de SO a été étudié dans différentes expériences relatées
par M. F. Ehrlich (1972).
Or SO, qui est indépendant de la longueur de la liste N, serait aussi
fonctionnellement du nombre de mots rappelés puisque
Laurence (1966) a montré qu'avec un taux SO constant, on peut trouver
des performances de rappel qui augmentent avec l'âge.
Tulving s'est limité à cet indice et a abandonné le projet d'utiliser
un indice de même type, mais calculé sur un tableau de correspondance
où on tient compte des couples de mots séparés d'un mot, de deux
mots, etc.
A partir du tableau de Tulving, un autre indice : Inter-Trial Repet
ition (ITR) a été construit par Bousfield, Puff et Cowan (1964). ITR est
le nombre de suites de deux réponses correctes identiques à l'essai e
et à l'essai e + 1. Ce paramètre n'est autre que le nombre de cases
cochées deux fois dans le tableau de Tulving construit pour deux essais
successifs. Puis les auteurs comparent ITR à E(ITR) = — rrrrr — — :
h : nombre de mots rappelés à l'essai e ;
k : de à e + 1 ;
N : nombre total de mots de la liste ;
en calculant la différence D :
(12) D = ITR — E(ITR).
On étudie ensuite l'évolution de la différence ITR — E(ITR) au
cours des couples d'essais successifs. D. COQUIN-VIENNOT 583
En 1966, Bousfleld et Bousfleld utilisent le même indice, mais ils
tiennent compte dans le caclcul de E du nombre C d'items communs
rappelés au cours de deux essais successifs :
C(C-l)
E(ITR) = hk
Quoi qu'il en soit, cet indice ne peut servir qu'à des comparaisons
intersujet puisque, comme l'a montré Bonge (1971), il dépend de la
longueur N de la liste : l'indice D (12) n'indique pas le degré de différence
entre ITR et E(ITR) puisque la probabilité que deux suites de N items
rangés au hasard soient données dans le même ordre varie avec N. Pour
Bonge, il faudrait prendre comme indice Proba (ITR — E(ITR)) ;
cette probabilité étant donnée par une loi de Poisson de paramètre
E(ITR). (Ce résultat a été obtenu par simulation.) Bonge propose
encore
max [ITR — E(ITR)j
(12) maxITR — E(ITR)
TTR.
ou encore (12") Rel (ITR) = ^7=5- déjà donné par Fagin (1968)
maxiiK et Puff (1970).
Quoi qu'il en soit, les indices ci-dessus estiment le degré d'organi
sation en « mesurant la stabilité » sur un couple d'essais successifs. On
étudie alors l'évolution de cette mesure lorsque l'on passe d'un bloc du
début de l'apprentissage à un bloc de fin d'apprentissage. Il n'y a donc
pas de référence fixe, de liste considérée comme parfaitement organisée.
Il est donc possible, si une organisation provisoire se constitue en cours
d'apprentissage et est transformée ensuite, d'obtenir un indice qui passe
par un maximum en cours d'apprentissage.
Ehrlich (1965) préfère choisir une des séries rappelées comme réfé
rence : c'est la série pilote. Considérant qu'on est parvenu au terme du
processus de structuration lorsque l'ordre des listes devient invariable
d'un essai à l'autre (les éléments sont rappelés dans des rapports de
contiguïté définis et stables), il choisit une de ces listes comme liste
pilote. Cette liste est généralement située vers la fin de l'apprentissage.
D'autre part, Tulving, Bousfield et Colle ne tiennent compte que
de la stabilité des couples « mot et son successeur immédiat ». Or, si trois
mots sont fortement liés, le sujet peut sans doute aussi bien rappeler ABC
que ACB ou CBA. Il est donc préférable de partir d'une mesure des dis
tances entre les mots, ce qui évite de considérer l'organisation stabilisée
comme un phénomène par tout ou rien n'intéressant que deux réponses
immédiatement consécutives.
Le calcul de l'indice Structuration (S) d'Ehrlich tente de tenir compte
de ces deux observations et se fait de la manière suivante : on numérote
les mots de la liste pilote dans leur ordre d'apparition, on reporte ces
numéros sur les mots d'un essai donné. On obtient ainsi une suite de

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.