Du minimum de mesures nécessaires pour l'étalonnage d'un test dans un but psychométrique - article ; n°1 ; vol.31, pg 246-259

De
Publié par

L'année psychologique - Année 1930 - Volume 31 - Numéro 1 - Pages 246-259
14 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1930
Lecture(s) : 21
Nombre de pages : 15
Voir plus Voir moins

A. Fessard
Henri Piéron
IV. Du minimum de mesures nécessaires pour l'étalonnage d'un
test dans un but psychométrique
In: L'année psychologique. 1930 vol. 31. pp. 246-259.
Citer ce document / Cite this document :
Fessard A., Piéron Henri. IV. Du minimum de mesures nécessaires pour l'étalonnage d'un test dans un but psychométrique. In:
L'année psychologique. 1930 vol. 31. pp. 246-259.
doi : 10.3406/psy.1930.30011
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1930_num_31_1_30011IV
DU MINIMUM DE MESURES NÉCESSAIRES POUR
L'ÉTALONNAGE D'UN TEST DANS UN BUT
PSYGHOMÉTRIQUE »
pav A. Fessard et H. Piéron
INTRODUCTION
Lorsqu'on cherche à déterminer une valeur numérique en employant
une certaine unité, on doit naturellement se demander la confiance
qu'on peut accorder à cette valeur. Dans ce but, la mesure doit être
répétée *.
Trois cas sont à envisager suivant la nature de ce que l'on mesure.
1er cas. — La mesure s'adresse à un objet considéré comme inva
riable, mesure d'une longueur physique, par exemple. Dans ce cas, les
différences des valeurs numériques obtenues au cours de mesures
successives sont envisagées comme des erreurs de mesure par rapport
à une valeur considérée exacte (la valeur moyenne par
exemple), les différences étant supposées obéir aux lois du hasard (et
la correction étant faite des erreurs systématiques, s'il y a lieu).
En Biologie, il peut sembler qu'il n'y a pas d'objet invariable, et
qu'on a toujours affaire à des processus évoluant dans le temps.
Toutefois, le produit de l'activité d'un être vivant peut constituer
un objet invariable, dont l'appréciation est susceptible de comporter
une valeur numérique ; et dès lors on se trouve dans le cas des erreurs
1. Rapport présenté à la 6 e conférence internationale de Psycho
technique à Barcelone (avril 1930).
2. t II ne suffit pas d'étudier la psychométrie de douze individus pour di
stinguer en eux ce qui appartient à la race et ce qui appartient aux variations
individuelles — disait Binet en 1895, rendant compte d'un travail sur le
temps de réaction et la race. — L'étude de ce cas particulier montre la nécess
ité de formuler des règles touchant le nombre d'expériences qu'il faut faire
pour rendre une conclusion certaine » (An. Ps., II, p. 769). Fessard et h. piéron. -tt wj unxiiiftw de mesures, etc. %b% à.
de mesures, si l'on faitfpar* exemple noter un dessin par une série de
juges (ou par le même|juge une série de fois, à condition qu'il n'y ait
pas d'influence des appréciations antérieures sur les appréciations
nouvelles, condition difficile à remplir, ce qui rend à peu près imposs
ible cette répétition).
Et d'autre part, même pour un processus qui évolue dans le temps,
si la mesure est effectuée simultanément et de façon indépendante par
une série de juges différents, les divergences des mesures individuelles
par rapport à la valeur considérée comme la plus vraie sont bien des
erreurs de mesure d'un objet pratiquement invariable, représentant
un morceau d'expérience dans des limites de temps définies, par
exemple si l'on note l'émotivité d'un sujet d'après sa réaction à un
stimulus impressionnant.
Il est possible que chaque juge soit affecté d'un coefficient d'erreur
systématique, mais on admet alors que les erreurs systématiques des
juges individuels se répartissent conformément aux lois du hasard et
peuvent être envisagées comme des erreurs fortuites. (Toutefois un
groupe de juges — comme un individu dans le cas de répétition des
mesures — peut être aussi affecté d'une erreur systématique, doat on
admettra alors qu'elle est connue et corrigée.)
2e cas. — La mesure s'adresse à un processus variable. Par exemple
on détermine la vitesse de réaction d'un individu (par la réciproque
de son retard de réaction à un stimulus donné). La répétition des
évaluations entraîne des divergences qui relèvent des modifications
survenues dans le temps. Les différences des mesures (supposées
exactes et suffisamment précises avec l'unité choisie) d'avec une
valeur considérée comme la plus vraie (par exemple la moyenne, là
encore) sont envisagées comme des variations, dont on suppose qu'elles
se repartissent conformément aux lois régissant les variations for
tuites (et une fois éliminées, s'il y en a, les variations attribuables à
un facteur défini, comme un allongement du retard de réaction par
une perturbation extérieure).
En ce qui concerne des tests dont on suppose qu'ils mesurent un
processus déterminé — plus ou moins complexe — la multiplic
ité des questions analogues ou la répétition des épreuves conduit à
envisager aussi des valeurs différentes susceptibles de variation.
3e cas. — On peut encore s'adresser à un groupe d'objets, à une
catégorie homogène dont on veut caractériser le type par une évalua
tion numérique. Chacune des mesures (supposées exactes, et pouvant
être elles-mêmes des moyennes, comportant une certaine erreur, une
certaine variation) présentera, par rapport à la valeur choisie comme la
plus vraie, comme la plus représentative du type (la valeur médiane,
par exemple) des divergences qui représe-nteront des écarts individuels,
dO|ût on .admet encore qu'ils se répartissent suivant une cqurbe voi
sine de la courbe normale de probabilité et peuvent être traités comme
fortuits, avec élimination des valeurs individuelles qui impliqueraient
U;n écart systématique, qu,i relèveraient d'objets hétérogènes, ne fai
sant p^as réeJjJement partie du même groupe. 248 NOTES ET BEVUES
Dans tous ces cas, on cherche à fournir la valeur la plus vraie, et
l'on se demande quelle confiance on peut accorder à cette valeur,
malgré les erreurs de mesure, les variations des processus, les écarts
individuels.
On sait que la confiance méritée par la valeur choisie est d'autant
plus grande que les divergences sont, dans l'ensemble, plus petites, et
que le nombre des mesures est plus grand. Or on ne dispose pas de la
grandeur des divergences, mais on peut disposer, en général, du
nombre des mesures.
Le problème se pose donc de déterminer le nombre de mesures à
effectuer, nombre minimum permettant de donner à la valeur numér
ique un poids suffisant, nombre maximum au delà duquel il y aurait
inutile gaspillage d'effort. Dans cet antagonisme entre le souci d'éc
onomie et le besoin de précision, l'équilibre dépendra des conditions particulier'
particulières de chaque cas, et en le nombre des mesures à
adopter dépendra de la grandeur des divergences.
Nous allons considérer d'abord les principes théoriques généraux
fondés sur des considérations statistiques, et ensuite les données expé
rimentales qu'il est possible d'invoquer, en matière d'étalonnage de
tests.
C'est au point de vue expérimental surtout que nous devrons envi
sager un cas très spécial, celui de la confiance à accorder, non plus à
une valeur représentative d'un groupe, mais au contraire à des valeurs
d'écarts, dans une répartition des fréquences de ceux-ci.
Au lieu de désigner un groupe — homogène au point de vue du ca
ractère mesuré — par une valeur significative du type recherché,
on évalue une certaine hétérogénéité qui intéresse, comme telle,
et l'on caractérise cette au moyen d'un repérage, par
exemple un décilage ou un centilage.
Quelle confiance mérite une valeur de décile ou de centile ? Ici
encore on peut se demander quel est le nombre minimum de mesures
nécessaires pour assurer un poids suffisant aux valeurs de répartition.
Ce cas implique un aspect différent du problème, théoriquement
plus complexe, pratiquement très important.
' I. POINT DE VUE THÉORIQUE
Appelons n le nombre d'éléments distincts envisagés. Suivant les
cas n représentera des sujets, des juges, des épreuves identiques ou
équivalentes, des portions analogues d'un même test. Des considéra
tions théoriques, fondées sur le calcul des Probabilités, montrent que
la précision des indices qu'on peut tirer d'une série de mesures de n
éléments croît avec la racine carrée de n, à condition toutefois que le
hasard seul préside au choix des éléments, dans l'ensemble de ceux qui
sont possibles.
Par indices il faut entendre les valeurs habituelles calculées à partir
des mesures expérimentales : moyennes ou autres indices de tendance FESSA.RD ET H. PIERON. DU MINIMUM DE MESURES, ETC. 249 A.
centrale, indices de dispersion, de corrélation, centiles, etc. Des fo
rmules bien connues permettent de calculer dans chaque cas l'étendue
de la fluctuation à craindre, mesurée par un indice quelconque de la
dispersion des erreurs 1, erreur probable, erreur type, ou erreur
moyenne. Ainsi, pour s'en tenir à la moyenne arithmétique, on a,
pour la fluctuation mesurée par l'erreur type :
crM = — .
\Jn
En supposant qu'une première expérience nous ait fourni des in
dices insuffisamment précis à notre gré, et que désirions des fluc
tuations k fois plus petites, nous savons déjà que nous devrons faire
appel, probablement, à k*n éléments.
Mais quand pourrons-nous dire qu'une précision convenable a été
atteinte ? Seul un regard jeté vers ce qu'on a coutume d'obtenir, en
pratique, et avec de bons tests courants, pourra nous fixer sur ce
qu'il est raisonnable d'exiger, et en même temps sur les valeurs corre
spondantes de n. Mais auparavant, il importe de remarquer que nous
ne devons pas toujours juger la précision de la même manière.
11 ne suffit pas en effet d'évaluer par la formule courante la valeur
brute de la fluctuation à craindre : Une même erreur est importante ou
négligeable suivant V emploi que Von fait de la mesure correspondante.
Ecarts de groupe. — Le cas le plus simple est celui des mesures phys
iques, dans lesquelles on cherche à atteindre une valeur numérique
absolue aussi exacte que possible ; ce qui compte alors est l'erreur par
rapport à cette valeur numérique, c'est Verreur relative. Dans les dé
terminations psychométriques, on peut également envisager les choses
de ce point de vue, mais seulement lorsqu'on s'intéresse aux données
numériques pour elles-mêmes. Cela n'a guère de sens dans le cas
d'échelles arbitraires, dont le zéro et les différents degrés n'ont pas de
signification absolue ; mais toutes les épreuves ne sont pas dans ce
cas, et lorsque, dans un but anthropométrique descriptif, on déter
mine, par exemple la taille ou la force moyenne des garçons de tel
âge, ou encore les temps de réaction auditifs moyens d'un groupe
d'individus pris dans certaines conditions, il est tout à fait indiqué
de considérer l'expression ~ = - comme mesurant la pré-
M Mj
cision du résultat. On exprime alors l'erreur sous forme de pour
centage, et il est facile de remonter d'un pourcentage fixé d'avance
au nombre minimum de mesures à effectuer, lorsqu'on connaît
l'erreur type.
D'autres cas peuvent se présenter. Si l'on établit la force moyenne
en fonction de l'âge, et qu'on s'intéresse aux accroissements moyens
successifs AM d'année en année, c'est l'erreur par rapport à cette
différence —^ qu'il faudra envisager. Si l'on fixe la précision, ainsi
1. Nous employons ici le mot «erreurs» pour désigner les divergences en
général, quelle qu'en soit la nature. L'erreur type (a) est ce qu'en matière de
divergences entre individus d'un groupe on appelle « écart étalon. > âSO NOTES Et REVUES
mesurée, plus de sujets seront requis aux âges avancés qu'aux âges
iaférieurs, puisque la cowbe tend vers une limite, et que AM dimi
nue graduellement.
Si l'on s'intéresse aux indices de dispersion, quelles sont les erreurs
à craindre relativement à la valeur numérique de ces indices ? On a,
en supposant une ditribution normale, comme valeur de l'erreur
type :
pour l'écart étalon (erreur minima) : 0,707 /y/n] moyen : 0,756 //n
ipour l'intervalle D (entre le 1er et le 9e décile) : 0,888 /y/»]
pour le semi-intejqiiartile ; 1,164 /y^
Avec n = 100, on obtient donc des erreurs relatives généralement
inférieures à 10 %•
On voit combien ce problème du minimum de sujets est difficile à
poser dans son ensemble, et combien il comporte d'aspects différents.
Variations individuelles. — Envisageons maintenant le cas des
mesures Notre but étant de saisir, en dépit de fluctua
tions inévitables, l'état moyen, chez l'individu, du caractère examiné,
nous serons conduits à répéter identiquement notre épreuve, ou à lui
donner, par juxtaposition d'éléments équivalents, une longueur
suffisante, le tout dans des limites compatibles avec l'absence de
variations systématiques importantes (entraînement, fatigue).
jfe Quelques épreuves, par leur nature, se prêtent bien à la multipli
cation de leurs éléments : recherches de seuils, mesures de temps de
réaction, etc. Le calcul de la variability individuelle, de rintra-varia-
bilité comme l'appelle Claparède, est possible directement. On peut
en déduire <?M, <ra, etc., absolument comme avec les indices collectifs.
Posant ensuite l'expression de la fluctuation relative sous la forme
qui convient le mieux étant donné le but à atteindre, comme préc
édemment, il est facile de calculer le plus petit nombre d'épreuves
compatible avec telle ou telle exigence.
La plupart de nos tests ne se prêtent pas à des répétitions suff
isamment nombreuses pour que nous puissions évaluer directement la
variation de la note individuelle et en déduire le coefficient d'allong
ement ou de répétition souhaitable. Il faut alors se contenter d'une
solution moyenae, équivalant à l'hypothèse que chaque individu va
rierait autour de sa moyenne propre de la même manière que l'e
nsemble des sujets autour de la leur, au cours d'un unique examen.
La fluctuation moyenne à craindre sur la note est alors : <?x = a \J 1 — r,
r étant le coefficent de cohérence du test.
Avec un coefficient de répétition ou d'allongement égal à k, la
fluctuation sur la note moyenne est, comme toujours, divisée par
v//c, ce qui fixe le nombre k juste nécessaire pour ne pas dépasser une
erreur absolue fixée à l'avance. Cependant, comme plus haut, c'est
plutôt une certaine erreur relative qu'il faudra s'attacher à consi
dérer : <rx/#, ïx/î, ^x/AZ) etc., suivant le cas.
En général, la note n'est pas intéressante par sa valeur absolue
(cas des échelles arbitraires), et n'est qu'un repère pour distinguer les
individus entre eux. Ce qui importe, comme le dit Claparède, c'est
que l'intravariabilité soit petite par rapport à l'intervariabilité. Ce FESSARD ET H. PIERÖN. — DU MINIMUM DÉ MESURÉS, ETC. 254 A.
rapport — qu'il est plus correct de calculer à partir des écarts étalons
que des écarts moyens — n'est autre que y/l — r. Dans une note
critique sur la question, R. Franzen arrive à la conclusion qu'en
l'absence de zéro absolu, cette expression est « the proper medium for
judgment of reliability ».
Enfin, si l'on tient avant tout à conserver une valeur déterminée
au coefficient de cohérence, soit r0, on pourra, à partir de la formule de
Brown-Spearman, calculer la valeur la plus probable à donner à k (le primitif r ayant été jugé insuffisant). On a :
. _ ro(r - 1)
Répartitions d'écarts. — Dans l'étalonnage d'un test, la déterminat
ion de la valeur centrale pour un groupe défini de sujets peut avoir
pour but de caractériser le groupe par un chiffre significatif, mais aussi
de situer un centre par rapport à l'ensemble des notes.
Cette tendance centrale pourra être par exemple caractérisée par la
moyenne, dont on fera souvent un zéro à partir duquel les notations
s'exprimeront en unités fournies par l'écart étalon, en a.
Dans ce cas, il s'agit d'une situation qui sera d'autant mieux définie
par rapport à tous les autres points de la distribution que l'erreur
absolue sur cette moyenne sera plus petite, sans doute, mais égal
ement que le * de la distribution sera plus grand. Finalement on
sera conduit à envisager l'expression :
Si n — 100, l'erreur relative comprise ainsi vaudra 10 %. Lorsqu'il
s'agit d'un test à notation arbitraire, comme c'est le cas le plus général,
c'est le seul point de vue auquel on puisse se placer. Quand on transe
forme les notes en valeurs réduites, c'est-à-dire en écarts rapportés à
l'écart étalon, de façon à rendre comparables les mesures d'un test à
l'autre ; on a M = 0, n = 1 et îm = 1 /\/n. La réduction envisagée
plus haut se trouve effectuée automatiquement.
La précision de la situation centrale est ainsi envisagée en relation
avec la dispersion caractéristique du groupe entier, dispersion signi
ficative surtout dans la région médiane, interquartile.
Quand on procède à un décilage, à un centilage, on peut traiter
chaque décile ou centile voisin du médian comme ce dernier (5e décile
ou 50e centile). Et l'on est amené à envisager l'erreur absolue à
craindre pour chaque repère comme devant être d'autant plus petite
que la distribution est plus ramassée, que le a est moindre, si l'on
veut que les repérages ultérieurs coïncident de façon satisfaisante ;
la même formule permet encore de remonter, de l'erreur limite im
posée, au nombre juste suffisant de sujets.
Mais, en ce qui concerne la précision des déciles ou centiles ex
trêmes, pour lesquels la fluctuation, en valeur absolue, est notable,
le problème est complexe, en raison de l'influence du type de distri
bution. Ce qui importe, c'est la relation de la fluctuation d'un centile 252 NOTES ET REVUES
à l'intervalle qui le sépare des centiles voisins, à l'intercentile. Si l'in-
tercentile est grand , on peut évidemment tolérer une fluctuation absolue
d'un centile plus élevée que si l'intervalle est petit. On est amené
ainsi à comparer une intravariabilité pour chaque centile à l'interva-
riabilité des centiles, tout comme si l'on comparait des valeurs carac
téristiques de groupes (groupes situés sur les échelons d'une hiérar
chie, comme des d'âge différent se trouvent bien en réalité
constituer des échelons d'une hiérarchie de développement).
Le problème est donc complexe, car le type de distribution influe
à la fois sur les deux termes du rapport, sur la variabilité intracentile
et intercentile, en sorte qu'on ne peut envisager une solution générale
qui resterait indéterminée, le problème pouvant être envisagé toute
fois pour le type de distribution normale.
Il à fixer la valeur minima du rapport de l'intra à l'inter-
variabilité (rapport moyen pour les divers centiles ou déciles, les
différences de fluctuation absolue entre eux trouvant une compensat
ion dans les différences parallèles affectant les intervalles correspon
dants).
N'abusons pas cependant des considérations théoriques fondées sur
les relations statistiques générales, dans ce domaine si complexe de la
Psychotechnique.
Il est nécessaire d'envisager la question du point de vue des faits,
des vérifications expérimentales. Et, en particulier, en ce qui concerne
les fluctuations du décilage, nous apportons une contribution positive
qui, on le verra, permet à cet égard quelque précision.
IL LES DONNÉES EXPÉRIMENTALES
1° Caractéristique individuelle. — A) Soit à donner une apprécia
tion numérique d'une certaine caractéristique d'un individu. Ad
mettons qu'on puisse répéter les mesures sans inconvénient, en ce sens
qu'il se produise une sorte de remise au zéro de l'individu après chaque
mesure. Par exemple envisageons un temps de réaction auditif, une
reproduction de la longueur d'une ligne présentée, etc. Dans ce cas, la
précision doit croître comme la racine carrée du nombre des mesures.
En fait nous savons qu'il se produit des variations systématiques
dues à la répétition : au début surtout il y a progrès par entraîne
ment, notamment quand il s'agit d'une réaction de forme nouvelle
pour le sujet ; après un nombre plus ou moins grand de mesures (l'i
ntervalle entre ces mesures jouant un rôle essentiel), il y a influence
de la fatigue, en sens opposé ; en outre, il y a une action possible de
l'ennui, du désintérêt, avec diminution corrélative d'effort.
Ces influences ne sont pas les mêmes avec les différentes activités
mesurées, ni avec les différents individus.
Commençons par admettre que, en éliminant au besoin les pre
mières mesures, nous restions dans les limites d'un nombre de déter
minations tel, que, pour l'épreuve en jeu, les variations systéma
tiques soient négligeables. Nous pouvons alors, d'après l'indice de
fluctuation des mesures, nous rendre compte du nombre de celles-ci
permettant d'attribuer un certain poids à la valeur significative, à la
moyenne. FESSARD ET H. P1ÉR0N. — DU MINIMUM Utà MESURES, ETC. 253 A-
(T< On utilise souvent, comme indice, la variation moyenne, absolue
ou relative (celle-ci étant valable, avons-nous dit, quand les chiffres
ne sont pas arbitraires, par exemple pour des durées de retard de
réaction, des écarts de longueur, des forces de compression dynamom
étriques, etc.).
Cette variation moyenne relative, se montre en fait avoisiner gé
néralement 10 %: Par exemple, pour 1.000 sujets de la S. T. C. R. P.
(Lahy, 1925), la variation moyenne absolue oscille entre 10,5 s (Ie dé
cile) et 24,5 a (9e décile), avec 15,7 au médian (12,5 et 19,3 auxquar-
tiles). Or, la valeur absolue des temps de réaction est 165,5 a au mé
dian (152 et 181,5 aux quartiles). Bien qu'il n'y ait pas de valeur rela
tive établie pour chaque sujet, on voit que cette valeur peut être
fixée en moyenne à un peu moins de 10 %.
Si l'on pose en principe que la fluctuation relative de la moyenne
ne doit pas dépasser 1 %, quand on a une variation relative de 10 %,
il faut une centaine de mesures (ce qui réduit la variation à un
dixième de sa valeur) ; quand l'erreur n'est que de 5 %, 25 mesures
suffisent. Si l'on tolère une valeur comprise entre 1 et 2 %, on peut
fixer sans trop se préoccuper des différences de variabilité individuelle
(supposée normale), le nombre minimum de mesures à 25.
En utilisant les données d'H. Antipoff relatives à la « constance des
sujets », on trouve des variabilités moyennes relatives comprises
entre 4 et 14 %, c'est-à-dire oscillant autour de 9 %. (Tapping, 4,9 ;
pointillage, 6 ; dynamométrie de la main droite, 4,4 ; et de la gauche,
6,3 ; discrimination tactile, 12,9 ; estimation d'une minute, 14,1 ;etc).
Te nombre de 25 déterminations peut avoir une valeur assez génér
ale dans la mesure où il n'entraîne pas de variations systématiques
notables (les 25 mesures n'étant possibles en dynamométrie, par
exemple, qu'à condition qu'elles soient suffisamment écartées, ou du
moins que des écarts suffisants séparent des petits groupes de 2 ou 3
mesures).
B) Si les valeurs individuelles servent à établir un classement
hiérarchique, on se préoccupera de la précision du classement obtenu :
On comparera, par exemple, la fluctuation de la moyenne à l'indice
de dispersion dans le groupe dont le classement est établi.
On se trouve satisfait pratiquement quand cette fluctuation pour
les valeurs individuelles est un dixième du semi-interquartile du
groupe (ce qui se réalise avec une fluctuation relative de la moyenne
de 1 % et un semi-interquartile de 10 %). C'est le cas pour les temps
de réaction auditifs des sujets de Lahy. Le est sen
siblement de 15 cr, pour un médian de 165 s.
Mais en envisage aussi d'une autre façon la précision de la hiérar
chie, en mettant en corrélation les classements déterminés par les me
sures successives, ceci lorsque les répétitions ne peuvent se faire sans
entraîner des variations systématiques qui les limitent étroitement.
On calcule alors, avec deux séries ou plus de mesures, les coefficients
de cohérence (reliability) rj_2 et l'indice de précision, fourni parla réc
iproque de l'erreur type (écart étalon des erreurs) az Calculé d'après la
formule classique 254 NOTES ST REVUES
ï>é ftoiûfefêtïx coefficients de cohérence ont été calculés ; ils sont
souvent assez faibles ; et cela indique que la variabilité propre à
chaque sujet, d'une mesure à l'autre, est grande par rapport aux
écarts entre individus 1-,
Dans le cas où il y a répétition de mesures par-tests dont l'appré
ciation numérique exige des réponses à des séries d'épreuves (d'où la
difficulté dé la répétition, chaque mesure exigeant beaucoup de temps
et d'effort et ne permettant guère une remise au zéro du sujet), ce
qu'on peut envisager, c'est le nombre des épreuves supposées ana
logues sur lesquelles se fonde chaque mesure, la longueur du test.
Là cohérence doit croître avec l'allongement, et la formule de
Brown-Spearman permet de calculer ce que devient le coefficient
quand on allonge p fois un test de cohérence r : il prend la valeur
(cf. A. Fessard, 1928)
Multiplié par 10, un test de cohérence 0,50 atteindrait une cohé
rence de 0,91. On pourrait donc déterminer pour chaque test la lon
gueur minima telle qu'on puisse atteindre une cohérence déterminée,
par exemple 0,90.
Malheureusement l'expérience montre que les effets de l'allong
ement entraînent des variations sytématiqués telles que, dans certains
cas, il soit possible de perdre, au lieu de gagner, en cohérence (Lanier).
Holzinger, il est vrai, a vérifié qu'on obtenait, avec l'échelle de Ter-
man, fractionnée, une concordance satisfaisante avec la formule
dans la limite d'une variation de longueur de 1 à 5, mais l'unité étant •
assez petite. En réalité, c'est l'expérience qui permet d'établir la
longueur optima des tests, le nombre d'éléments assurant le maximum
de cohérence.
De façon générale, c'est encore entre 25 et 100 que le nombre d'él
éments du test peut être approximativement fixé.
Mais on ne espérer obtenir la précision de l'ordre du dixième
envisagée précédemment : pour que la fluctuation relative à l'écart
étalon pris pour unité ne dépassât pas le dixième, il faudrait un coeffi
cient de cohérence de 0,99. Avec 0,75, la fluctuation individuelle*
atteint la moitié de l'intervariation (d'après la formule ^ï^-^r).
En tout cas des gains, même faibles en apparence, de la cohérence,
ont une importance considérable. Par exemple, les déterminations de
Donald A. Laird, comparant les classements obtenus, d'une part avec
des séries de 20, de 40 ou de 60 questions, %t d'autre part avec l'e
nsemble des questions, au nombre de 80, et trouvant, comme valeurs de
r : 0>84, 0,88 et 0,92, ont paru indiquer an assez faible progrès avec
le nombre croissant des épreuves pour justifier un raccourcissement.
Or, si l'on faisait une coupure au 50e centile, les chances d'erreur
(en appelant erreur la divergence d'avec ce que donne l'épreuve
1. Claparède (1919) a envisagé ce qu'il a appelé la » constance » des sujets,
en calculant des coefficients de cohérence entre des couples de mesures, pour
une série de tests répétés 4 fois. D'après Syrkin, en cas de répétitions rappro
chées, on obtiendrait un indice de * stabilité », et un indice de « constance »
pour des répétitionsjplus éloignées,

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.