La Précision et la cohérence des résultats dans les examens par tests - article ; n°1 ; vol.28, pg 205-235

De
Publié par

L'année psychologique - Année 1927 - Volume 28 - Numéro 1 - Pages 205-235
31 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : samedi 1 janvier 1927
Lecture(s) : 9
Nombre de pages : 32
Voir plus Voir moins

A. Fessard
VII. La Précision et la cohérence des résultats dans les
examens par tests
In: L'année psychologique. 1927 vol. 28. pp. 205-235.
Citer ce document / Cite this document :
Fessard A. VII. La Précision et la cohérence des résultats dans les examens par tests. In: L'année psychologique. 1927 vol. 28.
pp. 205-235.
doi : 10.3406/psy.1927.6413
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1927_num_28_1_6413Vil
LA PRÉCISION ET LA COHÉRENCE DES RÉSULTATS
DANS LES BXAMENS PAR TESTS
Par A. Fessard
Tout ce qui est essentiel pour déterminer la précision des
mesures psychométriques a été dit depuis longtemps, et no
tamment dans les travaux des statisticiens de l'école anglaise.
Mais, comme on devait s'y attendre, l'emploi des mathémat
iques dans ce domaine ne s'est pas généralisé aussi vite que celui
des tests eux-mêmes : et, ainsi qu'une machine privée de ses
appareils de contrôle, ceux-ci se sont parfois montrés de
médiocres instruments de travail.
Depuis plusieurs années déjà, pourtant, de sérieux progrès
ont été réalisés dans la voie des applications ; il était naturel
de les trouver surtout au pays des vastes enquêtes psychomét
riques, chez les pédologues américains, qui ont si remarqua
blement développé l'œuvre d'Alfred Binet. Grâce à eux, on
sait à peu près à quoi s'en tenir sur la précision atteinte dans
les échelles d'intelligence, et dans un grand nombre de tests
de capacité scolaire et d'aptitude. Cependant, dans le détail,
il s'en faut que les différents auteurs soient d'accord sur tous
les points. Dans ces dernières années des discussions se sont
élevées sur les moyens mêmes d'évaluer la précision et de
l'améliorer. Les formules sont nombreuses, et la validité de
certaines d'entre elles, ou tout au moins de leur champ d'appli
cation, a été l'objet de plusieurs investigations. Il y a un
évident souci de ne pas employer ces formules à l'aveugle,
un désir de clarté et d'unification des méthodes et des nota
tions, que nous avons vu se manifester par exemple aux
dernières Conférences de Psychologie Appliquée (Paris 1927). 20è MÉMOIRES ORIGINAUX
Malgré ces efforts il faut reconnaître qu'actuellement encore
cette diversité, plus apparente que réelle, des formules propos
ées, ces divergences d'opinion sur des points de détail, sont
plutôt de nature à dérouter qu'à instruire celui qui ne peut se
consacrer à une étude approfondie de la question. C'est pour
quoi nous nous proposons d'en présenter une mise au point,
schématique, à l'usage surtout de ceux qui, comme en France,
sont moins favorisés que leurs collègues américains en ce qui
concerne leurs possibilités de documentation immédiate. Notre
but ne sera pas uniquement de rappeler des formules qui se
trouvent dans les livres, ni de les démontrer d'une manière
irréprochable. Nous voulons aussi donner une idée des
conceptions initiales sur lesquelles on s'est appuyé jusqu'ici
pour évaluer la précision des examens psychologiques. Tous ceux
qui pratiquent ces examens devraient posséder une notion
claire de ces hypothèses fondamentales et des limitations
qu'elles imposent, afin de ne pas s'exposer à commettre des
erreurs grossières, ou au contraire de ne pas avoir à se priver,
par excès de prudence, d'un renseignement très utile — pour
ne pas dire indispensable. —
II n'est pas exagéré en effet de dire que la question de la préci
sion des résultats est vitale pour la méthode des tests, comme
pour toute méthode expérimentale. Elle n'a pourtant pas été
mise tout d'abord au premier plan. On s'est plutôt demandé,
comme ne manquent jamais de le faire les profanes Que mesure-
t-on au moyen des tests ?, comme si l'important n'était pas
avant tout la constatation précise de certains phénomènes
stables, capables, par leur stabilité même, d'imposer un rema
niement des anciennes catégories.
L'application des tests procure des matériaux au théori
cien (pensons par exemple aux théories de Spearman) mais
s'effectue le plus souvent dans un but pratique. La valeur de la
théorie, comme le succès pratique, dépendent au premier
chef de la précision des résultats. Et il est intéressant de remar
quer que c'est principalement dans le second cas, dans le do
maine des applications, que l'étude de la précision, des moyens
de la mesurer et de l'améliorer, a fini par s'imposer définitiv
ement (La plupart des articles que nous signalerons pro
viennent de The Journal of Educational Psychology). FESSARD. LA PRECISION ET LA COHERENCE DES RESULTATS 207 A.
* * *
Définissons nos principaux termes. Tout d'abord établissons
une distinction essentielle. Un test peut être construit en vue
de mesurer une grandeur clairement définissable, mais non ab
solument isolable à l'état pur (la mémoire des chiffres chez un
individu par exemple, ou l'intelligence moyenne de tous les
enfants de 6 ans) ; ou afin de nous permettre une prévision numér
ique d'une mesure ultérieurement possible, comme le rende
ment professionnel d'un ouvrier, ou encore la proportion dans
une classe des écoliers capables de- réussir à l'examen de fin
d'année. Dans un cas comme dans l'autre, qu'on puisse ou non
le vérifier, nous savons bien que l'estimation sera inexacte en
général, et le plus souvent grossièrement approchée. Mais c'est
pour plusieurs raisons, dont la principale est que le test met en
jeu, et d'une manière imparfaitement connue, toutes sortes de
processus étrangers à ceux que nous voulons atteindre. D'autre
part, ce que le test atteint réellement, qu'on l'ait ou non
souhaité, il le mesure avec une certaine approximation, par suite
du nombre restreint des sujets et de la variabilité de chacun
d'eux.
C'est de cette deuxième catégorie d'erreurs que nous nous
occuperons uniquement dans cette étude.
La qualité d'un test d'être capable de bien mesurer la gran
deur qu'on veut étudier et non une autre pourrait être
également considérée comme un aspect de sa précision, étant
donné le sens qui s'attache communément à ce terme. Mais
pour distinguer cette qualité de celle que nous appellerons désor
mais Précision (Précision intrinsèque pourrait-on dire), on lui
donne le nom spécial, maintenant couramment accepté de
Validité.
L'erreur est l'écart entre la valeur trouvée et la valeur
exacte, ou valeur vraie. Nous devons donc d'abord définir celle-
ci. Sans nous préoccuper en ce moment de sa signification psy
chologique propre ni de sa validité, nous dirons que la Valeur
vraie d'une mesure est celle vers laquelle tend la moyenne
d'une série de déterminations indéfiniment répétées dans des
conditions pratiquement identiques l.
1. Elles ne peuvent être absolument identiques ; si elles l'étaient la
mesure serait chaque fois parfaitement précise. Les conditions doivent seu
lement être telles que des variations systématiques soient indiscernables au
cours des répétitions. 208 MEMOIRES ORICINAUX
Ces répétitions peuvent être conçues comme devant porter
sur un nombre croissant de sujets d'une même collectivité, si le
but de l'étude est de déterminer les caractères statistiques de
cette collectivité ; ou bien sur un nombre croissant d'expé
riences identiques entreprises avec le même sujet, dans le cas où
on s'intéresse aux sujets pour eux-mêmes. Nous voyons se dessi
ner là une distinction qui sera maintenue et accentuée par la
suite, car elle est fondamentale.
Une erreur est donc définie par l'écart entre la valeur trouvée
et la valeur vraie (que nous représenterons par x0 et quelquef
ois par xM , pour rappeler sa définition). On ignore cet écart,
sans quoi il serait facile de remonter à la valeur exacte. Dans les
mesures physiques, on cherche seulement à déterminer une
limite supérieure de cette erreur, de telle manière qu'on soit
sûr que la valeur véritable soit comprise à l'intérieur de l'inter
valle ainsi déterminé. (On écrira par exemple pour une longueur :
18 m. 25 ± 0 m. 01). En psychologie on ne peut se donner le
même luxe ; pour englober des erreurs très rares et cependant
possibles, on devrait reculer très loin les limites de l'intervalle
infranchissable, ce qui ne permettrait plus que des différencia
tions grossières. Mais puisque les erreurs sont d'autant moins
à craindre qu'elles sont plus élevées (en valeur absolue), on
peut définir un intervalle dans lequel la vraie se trouve
comprise très probablement ; si l'on consent à risquer dé se
tromper quelquefois, 'on ne perd pas le bénéfice d'une précision
cependant réalisée dans la plupart des cas.
Les indices universellement employés pour nous donner
une idée des erreurs à craindre sur une mesure quelconque
x sont leur écart étalon ou erreur type de la mesure
<sx et X erreur probable e. p^., définie comme égale à 0,6745 <jx
(Kelley 1) 1. Pour être bref, on dit souvent simplement « erreur »
pour désigner ces quantités ; il faut comprendre qu'il ne
s'agit pas d'une erreur isolée, mais d'un indice global. Ce sont
ces indices qui vont nous servir à exprimer la précision — il
vaudrait mieux dire l'imprécision — de nos mesures. Ils nous
renseignent déjà sur l'ordre de grandeur des erreurs possibles.
1. T. L. Kelley, Statistical method., New- York, 1924, p. 98. Primitive
ment, l'erreur probable était celle qu'on risquait de dépasser une fois sur
deux. Kelley propose de réserver cette définition pour le semi-interquartile
de la distribution des erreurs quelle qu'en soit la forme. Les deux valeurs
coïncident lorsque la distribution est normale, ce qu'on est souvent en
droit de supposer a priori. FESSARD. LA PRECISION ET LA COHERENCE DÈS RESULTATS 209 A.
Par analogie avec la notation rappelée plus haut, on écrit sou
vent le résultat d'une mesure psychométrique en la faisant
suivre de ± son erreur probable, mais il est clair que les deux
notations n'ont pas tout à fait la même signification. On admet
couramment, d'autre part, que l'écart de dr 3a est hautement
improbable. Si l'on a des renseignements sur la loi de réparti
tion des erreurs, ces indices et conventions prennent un sens
très précis, comme nous le verrons plus loin. Pour le moment
contentons-nous de ces définitions simples et insistons sur cette
règle que le psychologue, comme le physicien, ne doit inter
préter un ensemble de résultats qu'après en avoir déterminé
la précision.
Il nous faut maintenant calculer le montant des indices
de précision pour chaque grandeur particulière.
Lorsque nous disons « » nous entendons par là toute
quantité que l'on peut tirer des résultats d'un examen par tests.
C'est d'abord la donnée primitive, la note individuelle. Mais
les notes peuvent servir à répartir les sujets en plusieurs caté
gories ou classes, et l'on peut s'intéresser surtout au nombre des
sujets appartenant à ces catégories, c'est-à-dire, aux fréquences
ou aux proportions. Les valeurs individuelles et les
qui sont liées à elles donnent lieu à l'établissement de grandeurs
composites appelées moments de la distribution, dont les
plus employées sont la moyenne arithmétique (M), l'écart
étalon des répartitions (<r) (qu'il faut se garder de confondre
avec l'écart étalon des erreurs, désigné plus haut, bien que, dans
certains raisonnements, il puisse parfois faire figure d'erreur)
et le coefficient de corrélation de Pearson (/•). Enfin, toutes ces
quantités peuvent entrer dans des expressions complexes, dont
nous verrons des exemples plus loin.
Le calcul des indices de précision ne s'effectue évidemment pas
de la même façon dans tous les cas. A l'aide d'un minimum d'hy
pothèses, on détermine l'erreur type de quelques valeurs fonda
mentales ; le reste est affaire d'algèbre et ne comporte aucune
hypothèse supplémentaire. En voici un exemple, et le plus im
portant :
Rappelons que :
= n ' et r.» =
V
Les erreurs types sur 2 valeurs vraies x0 et y0 étant sup
posées connues, soient ax et ay, on peut se proposer de calculer
l'année psychologique, xxviii. 14 210 MÉMOIRES ORIGINAUX
Terreur type commise en appréciant leur somme ou leur dif
férence x0 ± ya à l'aide de la valeur approchée x db y.
D'après les définitions précédentes on a :
=^ [Z(x - x»)* ± 2s(x - x0) (y - y0) + % - y0)']
= «I ± 2/VA + *r • [1] <T(X -j- r)
On peut généraliser la démonstration aux cas où l'on fait
la somme, non de 2, mais de n valeurs. Le deuxième membre se
compose alors de n termes de la forme cr^* et de 1/2 n {n-1)
termes de la forme 2rxy<sx<3y obtenus en prenant les variables 2 à 2
de toutes les manières possibles. Telle est la règle la plus simple
de composition des erreurs. Lorsqu'on a affaire à des com
binaisons plus compliquées, on utilise les règles ordinaires
du calcul des erreurs et une connaissance élémentaire des
procédés de differentiation est nécessaire ; nous renvoyons aux
traités.
Nous avons insisté sur ce théorème simple parce qu'il ex
plique la structure de presque toutes les formules ultérieures,
qui en sont de simples corollaires.
Des considérations théoriques a -priori ne nous permettent
pas de nous faire une idée de la précision d'une valeur isolée.
La solution la plus directe pour y arriver serait de répéter effe
ctivement les mesures un grand nombre de fois et de calculer
la dispersion des résultats. On l'a fait quelquefois pour vérifier
la valeur des formules. Mais, outre que généralement on ne peut
se livrer à un travail aussi considérable, la question est autre :
ayant obtenu un grand nombre de résultats approchés, on ne
manquerait pas de les rassembler dans une moyenne pour obte
nir une meilleure approximation, et c'est toujours la précision
de cette dernière valeur qu'il s'agirait de calculer, car n'ou
blions pas qu'elle ne serait parfaitement connue que pour une
infinité de mesures ! En pratique, un test est généralement
appliqué à un petit nombre d'individus, souvent moins de 100,
chacun d'eux n'étant examiné qu'une ou deux fois dans le test.
Ge sont de maigres ressources et on ne s'étonnera pas des hy- FESSARD. — LA PRECISION ET LA COHERENCE DES RESULTATS 2J4 A.
pothèses, parfois aventureuses, que le statisticien doit faire
pour en tirer des mesures de précision.
Le point de départ est la théorie des épreuves (Theory of
sampling, ou de l'échantillonnage). Considérons, comme on le
fait souvent pour illustrer cette théorie, une urne remplie d'un
nombre énorme de boules indépendantes numérotées de 0 à 20
par exemple et bien mélangées. Extrayons de cette urne un
nombre assez grand (mais très petit devant le nombre
total) de ces boules. Ce prélèvement va nous donner des
renseignements sur la composition totale de l'urne. Sans
doute, si nous recommençons l'épreuve, n'aurons-nous pas les
mêmes proportions de chaque numéro et reconnaîtrons-nous
ainsi que notre premier tirage 31e nous a pas fourni un rense
ignement exact ; mais la théorie permet de prévoir, dès
la première épreuve, une valeur approchée de Terreur
type sur chaque proportion (2). Les écarts présentés par les
tirages successifs s'appellent des fluctuations. Celles-ci sont
supposées se faire autour d'un type moyen constant, qui
représente la vraie composition de l'urne ; autrement çiit, la
composition de l'urne ne doit pas changer à notre insu d'une
expérience à l'autre1.
Appliquons maintenant ce schéma au cas des tests ; ce ne
sera pas sans quelque complication. Quételet disait : « L'urne
que nous interrogeons, c'est la nature ». L'urne que le psycho
logue interroge lorsqu'il applique un test contient l'ensemble
des individus possédant en commun certaines caractéristiques ;
ce sont par exemple tous les enfants mâles d'une certaine race,
ayant de 12 à 13 ans. Le psychologue n'en possède qu'un échant
illon souvent réduit. Si cependant ces individus ont été choisis
au hasard, sans être spécialement sélectionnés pour un carac
tère en corrélation avec les résultats du test, de même que les
boules devaient être indépendantes étant donnée la manière
de les extraire, leur groupe peut être considéré comme un
échantillon bien représentatif de l'ensemble total : tout se
passe comme s'il s'agissait bien d'une extraction de boules hors
d'une urne.
Mais les choses se compliquent quand on arrive au niveau de
l'individu : lui aussi, à son tour, peut être considéré comme une
urne ou comme une collection d'urnes ; lui faire faire un test
d'intelligence, par exemple, c'est extraire de son urne Intelligence
) . Cela correspondrait à une variation systématique. 212 MÉMOIRES ORIGINAUX
un échantillon des nombreux éléments indépendants — quels
qu'ils soient — qui la composent. On sait que certains théori
ciens considèrent même les diverses aptitudes mentales comme
des échantillons d'éléments indépendants extraits d'une seule
urne. C'est ce qu'on appelle la « Sampling Theory of Ability » (3)
à laquelle on peut trouver un support physiologique par le fait
de la discontinuité anatomique des neurones et de la discon
tinuité fonctionnelle qui résulte de la loi du tout ou rien.
Quoi qu'il en soit, les choses ne se présentent pas ici avec la
même netteté qu'à propos des collectivités. Pour celles-ci les
éléments sont clairement distincts et l'assimilation à une urne
va d'elle-même ; les calculs ne forcent pas la réalité en général.
Dans l'urne individuelle au contraire nous n'atteignons que des
résultantes complexes d'éléments inconnus. Jusqu'à plus ample
informé, ceux-ci ne sont que des fictions, imaginées parce
qu'avec un tel schéma le calcul de l'erreur est possible
simplement. Il est donc nécessaire que le test soit arrangé pour
permettre le traitement mathématique ; cela ne va pas sans
hypothèses, qui sont toutes plus ou moins analogues, nous le
verrons, à celle de l'indépendance des boules extraites de
l'urne1.
Dès maintenant nous nous rendons compte qu'une même
valeur peut être envisagée à deux points de vue, suivant qu'on
la considère comme provenant d'un élément de la grande urne ou
résultant de la combinaison des éléments extraits de l'urne indi
viduelle considérée ; comme la source de l'erreur d'échantillon
nage diffère dans les deux cas la précision attachée à la mesure
n'est pas la même suivant le point de vue auquel on se place :
c'est une conclusion évidente, mais qui surprend celui qui n'a
pas réfléchi suffisamment au problème.
Pratiquement, il faut donc distinguer clairement si les mes
ures qu'on effectue ont pour but d'établir les caractères de la
population entière d'où le groupe est extrait, ou si elles doivent
simplement nous renseigner sur les individus (ou sur l'e
nsemble du groupe particulier qu'ils forment). Il arrive d'ailleurs
souvent que les deux points de vue nous intéressent égal
ement : il est de pratique courante de comparer un individu
isolé à la population dont il fait partie, donc de confronter une
mesure de la deuxième catégorie à cet ensemble de mesures
de la première catégorie qui constitue l'étalonnage du test.
1. Les mathématiciens ont étudié des schémas plus compliqués dont
nous ne pouvons pas parler ici. FESSARI). LA PRECISION ET LA COHÉRENCE DES RESULTATS 2i3 À.
L'erreur qu'on s'expose à commettre en étendant à la populat
ion totale les résultats obtenus sur un groupe restreint s'appelle
généralement erreur d'échantillonnage. L'autre est dite erreur
de mesure ou d'observation. En un certain sens toutes deux sont
erreur d'échantillonnage. Pour éviter la confusion, nous dirons de groupe ou d'étalonnage pour la première, et avec
Holzinger (4) erreur de réponse pour la seconde. Qu'on ne croie
pas la distinction entre ces deux catégories #d'erreurs si évi
dente qu'on ne risque pas de jamais se tromper: Spearman
a bien reproché à Pearson lui-même de l'avoir mal compris
à ce sujet (5). Le danger pour le praticien est surtout dans
l'emploi mal à propos de formules d'erreurs qu'il trouve toutes
faites dans les livres, souvent sans indication sur leur nature
exacte.
Nous ne nous occuperons ici que des erreurs accidentelles et
non des erreurs systématiques, tout en ne méconnaissant pas
ce qu'il y a de relatif à la limite dans une telle distinction.
Nous ne parlerons pas non plus des sources d'erreurs plus ba
nales : fautes de calculs, approximations numériques et gra
phiques ; et nous supposerons que la notation du test est par
faitement objective, c'est-à-dire que la note ne dépend pas du
correcteur.
Erreur de groupe
Toutes les quantités (tendance centrale, dispersion, centiles,
proportions, etc.) qui servent à représenter numériquement
l'aspect de la distribution d'une population pour un ca
ractère déterminé sont entachées d'une erreur de groupe,
puisqu'on doit les établir sur un nombre forcément restreint
de sujets. Ici la variabilité de l'individu n'est pas en ques
tion ; peu importe que ce soit tantôt A, tantôt B, qui occupe
telle position dans la répartition des valeurs pourvu que la posi
tion soit occupée, et toujours à peu près de la même manière
par rapport aux positions voisines. Les individus comptent aussi
peu — sinon par leur nombre — lorsque, par le calcul des corré
lations, on cherche à mettre en évidence des lois générales de
dépendance mutuelle entre fonctions mentales. Nous jugeons
seulement la corrélation plus solidement établie lorsque nous
l'avons constatée sur 100 au lieu de 10 sujets, car des concomi
tances nombreuses ont alors moins de chances de s'être pro
duites par hasard.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.