La Notion de Validité - article ; n°1 ; vol.31, pg 217-228

De
Publié par

L'année psychologique - Année 1930 - Volume 31 - Numéro 1 - Pages 217-228
12 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1930
Lecture(s) : 35
Nombre de pages : 13
Voir plus Voir moins

A. Fessahd
H. Piéhon
I. La Notion de Validité
In: L'année psychologique. 1930 vol. 31. pp. 217-228.
Citer ce document / Cite this document :
Fessahd A., Piéhon H. I. La Notion de Validité. In: L'année psychologique. 1930 vol. 31. pp. 217-228.
doi : 10.3406/psy.1930.30008
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1930_num_31_1_30008NOTES ET REVUES
i
LA NOTION DE VALIDITÉ
par A. Fessard et H. Piéron
Les épreuves psychotechniques visent à établir, dans un but ou
dans un autre, un classement hiérarchique d'une série donnée d'indi
vidus. Quelle est la validité du classement obtenu ? C'est là un pro
blème évidemment fondamental.
Normalement, la valeur pratique d'une batterie de tests se juge
en dernier ressort d'après la justesse de ses pronostics, le classement
obtenu devant permettre de prévoir un autre classement ; toutefois,
il faut se rappeler que l'approximation atteinte doit être comparée
à celle que peut donner le hasard. Nous reviendrons, pour y insister
particulièrement, sur les différents aspects que prend, en fonction
des circonstances de la sélection, cette relativité, dont l'importance
évidente se trouve souvent méconnue, ou tout au moins dissimulée.
Depuis quelques années, l'expression de validité est devenue d'un
emploi courant pour désigner exclusivement cette conformité plus
ou moins grande de l'a prédiction à l'objet de prédiction (appelé
brièvement le critérium), disons schématiquement de l'aptitude à la
capacité. Et, pour mesurer simplement cette qualité, on s'est adressé
tout naturellement au coefficient de corrélation (pearsonien) entre
les notes du test et les valeurs correspondantes du critérium, en don
nant à cet indice le nom de coefficient de validité. Ce coefficent a
l'avantage de l'universalité (à condition toutefois d'admettre la
linéarité des régressions) et, en tout cas, de la simplicité. Mais, on
peut se demander s'il porte en lui-même, et sans ambiguïté, tous les
renseignements importants nécessaires, par exemple, pour faire
1. Rapport présenté à la VII8 Conférence internationale de Psychotech
nique (Moscou, 9 septembre 1931). NOTES ET REVUES 218
comprendre clairement à un public non spécialisé la supériorité d'un
examen par tests, ou pour permettre au praticien d'utiliser avec prof
it dans une nouvelle application les procédés éprouvés par d'autres
psychologues.
Or, dire, conformément à la théorie, que le coefficient de validité
exprime la réduction relative du carré de l'écart étalon ne suggère
au profane rien qui soit clairement en rapport avec le succès d'une
application. Une traduction en langage plus concret serait souhai
table, et nous verrons que s'y astreindre conduit en outre à faire des
distinctions en fonction des exigences pratiques, exigences qui
peuvent changer sous l'influence de contingences extérieures, toutes
choses égales d'ailleurs du côté des tests et des sujets examinés.
Bref, à un même coefficient de validité peuvent correspondre des va
leurs pratiques différentes x. Nous montrerons comment on peut
essayer d'évaluer ces dernières, au moins approximativement ; mais,
auparavant un second point retiendra d'abord notre attention.
Les nombreux coefficients de validité, publiés dans l'abondante
littérature consacrée à la Psychologie Appliquée, doivent surtout
permettre au Psychotechnicien qui tente une application nouvelle de
faire un choix parmi les tests possibles déjà utilisés, et de profiter
ainsi des efforts antérieurs. Cette utilisation de l'expérience du passé
est la condition même du progrès. Mais, la seule considération des
coefficients de validité antérieurement établis nous donne-t-elle
une assurance définitive, et suffit-elle comme base à de nouveaux
efforts ? Il est permis d'en douter si l'on se reporte aux cas où plu
sieurs auteurs ont — du moins apparemment — étudié les mêmes
problèmes. C'est ainsi que, dans la prédiction de l'Aptitude mécan
ique, les auteurs d'un ouvrage récent sur ce sujet ? attribuent au
Stenquist Assembly test, une validité de 0,26, alors que Stenquist
donne un coefficient de 0,77, et que le coefficient trouvé en moyenne
par d'autres auteurs est d'environ 0,40 ! Une étude critique des tests
de Seashore 3 nous a révélé des divergences semblables, quoique
peut-être un peu moins grandes, la validité passant, suivant l'auteur,
de 0,81 à 0,54 pour la prédiction des capacités d'exécution musicale ;
de 0,46 à 0,60 (test de hauteur) pour le choix des meilleurs en sol
fège, etc.
Il n'y a pas à s'étonner outre mesure de ces différences, et, à exa-
1. Garrett (Statistics, in Ptycholo gy and Education, 1926), considère qu'un
coefficient inférieur à 0,20 représente une relation négligeable, supérieur à
0,70 une relation élevée. En réalité, le coefficient envisagé isolément ne peut
être réellement interprété de façon satisfaisante. Un coefficient faible
prendre une signification importante, un coefficient élevé peut être le fait
du hasard. Et l'utilisation pratique pose des problèmes que ne résout pas
l'affirmation de l'existence d'une relation « notable » ou « élevée ».
2. D.-G. P.A.TERSON et R.-M. Elliott, Minnesota Mechanical Ability Tests,
Un. of Minnesota Press, Minneapolis, 1930, p. 58§.
3. A.-B. et A. Fessard, L'aptitude musicale et les tpstjä de Seashpre,
Bull. inst. nat. or. prof., III, 1931, p. 29-41. FESSARD ET H. PIERON. LA NOTION DE VALIDITE 219 A.
miner avec soin la méthode suivie par chaque auteur, il est rare
qu'on n'arrive pas à en deviner les causes. Mais, elles surprennent de
prime abord, troublent le technicien et montrent la nécessité d'une
détermination plus rigoureuse des facteurs de perturbation. Ceux-ci,
ou tout au moins les principaux, commencent à être bien connus des
théoriciens de la Psychologie Appliquée, qui les ont dépistés et
décrits dans maints ouvrages excellents l.
Parmi ces facteurs, l'un d'eux, celui-là même contre lequel la
méthode des tests a été créée, ne se trouve généralement plus en
cause aujourd'hui. Il s'agit de la fantaisie et de l'arbitraire qui pré
sidaient autrefois aux examens d'aptitude ; les efforts pour fixer avec
rigueur le contenu des questionnaires, les conditions d'expérimentat
ion, l'objectivité des notations, en ont réellement triomphé dans la
plupart des cas.
En revanche, on s'est d'abord beaucoup moins intéressé au second
terme de la comparaison, c'est-à-dire au critérium de ce qu'on veut
finalement prévoir. La plupart des grosses divergences entre les coeffi
cients de validité provenant de divers auteurs viennent de ce que
ceux-ci n'ont pas toujours usé — malgré des dénominations identiques
— de critères absolument équivalents. Or, des variations apparem
ment petites dans le mode d'appréciation conduisent souvent à des
résultats bien différents. La leçon de l'expérience dans ce domaine
comme dans beaucoup d'autres, a été qu'il ne suffisait pas de créer
un nom, comme Intelligence mécanique, ou Aptitude musicale,
pour délimiter du même coup une portion unifiée du comportement
humain.
D'autre part, si, dans un métier déterminé, le critère de la supér
iorité peut souvent s'évaluer avec précision (objectivement si poss
ible, par échelles d'appréciations subjectives dans le cas contraire),
il semble bien qu'on ne se soit pas encore universellement entendu
sur la forme type à donner à ces évaluations, au moins en ce qui con
cerne les professions les plus importantes et les mieux définies. Ce
n'est donc pas sans raison que plusieurs psychologues modernes
réclament que de nouveaux efforts soient tentés dans le sens de la
fixation des critères, afin que l'on puisse compter plus sûrement sur
les coefficients de validité annoncés, et que l'utilisation d'anciens
tests soit possible sans trop de surprises.
Il ne suffit pas cependant que soit fixé une fois pour toutes le
contenu des tests employés (et la nature du ou des critères qui leur
seront comparés) pour que se trouve réalisée à coup sûr la validité
escomptée. Les efforts poursuivis en vue d'une définition rigoureuse
du contenu des épreuves ont, semble-t-il, détourné l'attention d'une
semblable nécessité de détermination en ce qui concerne les groupes
humains auxquels s'adressent les tests adoptés. Or la valeur d'un
coefficient de corrélation est fonction de la nature du groupe comme
elle l'est de la nature du test : nouvelle raison pour que deux auteurs
ne soient pas toujours d'accord. D'une race à l'autre, d'un milieu à
l'autre, on doit s'attendre à des différences systématiques dans la
1. Par exemple : T.-L. Kelley, Statistical Method, Me Millan C°, N.-Y.,
1924 ; C.-L. Huit, Attitude Testing, World Book C°, N.-Y., etc. NOTES ET REVUES 220
composition des groupes et dans les tendances centrales. De plus,
les dispersions peuvent énormément varier, et ce facteur a une
grosse répercussion sur la valeur d'un coefficient de validité. C'est
ce qu'on peut appeler 1' « erreur de sélection ». Un test primitivement
appliqué à une population hétérogène ne peut pas avoir le même
succès lorsqu'on l'utilise dans un milieu déjà sélectionné, par exemple,
lorsqu'on s'adresse aux élèves d'une école professionnelle au lieu d'in
terroger des individus quelconques. La corrélation tend à diminuer
lorsque la dispersion se rétrécit. Ce phénomène, pourtant évident et
maintes fois signalé, ne paraît pas toujours inquiéter suffisamment
ceux qui utilisent les tests, et explique bien des divergences. A défaut
de déterminations plus directes, on aura recours, pour apprécier
ia validité, lorsque la dispersion est <r2 au lieu de <s1} à la formule
bien connue
ff ./<[ j.2 __ a<) ^/| ^.2
Rappelons enfin brièvement que la validité d'un test — qualité
externe, pour employer ce terme de dans son sens habituel,
c'est-à-dire restreint — est sous la dépendance étroite de certaines
qualités internes, d'un certain degré de validité intrinsèque, pourrait-
on dire, sans lequel il est vain d'espérer atteindre, sinon par hasard,
un bon coefficient de validité. Il s'agit d'abord de la forme des distr
ibutions, telle qu'elle apparaît au moment de l'étalonnage dans la
courbe de fréquence, révélant l'équilibre du test vis-à-vis des indivi
dus du groupe examiné, et son pouvoir de discrimination aux diffé
rents niveaux d'aptitude. En général, une forme rappelant la courbe
en cloche doit être considérée comme supérieure à toute autre. Un
nombre assez grand de questions analogues pour chaque tâche envi
sagée, une gradation continue de leur difficulté, avec une marge
assez grande pour permettre aux sujets extrêmes de se différencier,
sont les meilleures conditions à côté de l'homogénéité du groupe, pour
obtenir une répartition satisfaisante.
Ce sont aussi les meilleurs garants d'une bonne cohérence, qualité
qui doit être ensuite examinée, comme celle-ci est, à son tour, un
des plus sûrs moyens d'arriver à une validité externe convenable.
Il importe en effet de voir d'abord si le diagnostic est suffisamment
précis, c'est-à-dire relativement invariable, avant de se demander
s'il a quelque rapport avec l'objet du pronostic. Et pareille précau
tion doit être prise également avec le critérium, bien que l'opération
soit souvent plus délicate qu'avec le test. Elle est pourtant essentielle :
faire une comparaison entre deux termes dont l'un, le test, est bien
déterminé et de cohérence élevée, et dontl'autre, le critérium, s'appréc
ie avec une erreur à craindre énorme et le plus souvent inconnue,
est une pure absurdité. La nature des phénomènes, l'unilatéralité
des efforts, qui se sont portés surtout du côté des tests, nous mettent
parfois dans cette situation ridicule d'avoir créé un instrument rel
ativement précis pour mesurer on ne sait trop quoi !
Spearman a montré par sa formule d'atténuation :
Vrn X \Jr«i FESSAhO ET H. PIÉRON. LA NOTION DE VALIDITE 221 A.
que la corrélation idéale entre valeurs vraies, tendait à être sous-esti-
mée par la brute du fait même de l'incohérence des deux
mesures. Comme elle ne peut, sinon par fluctuation, dépasser l'unité,
la moyenne géométrique des coefficients de cohérence (dénominateur)
nous fournit donc une limite supérieure, qu'il ne faut pas espérer
dépasser, du coefficient de validité.
La formule d'atténuation n'a qu'un intérêt théorique, puisque
pratiquement, on est bien obligé de travailler avec les valeurs brutes
provenant du test et du critérium. Mais, il peut être parfois intéres
sant de considérer la validité semi-atténuée par rapport à ce cr
itérium, car ce qui nous intéresse généralement, c'est plutôt la corré
lation entre les notes brutes qui sont en notre possession et les valeurs
vraies idéales, du critérium, dont nous ne possédons qu'une mesure
imparfaite. On a ainsi une meilleure notion de la validité réelle du
test, bien que, du côté de la prédictivité effective par l'équation de
régression, rien naturellement ne puisse en pratique individuellement
être amélioré par ce moyen.
Des variations dans les coefficients de cohérence — et suivant les
auteurs ils diffèrent souvent beaucoup x — peuvent donc à elles seules
expliquer qu'un coefficient de validité ne conserve pas, entre les mains
de divers techniciens, des valeurs comparables.
La question qui domine, lorsqu'on a calculé les divers coefficients
de validité relatifs à chaque test composant une batterie est de choisir
les épreuves définitives et ensuite de les combiner au mieux pour
obtenir le maximum de prédictivité.
Du côté de la sélection des épreuves, la tendance moderne est d'en
conserver finalement assez peu (moins d'une dizaine) et de choisir
évidemment entre celles qui offrent à la fois les meilleures validités et
l'indépendance la plus grande vis-à-vis les unes des autres. Cette
dernière condition n'a pas toujours été l'objet d'un examen spécial
dans les anciens travaux. 11 y a pourtant 17 ans que Pearson en signal
ait l'importance dans une note 2 extrêmement claire, montrant qu'on
n'accroît pas indéfiniment la précision d'une prévision en augmentant
le nombre des tests : les intercorrélations inévitables entre ceux-ci
imposent à la validité résultante une limite d'autant plus basse que
les dépendances réciproques sont plus étroites.
En ce qui concerne la combinaison des. épreuves, les statisticiens
nous ont dotés d'une méthode impeccable conduisant automatique
ment à l'équation la plus favorable (équation de régression) et au
coefficient de corrélation multiple qui exprime la Validité finale ;
mais, la complexité et la longueur des calculs font malheureusement
trop souvent reculer le praticien. Il est bon que celui-ci n'ignore pas
que de récents progrès ont été introduits dans la technique des cal-
1. Par suite du soin différent apporté aux expériences, de la dispersion des
groupes, de la façon même de mesurer cette cohérence. Voir à ce propos l'ar
ticle de Syrkin, IVe Con], de Psychotechnique, Paris, 1927.
2. K. Pearson, On certain errors with regard to Multiple Correlation
occasionally made by those who have not adequatly studied this subject.
(Biometrika, X, 1914, p. 181-185.) 222 NOTES ET BETUËS
culs *, permettant de les exécuter avec une notable économie de
temps et d'efforts.
Jusqu'ici, nous avons rappelé les différentes étapes de la construc
tion d'une batterie de tests et montré qu'un tel ensemble d'épreuves,
pour être valide, doit posséder un certain nombre de qualités hiérar
chisées qui se commandent les unes les autres. La fixation du contenu
dés tests, qui fut a peu près seule considérée autrefois, représente seul
ement une petite partie du problème, et il faut envisager avec un soin
égal tous ses autres aspects. La qualité de validité extérieure est un
terme final, et nous avons voulu montrer qu'elle ne saurait se com
prendre, s'apprécier, et se retrouver d'une application à l'autre,
qu'en tenant compté de tous ces échelons intermédiaires.
Aboutissement d'un grand nombre de conditions qu'il ne dispense
pas d'examiner en détail dans chaque cas, le coefficient de validité
peut être envisagé, d'autre part, comme le point de départ d'interpré
tations diverses, qui traduisent de façon plus claire, plan directe et
plus souple la valeur pratique de la méthode.
Nous considérons ici seulement les interprétations fondées sur le
calcul approximatif des erreurs de pronostic, puisque telle est bien
l'indication qui, en matière d'application, nous intéresse le plus. La
possibilité de faire les meilleures prédictions possibles ne doit pas, en
effet, nous dissimuler l'importance des erreurs dont ces predictions
vont toujours se trouver entachées. Or, c'est ici qu'apparaît une nou
velle indétermination qui montre bien qu'un coefficient de validité
est insuffisant à lui seul pour nous faire connaître ce renseignement
fondamental. En effet, qu'est-ce que se tromper ? Sur le terrain des
réalisations, il y a mille manières de l'entendre, et, par conséquent,
suivant le degré de nos exigences, un même coefficient n'aura pas
toujours la même importance.
Nous pouvons déjà sur ce point établir quelques distinctions :
1° Ou bien, nous nous intéressons surtout à l'erreur à craindre sur
la valeur numérique des notes escomptées, et nous désirons un in
dice de cette erreur.
2° Ou bien, nous nous intéressons plutôt au nombre d'individus
qui risquent, à chaque niveau, d'être mal cotés (par défaut ou par
excès).
3° Enfin, le but final d'un examen par tests étant généralement
d'introduire une coupure définitive dans le groupe testé, la question
se pose de déterminer approximativement la proportion des élimi
nations ou des admissions malheureuses.
1. Kelley et Salisbury, Iteration Method for determining multiple cor
relation constants. (Am. Stat. Assoc, XXI, 1926, p. 282-292.)
Tolley et Ezechiel, The Doolittle Method lor solving Multiple Correla
tion Equations. (Am. Stat. Ass., XXI1, 1927, p.. 497-500.) A. FESSARD ET H. PIERON. LA NOTION DE VALIDITE
* * *
En ce qui concerne le premier cas, la traduction est immédiate.
Le pronostic commun attribué aux individus qui ont répondu de la
même manière dans le test se montrera diversement erroné, suivant
des écarts individuellement imprévisibles. Mais la dispersion de ces
erreurs est moyennement connaissable ; il suffit pour la déterminer de
multiplier la dispersion totale du groupe par l'expression
K = v/1 - r\
désignée parfois sous le nom de « coefficient d'aliénation » (Kelley).
Pour Hull1, (I — k) est l'indice adéquat du pouvoir prédictif
(forecasting efficiency), k indique en somme le taux de réduction de
l'erreur moyenne (quadratique) de pronostic, si, comme il se doit,
on compare l'erreur résiduelle à celle que l'on commettrait en laissant
jouer le hasard. Il est bon de remarquer (fig. 2, courbe en pointillé)
à quel point on se tromperait, en attribuant au coefficient de corréla
tion un pouvoir de représentation exactement linéaire de la valeur
prédictive envisagée de cette manière ; il faut, en effet, arriver jus
qu'à r = 0,866 pour réduire de moitié l'erreur à craindre sur le pro
nostic.
2° La question de la traduction d'un coefficient de corrélation eh
termes de probabilités, c'est-à-dire de proportions d'individus
dont il faut craindre de s'être trompé a été posée par M. Claparèdë
à la Conférence de Psychotechnique de Paris (1927). Elle séduit le
psychotechnicien habitué à penser en hommes plutôt qu'en valeurs
numériques. Elle est facile à résoudre, à condition de faire une hypot
hèse sur la forme des répartitions. Comme on désire seulement un
ordre de grandeur, on peut se contenter de faire le calcul pour des
répartitions normales. ,
D. Fryer et L. H. Lanier ont publié 2 un tableau de correspondance
entre les valeurs de la corrélation et le pourcentage des pronostics
faux (ou vrais), et cet indice répond exactement à notre 2e cas. Ceci
n'est clair, cependant, qu'à la condition de dire ce qu'on entend par
pronostics faux. Une marge de tolérance, à l'intérieur de laquelle on
comptera pour rien les erreurs, doit être fixée d'avance, et il est bien
évident que les pourcentages en question dépendront de l'amplitude
de cette marge. Dans l'article signalé, cet intervalle a été uniformé
ment choisi égal à l'écart probäle. En l'absence de tests, il lui corre
spond 50 % (25 % de chaque côté de la moyenne) d'évaluations
fausses.
L'application d'un test de validité non nulle diminue cette proport
ion dans une certaine mesure (fig. 1). Bien entendu, la marge de tolé
rance est supposée escorter chaque fois la valeur prédite quel qu'en
soit le niveau. Par suite du rétrécissement des distributions, qui est
1. G.-L. Hull, op. cit.
2. D. Fryer et L.-H. Lanier, Prediction in terms of chances in 100 from
the correlation coefficient. (Industrial Psychology May, 1927.) 224 NOTES ET KEVUES
la conséquence même de l'existence d'une corrélation, le même inter
valle de tolérance se trouve ainsi éliminer, dans chaque distribution
partielle, moins d'individus que dans la distribution totale. ggj
Insistons spécialement sur le fait que, pour acquérir sa véritable
signification pratique, la proportion de pronostics faux devra être
comparée à celle qui correspond à une sélection laissée au hasard,
c'est-à-dire à la corrélation nulle. Dans ce cas seulement, nous pour-
Fig. 1. — Pourcentages des pronostics faux restants Jorsqu'on se trompe
primitivement dans une proportion de 10 %, 20 %, etc. (les pronostics
faux extrêmes étant symétriquement distribués par rapport à la moyenne).
rons vraiment juger du bénéfice. A ce propos, il ne faut pas oublier
que les deux termes de la comparaison se trouvent modifiés en même
temps, lorsque la marge change de valeur. Lorsque nous nous mont
rons plus ou moins difficiles, pour des raisons extra-psychotechniques
(facilité du recrutement en main-d'œuvre, exigences concernant. le
travail, etc.), la fréquence des pronostics faux change, devenant
évidemment plus grande lorsque la précision imposée augmente. FESSARD ET H. PIERON. — LA NOTION DE VALIDITE 225 A.
Suivant quelle loi, c'est ce qui ressort des courbes de la figure 1, qu'il
nous a paru intéressant de calculer, selon le principe exposé préc
édemment, non seulement pour l'erreur probable, mais aussi pour
toute une série d'intervalles de sévérité croissante, définis par les
pourcentages 10, 20... jusqu'à 90 qui représentent les proportions
d'individus extrêmes considérés, conventionnellement et en bloc,
K 1
10
Fig. 2. — Pourcentages de désaccord pour des coupures aux différents déciles :
I à V représentent les coupures du 1er au 5e décile (et, en sens inverse, du
5e au 9e). En pointillé : K, pouvoir de réduction de l'erreur du pronostic
(coefficient d'aliénation).
comme mal cotés (surestimés ou sous-estimés) dans la distribution
totale primitive lorsque le test n'a pas encore joué.
3° La dernière façon d'exprimer l'imperfection de nos pronostics
est extrêmement grossière, puisqu'elle néglige les nuances révélées
par le test pour ne considérer que deux catégories tranchées, les
l'année psychologique, xxxi. 15

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.