Sur certains problèmes soulevés par l'utilisation des tests psychologiques - article ; n°2 ; vol.82, pg 439-455

De
Publié par

L'année psychologique - Année 1982 - Volume 82 - Numéro 2 - Pages 439-455
Résumé
Un numéro de l'American Psychologist paru en octobre 1981 fournit l'occasion d'un examen d'un certain nombre de problèmes soulevés par l'utilisalion de tests psychologiques. Le fait que la contestation à laquelle on assiste porte souvent sur les tests en tant qu'instruments de mesure alors que son véritable objet est constitué par certains problèmes sociaux que l'utilisation des tests met en lumière est souligné. La prise de conscience de cette « erreur » quant à l'objet de la contestation parait encore insuffisante pour que puissent cesser les malentendus qui obscurcissent actuellement les débats.
Mots clefs : tests psychologiques, psychométrie.
Summary : On problems raised by the use of psychological tests.
A special issue of the American Psychologist published in october 1981 gives an opportunity to examine some of the problems raised by the use of psychological tests. The fact that the contestation which is observed often bears on tests as measurement instruments, whereas its true object is to be found in some social problems which the use of tests bring to light, is stressed. The awareness concerning this « error » about the object of contestation does not seem sufficient, for the time being, to overcome misunderstandings which tend to confuse the debate.
Key-words : psychological tests, psychological measurement.
17 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : vendredi 1 janvier 1982
Lecture(s) : 11
Nombre de pages : 18
Voir plus Voir moins

F. Bacher
Sur certains problèmes soulevés par l'utilisation des tests
psychologiques
In: L'année psychologique. 1982 vol. 82, n°2. pp. 439-455.
Résumé
Un numéro de l'American Psychologist paru en octobre 1981 fournit l'occasion d'un examen d'un certain nombre de problèmes
soulevés par l'utilisalion de tests psychologiques. Le fait que la contestation à laquelle on assiste porte souvent sur les tests en
tant qu'instruments de mesure alors que son véritable objet est constitué par certains problèmes sociaux que l'utilisation des
tests met en lumière est souligné. La prise de conscience de cette « erreur » quant à l'objet de la contestation parait encore
insuffisante pour que puissent cesser les malentendus qui obscurcissent actuellement les débats.
Mots clefs : tests psychologiques, psychométrie.
Abstract
Summary : On problems raised by the use of psychological tests.
A special issue of the American Psychologist published in october 1981 gives an opportunity to examine some of the problems
raised by the use of psychological tests. The fact that the contestation which is observed often bears on tests as measurement
instruments, whereas its true object is to be found in some social problems which the use of tests bring to light, is stressed. The
awareness concerning this « error » about the object of contestation does not seem sufficient, for the time being, to overcome
misunderstandings which tend to confuse the debate.
Key-words : psychological tests, psychological measurement.
Citer ce document / Cite this document :
Bacher F. Sur certains problèmes soulevés par l'utilisation des tests psychologiques. In: L'année psychologique. 1982 vol. 82,
n°2. pp. 439-455.
doi : 10.3406/psy.1982.28429
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1982_num_82_2_28429L'Année Psychologique, 1982, 82, 439-455
NOTES THÉORIQUES
Laboratoire de Psychologie différentielle
Ecole Pratique des Hautes Etudes (3e section),
Université Paris V
et Conservatoire national des Arts et Métiers1
SUR CERTAINS PROBLÈMES SOULEVÉS
PAR L'UTILISATION
DES TESTS PSYCHOLOGIQUES
par Françoise Bacher
SUMMARY : On problems raised by the use of psychological tests.
A special issue of the American Psychologist published in October 1981
gives an opportunity to examine some of the problems raised by the use of
psychological tests. The fact that the contestation which is observed often
bears on tests as measurement instruments, whereas its true object is to be
found in some social problems which the use of tests bring to light, is
stressed. The awareness concerning this « error » about the object of contes
tation does not seem sufficient, for the time being, to overcome misunders
tandings which tend to confuse the debate.
Key-words : psychological tests, psychological measurement.
Cette note a pour objet l'analyse d'un certain nombre de
problèmes soulevés par l'utilisation des tests psychologiques, tels
qu'ils ressortent d'un numéro de Y American Psychologist d'oc
tobre 1981, introduit par Glaser et Bond, consacré à ce sujet.
Elle ne se limitera pas pour autant à un compte rendu de ce
numéro. D'une part, il y est fait allusion à un certain nombre de
1. 41, rue Gay-Lus9ac, 75005 Paris. 440 Françoise Bacher
développements et de résultats en matière de tests que la consul
tation d'autres articles permet de préciser. D'autre part, les pro
blèmes qui se posent aux Etats-Unis, dans un contexte social
différent du nôtre, incitent à une réflexion plus générale sur les
raisons d'une méfiance à l'égard de l'emploi des tests que l'on
observe également dans notre pays.
La méthode des tests fait l'objet de très nombreux travaux à la
publication desquels plusieurs revues sont entièrement consacrées
(Journal of Educational Measurement, Applied Psychological Meas
urement, etc.). On observe une évolution constante des concep
tions en matière de tests, évolution qui n'est pas toujours perçue,
même de psychologues travaillant dans d'autres secteurs de la
psychologie.
Les développements considérables auxquels donne lieu cette
méthode ne seront pas présentés : construction de nouvelles
formes de tests, recours à des modèles mathématiques pour rendre
compte des caractères métriques des tests ; je pourrai cependant
être amenée à faire allusion à certains de ces développements
dans la mesure où les problèmes sociaux que j'aborderai soulèvent
des questions méthodologiques. On trouvera d'ailleurs dans
V American Psychologist un bref rappel des aspects classiques de
cette méthode (Green, 1981).
Les problèmes posés par l'utilisation des tests sont actuell
ement, eux aussi, à l'ordre du jour et, outre V American Psychol
ogist, plusieurs revues y ont consacré récemment des numéros
spéciaux : on trouve, dans The Behavioral and Brain Sciences
de 1980, des analyses et critiques faites par un grand nombre de
psychologues d'un ouvrage de Jensen (1980), consacré au pro
blèmes des biais dans les tests mentaux, problème central dans
les controverses actuelles ; la Revue Internationale de Psychologie
Appliquée vient également de faire paraître un numéro (jan
vier 1982) sur les tests en Europe de l'Ouest et aux Etats-Unis,
dans lequel sont évoqués ces problèmes.
Avant de les aborder, il est nécessaire d'indiquer brièvement
dans quel contexte social se situe l'utilisation des tests aux Etats-
Unis. Rappelons, tout d'abord, que les tests standardisés d'intel
ligence et de connaissances jouent un rôle beaucoup plus impor
tant dans ce pays qu'en Europe, car ils y remplacent souvent nos
examens et concours.
Il existe des organismes spécialisés dans la construction et
l'application de tests (comme l'Educational Testing Service, la L'utilisation des lests psychologiques 441
Psychological Corporation, etc.) qui opèrent pour des clients
publics ou privés (College Board, systèmes scolaires locaux,
municipalités, entreprises). Des millions de personnes passent des
tests chaque année. Des décisions telles que l'admission dans
un établissement d'enseignement supérieur, la délivrance d'un
diplôme de fin d'études secondaires, l'affectation à un programme
d'éducation spécialisée, le recrutement pour de nombreux emplois,
la reconnaissance d'une qualification professionnelle se fondent,
au moins en partie, sur les résultats à certains tests.
D'autre part, il existe aux Etats-Unis des minorités ethniques
importantes qui se sont peu à peu organisées et qui, au vu de
certains résultats, ont commencé à contester les procédures utili
sées. Des problèmes de même type se sont posés, à un moindre
degré, pour les femmes et pour des groupes sociaux inégalement
favorisés.
Le caractère défini, explicite, des résultats obtenus à l'aide
de tests a fait apparaître sous une lumière crue des différences
entre groupes que des procédures moins explicites auraient sans
doute occultées plus longtemps.
Depuis une dizaine d'années, des procès se sont multipliés
dans lesquels des groupes minoritaires ou des personnes appar
tenant à de tels ont attaqué les procédures mises en
œuvre par une personne ou un organisme et plus précisément,
dans ces procédures, les tests utilisés. Il y a là une source de
confusion sur laquelle nous reviendrons, car c'est souvent le test
en tant qu'instrument qui est attaqué alors qu'en fait c'est
l'usage qui en est fait à l'intérieur d'une procédure et la procédure
elle-même qui sont contestés.
On trouvera dans un article de Bersoff (1981), le compte rendu
des plus marquants de ces procès. La base juridique de la contes
tation est le titre VII de la loi sur les droits civiques (Civil
Bights Act) de 1964 qui garantit les droits des minorités à la
non-discrimination.
Plusieurs organismes fédéraux, chargés de veiller au respect
de cette loi (Equal Employment Opportunity Commission, Civil
Service Commission, Department of Labor and Department of
Justice) ont proposé des Directives fédérales (Federal Guidel
ines, devenues en 1978 les Uniform Guidelines) indiquant aux
utilisateurs de tests les règles à respecter pour se conformer à la
loi (voir, en particulier, Novick, 1981). Ces directives, établies
après consultation de psychologues et des recommandations de
AP 16 Françoise Bacher 442
■l' American Psychological Association, tiennent compte, dans une
assez large mesure, de leurs avis mais laissent subsister des zones
de flou ou posent des exigences si difficiles à satisfaire que de
nouveaux; procès s'engagent. Dans quelques cas, c'est la Cour
suprême qui a statué, lorsqu'elle considérait qu'un problème de
constitutionnalité était soulevé.
Les arguments étant souvent de nature méthodologique, des
organismes fédéraux, des avocats se sont spécialisés dans ces
problèmes et ont acquis une compétence psychométrique élevée.
Une jurisprudence se constitue peu à peu mais, sur beaucoup
de points, les usages ne sont pas encore fixés.
Les problèmes soulevés par l'emploi des tests sont nombreux,
et liés aux divers types d'utilisation. Nous nous centrerons sur
ceux qui ont le plus suscité la contestation, à savoir ceux dans
lesquels il est fait appel à des tests d'intelligence générale, d'apti
tudes intellectuelles2 ou de connaissances pour prendre des déci
sions ayant une portée sociale.
Un de ces problèmes est lié à l'utilisation de tests à choix
multiple pour l'entrée dans les établissements d'enseignement
supérieur. On trouve dans les articles de Hargadon (1981) et de
Resnick et Resnick (1982) les précisions suivantes. L'enseign
ement supérieur aux Etats-Unis est beaucoup plus diversifié qu'en
France. Il existe de très nombreux établissements publics et
privés, de niveau très variable, qui, chacun, décide de procé
dures d'admission. Environ la moitié de ces établissements
exigent des candidats qu'ils joignent à leur dossier d'admission
les résultats qu'ils ont obtenus dans des tests spécialement
conçus pour l'entrée dans l'enseignement supérieur (Scholastic
Aptitude Test, par exemple). L'usage qui est effectivement fait
des tests dans les procédures d'admission est très variable mais,
assez souvent, ils jouent un rôle important à côté du dossier
scolaire. Bien qu'au total la plupart des jeunes qui le souhaitent
puissent trouver une place dans un établissement d'enseignement
supérieur, les résultats aux tests peuvent être déterminants pour
l'accès à certains des établissements les plus cotés3.
Or les tests à choix multiple se prêtent particulièrement au
2. Le terme aptitude que nous utilisons pour traduire le terme ability
est pris ici dans son sens factoriel, sans référence à l'origine des différences
individuelles.
3. La compétition est également beaucoup plus serrée pour l'accès aux
études avancées (graduate studies). L'utilisation des tests psychologiques 443
bachotage (coaching), qui est organisé systématiquement par cer
tains établissements secondaires, privés ou même publics, afin
d'améliorer les chances de leurs élèves. Pour apprécier les effets de
cette pratique, il y a lieu de définir ce terme de façon plus précise.
C'est ce que fait Anastasi (1981) qui distingue trois niveaux dans
l'entraînement qui peut être donné à des sujets devant passer des
tests. Une familiarisation avec les tests qui peut être courte, de
nombreux travaux l'ont montré, est utilisée pour réduire le
handicap dont peuvent souffrir certains sujets qui n'ont pas eu
beaucoup l'occasion d'en passer. Le College Board, par exemple,
distribue systématiquement aux futurs candidats un livret pré
sentant les différents types de question du sat (Scolasiic Aptitude
Test) afin d'assurer cette familiarisation. Elle permet d'améliorer
la valeur prédictive du test en éliminant une source de variation
non pertinente entre les sujets. Le bachotage proprement dit est
une forme d'entraînement permettant aux sujets de mieux
répondre à des questions du type de celles incluses dans le test
sans améliorer notablement le domaine de comportement que le
test échantillonne. On observe, en ce qui concerne par exemple
le sat, un effet limité mais réel de cet entraînement qui crée des
inégalités entre candidats et tend à abaisser la valeur prédictive
du test par l'introduction d'une source de variation non perti
nente. Une formation améliorant le domaine de comportement
lui-même, et seulement par voie de conséquence la réussite au
test, constitue une formation éducative et ne peut plus être
qualifiée de bachotage ; elle améliore le niveau de réussite des
sujets sans affecter, en principe, la valeur prédictive du test.
Ce problème du bachotage, sans être au centre des préoccupat
ions, figure cependant parmi les causes de mécontentement
actuelles.
Un deuxième problème, apparu récemment, risque d'accroître
les risques de bachotage (Bersoff, 1981 ; Resnick, 1982). C'est
celui soulevé par un mouvement exigeant une information comp
lète sur les tests servant, dans le système éducatif, à prendre
certaines décisions (Truth in testing). Dans certains cas, il s'agit
seulement d'obtenir des informations sur le rationnel du test et
les résultats des principales études dont il a fait l'objet. Mais,
dans d'autres cas, c'est la publication intégrale des questions et
des réponses qui a été demandée et qui est maintenant imposée
par certaines législations locales. Cette publication a eu l'avan
tage de permettre, dans quelques cas, de détecter des questions 444 Françoise Bacher
dont la formulation était erronée ou ambiguë. Mais elle complique
considérablement la tâche des constructeurs qui doivent créer
constamment de nouveaux tests dont il est difficile d'assurer la
qualité, compte tenu de l'étendue des essais nécessaires pour
arriver à une qualité satisfaisante. Cette exigence risque égal
ement d'aller dans le sens d'une moindre « sécurité » des tests,
certains candidats pouvant plus facilement en connaître à
l'avance certaines questions. Il est probable que les constructeurs
s'orienteront de plus en plus vers la constitution de banques
d'items dans lesquelles on puise ensuite pour établir des versions
multiples du test. On observe en tout cas avec attention l'évolu
tion de la situation dans les Etats qui ont adopté des lois de ce
type (Etat de New York en particulier) afin de pouvoir appréc
ier les conséquences de cette décision.
Parmi les utilisations des tests qui se sont développées
récemment figure celle qui consiste à vérifier qu'une compétence
minimum a été acquise par les élèves de l'enseignement secon
daire en ce qui concerne les connaissances de base nécessaires à
la vie dans une société industrielle moderne (pouvoir lire des
textes courants et les comprendre, pouvoir effectuer des calculs
simples, etc.). Un article de Lerner (1981) donne quelques indi
cations sur le développement de ce mouvement né d'une inquié
tude à l'égard d'une baisse de niveau dans les écoles (voir aussi
Resnick et Resnick, 1982). Notons au passage que le terme
illiterate utilisé pour désigner ceux qui n'atteignent pas ce niveau
de compétence minimum ne signifie pas illettré au sens moderne
du terme (qui ne sait ni lire, ni écrire), mais plutôt insuffisamment
instruit. Des normes ont été établies fixant le niveau minimum
jugé nécessaire. Par exemple, en compréhension de lecture, pour
être jugés d'un niveau satisfaisant, les sujets doivent être capables
de répondre à 90 % des questions d'une épreuve composée de
questions faciles auxquelles tout jeune de 17 ans ayant été à
l'école devrait, d'après des experts, pouvoir répondre. Les sujets
qui sont capables de répondre à un pourcentage de questions
compris entre 75 et 90 sont considérés d'un niveau limite (semi-
litteraie) ; ceux qui n'atteignent pas 75 % de bonnes réponses
sont jugés d'un niveau insuffisant. On remarque que ce type de
test est critériel (criterion referenced) : la réussite n'est pas
définie par rapport à une population de sujets mais par rapport
à une tâche à accomplir ; le test porte seulement, d'autre part,
sur l'acquisition de connaissances. L'utilisation des tests psychologiques 445
D'un point de vue méthodologique, les problèmes posés sont
ceux que l'on rencontre habituellement avec ce type de test. Quel
contenu faut-il donner aux questions ; correspondent-elles bien
à ce qui a été enseigné, à ce qui sera nécessaire au sujet dans la
vie courante — et les deux ne coïncident pas nécessairement ;
quel niveau de réussite faut-il exiger des sujets pour considérer
qu'ils ont atteint un niveau suffisant ?
Socialement, un problème se trouve soulevé par un résultat
fréquemment observé : il existe une différence dans le niveau de
réussite moyen de groupes différents, ethniques en particulier ;
aussi, une plus forte proportion de sujets de certains groupes
minoritaires n'atteint pas le niveau requis. La contestation de la
part de ces groupes est évidemment plus vive si ce résultat sert
de base à un barrage (refus du diplôme de fin d'études secon
daires) que s'il conduit à une réforme des programmes, des
méthodes d'enseignement, de la répartition des moyens.
La différence de moyenne observée entre groupes ethniques
dans les tests d'aptitudes et de connaissances est un résultat
assez général pour que des problèmes de même type se posent
dans d'autres domaines d'application. Par exemple, l'utilisation
de tests d'intelligence (parmi d'autres éléments d'un dossier)
pour l'affectation à des programmes spéciaux pour enfants « men
talement retardés éducables » conduit à affecter à ces programmes
une plus forte proportion d'enfants de certains groupes. La con
testation porte alors souvent sur les tests, accusés de défavoriser
les enfants de ces groupes. Au-delà de cette question, sur laquelle
nous reviendrons, des problèmes plus fondamentaux se posent
cependant : celui des raisons pour lesquelles une plus forte pro
portion d'enfants de ces groupes manifeste une inadaptation
scolaire qui a conduit à envisager pour eux cette affectation ;
celui de l'efficacité des mesures mises en œuvre par ces pr
ogrammes pour remédier aux retards et aux difficultés constatés,
afin d'éviter qu'une telle affectation entraîne un handicap pe
rmanent (voir, en particulier, Reschly, 1981 ; Rescnick et Res-
nick, 1982).
Dans le domaine de la sélection et de la promotion profes
sionnelles on observe aussi le même type de problème. Par
exemple, des tests sont assez fréquemment utilisés pour le recru
tement et la promotion dans certains emplois municipaux( pomp
iers, police, etc.). Lorsqu'on applique les mêmes normes à tous
les sujets, on constate que certains groupes ethniques sont moins Françoise Bacher 446
représentés parmi les sujets sélectionnés que d'autres. Se posent
alors deux questions principales. Ce résultat tient-il à des apti
tudes ou compétences moyennes moindres des sujets apparte
nant à ces groupes ou bien à un « biais » dans le test, dont la
forme ou le contenu défavoriseraient particulièrement les memb
res des groupes considérés ? Dans le cas d'aptitudes ou compét
ences moindres, s'agit-il d'aptitudes ou de compétences vérit
ablement nécessaires (ou au moins utiles) à l'exercice de la
profession considérée ?
Ce sont des études de validité (validité prédictive et validité
de contenu principalement), qui peuvent apporter des éléments de
réponse.
Il semble y avoir eu une certaine évolution des Directives
fédérales et de la jurisprudence au cours des années récentes à
propos de ce problème. Lors des premiers procès, les tribunaux
exigeaient des employeurs mis en cause qu'ils effectuent des
études de validité prédictive portant sur leurs propres postes de
travail ; ils demandaient aussi que ces employeurs fassent la
preuve qu'ils avaient recherché des moyens de sélection ou de
promotion moins discriminatoires et n'y avaient renoncé que
dans la mesure où ces moyens ne permettaient pas de faire un
pronostic aussi bon de la réussite ultérieure. Il semble y avoir
maintenant une tendance à admettre une simple preuve, non
comparative, de validité de la procédure employée. Il semble
aussi y avoir une tendance à admettre l'utilité éventuelle
d'épreuves n'ayant pas de lien spécifique avec les tâches à
accomplir dans la profession, mais liées à la formation ou ayant
un caractère plus abstrait et dont l'utilité ressort d'études de
validité hypothético-déductive (Bersofî, 1981). Tenopyr(1981)
souligne que les premières exigences ont donné un coup d'arrêt
à l'usage de tests pour la sélection et la promotion dans les
petites entreprises qui n'avaient pas les moyens de procéder
elles-mêmes aux études exigées et craignaient d'être attaquées
devant les tribunaux. Schmidt et Hunter (1981) considèrent que
cette évolution est inquiétante pour la productivité des entre
prises qui se privent de moyens efficaces de sélection et de pro
motion, qui avaient été développés pour remédier aux inconvé
nients de moyens plus subjectifs et moins sûrs (entretiens, etc.).
D'un point de vue méthodologique, ils présentent une technique
de combinaison des résultats d'études de validité (dont chacune
est souvent restreinte et soumise à de fortes fluctuations d'échan- L'utilisation des tests psychologiques 447
tillonnage). L'application de cette technique à de nombreux
résultats partiels les conduit à conclure que beaucoup de tests
sont valides pour un grand nombre d'emplois et dans un grand
nombre de situations, contrairement à ce que des revues de
questions antérieures avaient conclu sur la base de variations des
coefficients de validité qui semblent pouvoir être attribuées à des
fluctuations d'échantillonnage, aux faibles qualités métriques
des critères de réussite professionnelle ou à d'autres sources
d'erreur. Il n'y a pas lieu, alors, d'exiger des études de validité
propres à chaque entreprise et à chaque poste de travail.
Schmidt et al. soulignent enfin que, si l'on veut recruter ou
promouvoir des proportions semblables de membres des différents
groupes, il serait plus efficace de modifier la procédure (par
exemple fixer des quotas et prendre dans chaque groupe ceux
qui réussissent le mieux) que de renoncer à utiliser des instru
ments dont la validité ne fait pas de doute. L'utilisation de tests
pour l'octroi de diplômes donnant le droit d'exercer une profes
sion (Shimberg, 1981) pose moins de problèmes.
On a vu que dans les trois domaines d'application précédents
ce sont habituellement les tests qui ont été mis en cause, accusés
de défavoriser systématiquement les membres de certains groupes
minoritaires. De nombreuses études ont alors été entreprises afin
de déterminer si les tests d'aptitudes et de connaissances les plus
couramment utilisés souffraient effectivement d'un tel biais.
A cause de ses implications théoriques et sociales, la question
est rarement posée de façon sereine. Les nombreuses façons de
concevoir et de définir le biais ajoutent, en outre, à la confusion
du débat. On trouvera dans Flaugher (1978) et dans Cole (1981),
un certain nombre de considérations utiles pour comprendre
quelles sont les sources de malentendu.
Pour les psychologues qui ont tenté d'aborder empiriquement
ce problème, la question se pose de la façon suivante.
Le point de départ est la constatation d'une différence de
moyenne dans la réussite de groupes différents (groupes ethniques,
groupes constitués selon l'origine sociale, selon le sexe dans
certains cas) dans un grand nombre de tests d'aptitudes et de
connaissances. Si l'on a pu construire des tests qui, aux Etats-
Unis, ne différencient pas les sexes et restent cependant de bons
prédicteurs de comportements socialement importants (en él
iminant les questions favorables à l'un ou. l'autre sexe, ou en les
équilibrant), on n'a pas eu le même succès en ce qui concerne les

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.