La fiabilité de la notation scolaire par expert comme fonction du mode d'exploitation analytique ou synthétique de la note - article ; n°2 ; vol.81, pg 369-384

De
Publié par

L'année psychologique - Année 1981 - Volume 81 - Numéro 2 - Pages 369-384
Summary
The problem of reliability in scholastic evaluation by human operators is no longer defined in terms of inter-judge agreement (or correlation between their evaluations and the scores obtained by the pupils) but as a compatibility between the characteristics of distributions of grades and the characteristics, determined by construction, of the set of products to be evaluated.
Subjects (teachers in the humanities) were asked to evaluate (using the 20-point scale employed in the French scholastic system) essays written in their mother tongue.
Exercises were developed (using real essays) by the experimenter according to two descriptions corresponding to evaluation criteria normally employed by teachers : « correctness of style » and « coherence in the organization of ideas ». Both descriptors were combined orthogonally. The experiment was designed in order to discern under which conditions of statement of explicit response the subjects combine criteria compatible with the combination of descriptors.
The non-additive combination of criteria corresponding to orthogonal descriptors, observed when subjects are only required to formulate a global evaluation of each product, is not found when, in addition to a global evaluation, it is necessary for subjects to provide a detailed evaluation of each criterion involved.
The hypothesis is advanced that the analytic statement of evaluations contributes to an increase in their reliability. Variables which may serve to increase this reliability are examined. These variables are related to response Systems employed in formulating judgments as well as to diffe-rential characteristics of evaluators.
Résumé
Le problème de la fiabilité de la notation scolaire par opérateur humain est posé non plus en termes d'accord entre juges (ou de corrélation entre leurs jugements et les scores à des tests obtenus par les élèves jugés), mais de compatibilité entre les caractéristiques des distributions de notes attribuées et les caractéristiques, déterminées par construction, du lot des productions à évaluer.
La combinaison non additive, dans la notation, de critères correspondant à des descripteurs orthogonaux dans le matériel, observée lorsque les sujets ne doivent expliciter qu'une évaluation globale de chaque production, n'est plus observée lorsqu'ils doivent expliciter, en plus de l'évaluation globale, une évaluation détaillée sur chaque critère concerné.
L'auteur en déduit l'hypothèse — vérifiable dans la seule mesure où les caractéristiques du matériel jugé sont connues — qu'une explicitation analytique des évaluations contribue à leur meilleure fiabilité. Il évoque les variables (liées d'une part aux systèmes de réponse utilisés pour formuler les jugements, d'autre part à des caractéristiques différentielles distinguant les évaluateurs) à étudier pour que cette fiabilité soit encore accrue.
16 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : jeudi 1 janvier 1981
Lecture(s) : 27
Nombre de pages : 18
Voir plus Voir moins

J.-P. Caverni
La fiabilité de la notation scolaire par expert comme fonction du
mode d'exploitation analytique ou synthétique de la note
In: L'année psychologique. 1981 vol. 81, n°2. pp. 369-384.
Citer ce document / Cite this document :
Caverni J.-P. La fiabilité de la notation scolaire par expert comme fonction du mode d'exploitation analytique ou synthétique de
la note. In: L'année psychologique. 1981 vol. 81, n°2. pp. 369-384.
doi : 10.3406/psy.1981.28381
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1981_num_81_2_28381Abstract
Summary
The problem of reliability in scholastic evaluation by human operators is no longer defined in terms of
inter-judge agreement (or correlation between their evaluations and the scores obtained by the pupils)
but as a compatibility between the characteristics of distributions of grades and the characteristics,
determined by construction, of the set of products to be evaluated.
Subjects (teachers in the humanities) were asked to evaluate (using the 20-point scale employed in the
French scholastic system) essays written in their mother tongue.
Exercises were developed (using real essays) by the experimenter according to two descriptions
corresponding to evaluation criteria normally employed by teachers : « correctness of style » and «
coherence in the organization of ideas ». Both descriptors were combined orthogonally. The experiment
was designed in order to discern under which conditions of statement of explicit response the subjects
combine criteria compatible with the combination of descriptors.
The non-additive combination of criteria corresponding to orthogonal descriptors, observed when
subjects are only required to formulate a global evaluation of each product, is not found when, in
addition to a global evaluation, it is necessary for subjects to provide a detailed evaluation of each
criterion involved.
The hypothesis is advanced that the analytic statement of evaluations contributes to an increase in their
reliability. Variables which may serve to increase this reliability are examined. These variables are
related to response Systems employed in formulating judgments as well as to diffe-rential
characteristics of evaluators.
Résumé
Le problème de la fiabilité de la notation scolaire par opérateur humain est posé non plus en termes
d'accord entre juges (ou de corrélation entre leurs jugements et les scores à des tests obtenus par les
élèves jugés), mais de compatibilité entre les caractéristiques des distributions de notes attribuées et
les caractéristiques, déterminées par construction, du lot des productions à évaluer.
La combinaison non additive, dans la notation, de critères correspondant à des descripteurs
orthogonaux dans le matériel, observée lorsque les sujets ne doivent expliciter qu'une évaluation
globale de chaque production, n'est plus observée lorsqu'ils doivent expliciter, en plus de l'évaluation
globale, une évaluation détaillée sur chaque critère concerné.
L'auteur en déduit l'hypothèse — vérifiable dans la seule mesure où les caractéristiques du matériel
jugé sont connues — qu'une explicitation analytique des évaluations contribue à leur meilleure fiabilité.
Il évoque les variables (liées d'une part aux systèmes de réponse utilisés pour formuler les jugements,
d'autre part à des caractéristiques différentielles distinguant les évaluateurs) à étudier pour que cette
fiabilité soit encore accrue.L'Année Psychologique, 1981, 81, 369-384
Laboratoire de Psychologie expérimentale1
Université René-Descarles et EPHE, 3e section
associé au CNRS
LA FIABILITÉ DE LA NOTATION SCOLAIRE
PAR EXPERT
COMME FONCTION DU MODE D'EXPLI CITATION
ANALYTIQUE OU SYNTHÉTIQUE DE LA NOTE
par Jean-Paul Caverni
SUMMARY
The problem of reliability in scholastic evaluation by human operators is
no longer defined in terms of inter- judge agreement (or correlation between
their evaluations and the scores obtained by the pupils) but as a compatib
ility between the characteristics of distributions of grades and the charact
eristics, determined by construction, of the set of products to be evaluated.
Subjects (teachers in the humanities) were asked to evaluate (using
the 20-point scale employed in the French scholastic system) essays written
in their mother tongue.
Exercises were developed (using real essays) by the experimenter
according to two descriptions corresponding to evaluation criteria normally
employed by teachers : « correctness of style » and « coherence in the organizat
ion of ideas ». Both descriptors were combined orthogonally. The expe
riment was designed in order to discern under which conditions of statement
of explicit response the subjects combine criteria compatible with the
combination of descriptors.
The non-additive combination of criteria corresponding to orthogonal
descriptors, observed when subjects are only required to formulate a global
evaluation of each product, is not found when, in addition to a
evaluation, it is necessary for subjects to provide a detailed evaluation of
each criterion involved.
The hypothesis is advanced that the analytic statement of evaluations
contributes to an increase in their reliability. Variables which may serve
to increase this reliability are examined. These variables are related to
response systems employed in formulating judgments as well as to diffe
rential characteristics of evaluators.
1. 28, rue Serpente, 75006 Paris. 370 Jean-Paul Caverni
INTRODUCTION
Les systèmes scolaires font traditionnellement appel à des
opérateurs humains (en l'occurrence des enseignants) pour éva
luer les productions effectuées par les élèves dans le cadre des
différents apprentissages auxquels ces derniers sont soumis2. La
fiabilité de telles procédures a depuis longtemps été mise en
cause, notamment à l'occasion d'une enquête internationale
(enquête Carnegie) sur les examens et concours (Hartog et
Rhodes, 1935 ; Laugier et Weinberg, 1936). Le manque de fiabi
lité se marque notamment à ce que plusieurs évaluateurs appelés
à juger individuellement une même production lui attribuent
alors des évaluations différentes. D'autres manières ont été
utilisées pour éprouver la fiabilité déficiente des notes scolaires.
L'une a consisté en l'étude des corrélations entre les notes
obtenues par les mêmes élèves, d'une part à des épreuves sco
laires évaluées par des enseignants, et d'autre part à des tests
censés appréhender les mêmes aptitudes (cf. par exemple Fin-
layson, 1951). L'autre a consisté à l'analyse statistique des limites
de confiance des résultats de l'évaluation des jurys à des examens
réels, organisés de telle sorte que candidats et examinateurs
soient répartis aléatoirement entre ces différents jurys (cf. Noizet,
1961 ; Piéron, Reuchlin, Bacher et Demangeon, 1962).
Les problèmes de fiabilité de l'évaluation par experts sont
toujours à l'ordre du jour et occupent encore les chercheurs. En
témoignent des articles récents (Akeju, 1972 ; Hill, 1977 et 1978 ;
Murphy, 1978 et 1979 ; Wood et Quinn, 1976).
Pour tenter d'apporter à ces problèmes des réponses nouvelles,
une étude systématique de l'acte d'évaluation a été entreprise
du point de vue des processus psychologiques mobilisés chez le
sujet qui évalue (Noizet et Caverni, 1978 ; Noizet et Caverni, 1981).
La tâche d'évaluation de productions scolaires est conçue comme
requérant de l'évaluateur une activité de collecte et de combi
naison d'informations, dont il s'agit de rendre compte en termes
de déterminants et de mécanismes (Caverni, 1981). C'est ainsi
2. A côté de l'évaluation traditionnelle par l'enseignant, d'autres pro
cédures, qui ne sont pas concernées par ce travail, sont utilisées, plus ou
moins selon les pays, telles des épreuves standardisées de questions fermées,
à notation automatique (du type questionnaires à choix multiple, çcm)
et parfois étalonnées, qui sont alors conçues comme de véritables tests. La fiabilité de la notation scolaire 371
qu'ont pu être mis en évidence les effets d'informations exté
rieures à la production elle-même mais concernant son auteur
(Gaverni, Fabre et Noizet, 1975), de même qu'ont pu être ana
lysées les caractéristiques multidimensionnelles (Caverni et
Noizet, 1979) et séquentielles (Caverni, 1980) de la prise d'indices
dans la production, et enfin l'incidence des systèmes de réponse lesquels le sujet doit expliciter ses jugements (Caverni, 1979).
L'expérience rapportée dans cet article concerne les effets
du mode d'explicitation de l'évaluation sur sa fiabilité. La ques
tion n'est pas nouvelle. Des travaux, déjà anciens, se sont pré
occupés d'étudier la fiabilité des notes selon qu'elles étaient
attribuées en utilisant ou bien une méthode dite « holistique »
ou « par impression générale », ou bien une méthode dite « ana
lytique ». Ainsi les travaux de Cast (1939 et 1940), Morrisson et
Vernon (1941), Wiseman (1949).
Le principe général de ces expériences a consisté à opposer
une notation avec critères définis, et parfois pondérés, à une
notation sans aucun critère défini et sans instructions préalables,
dans laquelle les évaluateurs étaient invités à utiliser leur « mé
thode habituelle ». Tous les résultats concluent à la supériorité
de la méthode dite « analytique » du point de vue de l'accord entre
évaluateurs.
Cette interprétation appelle une objection : la méthode dite
« par impression générale » désignant une condition dans laquelle
les évaluateurs utilisent en fait leur « méthode » personnelle, le
désaccord plus important observé dans cette condition peut ne
relever que de différences entre les méthodes personnelles, sans
être attribuable à une méthode caractérisée qui s'avérerait
moins efficace que la méthode analytique (qui est la seule à être
caractérisée de manière univoque pour tous les évaluateurs).
Des travaux plus récents ont été menés dans le même esprit
par des chercheurs américains. Coffman et Kurfman (1968),
travaillant avec un nombre très réduit de juges (deux pour
chaque méthode), ne trouvent pas quant à eux de différence
d'évaluation des mêmes 15 textes d'Histoire, selon qu'ils sont
lus avec une méthode « holistique » (requérant un seul jugement
d'ensemble) ou avec une méthode « analytique » (requérant un
jugement d'ensemble) ou avec une méthode « analytique »
(requérant un jugement sur chacun de trois aspects indiqués au
lecteur). On peut citer, dans le même ordre d'idées, le travail de
Follman, Holland et Miller (1971). Jean- Paul Caver ni 372
Nous nous sommes reposé le problème de l'effet du mode
d'explicitation de la note dans une situation expérimentale où
certains aspects des productions à évaluer ont été contrôlés et
manipulés par l'expérimentateur. Il est alors possible de poser le
problème de la fiabilité, non plus en termes d'accord entre les
sujets (ce n'est pas parce que les sujets sont eux
qu'ils ont pour autant jugé ce qu'ils étaient censés juger), mais
en termes de compatibilité entre les caractéristiques des distr
ibutions de notes attribuées et les connues, par
construction, des productions notées.
L'expérience a eu pour objet d'étudier l'incidence du mode
d'explicitation de la note quant au traitement multidimensionnel
des informations sur lesquelles le sujet étaye son jugement.
L'étude a été conduite à propos du système de notation le plus
usuel pour les sujets utilisés : l'échelle numérique en 21 échelons
(notation sur 20). Le mode d'explicitation habituellement utilisé
avec ce système consiste en l'attribution d'une note globale à
chaque production examinée. La question posée est ici de savoir
si, dans le cadre de la notation sur 20, d'autres formes d'explici
tation de la note globale modifieraient les caractéristiques qui
ont été observées dans l'utilisation usuelle de ce système de nota
tion du point de vue du traitement multidimensionnel des
informations.
L'étude du traitement multidimensionnel des indices, dans le
cas de l'utilisation de l'échelle numérique en 21 échelons avec
simple explicitation d'une note globale par production, a montré
une distorsion entre la combinaison, construite, des descripteurs
du matériel à juger et l'agrégation des critères d'évaluation co
rrespondants effectuée par l'évaluateur : alors que les
du matériel sont combinés orthogonalement, les critères corre
spondants sont de façon non additive (Noizet et Caverni,
1978, pp. 119-146).
Le caractère global du mode d'explicitation de la note est-il
un facteur déterminant, pour tout ou partie, de ce phénomène ?
L'accès psychologique à une note globale suppose nécessairement
de la part des sujets la combinaison (impressionniste ou ana
lytique) d'évaluations plus élémentaires. Des contraintes posées
sur cette combinaison atténueraient-elles, éventuellement jus
qu'à les supprimer, les distorsions observées entre les caracté
ristiques des réponses et celles du matériel ? Dans le cas du trait
ement multidimensionnel, l'hypothèse est raisonnable de consi- fiabilité de la notation scolaire 373 La
dérer que le sujet sera d'autant plus susceptible de traiter ind
épendamment les unes des autres les dimensions d'évaluation
qu'il sera contraint d'expliciter sur chacune d'elles une évaluation
séparée.
MÉTHODE
Vingt-quatre enseignants de Lettres de l'enseignement secondaire
français (facteur S) ont eu à noter (sur 20) huit productions de rédaction
en langue maternelle française.
Les productions, présentées aux sujets comme ayant été rédigées
par des élèves de sixième, avaient été en fait construites à partir de
devoirs d'élèves, par l'expérimentateur sur deux descripteurs corre
spondant à des critères habituellement utilisés pour l'évaluation de
rédactions en langue maternelle. Il s'agissait du « style du devoir »
(facteur A), qui ne présentait pas (Al) ou présentait (A2) des incorrec
tions en nature et en nombre déterminés, et de « l'organisation des
idées dans le devoir » (facteur B), qui ne présentait pas (Bl) ou présentait
(B2) des incohérences3. Ces deux facteurs, à deux modalités, ont été
croisés, définissant donc quatre types de productions : A1B1, A1B2,
A2B1 et A2B2. Dans le lot de productions remis à l'évaluateur, il y avait
deux productions de chaque type. Chaque évaluateur a vu les huit
textes de base* et les quatre traitements, mais il n'a vu un même texte
que sous un seul traitement. Un plan de mélange en carré latin rang-
voisinage, de répartition des traitements sur le croisement « sujets
♦ couples de textes de base » (cf. tableau I) assure que, sur l'ensemble
des évaluateurs, les huit textes de base utilisés pour l'expérience sont
passés autant de fois dans chaque traitement AxB.
3. Le caractère correct ou incorrect des éléments de style, cohérent ou
incohérent de l'organisation des idées, a été déterminé lors d'une préexpér
ience. Des enseignants de Lettres, autres que ceux ayant participé à l'expé
rience proprement dite, ont eu à classer des phrases, extraites de devoirs
d'élèves, en deux catégories, selon qu'à leur sens elles ne présentaient pas ou
elles présentaient une incorrection de style. De même ont-ils dû répartir,
entre deux catégories, des successions d'idées sur le thème de devoir concerné,
selon qu'à leur sens elles ne présentaient pas ou elles des inco
hérences. N'ont été retenus, pour constituer les productions utilisées dans
l'expérience, que les éléments pour lesquels la catégorisation avait été
unanime. Les problèmes méthodologiques et d'analyse des données posés
par ce principe de construction des stimulus ont été étudiés par Noizet,
Caverni et Fabre (1977), Noizet et Caverni (1978, pp. 63-76 et 130-132), et Noizet (1981).
4. On entend par « texte de base » les aspects du stimulus invariants pour
toutes les modalités des descripteurs sur lesquels le est construit. 374 Jean-Paul Cavcrni
Tableau I. — Principe de plan de mélange
des traitements sur le croisement
« sujets x textes de base »
SI S2 S3 S4
A2B2 A2B1 {b, a) A1B1 A1B2
A1B2 A2B2 (c, c) A2B1 A1B1
A2B1 A1B1 (d, g) A1B2 A2B2
A1B1 A1B2 (A, f) A2B2 A2B1
(S désigne les sujets ; a, b, c, d, e, f, g, h désignent les huit textes de base.)
Du point de vue du mode d'explicitation de l'évaluation, le sujet
recevait l'une des six consignes suivantes (facteur C) :
Cl : « Attribuer à chaque production une note sur 20. »
C2 : « à une note sur 20 en considérant
uniquement la correction du style dans le devoir. »
C3 : « Attribuer à chaque production une note sur 20 en l'organisation des idées dans le devoir. »
C4 : « à chaque une note sur 20 en considérant
uniquement la correction du style et l'organisation des idées dans le
devoir. »
C5 : « Attribuer à chaque production une note sur 20 en considérant
uniquement la correction du style et des idées dans le
devoir et en explicitant sur chacun de ces deux critères une note partielle
sur 10. »
C6 : « Attribuer à chaque production une note sur 20 en considérant
uniquement la correction du style et l'organisation des idées dans le
devoir, et en explicitant sur chacun de ces deux critères une note
partielle, le poids respectif de de ces deux par rapport
à 20 étant laissé au choix de l'examinateur. »
Chaque consigne a été proposée à quatre sujets, chacun d'entre eux
recevant l'une des quatre associations « couples de texte x traitements »
indiquées au tableau I.
L'objectif était de comparer le traitement d'un même ensemble
d'informations (en l'occurrence un même lot de productions) selon cha
cun des six modes d'explicitation de la réponse exigé par les consignes
précédentes. Sous la consigne Cl, on attendait l'agrégation non additive
observée dans l'étude du traitement multidimensionnel habituel des
indices.
Toutes les autres consignes visaient à imposer un traitement analy
tique de la réponse, sous l'hypothèse générale qu'une telle contrainte
susciterait un traitement des indices plus propice au repérage des
caractéristiques effectives du matériel à évaluer. Les consignes C2 et C3 La fiabilité de la notation scolaire 375
devaient permettre d'éprouver la capacité de l'évaluateur à considérer
un critère indépendamment d'autres, lorsque ce critère lui est indiqué
et qu'il est le seul à devoir être pris en compte. Les consignes C4, C5
et C6 visaient à éprouver la capacité de l'évaluateur à traiter simulta
nément plusieurs critères de manière indépendante, selon qu'il serait
contraint ou pas d'expliciter sur chacun d'eux une évaluation partielle
particulière. Lorsque cette explicitation particulière a été demandée,
deux conditions ont été retenues, parce que toutes deux théoriquement
possibles : équipondération (C5) ou pondération libre (C6) des deux
critères.
La variable dépendante est pour chaque évaluateur la somme des
notes sur 20 attribuées aux deux productions de chaque couple.
RÉSULTATS
Tableau II. — Protocole des données
II 12 II 12
Ll L2 Ll L2 Ll L2 Ll L2
31 16 26 17 S13 31 25 26 27 SI
S2 29 15 17 14 S14 24 19 16 13 C A Ol C 1 14 S3 24 18 19 S15 25 17 18 15
15 S16 29 S4 30 15 23 18 23 15
15 22 14 S17 29 21 24 18 S5 28
S6 30 19 29 23 S18 27 24 24 15 L2 Co S7 29 16 27 16 S19 33 25 25 16
S20 30 29 S8 25 9 27 13 26 19
20 16 16 S21 30 24 21 18 S9 19
S10 33 28 27 24 S22 27 22 21 18 r'ß Lo su 30 24 20 15 S23 36 25 24 17
S24 S12 33 30 34 29 26 15 29 14
Le tableau II indique le protocole de base des données
recueillies5. Le tableau III indique, pour chaque consigne C, la
moyenne des notes attribuées sous chaque traitement A.B. La
figure 1, placée en regard du tableau III, donne la représentation
graphique correspondante de l'interaction A.B qui permet
d'apprécier, dans chaque consigne, la dépendance entre les cri
tères correspondant aux descripteurs manipulés orthogonaux.
5. Les données ont été recueillies avec la collaboration de F. Foureaux. III. — Pour chaque consigne C, Tableau
moyennes des notes attribuées
sous chaque traitement A . B
Cl Al A2 Al
Bl 28,50 16,00 (+ 12,50)
(+7,25) (+ 1,00)
B2 21,25 15,00 (+ 6,25)
C2 Al A2
Bl 28,00 14,75 (+ 13,25)
(— 1,75) (+ 1,75)
26,25 16,50 B2 (+ 9,75)
C3 Al A2
25,50 Bl 28,75 (+ 3,25)
(+ 4,50) (+ 4,50)
24,25 21,00 B2 (+ 3,25)
C4 Al A2
19,75 Bl 27,25 (+ 7,50) Bl
(+ 6,50) (+ 2,25)
20,75 17,50 B2 (+ 3,25) B2
Al C5 A2
Bl
24,75 Bl 29,75 (+ 5,00)
(+ 5,00) (+ 7,75)
B2 24,75 17,00 (+ 7,75) B2 A2
Al A2 C6
29,75 21,50 Bl Bl (+ 8,25)
(+ 4,75) (+ 6,00)
16,75 B2 23,75 (+ 7,00) B2
Fig. 1. — Représentation graphique de l'interaction A.
dans chacune des consignes C

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.