Création d'un score global dans le cadre d'une épreuve adaptative

De
Publié par

La construction d’un indicateur global de compétence à partir de réponses à des exercices fait appel à des techniques statistiques spécifiques, plus complexes que le simple comptage des bonnes réponses. Le recours à ces techniques est particulièrement utile quand tous les individus évalués n’ont pas passé les mêmes épreuves. C’est le cas dans l’enquête Information et Vie Quotidienne, où les exercices sont proposés dans un cadre adaptatif, pour améliorer la motivation des personnes interrogées, surtout de celles qui sont sorties depuis fort longtemps de l’école. En fonction des résultats au premier exercice, l’enquêté se voyait proposer des questions plus ou moins difficiles. Si cette procédure améliore sensiblement les conditions de collecte et la qualité des données recueillies, elle engendre des difficultés particulières lors de l’estimation d’un indicateur de compétence global, valable pour toute la population. En effet, comment comparer les résultats de populations n’ayant pas passé les mêmes épreuves ? Cet article propose différentes méthodes pour tenir compte de ce processus d’orientation. Elles sont testées sur des données fictives, pour en étudier la robustesse et les limites. Si la perte d’information induite par le processus d’orientation est assez minime, elle n’est cependant pas nulle, en particulier pour un nombre important de personnes se situant autour des seuils d’orientation vers les exercices difficiles ou vers les exercices faciles. Ces résultats suggèrent quelques aménagements dans la structure des épreuves pour la prochaine édition de l’enquête.
Publié le : dimanche 30 décembre 2012
Lecture(s) : 11
Tags :
Nombre de pages : 30
Voir plus Voir moins
ENSEIGNEMENT - ÉDUCATION
Créatin dun scre glbal dans le cadre dune épreuve adaptative Fabrice Murat* et Thierry Rcher**
La construction dun indicateur global de compétence à partir de réponses à des exer-cices fait appel à des techniques statistiques spécifiques, plus complexes que le simple comptage des bonnes réponses. Le recours à ces techniques est particulièrement utile quand tous les individus évalués nont pas passé les mêmes épreuves. Cest le cas dans lenquête Information et Vie Quotidienne , où les exercices sont propo -sés dans un cadre adaptatif, pour améliorer la motivation des personnes interrogées, sur -tout de celles qui sont sorties depuis fort longtemps de lécole. En fonction des résultats au premier exercice, l’enquêté se voyait proposer des questions plus ou moins difficiles. Si cette procédure améliore sensiblement les conditions de collecte et la qualité des données recueillies, elle engendre des difficultés particulières lors de l’estimation d’un indicateur de compétence global, valable pour toute la population. En effet, comment comparer les résultats de populations n’ayant pas passé les mêmes épreuves ? Cet article propose différentes méthodes pour tenir compte de ce processus dorien-tation. Elles sont testées sur des données fictives, pour en étudier la robustesse et les limites. Si la perte d’information induite par le processus d’orientation est assez minime, elle n’est cependant pas nulle, en particulier pour un nombre important de personnes se situant autour des seuils d’orientation vers les exercices difficiles ou vers les exercices faciles. Ces résultats suggèrent quelques aménagements dans la structure des épreuves pour la prochaine édition de lenquête.
* Au moment de la rédaction de cet article, Fabrice Murat travaillait à la division Emploi de lInsee. ** Thierry Rocher travaille à la Direction de lévaluation, de la prospective et de la performance, du ministère de lÉducation nationale
ÉCONOMIE ET STATISTIQUE N° 424425, 2009
149
150
 
L ( e I n V q Q )  tec he I r n c f h o e r  m à a é ti v o a n l  u e e t r   l V e i s e   c Q o u m o p ti é d t i e e n n c n e e s   face à l’écrit d’une population d’adultes, quels que soient leur rapport à l’écrit, leur maîtrise de la langue française, leur niveau d’éduca -tion, etc. Les compétences visées se situent sur un assez large spectre, du décodage de mots simples à la compréhension de limplicite dun texte. Le caractère très hétérogène de la population évaluée a ainsi motivé le recours à un questionnement en deux temps, avec un processus dorientation. En fonction de ses résultats au premier exercice, l’enquêté se voit proposer des questions plus ou moins diffici -les. Cette adaptation est apparue indispensable lors des tests sur le terrain : des questions trop difficiles découragent les individus les moins compétents ; des exercices trop simples démo-tivent les meilleurs ou les incitent à chercher des pièges (Vallet et al., 2002). Ce choix amé -liore la qualité de la mesure, mais il complique la construction d’un score global, valable pour tous les individus. De manière plus générale, ce protocole s’ins -crit dans une démarche de test adaptatif . Dès la naissance des premiers tests psychologiques, au début du XX e siècle, il est apparu intéressant d’adapter le niveau de difficulté des épreuves au niveau de compétences des individus. Le prin-cipe est le suivant : on présente à chaque indi-vidu un exercice ; s’il échoue, on lui présente un exercice plus facile ; s’il réussit, on lui présente un exercice plus difficile. Ce processus itératif conduit à une estimation plus précise - et plus rapide - du niveau de compétence de chaque individu. Avec le développement de linforma-tique, cette procédure s’est répandue (Wainer, 2000). À chaque item, suivant la réponse de l’individu, son niveau de compétence est ré-estimé et lordinateur propose un nouvel item dont la difficulté correspond à ce niveau. Il est également possible de proposer plusieurs items, notamment en compréhension de l’écrit, où un même texte fait généralement lobjet de plu-sieurs questions. La contrainte principale de ce type de procédure est qu’il est nécessaire d’avoir estimé au préalable la difficulté d’un grand nombre ditems. Cela suppose que chaque item ait été passé par un échantillon représenta-tif de la population visée, que sa difficulté ait été estimée et enregistrée dans une banque ditems,  parmi lesquels il sera possible de choisir le plus approprié lors de la procédure de test adaptatif. La constitution dune telle banque implique un coût financier très important, qui limite la mise en pratique des tests adaptatifs (1).
Il existe d’autres stratégies d’adaptation, moins exigeantes. Cest le cas par exemple de la pro-cédure en deux temps avec un test dorien -tation ( two-stage testing ) adoptée dans IVQ . Ladaptation des items nest pas faite indivi-duellement mais pour des groupes dindividus déterminés en fonction de leurs résultats à un test dorientation. Cette procédure est moins contraignante en pratique. Le recours à lordina-teur nest pas requis. Elle a lavantage de pou -voir être appliquée pour une passation collec-tive de tests papier-crayon, comme par exemple les tests de la Journée dAppel de Préparation à la Défense (Rocher, 2004). Elle ne nécessite pas d’estimer au préalable la difficulté des items et donne potentiellement des résultats plus précis que ceux obtenus par un seul test, dans le cas où les niveaux de compétence sont très dispersés (Lord, 1980). 1 Au-delà des aspects pratiques, cette procédure se justifie également sur le plan théorique. Les dimensions cognitives fines que l’on souhaite évaluer ne sont pas forcément les mêmes selon les niveaux de compétences. Pour les personnes en difficulté face à l’écrit, il convient d’insis -ter sur le décodage des mots par exemple (per-mettant d’étudier la maîtrise des mécanismes de base de l’écriture), alors que pour les autres personnes, différents aspects de la compréhen -sion pourront être plus finement évalués. Ainsi, ce n’est pas seulement la difficulté du test qui est adaptée, mais la nature même de ce qu’il est censé mesurer. Mais cette perspective remet en cause la démar-che consistant à établir une échelle commune sur laquelle seront placés tous les individus. Quelle est la validité dun score global si les éléments du test renvoient à des dimensions différentes ? Cela suppose que les individus peuvent être classés sur un continuum  unidi-mensionnel, en fonction de leurs réponses aux items, qui contribuent chacun à la mesure d’une même dimension cognitive (2). 2 En l’occurrence, 1. Autre difficult, il faut aussi que la rponse de l’individu soit cor -rige immdiatement, ce qui rend difficile le recours  un codage manuel et impose une procédure destimation des compétences intgre  l’outil de collecte, ce qui peut poser problme. 2. Postuler « lundimensionnalité » dun ensemble de données revient  supposer qu’elles peuvent tre « engendres » par une seule variable, selon un modle statistique dtermin. Le carac -tère unidimensionnel ou multidimensionnel des tests psychologi -ques cherchant  mesurer l’intelligence est une question centrale de la psychométrie, ayant fait lobjet dune des premières grandes controverses de ce domaine entre Spearman et Thurstone : les mmes donnes analyses par ces deux chercheurs ont pu appa - raître grossièrement structurée autour dune dimension domi -nante ou au contraire relever de plusieurs facteurs. La question de la « ralit » psychique ou physique de ces facteurs est un autre grand sujet de débat de la psychologie cognitive (Gould, 1987).
ÉCONOMIE ET STATISTIQUE N° 424425, 2009
l’hypothèse envisagée ici est que tous les items d IVQ  portant sur la compréhension de lécrit mesurent une même dimension, que ce soient ceux destinés aux personnes en difficulté ou ceux qui sadressent aux « bons lecteurs ». Lunidimensionnalité est envisagée ici comme la présence dune dimension dominante (Blais et Laurier, 1997). S’il existe un cadre formel pour tester cette hypothèse (Stout, 1990), il est impossible de lappliquer à IVQ , dans la mesure où les individus, selon leur niveau, ne passent pas les mêmes items. Le score global aux épreuves de compréhension de lécrit de lenquête IVQ  est donc ici perçu comme un indicateur synthétique des compé -tences des individus face à lécrit. Ce score pré-sente certainement assez peu dintérêt pour le psychologue, qui préférera procéder à une ana -lyse plus fine des réponses aux items (Megherbi et al. , ce numéro), mais il a l’avantage de pou -voir être plus facilement confronté aux carac-téristiques des individus, dans une perspective d’analyse économique ou sociologique. Dans ce cadre, le problème posé par la construction d’un tel score est de nature statistique. Comment tenir compte alors du fait que tous les individus, selon leurs résultats, ne passent pas les mêmes exercices ? La dépendance entre le processus dorientation et le niveau de compé-tence de la personne, estimé approximativement par l’exercice d’orientation, rend assez délicate lestimation de ce niveau. Différentes techni-ques sont possibles pour synthétiser l’ensem -ble des réponses aux exercices. Généralement, cet ensemble peut être représenté comme une matrice de réponses, appelée aussi matrice de Stern, souvent réduite à une distinction entre les « bonnes » réponses, les « mauvaises » réponses et les absences de réponses (3). On peut distin -guer très grossièrement trois familles principa-les de techniques (Bernier, Pietrulewicz, 1997 et Dickes et al. , 1994) : - lanalyse classique : elle consiste à simple-ment considérer le nombre de bonnes réponses comme indicateur de compétence du sujet ou comme indicateur de difficulté d’un item. Pour calculer les scores individuels, on peut éven -tuellement avoir recours à une pondération des différents items, par exemple en fonction de leur difficulté. Cette analyse est souvent complétée par celle de la corrélation entre chaque item et le score global, comme mesure de sa « qualité ». - lanalyse factorielle  : l’analyse factorielle a, on le sait, été développée par Spearman pour
ÉCONOMIE ET STATISTIQUE N° 424425, 2009
analyser les réponses à des tests d’intelligence. Cette technique est encore assez largement uti-lisée pour explorer la structure dun ensemble d’items. En revanche, elle sert moins lors de la phase de construction proprement dite des sco-res. - les modèles de réponse à litem : de plus en plus diffusés, ces modèles logistiques posent de façon plus claire que dans l’analyse classi -que, le caractère latent de la compétence. Ils cherchent à paramétrer de façon indépendante la compétence des individus et la difficulté des items. On peut ainsi comparer le fonctionne -ment de la même épreuve sur deux populations différentes ; il est aussi possible dancrer assez facilement deux épreuves différentes lune sur l’autre, pour peu qu’elles aient un minimum ditems en commun. 3 Lobjectif de cet article est dappliquer ces tech-niques sur les données d IVQ , afin d’aboutir à la construction dun score global en compréhen -sion de l’écrit, valable pour toute la population. La principale difficulté rencontrée tient à l’exis -tence de « trous » dans la matrice des réponses, ces lacunes nétant pas aléatoires : on ignore les réponses que les personnes orientées vers les exercices simples auraient données sur les exercices complexes. Supposer un échec com-plet apparaît vite comme une hypothèse trop forte. On proposera donc plusieurs solutions à ce problème, en incluant l’usage des modèles de réponse à l’item. L’analyse des différents scores obtenus portera sur leur distribution ou leur cor-rélation avec les caractéristiques des individus. Cette confrontation est à la fois une validation (une corrélation forte avec le diplôme est atten-due, par exemple) et une illustration de la sensi -bilité des résultats aux hypothèses retenues lors de la construction des indicateurs. Enfin on pré -sentera une simulation de type Monte Carlo, sur données fictives, proches de celles d’ IVQ , pour lesquelles lensemble des données sera dispo -nible. Des « trous » seront « creusés » dans ces données de façon similaire à la procédure d IVQ  et on comparera les résultats obtenus suivant les différentes techniques, avec les scores tenant compte de lensemble de linformation initiale. Ces simulations donneront une idée des consé-quences du caractère adaptatif des épreuves sur 3. On ne s’intresse bien sr ici qu’aux procdures d’valuation dans des enqutes statistiques. Dans le cadre scolaire habituel, les évaluations faites par les professeurs, les notes, ne sont pas aussi facilement décomposables en processus élémentaires (pensons à la correction dune dissertation, notamment). De plus, comme la montré Merle (1996), les notes névaluent pas toujours uniquement le rsultat obtenu, mais parfois aussi les progrs accomplis ou les efforts fournis.
151
152
 
la mesure finale. Elles permettront aussi d’en -ples qui sont préférables. Ainsi, quatre parcours visager et de tester des variantes pour lenquête différents sont possibles (cf. tableau 1) (4) 4 : de 2010.  Groupe « ANLCI direct » : ces personnes -Le prcessus drientatin dans IVQ obtiennent de fai. blEelsl eps erpfaosrsmeantn cedisr eàc telemxeernt- cice dorientation le module ANLCI (la partie compréhension se Cet article va se centrer sur lévaluation des a rès les exercices d’écri -compétences en compréhension de texte, qui trouve alors à la fin, p ture et de lecture de mots écrits) ; fait lobjet du plus grand nombre dexercices dans l’enquête (cf. encadré 1). L’orientation se fait en deux étapes. Le module dorientation construit une première image des compétences 4. Afin de travailler sur des donnes parfaitement fiables, de la personne, qui conduit à répartir la popula -nous navons pas retenu dans cette analyse une minorité tion en trois groupes de compétences. Les deux ddei mspulijcetasti oqn u:i  il nse agsite mdeblse pnte rspoansn easv oqiur i arvapioenntd uu n asvceocr e ansusl ez  groupes extrêmes sont orientés directement vers l’orientation (167 personnes) ou un score nul au module ANLCI des exercices d’une difficulté adaptée. Pour le (37 personnes i ) i : n e d n i  effet, il sagit généralement dune suite de « ne groupe Intermédiaire, une deuxième étape sdaui t dpacso u»r aqguementq uqeuntu nsea nasb sdeonuctee  cdoavmapnltatge e dde uc odmspintterncte se.t  dorientation est nécessaire pour savoir si ce sont De mme, nocues  eanv ionns auussi cart les individus qui nont pass   les exercices complexes ou les exercices sim-l a é u c c ri u t n (  1 e 7 x 1 e  r p ci ersonnes v ). oq ant de gros problmes en franais ou
Encadré 1 Lenquête IVQ  et LévaLuation des compétences à Lécrit
Lenquête IVQ  ( Information et Vie Quotidienne ) a été réalisée fin 2004 et début 2005, dans 10 284 ména -ges de France métropolitaine. Dans chacun de ces ménages, une personne de 18 à 65 ans a été tirée au sort pour passer des exercices d’évaluation à l’écrit, en compréhension orale et en calcul et pour répondre à un questionnaire biographique (voir l’article de pré -sentation de ce numéro pour plus de précisions). Les compétences à l’écrit se subdivisent en trois domai -nes : lecture de mots, compréhension de textes et écriture de mots. L’architecture de l’évaluation dans ces domaines est la suivante : - La personne interrogée passe d’abord un exercice d’orientation, assez simple, comportant des questions en lecture de mots et en compréhension de textes écrits (sur un texte court). Des scores dans chacun de ces domaines sont calculés : SL en lecture de mots et SC en compréhension. Ces scores sont le nombre de bonnes réponses aux deux exercices. Les ques -tions étant pondérées de 1 à 3 selon leur difficulté, SL a un maximum de 15 points et SC un maximum de 19 points. - Le processus d’orientation distingue alors trois cas (cf. schéma infra ) :  Les personnes ayant eu de bons résultats en lec --ture de mots   en compréhension à l’exercice d’orientation (soit (SL >11 et SC >16)) passent un « module haut » avec des exercices plus comple -xes en compréhension de textes. - Celles qui ont eu des performances nettement insuffisantes dans l’un de ces deux domaines (soit SL < 11 ou SC < 11) passent le « module ANLCI », qui affine la mesure en lecture de mots, en compré -hension de texte écrit (sur un texte court) et en écri -ture de mots (il s’agit d’écrire une liste de courses).
- Les personnes aux résultats moyens à l’exercice d’orientation (soit (SL >10 et SC >10) et (SL < 12 ou SC < 17)) passent un « module intermédiaire ». Il s’agit en fait de l’exercice de compréhension du module ANLCI. À partir des 11 questions, en utili -sant comme dans le module d’orientation une pon -dération selon la difficulté, ce module donne lieu au calcul d’un score sur 24 points. Si la personne obtient au moins 19 points, elle passe le module haut. Sinon, elle passe le reste du module ANLCI. Du fait d’une erreur informatique, le processus d’orien -tation a été un peu perturbé et quelques individus destinés à passer le module haut ont passé le module ANLCI ou le module intermédiaire. Trois types de compétences face à l’écrit sont éva -lués dans IVQ : la lecture de mots, l’écriture de mots, la compréhension de textes écrits. Ces compéten -ces peuvent être considérées comme distinctes et nécessitent la construction de trois indicateurs dif -férents. Cependant, tous les individus ne passent pas des exercices d’égales longueurs dans ces trois domaines. L’écriture de mots n’est évaluée que pour les personnes repérées en difficulté lors de l’exercice d’orientation ou lors de l’exercice intermédiaire. Il n’est donc pas possible pour celles orientées vers le module haut, la majorité de la population, d’avoir une idée de leurs compétences sur ce point. Tous les indi -vidus passent des questions de lecture de mots dans l’exercice d’orientation, mais s’il s’en trouve d’autres dans le module ANLCI, le module haut, lui, n’en com -porte pas. De plus, cette compétence paraît maîtrisée par presque tout le monde, même parmi les person -nes orientées vers le module ANLCI. Reste le domaine de la compréhension de textes écrits, qui est mieux représenté dans les différentes épreuves :
ÉCONOMIE ET STATISTIQUE N° 424425, 2009
-Groupes « Intermédiaires » : les personnes -Groupe « Intermédiaire Haut » : si les person -obtiennent des résultats moyens à l’exercice nes obtiennent de bons résultats, elles passent le d’orientation. On leur propose alors tout de suite module Haut ; 5 la partie compréhension du module ANLCI : -Groupe « Intermédiaire ANLCI » : si les per -5m. esL.i nAvienrssi,i olnu dnee  ldoersd rper deem iparsessa tqioune sptieounts  pdoes elr eqxueerlcqicuee sd per ocoblm--sonnes obtiennent des résultats insuffisants, elles prhension utilise comme support un CD de musique et porte passent alors le reste du module ANLCI (elles s e u x r e  r le ci  c n e o  m c  o d m u m c e h  a m n o te d u u r l . e D in e t  e n r o m m b d r i e ai u re s  e d s o p n e n r e s n o t n c n o es m p m a e s  s r an p t o  n c s et e   répondent donc aux mêmes questions que les le nom du groupe. Cette rponse est bien moins frquente pour e module ANLCI. En pmeêrsmoen noreds rree l(e5v) a: nto nd fu ercaa sp a1r,f omisa irsé fpéas dans le leefsf etp, erasvoanntn else xoerriceincte edse  dciroemctpermheennt sivoenr,s  lelles ont pass lexer -rence aux cice de lecture de mots, au cours duquel, on leur a demand de « groupes ANLCI », pour désigner les deux pre -lire le nom du groupe. Celui-ci tant alors pour eux bien repr, elles ne vont pas tre tentes de l’attribuer au chanteur, ce qui miers groupes pris ensemble) ; limine donc un « distracteur » et rend la question plus facile.
Encadré 1 (suite)
SL > 11 et SC > 16
SCA > 18 Module d’orientation (SL < 12 Module intermédiaire ou SC < 17) LCeocmtuprreéhdeenmsiootns::SSLC et (SL > 10 et SC > 10) Compréhension : SCA
SCA < 19
SL < 11 ou SC < 11
Module haut Compréhension : SMH
Module ANLCI Compréhension : SC A Lecture de mots : SIA Écriture de mots : SPA
- le module d’orientation comporte 10 items de com -- la compréhension des informations de surface se préhension de textes écrits ; rapproche des questions explicites dans le modèle - le module ANLCI en comporte 11 ; précédent : il s’agit de prélever de l’information ponc -tuelle dans le texte ; - le module Haut en comporte 21, répartis sur 5 exer -cices (l’épreuve comportait initialement un item sup -- la compréhension sous forme propositionnelle plémentaire, mais il a été éliminé lors de l’analyse fine demande une conceptualisation plus grande du des données, car il était de mauvaise qualité). contenu du texte pour répondre aux questions ; l Le module d’orientation et le module ANLCI ont été l -  feosi s qlua ecstoiomnpsr éshuer nlsei omn odduè ltee xdtee  esitt usaat icoonn ferxoingteantit oàn  élaborés par le PsyEF (laboratoire de psychologie de aavec les connaissances préalables. l’université Lyon II) sur les mêmes fondements théori -ques. Portant sur des supports de la vie quotidienne Les « questions implicites » du module d’orientation et  (une page de programme de télévision, un CD de musique), les questions se répartissent selon trois ANLCI semblent relever à la fois de ces deux derniers processus cognitifs :lper omcoesdsulues . ADNeL fCaIç coinb lae slsees z plroogciqesuseu, sil  lsees mplbules  bsiiemnp lqeuse,  - les questions explicites et littérales (la réponse est tandis que le module Haut s’intéresse à des processus telle quelle dans le texte) ; plus complexes. Une analyse plus approfondie devra - les questions explicites et sémantiquement proches cependant être faite lors de la mise en place de la nou -(la réponse dans le texte utilise le même champ lexi -velle enquête. Par ailleurs, le mode de passation est cal) ; différent selon les modules : pour le module d’orienta -- les questions implicites (demandant le recoupement tion et le module ANLCI, l’enquêté a le texte en main et te . c’est l’enquêteur qui lit les questions ; pour le module de différentes informations données par le tex ) haut, s’adressant à des personnes plus à l’aise à l’écrit, Le module Haut a été construit par une équipe de c’est l’enquêté qui lit les questions, posées à côté du l’université Paris V. Il porte sur des supports plus nom -texte et l’enquêteur ne les répète pas lorsqu’il enregis -breux et plus complexes : des graphiques statistiques, tre les réponses dans l’ordinateur. Dans les deux cas une carte routière, un texte long, etc. Les processus cependant, les réponses sont données oralement et évalués sont aussi globalement plus élaborés : non écrites.
ÉCONOMIE ET STATISTIQUE N° 424425, 2009
153
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.