Création d’un score global dans le cadre d’une épreuve adaptative - article ; n°1 ; vol.424, pg 149-178

ECONOMIE_ET_STATISTIQUE0 - Fabrice Murat , Thierry Rocher

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

30 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Economie et statistique - Année 2009 - Volume 424 - Numéro 1 - Pages 149-178
Die Erstellung eines globalen Kompetenzindikators anhand der bei Übungsaufgaben abgegebenen Antworten erfordert besondere statistische Techniken, die komplexer als das bloßen Zählen richtiger Antworten sind. Der Rückgriff auf diese Techniken ist vor allem nützlich, wenn nicht alle bewerteten Personen die gleichen Übungsaufgaben gemacht haben. Dies ist der Fall in der Erhebung Information und Alltag,
bei der die Übungsaufgaben in einem adaptativen Rahmen vorgeschlagen werden, um die Motivation der befragten Personen zu verbessern, insbesondere derjenigen, die die Schule seit langem verlassen haben. Je nach den bei der ersten Übung erzielten Ergebnissen werden danach bei der Erhebung mehr oder weniger schwierige Fragen gestellt. Dieses Verfahren verbessert zwar erheblich die Bedingungen für die Datenerfassung und die Datenqualität, erschwert aber auch die Schätzung eines globalen Kompetenzindikators, der für die gesamte Bevölkerung gültig ist. Denn wie können die Ergebnisse miteinander verglichen werden, wenn nicht alle die gleichen Übungsaufgaben gemacht haben? In diesem Artikel werden unterschiedliche Methoden zur Berücksichtigung dieses Orientierungsverfahrens vorgeschlagen. Getestet werden sie mittels fiktiver Daten, um ihre Robustheit und ihre Grenzen zu analysieren. Der Informationsverlust aufgrund dieses Orientierungsverfahrens ist zwar gering, aber nicht gleich insbesondere bei einer Vielzahl von Personen, bei denen möglicherweise zu schwierigen oder zu leichteren Übungen übergegangen werden muss. Diese Ergebnisse zeigen, dass die Struktur der Übungsaufgaben bei der nächsten Erhebung etwas geändert werden muss.
La construcción de un indicador global de competencia a partir de respuestas a ejercicios requiere técnicas estadísticas específicas, más complejas que el simple recuento de respuestas correctas. El recurso a estas técnicas es particularmente útil cuando todas las personas evaluadas no han pasado las mismas pruebas. Es lo que pasa en la encuesta Información y vida cotidiana
(IVQ), donde se proponen ejercicios en un marco adaptativo para mejorar la motivación de las personas interrogadas, sobre todo de las que terminaron la escuela hace mucho tiempo. En función de los resultados en el primer ejercicio, se planteaban preguntas más o menos difíciles al encuestado. Aunque este procedimiento mejora sensiblemente las condiciones de recogida y la calidad de los datos recogidos, genera particulares dificultades en la estimación de un indicador de competencia global, válido para toda la población. En efecto, ¿ cómo comparar los resultados de poblaciones que no han pasado las mismas pruebas? Este artículo ofrece distintos métodos para tener en cuenta este proceso de orientación. Se han probado con datos ficticios, para estudiar su solidez y sus límites. Aunque la pérdida de información inducida por el proceso de orientación es bastante mínima, con todo no es nula, en particular para un número importante de personas situadas en torno a umbrales de orientación hacia los ejercicios difíciles o hacia los ejercicios fáciles. Estos resultados sugieren algunas ordenaciones en la estructura de las pruebas para la próxima edición de la encuesta.
The construction of an overall skill indicator from answers to test exercises requires special statistical methods that are more complex than the mere tabulation of correct answers. Such methods are particularly useful when the persons assessed have not all taken the same tests. That is the case with the 2004 Information and Daily Life Survey (Information et Vie Quotidienne: IVQ), in which the exercises were adapted to the respondent’s skill level in order to increase motivation, particularly for respondents who had left school a long time earlier. The results of the first test were used to set the difficulty of subsequent questions. This “orientation” procedure substantially improves collection conditions and data quality, but it generates special difficulties for estimating an overall skill indicator valid for the entire population. How can we compare results for groups that have not taken the same tests? Our article suggests various methods to allow for the orientation procedure. We tested them on fictitious data to assess their robustness and limits. This information loss caused by orientation is rather modest but not null— particularly for a significant number of persons situated around the threshold levels where they are channelled toward the hard tests or the easy tests. These results suggest some adjustments that should be made in the test structure for the next edition of the Survey.
La construction d’un indicateur global de compétence à partir de réponses à des exercices fait appel à des techniques statistiques spécifiques, plus complexes que le simple comptage des bonnes réponses. Le recours à ces techniques est particulièrement utile quand tous les individus évalués n’ont pas passé les mêmes épreuves. C’est le cas dans l’enquête Information et Vie Quotidienne,
où les exercices sont proposés dans un cadre adaptatif, pour améliorer la motivation des personnes interrogées, surtout de celles qui sont sorties depuis fort longtemps de l’école. En fonction des résultats au premier exercice, l’enquêté se voyait proposer des questions plus ou moins difficiles. Si cette procédure améliore sensiblement les conditions de collecte et la qualité des données recueillies, elle engendre des difficultés particulières lors de l’estimation d’un indicateur de compétence global, valable pour toute la population. En effet, comment comparer les résultats de populations n’ayant pas passé les mêmes épreuves? Cet article propose différentes méthodes pour tenir compte de ce processus d’orientation. Elles sont testées sur des données fictives, pour en étudier la robustesse et les limites. Si la perte d’information induite par le processus d’orientation est assez minime, elle n’est cependant pas nulle, en particulier pour un nombre important de personnes se situant autour des seuils d’orientation vers les exercices difficiles ou vers les exercices faciles. Ces résultats suggèrent quelques aménagements dans la structure des épreuves pour la prochaine édition de l’enquête.
30 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Sujets

Sciences et techniques

Informations

Publié par	ECONOMIE_ET_STATISTIQUE0
Publié le	01 janvier 2009
Nombre de lectures	10
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

ENSEIGNEMENT - ÉDUCATION

Créatin dun scre glbal dans le cadre dune épreuve adaptative Fabrice Murat* et Thierry Rcher**

La construction dun indicateur global de compétence à partir de réponses à des exer-cices fait appel à des techniques statistiques spéciﬁques, plus complexes que le simple comptage des bonnes réponses. Le recours à ces techniques est particulièrement utile quand tous les individus évalués nont pas passé les mêmes épreuves. Cest le cas dans lenquêteInformation et Vie Quotidienne, où les exercices sont propo-sés dans un cadre adaptatif, pour améliorer la motivation des personnes interrogées, sur-tout de celles qui sont sorties depuis fort longtemps de lécole. En fonction des résultats au premier exercice, l’enquêté se voyait proposer des questions plus ou moins difﬁciles. Si cette procédure améliore sensiblement les conditions de collecte et la qualité des données recueillies, elle engendre des difﬁcultés particulières lors de l’estimation d’un indicateur de compétence global, valable pour toute la population. En effet, comment comparer les résultats de populations n’ayant pas passé les mêmes épreuves ? Cet article propose différentes méthodes pour tenir compte de ce processus dorien-tation. Elles sont testées sur des données ﬁctives, pour en étudier la robustesse et les limites. Si la perte d’information induite par le processus d’orientation est assez minime, elle n’est cependant pas nulle, en particulier pour un nombre important de personnes se situant autour des seuils d’orientation vers les exercices difﬁciles ou vers les exercices faciles. Ces résultats suggèrent quelques aménagements dans la structure des épreuves pour la prochaine édition de lenquête.

* Au moment de la rédaction de cet article, Fabrice Murat travaillait à la division Emploi de lInsee. ** Thierry Rocher travaille à la Direction de lévaluation, de la prospective et de la performance, du ministère de lÉducation nationale

ÉCONOMIE ET STATISTIQUE N° 424425, 2009

149

150

L(eInVqQuê)et echIrncfhoer màaétivoanl ueetr lVeise cQoumoptiédtieenncnees face à l’écrit d’une population d’adultes, quels que soient leur rapport à l’écrit, leur maîtrise de la langue française, leur niveau d’éduca-tion, etc. Les compétences visées se situent sur un assez large spectre, du décodage de mots simples à la compréhension de limplicite dun texte. Le caractère très hétérogène de la population évaluée a ainsi motivé le recours à un questionnement en deux temps, avec un processus dorientation. En fonction de ses résultats au premier exercice, l’enquêté se voit proposer des questions plus ou moins difﬁci-les. Cette adaptation est apparue indispensable lors des tests sur le terrain : des questions trop difﬁciles découragent les individus les moins compétents ; des exercices trop simples démo-tivent les meilleurs ou les incitent à chercher des pièges (Vallet et al., 2002). Ce choix amé-liore la qualité de la mesure, mais il complique la construction d’un score global, valable pour tous les individus. De manière plus générale, ce protocole s’ins-crit dans une démarche detest adaptatif. Dès la naissance des premiers tests psychologiques, au début du XXesiècle, il est apparu intéressant d’adapter le niveau de difﬁculté des épreuves au niveau de compétences des individus. Le prin-cipe est le suivant : on présente à chaque indi-vidu un exercice ; s’il échoue, on lui présente un exercice plus facile ; s’il réussit, on lui présente un exercice plus difﬁcile. Ce processus itératif conduit à une estimation plus précise - et plus rapide - du niveau de compétence de chaque individu. Avec le développement de linforma-tique, cette procédure s’est répandue (Wainer, 2000). À chaque item, suivant la réponse de l’individu, son niveau de compétence est ré-estimé et lordinateur propose un nouvel item dont la difﬁculté correspond à ce niveau. Il est également possible de proposer plusieurs items, notamment en compréhension de l’écrit, où un même texte fait généralement lobjet de plu-sieurs questions. La contrainte principale de ce type de procédure est qu’il est nécessaire d’avoir estimé au préalable la difﬁculté d’un grand nombre ditems. Cela suppose que chaque item ait été passé par un échantillon représenta-tif de la population visée, que sa difﬁculté ait été estimée et enregistrée dans unebanque ditems, parmi lesquels il sera possible de choisir le plus approprié lors de la procédure de test adaptatif. La constitution dune telle banque implique un coût ﬁnancier très important, qui limite la mise en pratique des tests adaptatifs (1).

Il existe d’autres stratégies d’adaptation, moins exigeantes. Cest le cas par exemple de la pro-cédure en deux temps avec un test dorien -tation (two-stage testing) adoptée dansIVQ. Ladaptation des items nest pas faite indivi-duellement mais pour des groupes dindividus déterminés en fonction de leurs résultats à un test dorientation. Cette procédure est moins contraignante en pratique. Le recours à lordina-teur nest pas requis. Elle a lavantage de pou-voir être appliquée pour une passation collec-tive de tests papier-crayon, comme par exemple les tests de la Journée dAppel de Préparation à la Défense (Rocher, 2004). Elle ne nécessite pas d’estimer au préalable la difﬁculté des items et donne potentiellement des résultats plus précis que ceux obtenus par un seul test, dans le cas où les niveaux de compétence sont très dispersés (Lord, 1980).1 Au-delà des aspects pratiques, cette procédure se justiﬁe également sur le plan théorique. Les dimensions cognitives ﬁnes que l’on souhaite évaluer ne sont pas forcément les mêmes selon les niveaux de compétences. Pour les personnes en difﬁculté face à l’écrit, il convient d’insis-ter sur le décodage des mots par exemple (per-mettant d’étudier la maîtrise des mécanismes de base de l’écriture), alors que pour les autres personnes, différents aspects de la compréhen-sion pourront être plus ﬁnement évalués. Ainsi, ce n’est pas seulement la difﬁculté du test qui est adaptée, mais la nature même de ce qu’il est censé mesurer. Mais cette perspective remet en cause la démar-che consistant à établir une échelle commune sur laquelle seront placés tous les individus. Quelle est la validité dun score global si les éléments du test renvoient à des dimensions différentes ? Cela suppose que les individus peuvent être classés sur uncontinuum unidi-mensionnel, en fonction de leurs réponses aux items, qui contribuent chacun à la mesure d’une même dimension cognitive (2).2En l’occurrence, 1. Autre difﬁculté, il faut aussi que la réponse de l’individu soit cor-rigée immédiatement, ce qui rend difﬁcile le recours à un codage manuel et impose une procédure destimation des compétences intégrée à l’outil de collecte, ce qui peut poser problème. 2. Postuler « lundimensionnalité » dun ensemble de données revient à supposer qu’elles peuvent être « engendrées » par une seule variable, selon un modèle statistique déterminé. Le carac-tère unidimensionnel ou multidimensionnel des tests psychologi -ques cherchant à mesurer l’intelligence est une question centrale de la psychométrie, ayant fait lobjet dune des premières grandes controverses de ce domaine entre Spearman et Thurstone : les mêmes données analysées par ces deux chercheurs ont pu appa- raître grossièrement structurée autour dune dimension domi -nante ou au contraire relever de plusieurs facteurs. La question de la « réalité » psychique ou physique de ces facteurs est un autre grand sujet de débat de la psychologie cognitive (Gould, 1987).

ÉCONOMIE ET STATISTIQUE N° 424425, 2009

l’hypothèse envisagée ici est que tous les items dIVQ sur la compréhension de lécrit portant mesurent une même dimension, que ce soient ceux destinés aux personnes en difﬁculté ou ceux qui sadressent aux « bons lecteurs ». Lunidimensionnalité est envisagée ici comme la présence dune dimension dominante (Blais et Laurier, 1997). S’il existe un cadre formel pour tester cette hypothèse (Stout, 1990), il est impossible de lappliquer àIVQ, dans la mesure où les individus, selon leur niveau, ne passent pas les mêmes items. Le score global aux épreuves de compréhension de lécrit de lenquêteIVQ est donc ici perçu comme un indicateur synthétique des compé-tences des individus face à lécrit. Ce score pré-sente certainement assez peu dintérêt pour le psychologue, qui préférera procéder à une ana-lyse plus ﬁne des réponses aux items (Megherbi et al., ce numéro), mais il a l’avantage de pou-voir être plus facilement confronté aux carac-téristiques des individus, dans une perspective d’analyse économique ou sociologique. Dans ce cadre, le problème posé par la construction d’un tel score est de nature statistique. Comment tenir compte alors du fait que tous les individus, selon leurs résultats, ne passent pas les mêmes exercices ? La dépendance entre le processus dorientation et le niveau de compé-tence de la personne, estimé approximativement par l’exercice d’orientation, rend assez délicate lestimation de ce niveau. Différentes techni-ques sont possibles pour synthétiser l’ensem-ble des réponses aux exercices. Généralement, cet ensemble peut être représenté comme une matrice de réponses, appelée aussi matrice de Stern, souvent réduite à une distinction entre les « bonnes » réponses, les « mauvaises » réponses et les absences de réponses (3). On peut distin-guer très grossièrement trois familles principa-les de techniques (Bernier, Pietrulewicz, 1997 et Dickeset al., 1994) : - classique lanalyse: elle consiste à simple-ment considérer le nombre de bonnes réponses comme indicateur de compétence du sujet ou comme indicateur de difﬁculté d’un item. Pour calculer les scores individuels, on peut éven-tuellement avoir recours à une pondération des différents items, par exemple en fonction de leur difﬁculté. Cette analyse est souvent complétée par celle de la corrélation entre chaque item et le score global, comme mesure de sa « qualité ». - lanalyse factorielle : l’analyse factorielle a, on le sait, été développée par Spearman pour

ÉCONOMIE ET STATISTIQUE N° 424425, 2009

analyser les réponses à des tests d’intelligence. Cette technique est encore assez largement uti-lisée pour explorer la structure dun ensemble d’items. En revanche, elle sert moins lors de la phase de construction proprement dite des sco-res. - modèles de réponse à litem les: de plus en plus diffusés, ces modèles logistiques posent de façon plus claire que dans l’analyse classi-que, le caractère latent de la compétence. Ils cherchent à paramétrer de façon indépendante la compétence des individus et la difﬁculté des items. On peut ainsi comparer le fonctionne-ment de la même épreuve sur deux populations différentes ; il est aussi possible dancrer assez facilement deux épreuves différentes lune sur l’autre, pour peu qu’elles aient un minimum ditems en commun.3 Lobjectif de cet article est dappliquer ces tech-niques sur les données dIVQ, aﬁn d’aboutir à la construction dun score global en compréhen -sion de l’écrit, valable pour toute la population. La principale difﬁculté rencontrée tient à l’exis-tence de « trous » dans la matrice des réponses, ces lacunes nétant pas aléatoires : on ignore les réponses que les personnes orientées vers les exercices simples auraient données sur les exercices complexes. Supposer un échec com-plet apparaît vite comme une hypothèse trop forte. On proposera donc plusieurs solutions à ce problème, en incluant l’usage des modèles de réponse à l’item. L’analyse des différents scores obtenus portera sur leur distribution ou leur cor-rélation avec les caractéristiques des individus. Cette confrontation est à la fois une validation (une corrélation forte avec le diplôme est atten-due, par exemple) et une illustration de la sensi-bilité des résultats aux hypothèses retenues lors de la construction des indicateurs. Enﬁn on pré-sentera une simulation de type Monte Carlo, sur données ﬁctives, proches de celles d’IVQ, pour lesquelles lensemble des données sera dispo -nible. Des « trous » seront « creusés » dans ces données de façon similaire à la procédure dIVQ et on comparera les résultats obtenus suivant les différentes techniques, avec les scores tenant compte de lensemble de linformation initiale. Ces simulations donneront une idée des consé-quences du caractère adaptatif des épreuves sur 3. On ne s’intéresse bien sûr ici qu’aux procédures d’évaluation dans des enquêtes statistiques. Dans le cadre scolaire habituel, les évaluations faites par les professeurs, les notes, ne sont pas aussi facilement décomposables en processus élémentaires (pensons à la correction dune dissertation, notamment). De plus, comme la montré Merle (1996), les notes névaluent pas toujours uniquement le résultat obtenu, mais parfois aussi les progrès accomplis ou les efforts fournis.

151