Des mécanismes pour assurer la validité de l
124 pages
Français

Vous pourrez modifier la taille du texte de cet ouvrage

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation : Interdisciplinarité de la mesure et de l'évaluation - Volume 4

-

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
124 pages
Français

Vous pourrez modifier la taille du texte de cet ouvrage

Description

Ce livre est le dernier d’une série de quatre ouvrages portant sur les mécanismes pour assurer la validité de l’interprétation de la mesure en éducation. Il est constitué de textes inédits de la part des auteurs ou de textes issus de colloques en mesure et évaluation en éducation qui ont eu lieu lors des 79e et 80e congrès annuel de l’Association francophone pour le savoir (ACFAS).
L’interdisciplinarité de la mesure et de l’évaluation est le thème du présent ouvrage : l’éducation, la criminologie et les sciences médicales sont plus spécifiquement considérées. Ce quatrième volume se divise en deux parties : la première s’intéresse aux considérations méthodologiques tandis que la seconde présente des applications en évaluation. Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation s’adresse donc à tout intervenant du milieu scolaire, soit aux professeurs-chercheurs, aux enseignants, aux conseillers pédagogiques et aux étudiants de cycles supérieurs.
Gilles Raîche est professeur au Département d’éducation et pédagogie de l’Université du Québec à Montréal. Il se spécialise dans le domaine de la mesure et de l’évaluation en éducation. Il a été directeur de la revue Mesure et évaluation en éducation, rédacteur en chef de la Revue des sciences de l’éducation, est actuellement directeur du Collectif pour le développement et les applications en mesure et évaluation (Cdame) et directeur de la collection «Mesure et évaluation» aux Presses de l’Université du Québec.
Nadine Talbot est professeure au Département des sciences de l’éducation à l’Université du Québec à Trois-Rivières. Son domaine de spécialisation est la mesure et de l’évaluation en éducation.

Sujets

Informations

Publié par
Date de parution 07 octobre 2020
Nombre de lectures 0
EAN13 9782760544628
Langue Français
Poids de l'ouvrage 2 Mo

Informations légales : prix de location à la page 0,0052€. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Exrait

La collection Mesure et évaluation soutient la diffusion de recherches et de travaux fondamentaux, ainsi que de matériel didactique pour les niveaux collégial et universitaire, dans le domaine de la mesure et de l’évaluation en éducation et, plus largement, en sciences humaines.
Les nouveaux enjeux sociétaux et les besoins émergents des milieux de pratique demandent aux intervenants d’être informés des avancées récentes afin de les soutenir dans leur travail. Mesure et évaluation offre aussi aux chercheurs un moyen de partager les résultats de leurs travaux avec ces intervenants tout en faisant progresser la recherche, que ce soit en matière de mesure et d’évaluation des apprentissages, de programmes ou encore de méthodologie de recherche.
Les textes publiés sont soumis à un processus d’arbitrage avec le soutien d’évaluateurs externes. La collection Mesure et évaluation souscrit à l’adaptation canadienne-française, par la Revue des sciences de l’éducation, des règles de publication de l’American Psychological Association.

Presses de l’Université du Québec
Le Delta I, 2875, boulevard Laurier, bureau 450, Québec (Québec) G1V 2M2
Téléphone : 418 657-4399
Télécopieur : 418 657-2096
Courriel : puq@puq.ca
Internet : www.puq.ca
Diffusion / Distribution :

C ANADA
Prologue inc., 1650, boulevard Lionel-Bertrand, Boisbriand (Québec) J7H 1N7 Tél. : 450 434-0306 / 1 800 363-2864
F RANCE ET B ELGIQUE
Sofédis, 11, rue Soufflot, 75005 Paris, France – Tél. : 01 53 10 25 25 Sodis, 128, avenue du Maréchal de Lattre de Tassigny, 77403 Lagny, France – Tél. : 01 60 07 82 99
S UISSE
Servidis SA, Chemin des Chalets 7, 1279 Chavannes-de-Bogis, Suisse – Tél. : 022 960.95.25
Diffusion / Distribution (ouvrages anglophones) :
Independent Publishers Group, 814 N. Franklin Street
Chicago, IL 60610 – Tel. : (800) 888-4741


La Loi sur le droit d’auteur interdit la reproduction des œuvres sans autorisation des titulaires de droits. Or, la photocopie non autorisée – le « photocopillage » – s’est généralisée, provoquant une baisse des ventes de livres et compromettant la rédaction et la production de nouveaux ouvrages par des professionnels. L’objet du logo apparaissant ci-contre est d’alerter le lecteur sur la menace que représente pour l’avenir de l’écrit le développement massif du « photocopillage ».

Catalogage avant publication de Bibliothèque et Archives nationales du Québec et Bibliothèque et Archives Canada
Titre : Des mécanismes pour assurer la validité de l’interprétation de la mesure en éducation / sous la direction de Gilles Raîche et Nadine Talbot.
Noms : Raîche, Gilles, 1956- éditeur intellectuel. | Talbot, Nadine, 1968- éditeur intellectuel. | Congrès de l’ACFAS (79e) | Congrès de l’ACFAS (80e)
Collections : Collection Mesure et évaluation ; 12.
Description : Mention de collection : Collection Mesure et évaluation ; 12 | Textes présentés lors de colloques tenus dans le cadre des 79 e et 80 e congrès annuels de l’Association francophone pour le savoir (ACFAS). | Comprend des références bibliographiques. | Sommaire incomplet : volume 4. Interdisciplinarité de la mesure et de l’évaluation.
Identifiants : Canadiana (livre imprimé) 20119407728 | Canadiana (livre numérique) 20200226584 | ISBN 9782760544604 (vol. 4) | ISBN 9782760544611 (PDF : vol. 4) | ISBN 9782760544628 (EPUB : vol. 4)
Vedettes-matière : RVM : Tests et mesures en éducation—Évaluation—Congrès. | RVM : Tests et mesures en éducation—Validité—Congrès. | RVM : Tests et mesures en éducation—Interprétation des résultats—Congrès. | RVMGF : Actes de congrès.
Classification : LCC LB3050.5.D47 2009 | CDD 371.2601/3—dc23


Révision
Gislaine Barrette
Correction d’épreuves
Virginie Chaloux-Gendron
Conception graphique
Richard Hodgson
Image de couverture
iStock
Mise en page
Marie-Noëlle Morrier
Dépôt légal : 4 e trimestre 2020
› Bibliothèque et Archives nationales du Québec
› Bibliothèque et Archives Canada
© 2020 – Presses de l’Université du Québec
Tous droits de reproduction, de traduction et d’adaptation réservés
D4460-1 [01]
LISTE DES FIGURES
FIGURE 1.1 Modélisations logistiques à un, deux, trois et quatre paramètres : courbes caractéristiques d’item
FIGURE 1.2 Courbes caractéristiques du test selon quatre patrons de réponses (modélisation logistique à trois paramètres)
FIGURE 1.3 Analyse parallèle (deux facteurs sont relevés)
FIGURE 1.4 Courbes caractéristiques des dix items à réponses dichotomiques de l’épreuve de désirabilité sociale (modélisation logistique à un paramètre de Rasch)
FIGURE 1.5 Fonctionnement différentiel des items selon la variable sexe
FIGURE 1.6 Précision selon l’erreur type et l’information en fonction de la valeur du trait latent
FIGURE 2.1 Vignette – Dimension connaître / sous-dimension attentes
FIGURE 3.1 Démarche d’une méta-analyse
FIGURE 3.2 Représentations graphiques utiles à l’interprétation des résultats de la méta-analyse avec effets aléatoires
FIGURE 4.1 Différents effets de l’introduction d’une intervention sur une série chronologique
FIGURE 4.2 Résultats aux analyses de bornes extrêmes
FIGURE 5.1 Un premier test du « jeu de cuisine » dans une classe
FIGURE 5.2 La coupe des légumes
FIGURE 5.3 Le maître donne son appréciation
FIGURE 5.4 Les appréciations du maître sont traitées
FIGURE 5.5 Résultats préliminaires de performance des élèves de cinquième secondaire de quatre écoles
FIGURE 6.1 Cadre conceptuel de la recherche
FIGURE 7.1 Le domaine de l’évaluation hiérarchique des apprentissages
FIGURE 7.2 Le modèle de recherche-développement (R-D) de Harvey et Loiselle
FIGURE 7.3 Fonctionnalités de l’application Cluster
FIGURE 7.4 Écran d’affichage de la progression des étudiants dans un cours ou feuille de route
FIGURE 7.5 Formulaire d’évaluation des membres de l’équipe
FIGURE 7.6 Menu des fonctionnalités de l’agrégation
FIGURE 7.7 Formulaire de formation des équipes ou d’agrégation
FIGURE 9.1A Graphique des valeurs propres de la matrice des corrélations polychoriques et analyse parallèle selon une analyse en composantes principales
FIGURE 9.1B Graphique des valeurs propres de la matrice des corrélations polychoriques et analyse parallèle selon une analyse factorielle exploratoire
FIGURE 9.2 Courbe d’information pour l’ensemble du questionnaire
FIGURE 9.3 Histogramme des erreurs types et des scores (0) d’adéquation perçue
LISTE DES TABLEAUX
TABLEAU 1.1 Items du questionnaire adapté de désirabilité sociale
TABLEAU 1.2 Sélection des modèles selon les critères d’information
TABLEAU 1.3 Indices de dépendance locale Q 3
TABLEAU 1.4 Paramètres d’items selon les modélisations logistiques de Rasch et à deux paramètres
TABLEAU 1.5 Comparaison des paramètres d’items b par groupe pour la variable sexe et statistique CDRF
TABLEAU 2.1 Dimensions de la compétence interculturelle
TABLEAU 2.2 Spécificités des compétences et caractéristiques des TCS
TABLEAU 2.3 Éléments de réflexion
TABLEAU 3.1 Catégories de biais
TABLEAU 3.2 Interprétation de d c
TABLEAU 3.3 Interprétation de la taille de l’effet calculée à partir de la valeur absolue du coefficient de corrélation de Pearson
TABLEAU 3.4 Quelques formules de transition entre différents indices de la taille de l’effet
TABLEAU 3.5 Formules de transition entre les différents indices statistiques
TABLEAU 3.6 Corrélation, comme mesure de la taille de l’effet, entre la rétroaction et la performance scolaire
TABLEAU 6.1 Dimensions et indicateurs des pratiques, comportements ou attitudes en matière d’alphabétisme
TABLEAU 9.1 Lien entre les cadres de référence PIEA, Scallon, Tardif et Baartman et al
TABLEAU 9.2 Statistiques descriptives pour chacune des variables à l’étude
TABLEAU 9.3 Valeurs propres issues d’une analyse parallèle selon une analyse en composantes principales et une analyse factorielle exploratoire
TABLEAU 9.4 Coefficients de saturation et communautés obtenus à la solution factorielle à un facteur
TABLEAU 9.5 Paramètres du niveau d’adéquation perçue et de discrimination
LISTE DES ABRÉVIATIONS

AAF
Armes à feu
AIC
Critère d’information d’Akaike
ANAES
Agence nationale d’accréditation et d’évaluation en santé
ANESM
Agence nationale d’évaluation des établissements sociaux et médico-sociaux
ARS
Agences régionales de santé
BIC
Critère d’information bayésien
CDRF
Indice de fonctionnement différentiel de l’item (Compensatory Differential Response Functioning)
CHUM
Centre hospitalier de l’Université de Montréal
CI
Compétence interculturelle
EAO
Évaluation assistée par ordinateur
EIAA
Enquête internationale sur l’alphabétisation des adultes
EPP
Évaluation des pratiques professionnelles
ESSMS
Établissements et services sociaux et médico-sociaux
HAS
Haute Autorité en santé
HbA1c
Hémoglobine glyquée
IMC
Indice de masse corporelle
KMO
Indice de Kaiser-Myer-Olkin
LabMECAS
Laboratoire mobile pour l’étude des cheminements d’apprentissage en sciences
MSA
Indice d’adéquation échantillonnale (Measure of Sampling Adequacy)
PIEA
Planification Intégration Équité Authenticité
PISA
Programme international pour le suivi des acquis des élèves (Program for International Student Assessment)
TCS
Tests de concordance de scripts
INTRODUCTION
Gilles Raîche, Université du Québec à Montréal
Ce volume est le dernier de la série, soit le 4 e , sur les mécanismes pour assurer la validité de l’interprétation de la mesure en éducation. Il est constitué de textes non publiés ou issus de colloques en mesure et évaluation en éducation tenus lors des 79 e et 80 e congrès annuel de l’Association francophone pour le savoir (Acfas). L’interdisciplinarité de la mesure et de l’évaluation est le thème du volume : l’éducation, la criminologie et les sciences médicales sont plus particulièrement considérées. L’ouvrage est divisé en deux parties. La première s’intéresse aux considérations méthodologiques tandis que la seconde présente des applications en évaluation. Nous désirons souligner la contribution à la réalisation de cet ouvrage de la professeure Nathalie Loye de l’Université de Montréal (UdeM). Les prochaines lignes présentent de façon séquentielle le contenu des chapitres.
La section associée à la méthodologie est constituée de quatre chapitres. Dans le premier, Raîche introduit les modélisations issues de la théorie de la réponse à l’item (TRI) et donne un exemple de leur application. Pour simplifier la présentation, seulement les modélisations à réponses dichotomiques sont abordées. Celles-ci sont requises lorsqu’on désire réaliser une analyse factorielle confirmatoire avec des variables manifestes discrètes et élaborer des échelles de mesure à l’aide de telles variables : l’analyse factorielle classique n’est alors pas appropriée, car elle requiert des variables manifestes continues.
Ensuite, au chapitre 2 , Simoes Forte et Dionne présentent les tests de concordance de scripts et les illustrent par l’évaluation du développement de la compétence interculturelle chez les étudiants à la formation des maîtres en médecine. Les tests de concordance de scripts sont fort utiles dans les domaines professionnels pour avoir recours à des mises en situation en contexte d’évaluation des apprentissages.
Au chapitre 3 , Talbot et Raîche présentent une stratégie statistique pertinente lorsqu’on est confronté à des recherches dont la méthodologie diffère et dont les résultats sont présentés selon différentes unités de mesures statistiques. La stratégie considérée est la méta-analyse. Une illustration de l’application de celle-ci en éducation termine le chapitre.
La partie sur la méthodologie se conclue par une discussion de Linteau et Blais au regard des limites méthodologiques des études évaluant l’effet des lois canadiennes en matière de contrôle des armes à feu sur les homicides. La crédibilité de l’interprétation de leurs résultats est remise en question. Deux stratégies permettant de surmonter en partie ces limites sont présentées. La première est l’analyse des bornes extrêmes et par la deuxième est la stratégie de la régression segmentée. Une illustration de l’utilisation de ces deux stratégies est effectuée à partir du cas de la loi C-68 sur les homicides au Québec introduite en décembre 1995.
La seconde partie de l’ouvrage est constituée de cinq chapitres. Potvin, Charland, Riopel, Boucher-Genesse et Loubaki décrivent, au chapitre 5 , la nature, la conception et l’évaluation préliminaire d’un jeu informatisé a-disciplinaire développé dans l’objectif d’obtenir une évaluation assistée par ordinateur de la compétence transversale de résolution de problèmes scientifiques. Le jeu utilisé consiste en une simulation non stochastique qui exige de l’utilisateur qu’il parvienne à « cuisiner » une soupe susceptible de satisfaire un goûteur virtuel.
Au chapitre six, Bouffard et Solar s’intéressent à l’évaluation de la littératie et de l’éducation à l’autogestion du diabète. Un questionnaire sur les données sociodémographiques et des instruments de mesure ont été utilisés pour évaluer les connaissances sur le diabète et ses complications, les comportements d’autogestion ainsi que les attitudes face à la maladie. L’utilisation de ces outils a permis de vérifier que la formation offerte a eu un effet positif sur le développement des compétences d’autogestion chez les patients.
Dans le septième chapitre, Lesage et Raîche présentent le développement d’une application informatique permettant de mettre en œuvre une stratégie d’évaluation hiérarchique des apprentissages. L’application a été expérimentée avec des cadets de l’armée canadienne. Une stratégie d’évaluation hiérarchique des apprentissages comporte plusieurs niveaux de hiérarchisation et de supervision. On peut prendre pour exemple la formation d’équipes à plusieurs niveaux de hiérarchisation, la présentation d’examens ou de tâches d’évaluation complexes en mode collaboratif.
Dans le chapitre huit, Brusq compare le modèle d’évaluation des établissements du secteur psychiatrique et celui du secteur médicosocial en France. Une analyse de contenu des textes de loi et du manuel de certification des établissements de santé est effectuée. Les résultats de cette analyse montrent qu’une influence réciproque des agences d’évaluation tend à développer des démarches processuelles innovantes.
Dans le neuvième et dernier chapitre, Talbot s’inscrit dans une démarche de validation du concept de l’adéquation des pratiques d’évaluation des apprentissages à l’approche par compétences tel que mesuré par un questionnaire. L’objectif est plus précisément de modéliser les réponses au questionnaire selon le modèle gradué de Samejima, issu de la théorie de la réponse à l’item.
PARTIE 1
MÉTHODOLOGIE
CHAPITRE 1

Élaboration d’échelles de mesure à l’aide des modélisations pour réponses dichotomiques issues de la théorie de la réponse à l’item 1
Gilles Raîche, Université du Québec à Montréal
On recourt généralement à l’analyse factorielle pour construire des instruments de mesure et analyser des données manifestes continues. Or, l’élaboration d’échelles de mesure en sciences humaines repose la plupart du temps sur l’utilisation de variables manifestes discrètes. Par conséquent, l’analyse factorielle classique ne peut être appliquée à de telles données. C’est pourquoi des modélisations issues de la théorie de la réponse à l’item ont été proposées. Ce chapitre a pour objectif d’introduire ces modélisations et de fournir un exemple de leur application. Pour simplifier la présentation, seules les modélisations à réponses dichotomiques seront abordées.
L’analyse factorielle exploratoire ainsi que l’analyse factorielle confirmatoire visent principalement à découvrir la structure latente, derrière un ensemble de variables manifestes continues. En sciences humaines, il est toutefois fréquent que nous travaillions avec des variables manifestes discrètes plutôt que continues. Malheureusement, on triche souvent en appliquant les calculs de l’analyse factorielle, confirmatoire ou exploratoire, à ces ensembles de données discrètes. Heureusement, les modélisations issues de la théorie de la réponse à l’item permettent de tenir compte de cette contrainte.
Soulignons que, puisque dans celles-ci le nombre de facteurs est fixé à l’avance, les modélisations issues de la théorie de la réponse à l’item renvoient strictement à une approche confirmatoire de l’analyse factorielle. De plus, ce qui intéresse surtout ses utilisateurs, c’est l’obtention de scores factoriels et beaucoup moins la découverte de la structure latente. On s’intéresse ainsi bien plus à l’élaboration d’échelles de mesure qu’à celle des théories explicatives de la structure des concepts sous-jacents aux variables discrètes manifestes. Cela ne signifie pas que les modélisations issues de la théorie de la réponse à l’item ne peuvent pas être utilisées pour étudier les structures latentes, au contraire.
Plusieurs avantages découlent des modélisations issues de la théorie de la réponse à l’item. Premièrement, le niveau du trait latent et l’attrait pour la réponse à chacun des items du test peuvent être interprétés sur la même échelle de mesure. Ensuite, il y a une invariance de la mesure du trait latent des personnes par rapport aux items administrés, ce qui permet l’administration de tests adaptatifs (Raîche, 2004 ; Wainer, 2000) ou encore de versions équivalentes d’un test (Holland et Wainer, 1993 ; Kolen et Brennan, 2014). Il est aussi possible de proposer des stratégies de détection de patrons de réponses inappropriés (Raîche et al., 2012), de modéliser le niveau de sévérité des évaluateurs (modélisation à facettes) (Linacre, 1994) ou encore de permettre la production automatisée d’items selon des paramètres prédéfinis (Irvine et Kyllonen, 2002).
Comme pour les analyses factorielles exploratoires et confirmatoires, les interprétations des modélisations issues de la réponse à l’item sont limitées par le respect de certains postulats et conditions d’application que nous verrons en détail plus loin dans ce chapitre, soit l’indépendance locale et l’invariance factorielle.
Dans ce qui suit, nous allons présenter en premier lieu les modélisations unidimensionnelles pour réponses dichotomiques issues de la théorie de la réponse à l’item. Une application de ces modélisations sera ensuite effectuée sur une version abrégée de l’épreuve de désirabilité sociale de Crowne et Marlowe (1960). La syntaxe R pour réaliser les analyses sera fournie par un lien Web.
Le chapitre se terminera par un survol des diverses applications possibles de ces modélisations ainsi que par l’identification de logiciels aptes à effectuer les calculs nécessaires.
1. MODÉLISATIONS POUR ITEMS À RÉPONSES DICHOTOMIQUES
Plusieurs modélisations de la réponse à l’item ont été proposées (de Ayala, 2009 ; Thissen et Steinberg, 1986 ; Van der Linden et Hambleton, 1997). Pour les fins du présent chapitre, nous ne nous intéresserons qu’aux modélisations destinées aux items à réponses dichotomiques : par exemple, bonne ou mauvaise réponse à une question à une épreuve d’habileté cognitive, attrait ou non pour un objet ou encore adhésion ou non à un énoncé. Pour assurer l’uniformité du texte et en simplifier la compréhension, nous utiliserons la notion d’attrait eu égard à un item. Les mêmes principes s’appliquent aux items à réponses polytomiques ordonnées ou à réponses nominales, mais les modélisations associées sont toutefois plus complexes à présenter (Van der Linden et Hambleton, 1997). En outre, nous nous limiterons à la présentation des modélisations unidimensionnelles, car elles sont mieux adaptées à l’élaboration d’échelles de mesure simples, même si des extensions multidimensionnelles ont déjà été proposées (Reckase, 2009).
Deux familles de modélisations de réponses à l’item se sont développées parallèlement dans les années 1960 : la théorie de la réponse à l’item et le modèle de Rasch. La théorie de la réponse à l’item propose plusieurs modélisations qui peuvent s’adapter à la nature des items constituant l’échelle de mesure. Ces modélisations reposent sur l’idée qu’on doit adapter la modélisation à la nature des items et au contexte de la mesure. Cette position est très utile quand on applique une approche d’explication des patrons de réponses. Les tenants du modèle de Rasch contestent toutefois cette position et jugent qu’il est préférable de retirer ou de modifier les items qui ne se conforment pas à la modélisation à un paramètre où seul le niveau de difficulté de l’item est pris en considération (Rasch, 1960). Dans cette dernière approche, plus près des praticiens, on s’intéresse bien plus à l’élaboration des tests qu’à l’explication du fonctionnement des items d’un test.
Nous allons maintenant présenter les modèles les plus courants pour modéliser la réponse à l’item. À cette fin, les modélisations logistiques à un, deux, trois et quatre paramètres seront décrites.
1.1. Introduction aux modélisations
Les modélisations issues de la théorie de la réponse à l’item sont toutes basées sur un modèle probabiliste qui permet de calculer la probabilité qu’a une personne de fournir un choix de réponses particulier à un item. Cette probabilité est conditionnelle au niveau possédé par la personne j quant à un trait latent (paramètre de personne, θ j ) ainsi qu’aux caractéristiques de l’item i (paramètres d’items, B i ). Il n’y a ici qu’un seul trait latent, car les modélisations que nous abordons sont unidimensionnelles. Toutefois, au regard des paramètres d’items, il y a plusieurs déclinaisons possibles. Ainsi, ces modélisations, outre le niveau d’attrait (ou de difficulté pour les tests d’habileté) de l’item b i (modélisation à un paramètre), peuvent tenir compte d’un niveau de discrimination a i qui varie d’un item à l’autre (modélisation à deux paramètres), de la pseudo-chance d’obtenir une bonne réponse à l’item c i (modélisation à trois paramètres), du maximum possible de probabilité de bonnes réponses à un item d i (modélisations à quatre paramètres), etc.
L’équation 1 représente la modélisation logistique à quatre paramètres (4PL) où les quatre paramètres d’items précédemment décrits sont utilisés (Barton et Lord, 1981 ; Raîche et al., 2012). Elle permet de calculer la probabilité que la personne j donne le choix de réponse 1 à un item i . Puisque les modélisations que nous abordons ne considèrent que des réponses dichotomiques, la probabilité que la personne choisisse la réponse alternative 0 est tout simplement égale à 1 – P.


Lorsque moins de paramètres sont utilisés, la fonction est simplifiée pour donner respectivement les modélisations logistiques suivantes à un, deux et trois paramètres (1PL, 2PL et 3PL) (Birnbaum, 1968 ; Hambleton et Swaminathan, 1985 ; Lord, 1980 ; Rasch, 1960).


Sous cette représentation, le paramètre b i correspondant au niveau d’attrait de l’item i est calculé sur la même échelle de mesure que le trait latent θ j de la personne j . Généralement, l’échelle est proposée en score z pour en faciliter l’interprétation. Un score supérieur à 3 en valeur absolue est alors considéré extrême et peu fréquent dans la population ciblée. Toutefois, il arrive régulièrement qu’on utilise une autre moyenne et un autre écart type : par exemple, dans l’enquête à grande échelle du PISA (Programme international pour le suivi des acquis des élèves – Program for International Student Assessment), la moyenne du trait latent est de 500 et l’écart type, de 100 (Organisation for Economic Co-operation and Development, 2009). Le paramètre a i , pour sa part, correspond à la discrimination, soit à la capacité de l’item i d’effectuer la discrimination entre une personne dont le niveau du trait latent est plus élevé et une personne où il l’est moins. Si ces deux seuls paramètres d’items sont utilisés, il s’agit alors de la modélisation logistique à deux paramètres (2PL). Le paramètre de discrimination est habituellement positif et on espère qu’il soit supérieur à 0,50 : lorsqu’il est négatif, cela pose généralement problème et indique que plus une personne possède un niveau élevé du trait latent moins la probabilité d’un choix de réponse 1 est élevée. Le paramètre de pseudo-chance c ; est une mesure de probabilité (variant donc entre 0 et 1) qui indique la probabilité de donner le choix de réponse 1 pour une personne dont le niveau du trait latent est très faible. Ce paramètre est nommé le paramètre de pseudo-chance, car l’obtention du score 1 peut être due à d’autres facteurs que le simple hasard. Par exemple, la personne dont le niveau du trait latent est faible peut être tout simplement attirée par le choix de réponse 1. Enfin, à l’inverse, le paramètre d i indique la probabilité qu’une personne dont le niveau du trait latent est très élevé donne le choix de réponse 1. Cette probabilité devrait être égale à 1, mais certaines caractéristiques de l’item peuvent faire en sorte qu’une personne dont le niveau du trait latent est élevé ne donne pas assurément une réponse égale à 1. C’est pourquoi dans le contexte des tests d’habileté, il est nommé le paramètre d’inattention.
À titre illustratif, la figure 1.1 (1PL) présente trois courbes caractéristiques d’items dont le paramètre de discrimination est fixe (a i = 1) et dont le paramètre d’attrait b est respectivement égal à -1, 0 et 2. Puisqu’en fait seul le paramètre d’attrait est impliqué, on appelle cette modélisation la modélisation logistique à un paramètre (1PL). On remarquera que plus le niveau du trait latent d’une personne est élevé, plus la probabilité qu’elle donne un choix de réponse égal à 1 est élevée : cette probabilité varie entre 0 et 1. On remarquera aussi que le niveau d’attrait de l’item fait se déplacer de la gauche vers la droite la courbe caractéristique de chacun des items. Plus un item est difficile, plus sa courbe caractéristique se déplace vers la droite.
La figure 1.1 (2PL), en fixant maintenant le paramètre d’attrait à 0, permet de visualiser ce qui se passe lorsque le paramètre de discrimination varie : ici, selon les valeurs 0,3, 1 et 5. Il s’agit alors formellement de la modélisation logistique à deux paramètres. On remarquera que la pente de la courbe caractéristique varie et que lorsque cette pente est plus élevée la probabilité qu’une personne donne un score égal à 1 varie plus rapidement en fonction du niveau du trait latent.
La figure 1.1 (3PL), tout en fixant pour les fins de cet exemple les paramètres d’attrait et de discrimination, fait varier uniquement le paramètre de pseudo-chance. Selon cette fonction, même si une personne se caractérise par un niveau très faible du trait latent, la probabilité qu’elle donne un score égal à 1 item n’est pas nulle : selon l’item, elle sera ici égale à 0,0, 0,2 et 0,5.
La figure 1.1 (4PL) (Barton et Lord, 1981) présente, pour sa part, la courbe caractéristique associée à la modélisation logistique à quatre paramètres où un paramètre d’inattention d i est ajouté. Ce paramètre est associé à une asymptote supérieure et indique que même si une personne possède un niveau élevé du trait latent, elle peut donner une réponse égale à 0 à l’item plutôt que 1.


Figure 1.1 Modélisations logistiques à un, deux, trois et quatre paramètres : courbes caractéristiques d’item
Enfin, indépendamment de la modélisation à réponses dichotomiques utilisée, la probabilité d’obtention d’un patron de réponses est égale à :


où X i correspond au patron de réponses de la personne j aux I items. On notera que cette probabilité est conditionnelle au niveau du trait latent et qu’elle suppose l’indépendance probabiliste entre la probabilité d’obtenir une réponse à chacun des items. C’est pourquoi on nomme cette propriété l’indépendance locale. Il s’agit d’une propriété importante de la plupart des modélisations de réponses à l’item issues de la théorie de la réponse à l’item. Cette propriété est aussi importante dans les autres modèles d’analyse factorielle appliqués à des données continues, mais on ne le souligne pas fréquemment, car on s’y intéresse généralement moins au calcul des scores factoriels des personnes.
La figure 1.2 présente la courbe des probabilités du patron de réponses pour tous les items considérés simultanément, soit la courbe caractéristique du test, pour quatre personnes différentes qui ont répondu à un test composé de cinq items. La figure 1.2 illustre l’utilisation de la modélisation logistique à trois paramètres, à titre d’exemple, pour calculer la probabilité de chacun des quatre patrons de réponses selon le niveau du trait latent de la personne. Malgré la complexité des équations impliquées, il demeure assez simple d’utiliser les équations 1 à 5 précédentes et un tableur tel que le logiciel Excel pour effectuer les calculs et produire ces courbes caractéristiques. On notera que pour le premier patron de réponses 11110, il existe un maximum bien défini : la valeur est un peu au-dessous de 2. Toutefois, pour les trois autres patrons de réponses, le maximum de vraisemblance est impossible à cerner : il est soit multiple, soit en augmentation ou en diminution constante. Dans ce dernier cas, il est impossible d’obtenir une estimation du niveau du trait latent de la personne.
On utilisera de nouveau cette représentation graphique à la prochaine section pour expliquer comment on peut obtenir une estimation du niveau du trait latent d’une personne par la technique dite de maximum de vraisemblance. Ces courbes illustrent d’ailleurs très bien la difficulté d’estimation du trait latent avec seulement cinq items.


Figure 1.2 Courbes caractéristiques du test selon quatre patrons de réponses (modélisation logistique à trois paramètres)
1.2. Estimation des paramètres de personnes et d’items
L’estimation du trait latent d’une personne est souvent réalisée au moyen de la méthode du maximum de vraisemblance. Selon cette méthode, il s’agit tout simplement de retenir la valeur de l’estimation du trait latent pour lequel la probabilité d’obtenir un patron de réponses selon une des modélisations présentées plus haut est maximale : d’où la notion de maximum de vraisemblance (Hambleton et Swaminathan, 1985).
Dans la figure 1.2 , on pouvait observer la valeur de l’estimation du trait latent qui maximise la probabilité d’obtention de quatre patrons de réponses. Pour le patron 11110, la valeur de l’estimation du trait latent se situait autour de 2. Toutefois, pour les trois autres patrons de réponses, il était impossible de déterminer le trait latent qui maximise la probabilité d’obtention de ces patrons de réponses. Heureusement, il existe des méthodes d’estimation qui permettent d’évaluer le trait latent pour ces trois patrons de réponses : il s’agit principalement des approches bayésiennes, comme le maximum de vraisemblance a posteriori (maximum a posteriori – MAP) (Baker et Kim, 2004) ou le maximum de vraisemblance pondéré (weigthed likelihood estimation – WLE) (Warm, 1989). Des approches par espérance mathématique a posteriori (expected a posteriori) (Baker et Kim, 2004) peuvent aussi être utilisées.
Quelle que soit la méthode d’estimation utilisée, le nombre d’items doit être suffisant pour obtenir une estimation appropriée du trait latent. Comme on a pu le relever à la figure 1.2 , un nombre trop faible d’items peut donner plusieurs maximums locaux et rendre impossible l’estimation. C’est pourquoi on suggère d’utiliser au moins 20 items avec la méthode du maximum de vraisemblance. Cependant, même lorsqu’un seul maximum est disponible, un nombre suffisant d’items est aussi nécessaire pour que la précision de l’estimation soit acceptable. Puisque le nombre d’items requis est alors tributaire des valeurs des paramètres d’items du test ainsi que de la modélisation utilisée, il est impossible de fournir des règles trop précises à ce sujet.
Lorsque l’estimation du trait latent est connue pour toutes les personnes, celle des paramètres d’items de la modélisation à deux paramètres (2PL) est tout simplement obtenue à partir d’une régression logistique qui est appliquée indépendamment à chacun des items (Baker et Kim, 2004). Il s’agit encore d’une approche par maximum de vraisemblance. On utilise aussi la technique du maximum de vraisemblance pour obtenir les valeurs des paramètres pour toutes les autres modélisations issues de la théorie de la réponse à l’item. Toutefois, plus le nombre de paramètres d’items est élevé, plus le nombre de personnes nécessaires pour obtenir des estimations précises et stables est élevé. Par exemple, avec la modélisation logistique à quatre paramètres, si le test est composé de 50 items, il y aura 200 (4 * 50) paramètres d’items à estimer. Il s’agit d’un nombre considérable et l’accès aux réponses d’au moins 1 000 personnes sera nécessaire. Par contre, avec la modélisation logistique à un seul paramètre, 200 ou 300 personnes pourraient s’avérer suffisantes pour obtenir des estimations acceptables (Lord, 1983).
On l’aura rapidement constaté, ni les paramètres d’items ni les paramètres de personnes ne sont connus avant de procéder à l’estimation de chacun de ces ensembles de paramètres. Dans les deux cas, aussi bien pour les personnes que pour les items, il s’agit de variables latentes. Plusieurs solutions ont été proposées pour résoudre ce problème (Baker et Kim, 2004). Pour les fins de cette présentation, la solution la plus intuitive à décrire est la méthode par maximum de vraisemblance alternée (aussi appelée conjointe, Conjoint Maximum Likelihood Estimation [CMLE]) (Lord, 1968).
Selon cette méthode, dans une première étape, on attribue des estimations de départ aux paramètres de personnes en calculant la proportion de scores égaux à 1 pour chacune des personnes. On transforme ensuite cette proportion en score z . Dans une deuxième étape, on estime les paramètres d’items par maximum de vraisemblance en tenant pour acquis que le trait latent des personnes est égal au score z préalablement calculé. Dans une troisième étape, on estime le trait latent des personnes par maximum de vraisemblance en tenant pour acquises les valeurs des paramètres d’items obtenus à l’étape 2. On transforme de nouveau les valeurs obtenues en scores z. On alterne entre les étapes 2 et 3 jusqu’à ce que les valeurs des paramètres d’items et de personnes ne donnent pas plus qu’une valeur prédéterminée à l’avance, par exemple 0,0001. Bien sûr, plus cette valeur prédéterminée sera petite, plus le nombre d’itérations sera élevé. Il peut même arriver que la convergence ne soit pas possible ou qu’il soit impossible d’atteindre la précision désirée. Cette dernière situation se produit lorsque le nombre de personnes n’est pas assez élevé ou que le nombre d’items est trop important.
1.3. Postulats, conditions d’application et vérification de l’ajustement
Comme pour toute méthode d’analyse statistique, certaines conditions d’application doivent être respectées. Celles-ci sont maintenant présentées et des stratégies pour les vérifier sont abordées.
Toutes les modélisations issues de la théorie de la réponse à l’item reposent sur le postulat d’indépendance locale. Selon ce postulat, la probabilité d’obtention d’un patron de réponses est égale au produit de la probabilité d’obtention du score observé à chacun des items du test à un niveau fixe du trait latent. En fait, il s’agit strictement de l’équation 5 présentée plus haut. Si le postulat d’indépendance locale ne tient pas, cela signifie que la probabilité d’obtention du score à un item donné dépend du score obtenu à au moins un autre item du test. Dans la pratique, lorsque le postulat d’indépendance locale n’est pas respecté, cela signifie qu’il y a plus de traits latents à considérer dans la modélisation. C’est pourquoi l’une des premières stratégies pour vérifier ce postulat est d’estimer la dimensionnalité. Comme pour l’analyse factorielle, exploratoire ou confirmatoire, entre autres, on peut appliquer une analyse parallèle, un indice formel de dépendance locale ou encore utiliser les critères d’information d’Akaike (AIC) ou ou les critères d’information bayésiens (BIC). L’analyse parallèle permet de comparer les valeurs propres issues de la matrice des corrélations entre les items à celles obtenues au hasard avec le même nombre d’items et de personnes lorsqu’il n’y a aucune corrélation entre les items (Horn, 1965 ; Raîche et al., 2013). Dans le cas présent, l’analyse parallèle doit toutefois être adaptée au fait que les réponses aux items sont discrètes (Drasgow et Lissak, 1983). Un indice visant à vérifier formellement l’indépendance locale a été proposé par Chen et Thissen (Chen et Thissen, 1997 ; Monseur et al., 2003). Selon cet indice, l’ampleur de la dépendance locale entre chacun des items est tout simplement évaluée à l’aide d’un coefficient de corrélation entre les valeurs résiduelles : il s’agit de l’indice Q 3 de Yen (Christensen, Makransky et Horton, 2016 ; Yen, 1984). Il a été suggéré de rejeter le postulat d’indépendance locale lorsque la valeur d’au moins un des indices Q 3 dépasse la valeur critique de 0,20 en valeur absolue. Pour leur part, les critères AIC et BIC sont des indices en lien direct avec le logarithme du rapport de vraisemblance entre deux modèles comparés. Plus la valeur du critère est petite, meilleur est le modèle (Akaike, 1987 ; Schwartz, 1978). Contrairement aux tests de significations statistiques usuels, les indices AIC et BIC ne s’interprètent pas en fonction du rejet d’une hypothèse nulle ou d’une valeur seuil. Dans un esprit plus bayésien, la pratique consiste plutôt à retenir le modèle pour lequel la valeur de ces indices est la plus petite : il s’agit alors du meilleur modèle pour ajuster les données à la modélisation retenue. L’indice AIC est ajusté en fonction du nombre de paramètres dans la modélisation tandis que l’indice BIC tient compte, en plus, du nombre de personnes. Ces ajustements améliorent la comparaison entre les modèles. Même si dans la pratique, on présente presque toujours ces deux indices simultanément, l’indice BIC est généralement préféré.
Après la vérification du respect des postulats et des conditions d’application de ces modélisations, il faut s’assurer de l’ajustement global de celles-ci. Plusieurs stratégies ont été proposées à cette fin. Lors de l’estimation de la dimensionnalité, on avait suggéré la possibilité d’utiliser les indices AIC et BIC pour comparer les différentes solutions selon le nombre de dimensions considérées. C’est donc cette approche qui est encore suggérée ici non seulement pour comparer le nombre de dimensions à considérer, mais aussi pour choisir parmi les modélisations à un, deux, trois ou quatre paramètres.
Deux autres conditions d’application de ces modélisations doivent être également vérifiées. Dans les deux cas, un non-respect de ces conditions implique un non-respect du postulat d’indépendance locale. La première de ces conditions est que les paramètres des personnes doivent être invariants par rapport aux items administrés. Cette condition signifie qu’on peut estimer le trait latent d’une personne avec n’importe quel sous-ensemble d’item du test. Lorsque l’estimation du trait latent varie selon le sous-ensemble d’items administré, cela se traduit par un patron de réponses inappropriées. À ce moment-là, l’estimation du trait latent n’est malheureusement pas valide. Différents indices ont été proposés pour juger si les patrons de réponses des personnes sont plausibles et repérer ceux qui seraient douteux (Magis, Raîche et Béland, 2012 ; Raîche et Blais, 2003). L’un des indices les plus utilisés est l z qui s’interprète comme un score z, les valeurs extrêmes révélant un patron de réponses inapproprié (Drasgow, 1982 ; Drasgow, Levine et McLaughlin, 1991).
La seconde condition d’application de ces modélisations est que les paramètres d’items doivent être invariants par rapport aux personnes testées (Bertrand et Blais, 2004 ; Meade, 2010, 2019 ; Millsap, 2011). Cette condition établit qu’on peut estimer les paramètres d’un item avec n’importe quel sous-ensemble de personnes de la population cible. Si ce n’est pas le cas, on dira qu’il y a un fonctionnement différentiel de l’item (Differential Item Functioning, DIF) selon la population de personnes à qui l’item est administré. On doit alors soit retirer les items problématiques du test, soit admettre qu’on mesure des concepts différents d’une population à une autre. Plusieurs méthodes de détection des items à problème ont été proposées. Par souci d’uniformité, celle que nous retenons ici consiste à utiliser une fois de plus les indices AIC et BIC pour comparer la modélisation globale aux modélisations qui tiennent compte des différents groupes de comparaison (Chalmers, 2012). Cette analyse peut être accompagnée de la représentation graphique par groupe des courbes caractéristiques d’items, des paramètres d’items ainsi que par une statistique permettant de relever les items contribuant le plus au fonctionnement différentiel. Dans ce dernier cas, l’indice CDRF (Compensatory Differential Response Functioning) est suggéré (Chalmers, 2018) : il peut être interprété comme un score z.
1.4. Précision de l’estimation du niveau d’habileté
Dans la théorie classique des tests, basée sur les approches de l’analyse factorielle confirmatoire, la précision de l’estimation du trait latent est mesurée par un coefficient de fidélité r xx' (alpha de Cronbach, test-retest, formes parallèles, etc.). Celui-ci prend la forme d’un coefficient de corrélation de Pearson et, caractéristique importante, il est considéré comme étant constant, quel que soit le niveau du trait latent de la personne évaluée. Cette constance de la précision du trait latent quelle que soit sa valeur n’est pas toujours réaliste. C’est pourquoi, contrairement au postulat de la théorie classique des tests, la précision varie selon le niveau du trait latent estimé : elle n’est donc pas constante pour tout le test et un seul coefficient de fidélité ne peut alors malheureusement pas représenter la précision des mesures (Bertrand et Blais, 2004).
Dans la théorie de la réponse à l’item, on a l’habitude de présenter la précision de l’estimation du trait latent selon son erreur type ou selon l’inverse du carré de l’erreur type (Hambleton et Swaminathan, 1985), soit l’information au sens de Fischer. On espère obtenir une valeur de l’erreur type inférieure à 0,30, quoiqu’une valeur à environ 0,50 soit fréquemment observée. À titre illustratif, pour ceux et celles qui sont plus familiers avec la théorie classique des tests, on peut aussi faire correspondre la valeur de l’erreur type à un coefficient de fidélité dit « marginal » par la transformation suivante : (Thissen, 2000). Dans ce cas, une erreur type de 0,20 correspond à un coefficient de fidélité marginal de 0,91 tandis qu’une valeur de 0,50 correspond à un coefficient de 0,75. Si la valeur de la précision de la mesure n’est pas suffisamment élevée à un niveau donné du trait latent, plus d’items seraient nécessaires pour obtenir une mesure adéquate : la formule de prophétie de Spearman-Brown peut d’ailleurs être utilisée à cette fin (Lord et Novick, 1968). Puisque la précision varie en fonction de la valeur du trait latent, il est usuel de représenter la précision du test sur l’ensemble des valeurs du trait latent par un graphique : un exemple sera donné à partir d’une application dans ce qui suit.
2. EXEMPLE D’APPLICATION À UNE ÉPREUVE DE DÉSIRABILITÉ SOCIALE 2
Aux fins d’illustration d’une application de la théorie de la réponse à l’item, une adaptation canadienne-française par Lachance (document inédit) d’une version abrégée (Reynolds, 1978 ; Strahan et Gerbash, 1972) de l’échelle de désirabilité sociale de Crowne et Marlowe (Crowne et Marlowe, 1960) sera utilisée. Cette adaptation est constituée de dix items à réponses dichotomiques où un score de 1 correspond à Désirable et un score de 0 à Non désirable. Avant même de procéder aux analyses, on peut noter le faible nombre d’items disponibles : cela aura une incidence considérable sur les qualités psychométriques du test. Les items de l’épreuve sont présentés dans le tableau 1.1 . L’utilisation des tests à items à réponses dichotomiques de cette longueur est fréquente et cet exemple permet ainsi d’illustrer les limites potentielles de tels tests.
Tableau 1.1 Items du questionnaire adapté de désirabilité sociale

1.
J’aime faire des commérages quelquefois.
2.
Il m’est déjà arrivé de profiter de quelqu’un.
3.
Lorsque je fais une erreur, je suis toujours prêt à l’admettre.
4.
J’essaie toujours de faire ce que je dis.
5.
J’essaie parfois de me venger plutôt que de pardonner et d’oublier.
6.
Il m’est arrivé de vraiment insister pour faire les choses à ma façon.
7.
Il m’est arrivé d’avoir le goût de casser quelque chose.
8.
Je ne suis jamais contrarié lorsqu’on me demande d’accorder une faveur à quelqu’un.
9.
Je n’ai jamais été contrarié lorsque des gens ont exprimé des idées très différentes des miennes.
10.
Je n’ai jamais dit délibérément quelque chose qui pouvait blesser quelqu’un.
Source : Strahan et Gerbash, 1972 ; traduit et adapté par Lachance (document inédit).
2.1. Détermination de la modélisation la plus appropriée et du nombre de facteurs à retenir
La première étape de l’analyse consiste à établir quelle sera la modélisation la plus appropriée pour expliquer les probabilités de réponses aux dix items de l’épreuve. À cette fin, il faut en premier lieu déterminer le nombre de traits latents sous-jacents à ces dix items. Selon l’analyse parallèle effectuée sur les principales composantes de la matrice des corrélations tétrachoriques ( figure 1.3 ), un seul trait latent est à retenir. En effet, une seule valeur propre observée est supérieure à la moyenne des valeurs propres simulées obtenues aléatoirement. Il faut cependant souligner que la première composante principale explique seulement 27,20 % de l’ensemble des valeurs propres : on aurait préféré obtenir une valeur plus élevée. En second lieu, le tableau 1.2 , où sont présentés les critères d’information (AIC et BIC), confirme qu’un seul trait latent explique la dimensionnalité des données. Ainsi, qu’il s’agisse du critère d’information d’Akaike (AIC) ou bayésien (BIC), les valeurs de ces deux indices ne sont pas du tout diminuées lorsqu’on passe de la modélisation logistique à deux paramètres à un seul trait latent aux modélisations à deux ou trois traits latents. Enfin, au tableau 1.3 , la vérification du postulat d’indépendance locale à l’aide de la statistique Q 3 renforce encore la décision de retenir une modélisation unidimensionnelle : aucune valeur de Q 3 n’est supérieure en valeur absolue à 0,20, la valeur la plus élevée étant égale à seulement |–0,16|.


Figure 1.3 Analyse parallèle (deux facteurs sont relevés)
Tableau 1.2 Sélection des modèles selon les critères d’information

Modélisation
AIC
BIC
Rasch
5 226,36
5 272,34
Modélisation logistique à deux paramètres
5 223,96
5 307,56
Modélisation logistique à trois paramètres
5 231,18
5 356,58
Modélisation logistique à quatre paramètres
5 231,18
5 356,58
Modélisation logistique à deux paramètres (2 facteurs)
5 223,96
5 307,56
Modélisation logistique à deux paramètres (3 facteurs)
5 223,96
5 307,56
Note : Les valeurs les plus faibles sont à retenir et sont en caractères gras et soulignés.

Tableau 1.3 Indices de dépendance locale Q 3

Le tableau 1.2 démontre que, selon le critère d’information bayésien, la comparaison de la modélisation de Rasch aux modélisations à deux, trois et quatre paramètres indique que c’est la première qui s’ajuste le mieux aux données. Selon le critère d’information d’Aikake, ce serait plutôt la modélisation logistique à deux paramètres, avec un, deux ou trois traits latents, qui serait à retenir, mais, comme expliqué dans la section théorique précédente, l’utilisation du critère bayésien est plus appropriée.
Le tableau 1.4 présente les paramètres d’items du modèle retenu, tandis que la figure 1.4 montre les courbes caractéristiques de ces items. Même si la modélisation de Rasch a été retenue, les paramètres de la modélisation logistique à deux paramètres sont aussi présentés. Ceux-ci, par l’utilisation du paramètre supplémentaire a, permettent de donner une idée de la capacité de discrimination de chacun des items. On remarquera à la modélisation de Rasch que l’étendue des valeurs du paramètre b (de -3,02 à 2,11) est relativement grande et couvre ainsi un large éventail du trait latent à mesurer. Les paramètres de discrimination a de la modélisation logistique à deux paramètres sont tous positifs, bien que trois présentent des valeurs un peu faibles, soit des valeurs autour de 0,50. La figure 1.4 illustre les courbes caractéristiques selon la modélisation de Rasch de ces dix items. On peut ainsi associer les valeurs du paramètre d’attrait b du tableau 1.3 à la position de chacune des courbes sur l’axe des x : plus le paramètre b est élevé, plus la courbe est déplacée vers la droite et présente un item pour lequel le trait latent de la personne doit être élevé pour qu’elle affiche la non-désirabilité de celui-ci. Ainsi, par la façon de scorer les items, plus la valeur du trait est élevée, plus la personne manifeste un comportement de désirabilité sociale.

Tableau 1.4 Paramètres d’items selon les modélisations logistiques de Rasch et à deux paramètres


Figure 1.4 Courbes caractéristiques des dix items à réponses dichotomiques de l’épreuve de désirabilité sociale (modélisation logistique à un paramètre de Rasch)
2.2. Vérification de l’ajustement des paramètres d’items
Aucun item ne présente un indice l z inférieur ou égal à -1,65. Tous les patrons de réponses à chacun des items semblent donc bien s’ajuster aux paramètres obtenus au modèle. Si un ou des patrons de réponses s’étaient avérés inappropriés, il aurait été pertinent de recalculer les paramètres en retirant ces patrons de réponses.
2.3. Vérification de l’invariance des paramètres d’items selon la population
L’invariance des paramètres d’items est abordée sous l’angle du fonctionnement différentiel des items de l’épreuve selon deux types de regroupement populationnel : le sexe des personnes et leur groupe d’âge. À cette fin, des modélisations incorporant les variables de regroupement seront considérées et comparées à la modélisation à un paramètre sans discernement pour les regroupements. Si les indices AIC et BIC permettent de conclure à un fonctionnement différentiel des items, cela signifie que les paramètres d’items pour chacun des groupes sont présents ainsi que les courbes caractéristiques associées.
Les indices AIC et BIC associés à la comparaison de la modélisation logistique à un paramètre (respectivement 5226 et 5293) à celle qui tient compte du regroupement selon le sexe (respectivement 5226 et 5272) nous montrent que la modélisation qui tient compte du fonctionnement différentiel des items est la meilleure. Ce n’est toutefois pas le cas en ce qui concerne le regroupement selon l ’âge des personnes (respectivement 5247 et 5443). Les paramètres d’items selon le sexe des personnes sont présentés au tableau 1.5 ainsi que la statistique CDRF. Toutefois, même si les indices AIC et BIC indiquent un fonctionnement différentiel, aucune des statistiques CDRF ne permet de faire ressortir un ou des items particuliers : le fonctionnement différentiel est donc plus global. Les courbes caractéristiques d’items correspondantes sont présentées à la figure 1.5 . Le tableau 1.5 et la figure 1.5 illustrent bien que le paramètre d’item b est généralement plus élevé dans le groupe féminin que dans le groupe masculin, sauf pour les items 1 et 9. En d’autres termes, à un niveau de désirabilité sociale égal, les personnes de sexe féminin ont moins tendance à être attirées par une réponse positive à l’item. En utilisant les mêmes paramètres d’items, les personnes de sexe féminin auraient en moyenne un niveau de désirabilité sociale plus faible que les personnes de sexe masculin.

Tableau 1.5 Comparaison des paramètres d’items b par groupe pour la variable sexe et statistique CDRF

Note : L’échantillon est composé de 310 personnes de sexe féminin et de 173 personnes de sexe masculin.


Figure 1.5 Fonctionnement différentiel des items selon la variable sexe
2.4. Vérification de l’ajustement des patrons de réponses des personnes
On retrouve seulement 21 personnes (4,4 %) pour lesquelles la statistique l z est inférieure à -1,65 et ainsi dont l’ajustement du patron de réponses est douteux. Lorsqu’on retire ces personnes de l’échantillon, heureusement, l’estimation des paramètres d’items n’est pas affectée.
2.5. Analyse de la précision des mesures
La figure 1.6 présente simultanément les courbes d’information Ι ( θ ) et d’erreur type SΕ ( θ ) pour l’ensemble du test pour des valeurs du trait latent variant de -3 à 3. Puisque la courbe d’information est tout simplement en relation inverse avec la courbe d’erreur type, nous nous limiterons à l’interprétation de cette dernière. Ainsi, il est possible de remarquer que les valeurs les plus faibles de l’erreur type se retrouvent autour de la valeur 0,30 du trait latent. Dès lors, l’erreur type se situe environ à une valeur de 0,75, soit une valeur assez élevée signalant que la meilleure précision de l’estimation du trait latent est assez faible. En termes de fidélité marginale, cette valeur correspond à un coefficient égal à 0,44, ce qui est très faible. Lorsque le trait latent varie de -1,5 à 2,00, la précision diminue au plus à 0,88, soit une fidélité marginale égale à 0,23. En dehors de cette limite, la précision devient très faible. Il semble ainsi que le nombre d’items constituant cette version adaptée du test soit nettement insuffisant pour assurer une précision acceptable de l’estimation du trait latent quelle que soit la valeur de celui-ci. À titre comparatif, les études antérieures (Reynolds, 1978) ont rapporté un coefficient de fidélité (Kuder-Richardson) égal à 0,28 à cette version de l’épreuve sur l’ensemble de l’étendue du trait latent.
La formule de prophétie de Spearman-Brown indique que le nombre d’items devrait être multiplié par trois pour obtenir une fidélité marginale de 0,70 lorsque la valeur du trait latent s’approche de 0,30, mais par sept lorsque cette valeur tend vers -1,00 ou vers 2,00. Dans ce contexte, il semble préférable de considérer l’utilisation de réponses polytomiques comme pour la version originale du test de Crowne et Marlowe : dix items pourraient alors être éventuellement suffisants.


Figure 1.6 Précision selon l’erreur type et l’information en fonction de la valeur du trait latent
2.6. Conclusions sur la version de l’épreuve de désirabilité sociale
L’analyse de la version de l’épreuve de désirabilité sociale montre que les hypothèses d’unidimensionnalité et d’indépendance locale peuvent être maintenues. Cependant, les qualités psychométriques de l’épreuve ne sont pas suffisantes pour qu’on puisse l’utiliser dans sa forme actuelle. Ainsi, le nombre d’items impliqué est beaucoup trop faible pour espérer obtenir une précision satisfaisante de l’estimation du trait latent.

  • Accueil Accueil
  • Univers Univers
  • Livres Livres
  • Livres audio Livres audio
  • Presse Presse
  • BD BD
  • Documents Documents