GUIDE PRATIQUE POUR L'UTILISATION DE LA STATISTIQUE EN RECHERCHE : LE CAS DES PETITS ÉCHANTILLONS
Réseau Sociolinguistique et dynamique des langues Agence universitaire de la Francophonie Québec Mai 2003 Préface
Depuis sa création en 1993, le réseau Sociolinguistique et dynamique des langues de l’Agence universitaire de la Francophonie s’est donné, entre autres objectifs, celui de produire du matériel scientifique et des manuels à l’intention de ses membres. Le réseau a déjà publié les ouvrages suivants : • Marie-Louise Moreau, Sociolinguistique: Concepts de base, Mardaga, 1997; • Robert Chaudenson, L'évaluation des compétences linguistiques en français, Didier Érudition, Paris, 1996; • Pierre Dumont et Bruno Maurer, Sociolinguistique du français en Afrique francophone, gestion d'un héritage, devenir d'une science, EDICEF, 1995; • Robert Chaudenson, Vers un outil d'évaluation des compétences linguistiques en français dans l'espace francophone, Didier Érudition, Paris, 1995; • Cl. Bavoux, Français régionaux et insécurité linguistique, Paris, L'Harmattan, 1996; • Pierre Dumont et Louis-Jean Calvet, Méthodologie de l'enquête sociolinguistique, Paris, L'Harmattan, 2000. Lors de sa dernière réunion en mai 2003, le comité du réseau a constaté que plusieurs dossiers envoyés en réponse à son troisième appel à collaborations passaient sous ...
GUIDE PRATIQUE POUR L'UTILISATIONDE LA STATISTIQUE EN RECHERCHE :LE CAS DES PETITS ÉCHANTILLONS
Réseau Sociolinguistique et dynamique des languesAgence universitaire de la FrancophonieQuébecMai 2003
Préface Depuissa création en 1993, le réseau Sociolinguistique et dynamique des languesde lAgence universitaire de la Francophonie sest donné, entre autres objectifs, celui deproduire du matériel scientifique et des manuels à lintention de ses membres. Le réseau adéjà publié les ouvrages suivants :•Marie-Louise Moreau, Sociolinguistique: Concepts de base, Mardaga, 1997;•Robert Chaudenson,L'évaluation des compétences linguistiques en français,Didier Érudition, Paris, 1996;•Pierre Dumont et Bruno Maurer,Sociolinguistique du français en Afriquefrancophone, gestion d'un héritage, devenir d'une science, EDICEF, 1995;•Robert Chaudenson,Vers un outil d'évaluation des compétences linguistiques enfrançais dans l'espace francophone, Didier Érudition, Paris, 1995;•Cl. Bavoux,Français régionaux et insécurité linguistique, Paris, L'Harmattan,1996;•Pierre Dumont et Louis-Jean Calvet,Méthodologie de l'enquête sociolinguistique,Paris, L'Harmattan, 2000.Lors de sa dernière réunion en mai 2003, le comité du réseau a constaté que plusieursdossiers envoyés en réponse à son troisième appel à collaborations passaient sous silenceou traitaient trop rapidement certaines questions méthodologiques comme la constitutionde léchantillon servant à lenquête ou le plan danalyse statistique. Le comité a jugé quilserait très utile de produire un petit guide sur lutilisation des échantillons et de lastatistique en sociolinguistique, sujets jusque-là peu traités dans des publications enlangue française. Lorsque les enquêtes sociolinguistiques peuvent se permettre davoirrecours à des échantillons substantiels, comparables à ceux quutilisent les instituts desondage dans leurs enquêtes dopinion (1 000 enquêtés et plus), la situation estrelativement simple puisque nous disposons dune méthodologie qui a largement fait sespreuves et que nous pouvons facilement (ou relativement facilement) solliciter laidedexperts en la matière. Mais la situation de la sociolinguistique est particulière du faitque nos enquêtes recourent souvent à des petits échantillons, voire des micro-échantillons. Se posent alors la question de la représentativité de ces petits échantillons etdes généralisations que nous pouvons faire à partir deux. Cest ce terrain encorelargement en friche que le comité de réseau a demandé aux professeurs Bruno Marien etJean-Pierre Beaud de commencer à débroussailler. M. Marien est chargé de cours audépartement de science politique de lUniversité du Québec à Montréal, où il enseigne lesstatistiques, et il a contribué à mettre sur pied lInstitut national de la statistique du Cap-Vert; en plus de plusieurs emplois dans le secteur privé, il a aussi travaillé à StatistiqueCanada, le grand institut de statistique du gouvernement canadien, où il a coordonnélintégration des méthodes statistiques à lintérieur du programme de télédétection.M. Beaud est directeur du département de science politique de lUQAM; il est lauteurdun texte sur les techniques déchantillonnage et il travaille activement sur lutilisationdes statistiques en sciences humaines. Vous trouverez, dans la présente brochure, lasynthèse quils ont produite.
ii
Le document que nous publions aujourdhui pourrait donner lieu à une deuxièmeédition si vous, sociolinguistes engagés dans la recherche sur le terrain, nous faitesconnaître vos commentaires, remarques, critiques et besoins. Nous pourrons ainsiproduire une version plus étoffée, susceptible de répondre encore mieux à vos besoins. Ilfaut donc considérer le présent texte comme undocument de travail perfectible.Le comité de direction du réseau Sociolinguistique et dynamique des langues souhaiteprofiter des prochaines journées scientifiques qui doivent réunir à Ouagadougou,vraisemblablement en septembre 2004, tous les réseaux de langue de lAgenceuniversitaire de la Francophonie pour organiser des journées de formation. Ces journéesde formation doivent répondre aux besoins des membres et nous vous invitons à nous lescommuniquer à ladresse électronique du réseau (qui est donnée plus bas). Le comité deréseau propose daborder les thèmes suivants au cours des journées de formation : lespetits échantillons, les statistiques descriptives et lutilisation des tests statistiques. Cetteformation sera dautant plus profitable que vous nous aurez fait connaître auparavant vosbesoins. Au nom des membres du comité de direction du réseau Sociolinguistique etdynamique des langues, Mme Élisa Rafitoson, MM. Ahmed Boukous, Pierre Dumont,Jean-Marie Klinkenberg, Bruno Maurer et Auguste Moussirou-Mouyama, je voussouhaite bonne lecture.
Québec, le 23 mai 2003
Jacques MauraisCoordonnateurRéseau Sociolinguistique et dynamique des languesAgence universitaire de la FrancophonieCourriel du réseau : sdl@refer.org
iii
Première partie : éléments de base sur les échantillons en statistiqueIntroductionCombien de personnes devons-nous interroger pour quune enquête soitcrédible? Voilà certes la question que tout chercheur se pose avantdentreprendre une démarche quantitative. On retrouve également la mêmeinterrogation dans l'esprit des lecteurs de cette même recherche. Ces dernierspeuvent en effet remettre en question les conclusions d'une étude parce qu'untrop petit nombre de personnes, à leurs yeux, ont été interrogées ou encore àcause d'une certaine faiblesse méthodologique dans la constitution deléchantillon. La question du nombre de répondants n'est, en effet, qu'un deséléments qu'il faut considérer dans le processus d'enquête. En plus de laquestion du nombre de répondants, il est approprié de sinterroger sur la manièrede choisir ces derniers, sur lutilisation à faire des données recueillies et sur letype danalyse à privilégier. Toutes ces dimensions auront un impact sur lesrésultats dune recherche qui se base sur une enquête. Plus encore, l'applicationde certaines règles de base permet de répondre avec confiance à la question« Comment, à partir dun petit nombre, pouvons-nous extrapoler surlensemble? »Nous comprenons qu'une utilisation abusive et techniquement faible de lastatistique et, dans le cas qui nous occupe ici, la manière de recueillir lesinformations peuvent remettre en question les résultats de travaux qui autrementpourraient contribuer grandement à lavancement de la connaissance.Lobjectif de ce document est donc de fournir un guide, un supporttechnique, quant à la manière dutiliser loutil statistique, notamment en ce quiconcerne léchantillonnage et plus particulièrement les petits échantillons. Lespetits échantillons demeurent un sujet peu traité dans les manuels destatistiques. Ce sont surtout les techniques d'analyse à partir d'un nombre
1
restreint d'observations qui ont fait l'objet d'une réflexion. Cependant, pourcomprendre comment appliquer ces techniques, il est essentiel de bien maîtriserles principes de base de l'approche statistique. Nous avons donc jugé opportunde faire un retour sur ces principes avant d'aborder le sujet plus précis del'utilisation des petits échantillons.Ce texte sadresse principalement aux personnes pour qui la statistique nereprésente pas leur domaine d'expertise. Nous avons voulu simplifier etdémystifier la technique déchantillonnage afin que tous puissent maximiserlutilisation de cet outil important. Comme son titre lindique, ce document estplus un guide qu'un texte technique. C'est pourquoi nous avons limité, dans lamesure du possible, les notations algébriques. Ce texte sert essentiellement àmettre en lumière les principes de base dans lapplication de la statistique,notamment au chapitre de léchantillonnage.Objectif de la statistiqueLa statistique sert, entre autres, à décrire, comprendre et estimer (ouprojeter) une situation. Les outils statistiques et les techniques danalyseparticulières varieront en fonction de lobjectif poursuivi.Lorsque lon travaille à partir dun échantillon, la statistique descriptiverend simplement compte des observations faites à partir de cet échantillon. Ontente de comprendre une situation lorsque l'on est en mesure d'expliquer lesdifférences observées dans léchantillon au moyen de variables qui expliquentces différences : par exemple, on observe la présence dans une population depersonnes unilingues et de personnes bilingues et les variables servant àexpliquer le phénomène peuvent être nombreuses (niveau de scolarité, présencede médias en une autre langue, etc.). Enfin, on projette sur l'ensemble de lapopulation lorsque les données dunéchantillon permettent de généraliser surl'ensemblede la population. Il faut donc prendre les moyens pour sassurer
2
que léchantillon est représentatif avant de faire cette opération degénéralisation.Cependant, les statistiques n'auront de sens que si les données utiliséessont crédibles. Pour cela, il faut que le nombre dobservations soit suffisant etfiable. Les personnes ou éléments qui seront utilisés dans ce contexte doiventdonc être représentatifs de lensemble de la population à létude. On parledéchantillon lorsque lon étudie une partie plutôt que la totalité d'unepopulation dans le cadre d'une enquête. Si l'échantillon est bien construit et,surtout, sil est représentatif de l'ensemble dont il est issu, il devient alorssécuritaire dutiliser les données dans une démonstration. En fait, l'opérationstatistique, par la médiation d'un échantillon, vise à réduire l'erreur de décisionque l'on commet lorsque l'on présente un résultat. Cette notion d'erreur demeureomniprésente dans l'application de la statistique.La démarche statistique (ou quantitative) comporte trois grands axes : laquantification, l'analyse et l'interprétation. Ces trois axes sont intimement liésentre eux. La quantification représente l'étape où on traduit une questionscientifique («laspirine peut-elle contribuer à réduire les risques dattaquecardiaque?») en un problème scientifique («les conditions objectives delutilisation de laspirine dans la prévention des crises cardiaques»). C'est decette étape quil est question dans le présent texte. L'analyse représentel'application de techniques essentiellement mathématiques qui mettent enévidence certaines particularités des valeurs mesurées. Enfin, l'interprétation sertà tirer des conclusions scientifiques des résultats de l'analyse statistique1.Les trois étapes mentionnées dans le paragraphe précédent sontintimement liées. Cependant, l'analyse statistique, notamment lorsquil estquestion d'un petit nombre d'observations, est particulièrement délicate. Mais
1 Ce paragraphe est inspiré de Jacques Allard,Concept fondamentaux de la statistique, Montréal, Addison-Wesley, 1992.
3
que l'on compte sur un grand nombre d'observations ou sur peu d'éléments, lesprincipes déchantillonnage demeurent les mêmes. C'est pourquoi nous avonscru nécessaire dinsister sur les points fondamentaux de l'échantillonnage. Noussavons par ailleurs que les chercheurs, et les éditeurs de revues scientifiques,préfèrent travailler avec un niveau de confiance élevé par rapport à leursrésultats. On exige souvent un niveau de confiance de 95 %. C'est-à-dire que lechercheur désire être sûr à 95 %, ou 19 fois sur 20, de ne pas commettred'erreur dans les chiffres qu'il propose. Cela demande une approche rigoureuse,notamment lorsque le chercheur ne dispose pas d'un grand nombre de sujetsétudiés.Décrire, comprendre et projeterLorsque l'objectif d'une recherche est simplement de décrire une situationou un ensemble de données, il est d'usage d'utiliser la statistique descriptive. Lastatistique descriptive se distingue de l'inférence statistique qui vise, elle, àextrapoler sur la population entière les résultats d'une enquête portant sur unéchantillon.On décrit une situation par le biais de statistiques qui, en un chiffre ougroupe de chiffres, résument une situation, un état ou un problème. Par exemple,l'âge moyen des élèves dune classe est une valeur qui résume lâge de tous lesmembres dans cette classe. La moyenne est la valeur qui permet de trouver unéquilibre entre toutes les valeurs dun groupe (ou dun groupe dobjets). Lorsqu'ildevient impossible d'interroger toutes les personnes qui composent une classe,nous utiliserons une fraction des personnes présentes. Le résultat obtenu serapar la suite utilisé pour représenter tous les membres. L'échantillon, la fraction,sert donc à décrire l'ensemble, la population.Il existe trois mesures de tendances centrales : la moyenne, la médiane etle mode. Ces mesures servent à représenter l'ensemble de toute la population.
4
Cependant, lutilisation de ces mesures peut parfois prêter à confusion. Prenonslexemple suivant :Il y a dans une classe 50 % de filles et 50 % de garçons. Il y a donc autantde filles que de garçons. Lâge moyen est de 18 ans. La classe est donccomposée délèves qui gravitent autour de cette moyenne. Lâge médian, lâgequi sépare en deux parties égales toutes nos observations, est également de 18ans. Nous pourrions dire alors que lâge des élèves est relativement similairepour tous. Létude conclut que nous observons une classe relativementhomogène au niveau de lâge. Mais voilà, la classe nest composée que dungarçon et dune fille dont lâge est respectivement de 22 et de 14 ans. Nousavons effectivement 50 % de garçons et 50 % de filles. Lâge moyen et médianest effectivement de 18 ans. Cependant, ces informations ne rendent pascompte de la réalité.Même si cet exemple semble extrême, il montre que lutilisation parfoisabusive, et simpliste, des statistiques peut davantage nuire à une bonnecompréhension dune situation quà léclairer. Comment expliquer cette mauvaiseutilisation des chiffres? Premièrement, nous navions pas défini notre population.De qui parlions nous? Une classe? Mais une classe de quoi? Pourquoiseulement deux personnes étaient-elles dans la classe? Pourquoi avoirtransformé en pourcentage ces deux observations? Il est évident que si nousavions mentionné un garçon et une fille plutôt que 50 % et 50 %, la réaction dulecteur eût été différente. Cest également pourquoi un statisticien, ou unepersonne sensible aux éléments quantitatifs, demeure prudent lorsquil estquestion de pourcentage. On doit toujours sinterroger sur le nombre total utilisépour calculer les pourcentages, la moyenne, la médiane ou le mode. Mieux, ilfaut, dans un premier temps, définir précisément la population étudiée. Il estinsuffisant de dire quune étude porte sur les classes. De quelle classe s'agit-il? Ilfaut également préciser si létude porte sur les élèves masculins et féminins, enmilieu urbain et rural, etc. Dans un tel cas, la simple description sera insuffisante.
5
Il faudra déterminer si les deux sexes, si les urbains et les ruraux se comportentde la même façon. À ce moment, loutil statistique nous permettra decomprendre si les élèves se comportent de la même façon ou si, au contraire,ils sont différents et, surtout, pourquoi ils sont différents. Finalement, si lesrésultats doivent servir àprojeter sur lensemble de la population des élèves, lesoutils statistiques devraient permettre dextrapoler et de valider des théories.Aussi une mauvaise définition du sujet de létude, une mauvaiseplanification ainsi que des choix douteux quant à la sélection des individuspeuvent venir invalider les conclusions dune étude qui autrement pourrait êtreparfaitement valable. La racine d'une étude statistique réside dans la manière derecueillir l'information. Le nombre de sujets inclus dans l'étude nous permetd'être plus précis et d'examiner plus de questions.Ce quil faut retenir de lexemple précédent, cest que la justesse dunesituation dépend largement de la compréhension de la population étudiée.Remarquez que le nombre de personnes retenues pour faire lévaluation estassurément trop petit. On ne peut en effet tirer de conclusions à partir dun sipetit nombre. Le même principe sapplique pour la sélection des personnes quiferont partie de notre échantillon. La sélection des personnes influencera lesrésultats que nous obtiendrons et, par conséquent, les conclusions que nous entirerons. Cela sera d'autant plus vrai lorsque le nombre de personnes interrogéessera relativement petit. Des données aussi simples que la moyenne, la médianeet les pourcentages peuvent nous entraîner vers une fausse perception de laréalité lorsquelles sont mal employées.Comme nous avons pu le constater, une description sommaire, si ellenest pas contextualisée, peut entraîner une perception qui est loin de la réalité.La même chose peut se produire lorsque lon veut comprendre une situation.
6
Pour une étude sociolinguistique, il devient alors important de bien cernerl'objet. Il ne suffit pas d'interroger beaucoup de monde mais d'interroger despersonnes en fonction d'unplan d'analyse statistique prédéfini.Population, échantillon et le langage des statistiquesLa statistique utilise un langage qui lui est propre. Le statisticien parlealgèbre et lalgèbre a ses propres règles de « grammaire ». Bien quil ne soit pasnécessaire de parler algèbre pour faire des statistiques, quelques notions debase sont utiles, notamment lors de la manipulation d'un petit nombred'observations2. Mais, comme dans toutes les langues, des exceptions existent.Nous soulignerons ces exceptions dans le texte.Il est essentiel, dans un premier temps, de bien définir la population àl'étude. Une population, dans le sens statistique du terme, est un ensembled'individus ou d'unités statistiques qui composent la totalité de l'univers qui estétudié. Si l'étude porte sur les jeunes de 15 à 18 ans, alors la population seratous les jeunes de 15 à 18 ans. Si l'étude porte sur les jeunes de 15 à 18 ansd'un continent, alors la population sera tous les jeunes de 15 à 18 ans de cecontinent et ainsi de suite. Une population peut être très circonscrite ou trèsgénérale. Il est cependant primordial, d'un point de vue statistique, de bienconnaître cette population afin d'établir le plan échantillonnal optimal. Plus lapopulation aura des caractéristiques différentes, plus il sera difficile d'utiliser destests statistiques propres aux petits échantillons. L'analyse à partir de petitséchantillons sert surtout à examiner des points très précis et non des généralités.L'échantillon, pour sa part, ne compte que sur une partie de la population.On utilise un échantillon lorsquon désire connaître les caractéristiques dunepopulation mais quil est trop difficile, pour des raisons pratiques ou financières,
2 Essentiellement, la statistique utilise une notation à base de lettres grecques et latines. En général, leslettres grecques représentent les échantillons et les lettres latines les populations.
7
dinterroger lensemble de cette population3. Il sagit donc dans un premier tempsde déterminer si lenquête touchera lensemble de la population ou une partieseulement. Il est important de déterminer si les personnes interrogéesreprésentent bien la population générale ou une sous-population. Il est en effetpossible que la population se subdivise en sous-populations. Dans un tel cas,léchantillon devra tenir compte de cette caractéristique. Une sous-populationpeut être définie en fonction du sujet étudié. Par exemple, si létude porte surlutilisation de certaines expressions, il est possible que ces expressions soientconditionnées par le lieu de résidence (urbainvs rural), l'origine sociale, le sexe,le pays d'origine, etc. Dans un tel cas, nous serions en face de sous-populationsayant des caractéristiques propres. Si l'objectif de la recherche est d'évaluer lesdifférences d'origine sociale ou territoriale du locuteur, on doit alors envisager laconstitution dun échantillon de plus grande taille. Si, au contraire, l'étude seprête bien à un environnement «contrôlé»4, un plus petit échantillon pourraitalors être utilisé.Il est donc essentiel de bien définir la population et les sous-populationsqui composent notre champ d'étude. Il est également important détablir si lechercheur désire décrire les caractéristiques dune population, ou dune sous-population, de comprendre les raisons du comportement de cette population ouencore de projeter sur lensemble de toute la population, ou des sous-populations, le comportement éventuel des personnes qui la composent. La cléréside dans l'échantillonnage et dans la technique d'analyse.3 Dans le cas où tous les éléments dune population sont sélectionnés on parle dun recensement.4 Un exemple d'un environnement contrôlé serait une évaluation qualitative d'une réaction physique(mouvement des yeux, expression générale du visage, etc.) lorsqu'un sujet est soumis à des expressionslinguistiques particulières. L'évaluation se fait alors en fonction de la réaction et en rapport avec laconnaissance ou l'absence de connaissance préalable de l'expression. En sociolinguistique, un exemple-typeserait la technique dumatched guise oulocuteur masqué.