GUIDE PRATIQUE POUR L'UTILISATION DE LA STATISTIQUE EN ...

De
Publié par


Bruno Marien et Jean-Pierre Beaud













GUIDE PRATIQUE POUR L'UTILISATION
DE LA STATISTIQUE EN RECHERCHE :
LE CAS DES PETITS ÉCHANTILLONS




















Réseau Sociolinguistique et dynamique des langues
Agence universitaire de la Francophonie
Québec
Mai 2003
Préface

Depuis sa création en 1993, le réseau Sociolinguistique et dynamique des langues
de l’Agence universitaire de la Francophonie s’est donné, entre autres objectifs, celui de
produire du matériel scientifique et des manuels à l’intention de ses membres. Le réseau a
déjà publié les ouvrages suivants :
• Marie-Louise Moreau, Sociolinguistique: Concepts de base, Mardaga, 1997;
• Robert Chaudenson, L'évaluation des compétences linguistiques en français,
Didier Érudition, Paris, 1996;
• Pierre Dumont et Bruno Maurer, Sociolinguistique du français en Afrique
francophone, gestion d'un héritage, devenir d'une science, EDICEF, 1995;
• Robert Chaudenson, Vers un outil d'évaluation des compétences linguistiques en
français dans l'espace francophone, Didier Érudition, Paris, 1995;
• Cl. Bavoux, Français régionaux et insécurité linguistique, Paris, L'Harmattan,
1996;
• Pierre Dumont et Louis-Jean Calvet, Méthodologie de l'enquête sociolinguistique,
Paris, L'Harmattan, 2000.
Lors de sa dernière réunion en mai 2003, le comité du réseau a constaté que plusieurs
dossiers envoyés en réponse à son troisième appel à collaborations passaient sous ...
Voir plus Voir moins
                                  
Bruno Marien et Jean-Pierre Beaud
GUIDE PRATIQUE POUR L'UTILISATIONDE LA STATISTIQUE EN RECHERCHE :LE CAS DES PETITS ÉCHANTILLONS
Réseau Sociolinguistique et dynamique des languesAgence universitaire de la FrancophonieQuébecMai 2003
 Préface  Depuis sa création en 1993, le réseau Sociolinguistique et dynamique des languesde lAgence universitaire de la Francophonie sest donné, entre autres objectifs, celui deproduire du matériel scientifique et des manuels à lintention de ses membres. Le réseau adéjà publié les ouvrages suivants : Marie-Louise Moreau, Sociolinguistique: Concepts de base, Mardaga, 1997; Robert Chaudenson,L'évaluation des compétences linguistiques en français,Didier Érudition, Paris, 1996; Pierre Dumont et Bruno Maurer,Sociolinguistique du français en Afriquefrancophone, gestion d'un héritage, devenir d'une science, EDICEF, 1995; Robert Chaudenson,Vers un outil d'évaluation des compétences linguistiques enfrançais dans l'espace francophone, Didier Érudition, Paris, 1995; Cl. Bavoux,Français régionaux et insécurité linguistique, Paris, L'Harmattan,1996; Pierre Dumont et Louis-Jean Calvet,Méthodologie de l'enquête sociolinguistique,Paris, L'Harmattan, 2000.Lors de sa dernière réunion en mai 2003, le comité du réseau a constaté que plusieursdossiers envoyés en réponse à son troisième appel à collaborations passaient sous silenceou traitaient trop rapidement certaines questions méthodologiques comme la constitutionde léchantillon servant à lenquête ou le plan danalyse statistique. Le comité a jugé quilserait très utile de produire un petit guide sur lutilisation des échantillons et de lastatistique en sociolinguistique, sujets jusque-là peu traités dans des publications enlangue française. Lorsque les enquêtes sociolinguistiques peuvent se permettre davoirrecours à des échantillons substantiels, comparables à ceux quutilisent les instituts desondage dans leurs enquêtes dopinion (1 000 enquêtés et plus), la situation estrelativement simple puisque nous disposons dune méthodologie qui a largement fait sespreuves et que nous pouvons facilement (ou relativement facilement) solliciter laidedexperts en la matière. Mais la situation de la sociolinguistique est particulière du faitque nos enquêtes recourent souvent à des petits échantillons, voire des micro-échantillons. Se posent alors la question de la représentativité de ces petits échantillons etdes généralisations que nous pouvons faire à partir deux. Cest ce terrain encorelargement en friche que le comité de réseau a demandé aux professeurs Bruno Marien etJean-Pierre Beaud de commencer à débroussailler. M. Marien est chargé de cours audépartement de science politique de lUniversité du Québec à Montréal, où il enseigne lesstatistiques, et il a contribué à mettre sur pied lInstitut national de la statistique du Cap-Vert; en plus de plusieurs emplois dans le secteur privé, il a aussi travaillé à StatistiqueCanada, le grand institut de statistique du gouvernement canadien, où il a coordonnélintégration des méthodes statistiques à lintérieur du programme de télédétection.M. Beaud est directeur du département de science politique de lUQAM; il est lauteurdun texte sur les techniques déchantillonnage et il travaille activement sur lutilisationdes statistiques en sciences humaines. Vous trouverez, dans la présente brochure, lasynthèse quils ont produite.
 
ii
 Le document que nous publions aujourdhui pourrait donner lieu à une deuxièmeédition si vous, sociolinguistes engagés dans la recherche sur le terrain, nous faitesconnaître vos commentaires, remarques, critiques et besoins. Nous pourrons ainsiproduire une version plus étoffée, susceptible de répondre encore mieux à vos besoins. Ilfaut donc considérer le présent texte comme undocument de travail perfectible. Le comité de direction du réseau Sociolinguistique et dynamique des langues souhaiteprofiter des prochaines journées scientifiques qui doivent réunir à Ouagadougou,vraisemblablement en septembre 2004, tous les réseaux de langue de lAgenceuniversitaire de la Francophonie pour organiser des journées de formation. Ces journéesde formation doivent répondre aux besoins des membres et nous vous invitons à nous lescommuniquer à ladresse électronique du réseau (qui est donnée plus bas). Le comité deréseau propose daborder les thèmes suivants au cours des journées de formation : lespetits échantillons, les statistiques descriptives et lutilisation des tests statistiques. Cetteformation sera dautant plus profitable que vous nous aurez fait connaître auparavant vosbesoins.  Au nom des membres du comité de direction du réseau Sociolinguistique etdynamique des langues, Mme Élisa Rafitoson, MM. Ahmed Boukous, Pierre Dumont,Jean-Marie Klinkenberg, Bruno Maurer et Auguste Moussirou-Mouyama, je voussouhaite bonne lecture.  
 Québec, le 23 mai 2003
 
Jacques MauraisCoordonnateurRéseau Sociolinguistique et dynamique des languesAgence universitaire de la FrancophonieCourriel du réseau : sdl@refer.org  
iii
Première partie : éléments de base sur les échantillons en statistique  Introduction Combien de personnes devons-nous interroger pour quune enquête soitcrédible? Voilà certes la question que tout chercheur se pose avantdentreprendre une démarche quantitative. On retrouve également la mêmeinterrogation dans l'esprit des lecteurs de cette même recherche. Ces dernierspeuvent en effet remettre en question les conclusions d'une étude parce qu'untrop petit nombre de personnes, à leurs yeux, ont été interrogées ou encore àcause d'une certaine faiblesse méthodologique dans la constitution deléchantillon. La question du nombre de répondants n'est, en effet, qu'un deséléments qu'il faut considérer dans le processus d'enquête. En plus de laquestion du nombre de répondants, il est approprié de sinterroger sur la manièrede choisir ces derniers, sur lutilisation à faire des données recueillies et sur letype danalyse à privilégier. Toutes ces dimensions auront un impact sur lesrésultats dune recherche qui se base sur une enquête. Plus encore, l'applicationde certaines règles de base permet de répondre avec confiance à la question« Comment, à partir dun petit nombre, pouvons-nous extrapoler surlensemble? » Nous comprenons qu'une utilisation abusive et techniquement faible de lastatistique et, dans le cas qui nous occupe ici, la manière de recueillir lesinformations peuvent remettre en question les résultats de travaux qui autrementpourraient contribuer grandement à lavancement de la connaissance. Lobjectif de ce document est donc de fournir un guide, un supporttechnique, quant à la manière dutiliser loutil statistique, notamment en ce quiconcerne léchantillonnage et plus particulièrement les petits échantillons. Lespetits échantillons demeurent un sujet peu traité dans les manuels destatistiques. Ce sont surtout les techniques d'analyse à partir d'un nombre
 
1
restreint d'observations qui ont fait l'objet d'une réflexion. Cependant, pourcomprendre comment appliquer ces techniques, il est essentiel de bien maîtriserles principes de base de l'approche statistique. Nous avons donc jugé opportunde faire un retour sur ces principes avant d'aborder le sujet plus précis del'utilisation des petits échantillons. Ce texte sadresse principalement aux personnes pour qui la statistique nereprésente pas leur domaine d'expertise. Nous avons voulu simplifier etdémystifier la technique déchantillonnage afin que tous puissent maximiserlutilisation de cet outil important. Comme son titre lindique, ce document estplus un guide qu'un texte technique. C'est pourquoi nous avons limité, dans lamesure du possible, les notations algébriques. Ce texte sert essentiellement àmettre en lumière les principes de base dans lapplication de la statistique,notamment au chapitre de léchantillonnage. Objectif de la statistique La statistique sert, entre autres, à décrire, comprendre et estimer (ouprojeter) une situation. Les outils statistiques et les techniques danalyseparticulières varieront en fonction de lobjectif poursuivi. Lorsque lon travaille à partir dun échantillon, la statistique descriptiverend simplement compte des observations faites à partir de cet échantillon. Ontente de comprendre une situation lorsque l'on est en mesure d'expliquer lesdifférences observées dans léchantillon au moyen de variables qui expliquentces différences : par exemple, on observe la présence dans une population depersonnes unilingues et de personnes bilingues et les variables servant àexpliquer le phénomène peuvent être nombreuses (niveau de scolarité, présencede médias en une autre langue, etc.). Enfin, on projette sur l'ensemble de lapopulation lorsque les données dunéchantillon permettent de généraliser surl'ensemble de la population. Il faut donc prendre les moyens pour sassurer
 
2
que léchantillon est représentatif avant de faire cette opération degénéralisation. Cependant, les statistiques n'auront de sens que si les données utiliséessont crédibles. Pour cela, il faut que le nombre dobservations soit suffisant etfiable. Les personnes ou éléments qui seront utilisés dans ce contexte doiventdonc être représentatifs de lensemble de la population à létude. On parledéchantillon lorsque lon étudie une partie  plutôt que la totalité  d'unepopulation dans le cadre d'une enquête. Si l'échantillon est bien construit et,surtout, sil est représentatif de l'ensemble dont il est issu, il devient alorssécuritaire dutiliser les données dans une démonstration. En fait, l'opérationstatistique, par la médiation d'un échantillon, vise à réduire l'erreur de décisionque l'on commet lorsque l'on présente un résultat. Cette notion d'erreur demeureomniprésente dans l'application de la statistique. La démarche statistique (ou quantitative) comporte trois grands axes : laquantification, l'analyse et l'interprétation. Ces trois axes sont intimement liésentre eux. La quantification représente l'étape où on traduit une questionscientifique («laspirine peut-elle contribuer à réduire les risques dattaquecardiaque?») en un problème scientifique («les conditions objectives delutilisation de laspirine dans la prévention des crises cardiaques»). C'est decette étape quil est question dans le présent texte. L'analyse représentel'application de techniques essentiellement mathématiques qui mettent enévidence certaines particularités des valeurs mesurées. Enfin, l'interprétation sertà tirer des conclusions scientifiques des résultats de l'analyse statistique1. Les trois étapes mentionnées dans le paragraphe précédent sontintimement liées. Cependant, l'analyse statistique, notamment lorsquil estquestion d'un petit nombre d'observations, est particulièrement délicate. Mais
                                                 1 Ce paragraphe est inspiré de Jacques Allard,Concept fondamentaux de la statistique, Montréal, Addison-Wesley, 1992.
 
3
que l'on compte sur un grand nombre d'observations ou sur peu d'éléments, lesprincipes déchantillonnage demeurent les mêmes. C'est pourquoi nous avonscru nécessaire dinsister sur les points fondamentaux de l'échantillonnage. Noussavons par ailleurs que les chercheurs, et les éditeurs de revues scientifiques,préfèrent travailler avec un niveau de confiance élevé par rapport à leursrésultats. On exige souvent un niveau de confiance de 95 %. C'est-à-dire que lechercheur désire être sûr à 95 %, ou 19 fois sur 20, de ne pas commettred'erreur dans les chiffres qu'il propose. Cela demande une approche rigoureuse,notamment lorsque le chercheur ne dispose pas d'un grand nombre de sujetsétudiés. Décrire, comprendre et projeter Lorsque l'objectif d'une recherche est simplement de décrire une situationou un ensemble de données, il est d'usage d'utiliser la statistique descriptive. Lastatistique descriptive se distingue de l'inférence statistique qui vise, elle, àextrapoler sur la population entière les résultats d'une enquête portant sur unéchantillon. On décrit une situation par le biais de statistiques qui, en un chiffre ougroupe de chiffres, résument une situation, un état ou un problème. Par exemple,l'âge moyen des élèves dune classe est une valeur qui résume lâge de tous lesmembres dans cette classe. La moyenne est la valeur qui permet de trouver unéquilibre entre toutes les valeurs dun groupe (ou dun groupe dobjets). Lorsqu'ildevient impossible d'interroger toutes les personnes qui composent une classe,nous utiliserons une fraction des personnes présentes. Le résultat obtenu serapar la suite utilisé pour représenter tous les membres. L'échantillon, la fraction,sert donc à décrire l'ensemble, la population. Il existe trois mesures de tendances centrales : la moyenne, la médiane etle mode. Ces mesures servent à représenter l'ensemble de toute la population.
 
4
Cependant, lutilisation de ces mesures peut parfois prêter à confusion. Prenonslexemple suivant : Il y a dans une classe 50 % de filles et 50 % de garçons. Il y a donc autantde filles que de garçons. Lâge moyen est de 18 ans. La classe est donccomposée délèves qui gravitent autour de cette moyenne. Lâge médian, lâgequi sépare en deux parties égales toutes nos observations, est également de 18ans. Nous pourrions dire alors que lâge des élèves est relativement similairepour tous. Létude conclut que nous observons une classe relativementhomogène au niveau de lâge. Mais voilà, la classe nest composée que dungarçon et dune fille dont lâge est respectivement de 22 et de 14 ans. Nousavons effectivement 50 % de garçons et 50 % de filles. Lâge moyen et médianest effectivement de 18 ans. Cependant, ces informations ne rendent pascompte de la réalité. Même si cet exemple semble extrême, il montre que lutilisation parfoisabusive, et simpliste, des statistiques peut davantage nuire à une bonnecompréhension dune situation quà léclairer. Comment expliquer cette mauvaiseutilisation des chiffres? Premièrement, nous navions pas défini notre population.De qui parlions nous? Une classe? Mais une classe de quoi? Pourquoiseulement deux personnes étaient-elles dans la classe? Pourquoi avoirtransformé en pourcentage ces deux observations? Il est évident que si nousavions mentionné un garçon et une fille plutôt que 50 % et 50 %, la réaction dulecteur eût été différente. Cest également pourquoi un statisticien, ou unepersonne sensible aux éléments quantitatifs, demeure prudent lorsquil estquestion de pourcentage. On doit toujours sinterroger sur le nombre total utilisépour calculer les pourcentages, la moyenne, la médiane ou le mode. Mieux, ilfaut, dans un premier temps, définir précisément la population étudiée. Il estinsuffisant de dire quune étude porte sur les classes. De quelle classe s'agit-il? Ilfaut également préciser si létude porte sur les élèves masculins et féminins, enmilieu urbain et rural, etc. Dans un tel cas, la simple description sera insuffisante.
 
5
Il faudra déterminer si les deux sexes, si les urbains et les ruraux se comportentde la même façon. À ce moment, loutil statistique nous permettra decomprendre si les élèves se comportent de la même façon ou si, au contraire,ils sont différents et, surtout, pourquoi ils sont différents. Finalement, si lesrésultats doivent servir àprojeter sur lensemble de la population des élèves, lesoutils statistiques devraient permettre dextrapoler et de valider des théories. Aussi une mauvaise définition du sujet de létude, une mauvaiseplanification ainsi que des choix douteux quant à la sélection des individuspeuvent venir invalider les conclusions dune étude qui autrement pourrait êtreparfaitement valable. La racine d'une étude statistique réside dans la manière derecueillir l'information. Le nombre de sujets inclus dans l'étude nous permetd'être plus précis et d'examiner plus de questions. Ce quil faut retenir de lexemple précédent, cest que la justesse dunesituation dépend largement de la compréhension de la population étudiée.Remarquez que le nombre de personnes retenues pour faire lévaluation estassurément trop petit. On ne peut en effet tirer de conclusions à partir dun sipetit nombre. Le même principe sapplique pour la sélection des personnes quiferont partie de notre échantillon. La sélection des personnes influencera lesrésultats que nous obtiendrons et, par conséquent, les conclusions que nous entirerons. Cela sera d'autant plus vrai lorsque le nombre de personnes interrogéessera relativement petit. Des données aussi simples que la moyenne, la médianeet les pourcentages peuvent nous entraîner vers une fausse perception de laréalité lorsquelles sont mal employées. Comme nous avons pu le constater, une description sommaire, si ellenest pas contextualisée, peut entraîner une perception qui est loin de la réalité.La même chose peut se produire lorsque lon veut comprendre une situation. 
 
6
Pour une étude sociolinguistique, il devient alors important de bien cernerl'objet. Il ne suffit pas d'interroger beaucoup de monde mais d'interroger despersonnes en fonction d'unplan d'analyse statistique prédéfini. Population, échantillon et le langage des statistiques La statistique utilise un langage qui lui est propre. Le statisticien parlealgèbre et lalgèbre a ses propres règles de « grammaire ». Bien quil ne soit pasnécessaire de parler algèbre pour faire des statistiques, quelques notions debase sont utiles, notamment lors de la manipulation d'un petit nombred'observations2. Mais, comme dans toutes les langues, des exceptions existent.Nous soulignerons ces exceptions dans le texte. Il est essentiel, dans un premier temps, de bien définir la population àl'étude. Une population, dans le sens statistique du terme, est un ensembled'individus ou d'unités statistiques qui composent la totalité de l'univers qui estétudié. Si l'étude porte sur les jeunes de 15 à 18 ans, alors la population seratous les jeunes de 15 à 18 ans. Si l'étude porte sur les jeunes de 15 à 18 ansd'un continent, alors la population sera tous les jeunes de 15 à 18 ans de cecontinent et ainsi de suite. Une population peut être très circonscrite ou trèsgénérale. Il est cependant primordial, d'un point de vue statistique, de bienconnaître cette population afin d'établir le plan échantillonnal optimal. Plus lapopulation aura des caractéristiques différentes, plus il sera difficile d'utiliser destests statistiques propres aux petits échantillons. L'analyse à partir de petitséchantillons sert surtout à examiner des points très précis et non des généralités. L'échantillon, pour sa part, ne compte que sur une partie de la population.On utilise un échantillon lorsquon désire connaître les caractéristiques dunepopulation mais quil est trop difficile, pour des raisons pratiques ou financières,
                                                 2 Essentiellement, la statistique utilise une notation à base de lettres grecques et latines. En général, leslettres grecques représentent les échantillons et les lettres latines les populations.
 
7
dinterroger lensemble de cette population3. Il sagit donc dans un premier tempsde déterminer si lenquête touchera lensemble de la population ou une partieseulement. Il est important de déterminer si les personnes interrogéesreprésentent bien la population générale ou une sous-population. Il est en effetpossible que la population se subdivise en sous-populations. Dans un tel cas,léchantillon devra tenir compte de cette caractéristique. Une sous-populationpeut être définie en fonction du sujet étudié. Par exemple, si létude porte surlutilisation de certaines expressions, il est possible que ces expressions soientconditionnées par le lieu de résidence (urbainvs rural), l'origine sociale, le sexe,le pays d'origine, etc. Dans un tel cas, nous serions en face de sous-populationsayant des caractéristiques propres. Si l'objectif de la recherche est d'évaluer lesdifférences d'origine sociale ou territoriale du locuteur, on doit alors envisager laconstitution dun échantillon de plus grande taille. Si, au contraire, l'étude seprête bien à un environnement «contrôlé»4, un plus petit échantillon pourraitalors être utilisé. Il est donc essentiel de bien définir la population et les sous-populationsqui composent notre champ d'étude. Il est également important détablir si lechercheur désire décrire les caractéristiques dune population, ou dune sous-population, de comprendre les raisons du comportement de cette population ouencore de projeter sur lensemble de toute la population, ou des sous-populations, le comportement éventuel des personnes qui la composent. La cléréside dans l'échantillonnage et dans la technique d'analyse.                                                     3 Dans le cas où tous les éléments dune population sont sélectionnés on parle dun recensement.4 Un exemple d'un environnement contrôlé serait une évaluation qualitative d'une réaction physique(mouvement des yeux, expression générale du visage, etc.) lorsqu'un sujet est soumis à des expressionslinguistiques particulières. L'évaluation se fait alors en fonction de la réaction et en rapport avec laconnaissance ou l'absence de connaissance préalable de l'expression. En sociolinguistique, un exemple-typeserait la technique dumatched guise oulocuteur masqué.
 
8
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.