MTSO11F, Statistiques bivariées, D. Breton 2010/2011 Statistiques bivariées SO10FM11/SO30FM22 Université de Strasbourg Licence Sciences Sociales Cours Didier Breton dbreton@unistra.fr Travaux dirigés Mohamed Ouardani ouardani@unistra.fr Nicolas CauchiDuval cauchiduval@unistra.fr Emmanuel Perinel – emmanuel.perinel@neuf.fr Année Universitaire 2010/2011 1 MTSO11F, Statistiques bivariées, D. Breton 2010/2011 Préalable Ce cours se base totalement sur le cours construit et dispensé durant des années par Jacqueline Igersheim en formation initiale et actuellement repris par M. Ouardani en enseignement à distance. Qu’ils soient tous les 2 très sincèrement remerciés de m’avoir autorisé à reprendre presque intégralement leur cours que je prendrai grands soins de compléter dès l’an prochain. 3 SO10FM11/SO30FM22, Statistiques bivariées, D. Breton 2010/2011 Présentation Le cours Le mercredi matin de 8h30 à 10h00 – Amphi 2 Les 8 premières semaines ainsi que la dernière semaine (12) Les travaux dirigés Toutes les semaines paires (à partir de la semaine prochaine) M. OUARDANI : le jeudi de 10h00 à 12h00 – Salle 3213 – parcours « Sociologie » et « Sociologie du développement » N. CAUCHI DUVAL : le mercredi de 16h00 – 18h00 – Amphi 4 – Parcours démographie obligatoire et parcours « Sociologie » et « Sociologie du développement » E. PERINEL : le jeudi 9h00 – 11h00 – Salle 3202 – Parcours « Socio Eco » ...
MTSO11F, Statistiques bivariées, D. Breton 2010/2011
Préalable
Ce cours se base totalement sur le cours construit et dispensé durant des années par Jacqueline Igersheim en formation initiale et actuellement repris par M. Ouardani en enseignement à distance. Qu’ils soient tous les 2 très sincèrement remerciés de m’avoir autorisé à reprendre presque intégralement leur cours que je prendrai grands soins de compléter dès l’an prochain.
3
4
Inscription en travaux dirigés est obligatoire + , - .écrit lors de la semaine d’examen – 2 heures – commun à tous. " $ , #/ 01 , DEORESBEKJ. J.,Éléments de statistique, Bruxelles, éditions Ellipses, 1997, 550 pages. PYB.,Statistiques descriptives, éditions Economica, 1992, 353 pages WTTOCONNAT. H. & WCONATTNO J., RStatistique, éditions Economica, 1995, 922 pages GRAISB.,Méthodes statistiques23eédition, éditions Dunod, 1998,401 pages."& "& ) # ( 0.3 3.
&%#$&% 4Dans la continuité des enseignements des semestres 1 à 4 6Deux questions centrales 7*"#&) , "&&5) $)#&*&() ) )'"%&%%"6) 7I.POPULATION ETECHANTILLON 10La population 10L’échantillon 10II.LA PRESENTATION D’UNE SERIE UNIVARIEE 15Quelques concepts de base 15La présentation d’une série sous forme d’un tableau 16Paramètres de tendance centrale et de dispersion 19Estimation de paramètres 25III.REPRESENTATIVITE D’UN ECHANTILLON 29Représentativité selon un paramètre 30Test multinomial : représentativité suivant plusieurs modalités/classes d’une variable qualitative/quantitative discrétisée 32Test du Khi-2 : représentativité suivant le croisement une variable qualitative et/ou quantitative discrétisée 34*"#&) , "%"8) &("#&)) 9IDOCUNRTITNO 39I.MESURER LA RELATION ENTRE DEUX VARIABLES QUALITATIVES 40Le tableau de contingence 40Test d’indépendance 42II.MESURER LA RELATION ENTRE DEUX VARIABLES QUANTITATIVES 45Les données 45Calculs de corrélation 47Droites de régression 52
Introduction
DANS LA CONTINUITE DES ENSEIGNEMENTS DES SEMESTRES1A4 Ce cours est le dernier cours de statistiques descriptives du cursus Licence en Sciences sociales. Rappelons rapidement le contenu des enseignements des 4 premiers semestres, le 5èmesemestre n’offrant un enseignement en statistiques uniquement pour les démographes. . , 0 ·sensibilisation à l’enquête quantitative et au questionnaire ·calculs et utilité des indicateurs de : moyenne, mode, médiane et des 0: écarttype, coefficient de variation oSavoir calculer et interpréter ces différents indicateurs calculés au sein de l’ensemble de la population ou au sein d’un échantillon. . , * ·continues – distributions théoriques, notion deProbabilité : lois discrètes et variable aléatoire statistique . , 1 +. ·Statistique inférentielle :Estimation: utilisation du théorème centrallimite / Loi des grands nombres qui permettent de juger de la convergence de la loi suivie par un estimateur d’un paramètre (moyenne ou proportion) vers une loi continue. · après (oufaisant l’hypothèse que l’échantillon est représentatifEnsuite, en avoir vérifié sa représentativité) il est possible d’inférer ou d’obtenir une estimation qui prend la forme d’un intervalle (intervalle de confiance), de la valeur du paramètre dans la population mère ou population totale. . : , 1 ;< ·Tests de cohérence de la valeur obtenue d’un paramètre (moyenne, proportion) par rapport à une valeur donnée (réelle ou théorique). ·Les tests de comparaison de deux moyennes ou de deux proportions mesurées au sein d’échantillons. ·du Khi2 pour comparer deux distributions : une distributionLe test théorique avec une distribution observée. La distribution théorique en deuxième année correspondait à la situation d’indépendance entre les deux variables. En parallèle des enseignements statistiques des semestres 3 et 4, le TD d’enquête quantitative MODALISA se veut être une application des enseignements de statistique et une confrontation à la réalité d’une enquête quantitative. 6
DEUX QUESTIONS CENTRALESLe cours de statistique de ce semestre prolonge et complète ces différents enseignements. La question centrale de ce cours est relative aux statistiques bivariées (deux variables) : .. = / 1 / 0 > ;< Répondre statistiquement à cette question dépend de la nature des deux variables étudiées. Trois combinaisons sont possibles : Cas A : Deux variables qualitatives révision et prolongement des tests de comparaison de deux proportions et du test du Khi2 Cas B : Une variable qualitative et une variable quantitative et prolongement révision des tests de comparaisons de deux moyennes Cas C : Deux variables quantitativesCorrélation et régression L’analyse dans ces cas n’est plus univariée mais bien bivariée. On analyse de manière simultanée les caractéristiques des individus suivant deux variables. Dans le cas de données collectées par questionnaire il s’agit d’analyser la relation entre deux séries de réponses d’individus. Estce que les réponses à une question A sont dépendantes/liées/corrélées aux réponses à une question B. Mais avant d’aborderla question de la dépendance vous devez avoir les moyens de juger de la représentativité d’un échantillon. Et donc de savoir répondre à la question suivante : +1 2 0 ;0 < 2 ? 0/ 00 .3 > ;< Pour répondre à cette question, nous utiliserons plusieurs « techniques », plusieurs « outils » : confiance d’une proportion ou d’une moyenneIntervalle de Test multinomial Test du Khi2 La notion de représentativité est toujours une notion relative. On peut vérifier la représentativité d’un échantillon suivant la distribution : ·d’une variables qualitative dichotomique ou quantitative : construction d’intervalle de confiance ·de la distribution des effectifs suivant une variable à k modalités (k>2) : test multinomial ·de la distribution suivant deux variables qualitatives ou quantitatives discrétisées : le test du Khi 2
Dans les deux cas (dépendance ou représentativité de l’échantillon), le schéma général est le même : 1On part de la situation de référence (intervalle ou répartition des effectifs) , c'estàdire celle que l’on devrait obtenir si l’échantillon était représentatif de la population mère. 2On compare avec la situation observée dans l’échantillon tiré. 3situation théorique et la situation observée onDe la différence entre la parvient à une conclusion avec un certain niveau de confiance ou de certitude. Dans le cas de la vérification de la dépendance entre les deux variables (1), la situation théorique est celle de l’indépendance entre les deux variables et si l’on cherche à vérifier la représentativité d’un échantillon, la situation théorique est celle de la représentativité de l’échantillon.
Mais avant de répondreces deux questions, une partie introductive servira de rappel sur laà notion d’échantillon, sur quelques notions de vocabulaire en statistique univariée et bivariée et sur les modalités de calcul des indicateurs statistiques de tendance centrale et de dispersion d’une série univariée. En conclusion se cours se décompose en trois parties : * statistiques descriptives et théorie de l’échantillonnage: Rappels de * : Juger de la représentativité d’un échantillon * : Juger de la dépendance entre deux variables.
SO10FM11/SO30FM22, Statistiques bivariées, D. Breton 2010/2011
Partie 1 : Statistiques descriptives et échantillonnage
LA POPULATIONLa*0 toutes les personnes susceptibles d’être enquêtées. Une regroupe population est localisée, datée et caractérisée. Elle a une taille « N » c'estàdire qu’elle regroupe « N » individus appelésunités statistiques.. ·Par exemple la population française au 24 janvier 2008 est constituée de l’ensemble des individus qui vivent sur le territoire national le 24 janvier 2008. On ne peut pas connaître la taille exacte de cette population. De plus la question est de savoir à quel moment la dénombrer dans la journée du 24 janvier 2008 ? · l’année universitaire étudiants de l’Université Marc BlochLa population des « 20072008 » est constituée de l’ensemble des étudiants inscrits dans les fichiers de la scolarité au jour de la clôture des inscriptions. On peut facilement connaître cette population. Dans le cas d’enquête on emploie facilement l’expression de »« population mère ou « population totale ». L’idéal pour une enquête statistique serait d’interroger l’ensemble de la population. Une telle démarche, qualifiée d’exhaustive est0/ .0compte tenu de la taille trop importante de la population, compte tenu des moyens financiers ou du temps disponibles pour collecter l’information ou tout simplement parce que c’est techniquement impossible. Mais l’exhaustivité peut aussi être . tenu des niveaux de compte précisions obtenus à partir d’un échantillon, sous réserve de la représentativité de ce dernier. Toutefois l’exhaustivité reste la démarche idéale pour plusieurs raisons : Elle élimine toutes les questions de l’aléa et de la représentativité statistiques. Les indicateurs obtenus sont les indicateurs réels. L’exhaustivité autorise plus de traitements et notamment des traitements croisés et multivariés compte tenu des effectifs plus importants de la population. C’est par exemple le cas pour les études locales fines ou l’étude des sous populations marginales. @ 0 @ . 00 .! . @ 0 @ A +1 B
I.Population et Echantillon
L’ECHANTILLONL’échantillon représente une fraction de la population totale. Il a une taille « n ». Il a une vocation : être représentatif de la population totale. On suppose donc que l’échantillon qui sera ensuite enquêté soit représentatif de la population totale, tout du moins du point de vue des variables clés et centrales dans la problématique de l’étude. En effet, sans représentativité, les conclusions obtenues à partir de l’échantillon ne peuvent pas être extrapolées à la population totale. L’échantillon est obtenu par tirage qui obéit à un protocole particulier :c’est le plan de sondage. Une des conditions pour une bonne représentativité d’un échantillon est que le plan de sondage accorde suffisamment de place à l’aléatoire.Cela consiste à mettre un maximum de hasard dans la phase de tirage des individus. L’aléa limite les risques de sélection d’individus 10
Échantillon avec ou sans remise Un tirage d’échantillon est ditexhaustifsi le tirage se fait sans remise. Une personne ne peut être interrogée qu’une et une seule fois. Un tirage est ditindépendantsi le tirage se fait avec remise. Une personne peut être tirée et interrogée à plusieurs reprises. Quand la taille de la population est très importante et que la taille de l’échantillon est en comparaison suffisamment petite, alors même si le tirage se fait sans remise on peut supposer que les tirages sont indépendants. La limite avait été fixée à 1/10 en deuxième année (soit un taux de sondage inférieur à 1/10). Base de sondage Pour tirer aléatoirement un échantillon, il faut disposer d’une base de sondage. C’est ce qui se fait dans toutes les enquêtes quantitatives «ambitieuses». Une base de sondage est une liste papier ou informatique de personnes ou plus généralement d’adresses ou de coordonnées (téléphone, emails, …). Tirage systématique dans une base de sondage Procédé :·Numéroter tous les individus de1jusqu’àN.·Choisir un nombrebcompris entre1etr=N.n