//img.uscri.be/pth/99c492549846bcbcf0395f911716601f8334f5d3
Cette publication ne fait pas partie de la bibliothèque YouScribe
Elle est disponible uniquement à l'achat (la librairie de YouScribe)
Achetez pour : 8,99 € Lire un extrait

Téléchargement

Format(s) : PDF

avec DRM

Statistique descriptive - 7ème édition

De
160 pages

Autres ouvrages: Fredon, Mathématiques L1/L2 : Statistique et Probabilités en 30 fiches, 9782100523450 Maurice Lethielleux

Publié par :
Ajouté le : 06 mars 2013
Lecture(s) : 31
EAN13 : 9782100591176
Signaler un abus
Maurice LETHIELLEUX Maître de conférences à l’université Paris II-Panthéon-Assas
Statistique descriptive
e 7 édition
© Dunod, Paris, 2013 ISBN 9782100591152
Fiche 1 Fiche 2 Fiche 3 Fiche 4
Fiche 5 Fiche 6
Fiche 7 Fiche 8 Fiche 9
S
o
m
m
a
Généralités
i
re
Utilisations de la statistique Définitions des principaux termes Distributions et tableaux statistiques Représentations graphiques
Les caractéristiques de tendance centrale ou de position
La moyenne arithmétique Le mode, la médiane, les quartiles, les déciles, les centiles La moyenne géométriquem g La moyenne harmonique et la moyenne quadratique Les moments
Les caractéristiques de dispersion
Fiche 10La variance et l’écart type Fiche 11L’étendue, l’écart absolu moyen, les intervalles entre quartiles, déciles, centiles Fiche 12La courbe de concentration, © Dunod – Toute reprodlucitinodninconeaudtoerisGéeiensti,unldaélitm.édiale
S o m m a i r e
1 9 13 16
24
32 36 41 44
47
54
58
III
IV
Fiche 13 Fiche 14 Fiche 15 Fiche 16
Fiche 17
Fiche 18 Fiche 19
Fiche 20 Fiche 21 Fiche 22
Fiche 23 Fiche 24
Fiche 25
Fiche 26 Fiche 27
Index
Les indices
Les indices de prix Les indices de quantités ou de volume Les indices en valeur Les indices boursiers
Les séries statistiques à deux caractères
Séries statistiques à deux caractères et distributions marginales Les moyennes et les variances marginales Les distributions conditionnelles, les moyennes et variances conditionnelles Indépendance des variables. Covariance L’ajustement linéaire. Les moindres carrés La corrélation
Les séries chronologiques
Les composantes d’une série chronologique Estimation des composantes d’une série chronologique La prévision
Enquête et simulation
Présentation et analyse d’une enquête Simulation d’expériences aléatoires
S t a t i s t i q u e d e s c r i p t i v e
65 75 79 86
94 101
104 108 112 119
126
131 137
142 149
154
Utilisations de la statistique
I
Objectifs
1 FICHE
Dans un sens général, la « statistique » est l’ensemble des méthodes scientifiques à partir desquelles sont recueillies, présentées, résumées et analysées des données. Dans un sens plus étroit, le terme de « statistique » est employépoursignerdesdon-nées ou des résultats obtenus à partir de ces données, on parle ainsi de statistiques démographiques, de statistiques sur les revenus, le chômage, etc. Ceci correspond à la signification première du mot « state-istique », : ensemble des informations indispensables à l’État (dans la langue latineStatisticumsignifie : qui a trait à l’État). Les informations qui sont apparues très tôt indispensables à l’État étaient celles qui permettaient de recueillir des impôts et de recruter des conscrits pour les besoins des guerres. Ce n’est donc pas étonnant si les premiers chiffres recueillis concernaient les populations et l’économie. Le ministre Colbert fit entreprendre la première grande enquête en 1664, dans la presque totalité des provinces françaises. Un certain nombre de renseignements concer-naient des données économiques notamment dans le domaine de la finance : revue des principaux impôts, montant des impositions... Le marquis de Vauban, s’intéresse de près aux connaissances chiffrées, il met en évi-dence avec des statistiques précises les problèmes économiques de son époque. Il publie en 1686 « Méthode généralle et facille pour faire le dénombrement des peuples » Après l’économie et la démographie, la statistique s’est étendue à l’ensemble des sciences et elle est devenue une discipline scientifique faisant largement appel aux mathématiques (calcul algébrique, analyse, algèbre linéaire, calcul des probabilités) et à l’informatique pour les applications pratiques. La statistique en tant que méthode d’analyse comporte deux niveaux : La statistique descriptivequi englobe un ensemble dede ce manuel, , objet méthodes, pour décrire avec des outils appropriés des ensembles nombreux et dégager l’essentiel de l’information qui en résulte. Elle utilise des modes de repré-sentations graphiques comme des courbes de fréquences et des histogrammes. Elle utilise également des caractéristiques obtenues par un calcul algébrique : – indicateurs de valeur centrale : la moyenne, la médiane, le mode ; – indicateurs de dispersion autour d’une valeur centrale : variance, écart type ; – indices qui résument l’évolution d’un ensemble de grandeurs : indices de prix, © Dunod – Tionudteicrepsroddeuctqiuoanntointéasut,oirindeiecsetsunednélvit.aleur, indices boursiers.
F I C H E 1l a s t a t i s t i q u e U t i l i s a t i o n s d e
1
2
La statistique théorique ou mathématiquequi prend la suite de la statistique des-criptive lorsque l’on peut énoncer ou élaborer des lois : loi binomiale, loi nor-male… Le savant belge Adolphe Quételet (1796-1874) a défendu le principe d’une statistique scientifique s’appuyant sur le calcul des probabilités.
II L’essentiel à savoir A. Prélèvement d’un échantillon et sondages Un des objets de la statistique est d’étudier des caractères attachés à certains ensembles, qui constituent selon un terme emprunté à la démographie, unepopulation. Une popula-tion est constituée d’un ensemble d’individus. Exemple de population : le parc automo-bile français. Un individu est une automobile, lescaractères ou variablesétudiées peu-vent être la puissance, la consommation de carburant, l’âge, la couleur du véhicule... Pour cela, on peut recueillir l’information sur chaque individu composant la popula-tion, c’est ce que l’on fait pour unrecensement. Cette façon exhaustive de procéder n’est pas toujours possible ou souhaitable à mettre en œuvre et on extrait l’information sur un certain nombre d’individus composant la population, c’est ce qu’on appelle prélever un échantillon ou encore faire unsondage.
B. Les raisons d’échantillonner Elles sont très variées, en voici quelques-unes : – le budget est limité et le coût de la collecte élevé ; – il faut user ou détruire des éléments d’une fabrication pour en mesurer la qualité (exemple : résistance d’un moteur à l’usure) ; – le manque de temps ne permet pas de recueillir l’information sur autant d’indi-vidus qu’on le souhaite ; – les résultats sont recueillis avec plus de précision car ils sont plus facilement contrôlables du fait du nombre peu élevé d’observations ; – le calcul d’une marge d’erreur est possible, voir l’application sur les intervalles de confiance.
C. L’inférence statistique Les caractéristiques d’une population ne sont souvent connues qu’avec une certaine imprécision lorsque ces caractéristiques sont étudiées sur un échantillon. Les caracté-ristiques d’un échantillon reflètent en effet avec une certaine marge d’erreur les caractéristiques de la population. La statistiqueinductive ou inférentielleconsiste à induire des résultats sur une population à partir d’un échantillon en précisant si possible la marge d’erreur. Ceci fait appel au cal-cul des probabilités, donc à la statistique mathématique, qui n’est pas l’objet de ce manuel. L’intervalle de confianceprésenté en application dans cette fiche et sans justifications théoriques illustre par un exemple cette notion destatistique inférentielle.
S t a t i s t i q u e d e s c r i p t i v e
D. Biais de mesure et biais de recrutement Outre les imprécisions dues au fait que l’information est obtenue sur un échantillon, il existe deux autres sources de distorsions importantes sur les résultats obtenus. • Biais de mesure Les résultats sont mesurés avec deserreurs. Exemple L’appareil qui prend les mesures est défectueux, la personne qui prend les mesures n’est pas compétente. Lors d’une enquête sur les revenus, les personnes sondées ne déclarent pas la totalité de leur revenu. L’enquêteur n’est pas honnête et il invente les réponses. Tous ces exemples illustrent ce qu’on appelle un biais de mesure.
• Biais de recrutement L’échantillon prélevé n’estpas représentatifde la population vis-à-vis du caractère étudié. Exemple Un échantillon prélevé pour connaître les intentions de vote contient 40 % de personnes de plus de 60 ans alors que cette proportion n’est que de 25 % dans la population. Si l’âge exerce une influence sur le choix des électeurs, on saisit facilement cette source d’erreur. En 1936, aux États-Unis trois son-dages donnèrent Alf Landon vainqueur aux élections présidentielles alors que F. D. Roosevelt fut largement élu. Les échantillons constitués à partir d’annuaires étaient biaisés (les électeurs de Landon y étaient sureprésentés).
1
III Compléments A. Les méthodes de prélèvement d’un échantillon Il existe de nombreuses méthodes pour prélever un échantillon, celles-ci sont guidées par des considérations pratiques, de facilité de traitement mathématique ou encore de coût.
• Échantillon au hasard ou méthode probabiliste À chaque tirage d’un individu, chacun desNindividus composant la population à la 1 même chance d’être tiré. On dit que la probabilité est de . N C’est cette méthode qui permet d’obtenir le plus facilement une mesure de la précision des résultats dans la population et également d’éviter des biais de recrutement (voir application sur les i tervalles de confiance). © Dunod – Toute reproductionnon autorisée est un délit.
F I C H E 1s t a t i s t i q u et i l i s a t i o n s  U l a d e
3
4
• Méthode des quotas L’échantillon représente « en miniature » la population étudiée vis-à-vis des caracté-ristiques qui influent sur le phénomène analysé, par exemple même quotas selon l’âge, les revenus dans l’échantillon et dans la population. Ces échantillons sont souvent obtenus par téléphone ce qui risque d’introduire des biais. • Méthode en cascade ou à plusieurs degrés On tire au hasard un échantillon de quelques villes, puis dans chaque ville un échantillon de quelques quartiers, puis dans chaque quartier un échantillon de quelques individus. • Méthode par grappes Les grappes désignent des groupes d’individus qui habitent par exemple dans le même immeuble. Cette méthode de sondage consiste à tirer les grappes et ensuite les infor-mations sont recueillies auprès de chaque individu de la grappe. Cette méthode simple et peu coûteuse donne les meilleurs résultats avec des grappes qui se ressemblent et avec des individus très différents à l’intérieur des grappes. • Méthode par stratification Les individus sont tirés au hasard dans des strates définies comme des groupes homogènes de la population. L’effectif de l’échantillon tiré dans une strate ne dépend pas spécifique-ment de la taille de la strate comme on le ferait dans la méthode des quotas. L’effectif tiré dans une strate dépend de la variabilité connue ou estimée de la variable étudiée à l’intérieur de la strate. En effet, si tous les individus d’une strate se ressemblent beaucoup, il suffit de tirer un petit nombre d’individus dans la strate pour les connaître avec précision ; à contra-rio si les individus d’une strate sont très différents il faut en tirer un assez grand nombre pour les connaître avec précision. Cette méthode améliore la précision mais les calculs algé-briques sont lourds, en particulier pour déterminer le nombre optimal d’individus à tirer dans chaque strate. L’échantillon final est la réunion des échantillons des différentes strates. • Méthode à probabilités inégales Lorsque des unités statistiques comme des villes sont de taille très inégales, le nombre d’individus tirés dans chaque ville, est proportionnel à son nombre d’habitants.
B. La méthode des panels et des cohortes • Méthode des panels
Cette méthode consiste à suivre le même échantillon avec une périodicité fixée ou non à l’avance. Par exemple tous les trois mois la consommation du même échantillon de 100 ménages est analysée. Les individus de l’échantillon sont choisis et volontaires, ils sont de ce fait assez disponibles pour répondre correctement aux questions de l’en-quêteur. Cette méthode est très utilisée dans les techniques de gestion et de marketing.
S t a t i s t i q u e d e s c r i p t i v e
1
• Méthode des cohortes Une cohorte en démographie est définie comme un ensemble d’individus ayant vécu un événement semblable pendant la même période de temps. Ainsi les étudiants ins-crits dans une filière lors d’une rentrée universitaire constituent une cohorte. Au bout d’une année universitaire cette cohorte peut se séparer en plusieurs sous groupes selon certains critères, par exemple succès, échec et redoublement, échec et abandon. Cette cohorte peut être suivie sur plusieurs années permettant ainsi de connaître de façon détaillée son évolution.
C. Données expérimentales Lorsque l’on recueille des observations statistiques on cherche souvent à détecter ou mesurer l’influence d’un ou plusieurs facteurs sur le phénomène étudié. Laméthode expérimentalea été énoncée par le savant français Claude Bernard en 1865 dans son « introduction à la médecine expérimentale » sous la forme suivante : « quand on agit sur deux animaux, il faut placer deux animaux semblables dans les mêmes conditions moins une, celle que l’on veut étudier ». En fait cette méthode consiste à faire varier un à un les facteurs pris en considération et en maintenant constants les facteurs susceptibles d’agir sur la grandeur étudiée. Cette méthode n’est jamais applicable rigoureusement dans la mesure où il n’y a pas deux animaux ou deux êtres humains rigoureusement semblables. Toutefois en méde-cine, en physique, en biologie, de nombreux phénomènes peuvent être étudiés à partir d’expérimentations. C’est le cas pour l’étude des effets des médicaments sur une pathologie donnée. Il est même possible de valider avec plus de rigueur les résultats en donnant à un groupe le médicament et à un autre groupe un placebo, c’est-à-dire un produit de même apparence que le médicament mais sans substance active. En aveugle, le médecin évaluateur ne sait pas lorsqu’il examine un sujet traité, si celui-ci a pris leplaceboou le médicament. Ceci évite toute subjectivité de la part de l’éva-luateur. Lorsqu’en plus les sujets eux-mêmes ignorent s’ils ont pris un placebo ou une substance active l’expérience conduite est endouble aveugle. Les expérimentations menées ainsi sont dites contrôlées Enéconomieil est rarement possible de faire desexpériences contrôléespour analyser par exemple l’impact de la valeur des taux d’intérêt sur la croissance ou l’investissement. Il n’est pas possible de revenir une ou plusieurs années en arrière et de recommencer l’ex-périence, il est possible tout au plus de faire des comparaisons dans le temps ou dans l’es-pace avec d’autres pays tout en sachant que l’environnement n’est pas le même. Pour cette raison, en économie, on réalise souvent desmodèles. Un modèle est la formalisation d’idées ou de théories sur les mécanismes économiques. Cette formalisation se fait au tra-vers d’équations ou d’inéquations qui relient des variables économiques entre elles. Il est possible de faire des simulations à partir de ces équations c’est-à-dire d’évaluer comment une variabl se modifie lorsqu’on e fa varier une autre sur laquelle on peut agir. Les © Dunod– Toute reproduction non autorisée est undélit.
F I C H E 1s t a t i s t i q u ed e l a  U t i l i s a t i o n s
5
6
modèles comme outils deprévisionont été souvent assez décevants, ils peuvent quand même jouer un rôle utile pour analyser les phénomènes économiques. La science qui consiste à construire de telsmodèlesest appeléeéconométrie, elle est utilisée en économie et aussi dans d’autres disciplines. Là encore, ce sont les possibi-lités de calculs sur ordinateur qui ont amené un fort développement de ces techniques en les rendant utilisables d’un point de vue pratique.
D. Les sources statistiques La Statistique Générale de la France (SGF) est créée en 1840. Ses services permettent de développer des applications au service du pays. La première enquête sur la consommation a lieu en 1907 et des enquêtes sur les prix de détail en 1911. Ces enquêtes étaient succinctes. La SGF disposera de peu de moyens. En 1937, à une époque où l’on ne dispose pas des outils informatiques modernes, elle n’emploie qu’une centaine de personnes. À titre de comparaison, en Allemagne à cette époque, l’office statistique du Reich emploie plus de deux mille collaborateurs. Il faudra attendre la création de l’institut de la statistique et des études économiques en 1946 (INSEE) pour avoir des informations très fournies sur l’économie française : enquêtes auprès des ménages, des entreprises, création de nombreux indices... La statistique la plus connue publiée par l’INSEE est l’indice des prix à la consom-mation des ménages, publié tous les mois. L’office statistique des communautés européennes (Eurostat) produit les statistiques officielles de l’Union européenne. Crée en 1953, Eurostat collecte, valide et harmoni-se de nombreuses données publiées par les instituts nationaux de statistique des pays de l’union. Eurostat a ainsi validé en avril 2009, les comptes publics de la Grèce, ce qui était une erreur. Les capacités d’audit d’Eurostat ont été renforcées et un conseil consultatif européen pour la gouvernance statistique (ESGAB) a été créé, ce conseil est composé de 7 membres. ESGAB surveille de près l’ensemble du système statis-tique européen et évite ainsi la publication de statistiques erronées. Un rapport annuel est publié chaque année à l’attention du Parlement européen (voir le site d’Eurostat). Le réseau internet permet d’accéder à de nombreuses banques de données. www.insee.fr est le site de l’INSEE, les données économiques sont très fournies. http://epp.eurostat.ec.europa.eu est le site d’Eurostat. http://www.immobilier.notaires.fr est le site immobilier de la chambre des notaires.
E. Le recensement de la population e AuXIXsiècle, bien que depuis très longtemps il existe une méthodologie des relevés partiels, les statisticiens estiment que seule une façon exhaustive de procéder donne une valeur scientifique aux résultats d’une enquête. Pour cette raison, les données indispen-sables à l’État ont fait l’objet de recensements réguliers entre les années 1801 et 1999.
S t a t i s t i q u e d e s c r i p t i v e