L'essentiel de la statistique descriptive

De
Publié par

L'essentiel de la statistique descriptive (1re éd.) est une synthèse rigoureuse, pratique et à jour de l'ensemble des connaissances que le lecteur doit avoir sur cette matière. 7 Chapitres.



- Étudiants des cursus universitaires de gestion et des IAE

- Étudiants des écoles de commerce et d'ingénieurs

- Étudiants en expertise comptable (DCG, DSCG, DEC)



Armelle Mathé est enseignante en mathématiques appliquées à l'université Paris 1 Sorbonne, au Conservatoire National des Arts et Métiers et pour des apprentis ingénieurs. Elle assure également des cours de contrôle de gestion à l'Intec et à l'Enoes.
Publié le : mardi 3 mai 2016
Lecture(s) : 0
Tags :
Licence : Tous droits réservés
EAN13 : 9782297060677
Nombre de pages : 164
Voir plus Voir moins
Cette publication est uniquement disponible à l'achat
Séries statistiques d’une variable
Chapitre Chapitre 10 1
La statistique descriptive a pour objet la collecte, l’analyse et l’interprétation d’observations relatives à des phénomènes concernant des ensembles plus ou moins importants d’objets, d’événements ou d’indi-vidus. Notons que la méthode statistique cherche à obtenir des résultats d’ensemble, elle ne s’intéresse pas aux individus en particulier. Attention enfin : le terme « statistique » a un sens différent selon qu’il est employé au singulier ou au pluriel : – « les statistiques » concernent un ensemble de données observées (exemple : les statistiques de vente d’une entreprise) ; « la statistique » désigne la science qui permet d’obtenir et de traiter ces données. Elle peut également désigner la variable aléatoire utilisée pour effectuer des estimations ou des tests, en statistique inférentielle.
1Le vocabulaire de la statistique
Statistique descriptive: ensemble de techniques permettant d’étudier des populations à travers un certain nombre de critères. L’objectif est de résumer l’information, de caractériser les données, de les faire « parler ».
Vocabulaire
Population: on désigne sous ce terme l’ensemble qui est étudié, même si les individus qui le com-posent ne sont pas des êtres humains. Il est souvent impossible, pour des raisons pratiques ou pour
12L'ESSENTIELDELASTATISTIQUEDESCRIPTIVE G des raisons de coût, d’observer la population de façon exhaustive et l’étude est alors faite sur un échantillonprélevé dans la population. Individus ou unités statistiques: éléments de la population ou de l’échantillon. Variable statistique ou caractère: on désigne sous ces noms les critères qui vont être étudiés, ceux sur lesquels va porter l’étude (par exemple le nombre de personnes d’un foyer, la durée d’attente à un guichet, le nombre journalier d’arrêts techniques d’une machine-outil). La variable peut êtrequalitative ou quantitative: – elle est qualitative si ses valeurs ne sont pas numériques (par exemple le sexe, les catégories socio-professionnelles, etc.). Dans le cas où les valeurs d’une variable qualitative sont codées avec des nombres, elle est appeléevariable nominale(par exemple le code postal, le sexe (1 ou 2), sont des variables nominales : leurs valeurs sont des nombres mais il n’y a pas d’ordre sur ces valeurs) ; – elle est quantitative si ses valeurs sont numériques ou bien peuvent être ordonnées de manière logique…). Parmi les variables quantitatives, on distingue les variables : discrètes: les valeurs prises par la variable sont alors en nombre fini ou dénombrable (par exemple le nombre d’enfants, le salaire, le nombre de pièces d’une production, le nombre d’étoiles, etc.) ; ordinales: les valeurs sont ordonnées de manière logique (par exemple le niveau de satisfaction d’une prestation peut prendre les valeurs 0, 1, 2, 3, 4, de pas du tout satisfait à très satisfait). Aussi bien la variable nominale que la variable ordinale prennent des valeurs codées. On peut tou-tefois les distinguer car dans le cas d’une variable nominale, effectuer des opérations algébriques avec ces valeurs, comme calculer une moyenne n’a pas de sens, contrairement à la variable ordinale. Par exemple, la moyenne de 1,5 pour le sexe n’a aucune signification, alors qu’un degré moyen de satisfaction de la prestation égale à 2 en a. Si la variable est quantitative discrète, chaque différence entre deux variables de la variable a le même sens : ainsi pour la variable nombre d’enfants, la modalité « 2 enfants » signifie 2 fois plus d’enfants que la modalité « 1 enfant ». Ce n’est pas le cas pour une variable ordinale et par exemple la valeur 4 du degré de satisfaction ne signifie pas que l’on est 4 fois plus satisfait que pour la valeur 1. continues: la variable peut alors prendre une infinité de valeurs, appartenant à l’ensemble des nombres réels, ou à un intervalle de nombres réels (par exemple la durée d’un événement, la longueur, le poids, etc.). Lorsque la variable est continue ou lorsqu’elle est discrète mais prend un grand nombre de valeurs, le statisticien est conduit à regrouper les valeurs de la variable par classes qui sont des intervalles de nombres réels.
CHAPITRE1 –Séries statistiques d’une variable13 G Notons que la variable discrète, si elle est regroupée par classes pour les besoins de l’analyse, est alors traitée, et donc considérée, comme une variable continue. La largeur de la classe est appeléeamplitude de la classe, et le milieu de la classe est appelé valeur centrale de la classe. En l’absence d’informations, on considère que les valeurs de la variable sont réparties uniformément à l’intérieur d’une classe, la valeur centrale la classe correspond alors à la valeur considérée comme la valeur moyenne de la classe.
Notation. Dans tout l’ouvrage :
– la variable est notéeX, avec une majuscule ;
– les différentes valeurs de la variable sont notéesxoux, avec des minuscules. i
Le tri des données À l’issue de la collecte des données, on dispose de la valeur prise par la variable pour chaque individu. Ces données sont appelées lesdonnées bruteset sont rangées dans untableau individu-variable. Les données peuvent alors être triées en fonction des différentes valeurs de la variable. On obtient alors untableau modalités-effectifs.
a) Modalités On appelle modalités les valeurs ou regroupements de valeurs effectuées par le statisticien qui traite les données. Ces modalités sont le résultat d’un choix.
b) Effectif d’une modalité L’effectif d’une modalité est égal au nombre d’individus pour lesquels la variable prend une valeur égale ou comprise dans la modalité.
Exemple 1 On a relevé les 10 notes obtenues par un élève à ses devoirs d’un trimestre. SoitXla variable statistique : note obtenue à un devoiri.
14L'ESSENTIELDELASTATISTIQUEDESCRIPTIVE G Le tableauindividu-variableest le suivant : Numéroi1 2 3 4 5 6 7 8du devoir Notex y8 11 1212 16 16 12 12 Les données triées donnent le tableaumodalité-effectifsuivant : Notes obtenues aux devoirs :xEffectif de la modalité :n i i 8 2 11 1 12 4 16 3 Total 10
9 16
10 8
Dans ce cas, le statisticien a choisi comme modalités les différentes valeurs de la variable. Le statisticien peut également choisir de trier les valeurs de la variable selon d’autres modalités, pour les besoins de son étude :
x i Notes inférieures à la moyenne 10 Notes comprises entre 10 et 15 Notes supérieures à 15 Total
Effectif de la modalité :n i 2 5 3 10
Notons que dans ce cas, la variableNote, par nature discrète, a été regroupée par classes de valeurs, et est traitée comme une variable continue. Le statisticien a choisi de trier les valeurs de la variable à l’aide de trois modalités.
Exemple 2 Une enquête portant sur l’âge des individus qui se sont présentés à une exposition a donné les résultats suivants : 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19
CHAPITRE1 –Séries statistiques d’une variable15 G La variable âge est une variable continue, par nature. En effet, les 10 individus qui ont répondu 15 ans, n’ont très probablement pas le même âge, à la minute près, à la seconde près… Le tri des données va conduire au regroupement des valeurs de la variable par classes : on va ainsi compter comme ayant le même âge tous les individus qui ont entre 15 et 16 ans, tous ceux qui ont entre 16 et 17 ans, etc. Le plus souvent, on comprend la valeur inférieure et on exclut la valeur supérieure de chaque classe.
Âge :X [15 ; 16[ [16 ; 17[ [17 ; 18[ [18 ; 19[ [19 ; 20[ Total
Effectif :n i 10 17 28 19 6 80
3 n128 il y a 28 individus dont l’âge x est compris entre 17 et 18 ans
L’amplitude de la classe est égale à la différence entre l’extrémité inférieure et l’extrémité supérieure de chaque classe. Toutes les classes sont ici d’amplitude 1. On a trié les données à l’aide de 5 moda-lités d’amplitude 1 an. On peut également choisir des modalités d’amplitudes inégales :
Par exemple :
Âge :X [15 ; 17[ [17 ; 18[ [18 ; 20[ Total
Effectif :n i 27 28 25 80
c) Fréquence d’une modalité Il est souvent plus parlant, et en particulier si on veut pouvoir effectuer des comparaisons sur les populations qui n’auraient pas la même taille, de transformer les effectifs en pourcentages ou en proportions. On appelle fréquence la proportion d’individus qui appartiennent à une modalité. Lafréquence se calcule comme le rapport entre l’effectif correspondant à la modaliténet l’effectif i totalnde la population ou de l’échantillon observé.
G 16 insi : A
L'ESSENTIELDELASTATISTIQUEDESCRIPTIVE
f1n/n i i
On peut multiplier la fréquence par 100 pour l’exprimer en pourcentage.
Reprenons l’exemple 1
SoitXla variable statistique : note obtenue à un devoiri.
x i 8 11 12 16 Total
n i 2 1 4 3 n110
Fréquencef1n/n i i (en décimaux) 0,2 0,1 0,4 0,3 1
Fréquencef1n/n i i (en pourcentages) 20 10 40 30 100
Ainsi, par exemple, l’élève a eu 4 fois la note 12, soit encore 40 % de ses notes sont des 12. Attention: la somme des fréquences est égale à 1 (si elles sont exprimées en pourcentages, leur somme vaut 100).
2Les étapes d’une étude statistique Une étude statistique comporte plusieurs phases.
esdarvbliaàesutéreidiupocsDéfinitiondealppolutaointeetllce de renseignements (enquête) : on obtient alors les données brutes
Différentes méthodes sont possibles.
a) Création de l’information par enquête
1) Recensement ou enquête exhaustive Chaque individu fait l’objet d’une observation destinée à mesurer la valeur prise par le caractère étudié. Le recueil des données est alors souvent long et coûteux.
CHAPITRE1 –Séries statistiques d’une variable17 G 2) Sondage ou enquête partielle Les observations sont limitées à un sous-ensemble de la population appelééchantillon. Ce type d’enquête est plus fréquemment utilisé que la précédente car elle est moins coûteuse. L’échantillon doit être composé de façon à représenter la population le plus fidèlement possible. Pour procéder à la composition de l’échantillon, c’est-à-dire à l’échantillonnage, on peut utiliser différentes méthodes telles : – letirage aléatoire: le nombre désiré d’individus est prélevé au hasard dans la population initiale. Cette méthode est surtout utilisée en entreprise pour le contrôle de la qualité de la production ; – laméthode des quotasle principe est de bâtir un échantillon qui soit un modèle réduit de la: population initiale. Cette méthode est surtout employée dans les enquêtes d’opinion.
b) Réutilisation d’une information déjà existante On a alors recours à des recherches de type documentaire :
1) Informations internes à l’entreprise Les documents que l’on utilise sont ceux fournis par la comptabilité de l’entreprise, ceux du service du personnel ou bien encore ceux relatifs à la production, etc.
2) Informations externes à l’entreprise Évolution globale du marché, état de la concurrence, importance des importations par type de produit et par pays d’origine, etc. De nombreux organismes nationaux tels l’INSEE (Institut national de la statistique et des études économiques) ou internationaux tels que l’OCDE (Organisation de coopération et de développement économique) ou la Banque mondiale publient des statistiques relevant de domaines divers tels que l’industrie, le commerce, la santé, la démographie, l’économie, etc.
Dépouillement Les données sont triées en fonction des modalités définies par le statisticien.
Présentation des résultats Il s’agit de présenter les résultats de façon à mettre en évidence les caractéristiques essentielles des données. On va donc proposer des graphiques, calculer des indicateurs, c’est-à-dire des nombres
18L'ESSENTIELDELASTATISTIQUEDESCRIPTIVE qu G i résument l’information. On distinguera parmi ces indicateurs les caractéristiques de position et celles de dispersion.
3Représentations graphiques des séries statistiques
Pratiquement tous les graphiques représentatifs des séries statistiques sont fondés sur la notion de proportionnalité entre l’aire de la surface associée à une modalité et l’effectif ou la fréquence de cette modalité. Les types de représentation sont toutefois différents selon la nature de la variable représentée, il est donc indispensable, avant de choisir un mode de représentation, de réfléchir sur la nature des modalités.
Représentation graphique des séries à variables qualitatives ou nominales
Si la variable est qualitative, on a une multitude de représentations possibles.
Parmi les représentations les plus utilisées, on compte :
a) Le graphique à secteurs Chaque secteur a un angle au centre, et donc une aire proportionnelle à l’effectif de la modalité qu’il représente.
Exemple 3 On dispose de données portant sur le mode d’hébergement en 2013 pour les voyages personnels. Nuitées En millions En pourcentage Hébergement marchand 469 39,8 % – Hôtel 144 12,2 % – Camping 92 7,8 % – Location, gîte ou chambre d’hôte 164 13,9 % – Autre 69 5,9 % Hébergement non marchand 709 60,2 % – Résidence secondaire 167 14,2 %
– Famille – Amis – Autre Total
CHAPITRE1 –Séries statistiques d’une variable
Champ : résidents métropolitains de 15 ans ou plus. Source : DGE.
On veut représenter ces données.
432 86 24 1 178
36,7 % 7,3 % 2,0 % 100,0 %
Corrigé Le diagramme à secteur représentant ces données est le suivant : Hébergement marchandHébergement non marchand
Hôtel Camping Location, gîte ou chambre d'hôte Autre
Résidence secondaire Famille Amis Autre
b) Le graphique en tuyaux d’orgue (à bandes) Chaque sous-population relative à une modalité est représentée par une bande. Les bandes sont toutes de même largeur et leur hauteur ou leur longueur est proportionnelle à l’effec-tif de la sous-population qu’elle représente. Ce type de représentation facilite les comparaisons.
Exemple 4
Télévision, Hi-Fi, vidéo, photo Informatique Disques, cassettes, pellicules photo Presse, livres et papeterie (1) Services culturels
2013 7,2 9,4 2,7 13,9 17,0
2014 6,8 9,1 2,3 13,6 17,5
19 G
20L'ESSENTIELDELASTATISTIQUEDESCRIPTIVE G Jeux, jouets, articles de sport 12,0 12,1 Jardinage, animaux de compagnie 12,5 12,8 (2) Services récréatifs et sportifs 10,4 10,6 Jeux de hasard 9,9 10,1 Autres biens culturels et de loisir 4,9 4,9 Total 100,0 100,0 (1) Cinéma, spectacles vivants, musées, abonnements audiovisuels (y compris redevance TV), développements de tirage de photos, etc. (2) Sport, location de matériel sportif, fêtes foraines, parcs d’attractions, voyages à forfait, week-ends, etc. Champ : France (hors Mayotte avant 2011). Source :Insee, comptes nationaux - base 2010. Représenter graphiquement les dépenses culturelles et de loisirs en 2013 et en 2014.
Corrigé Le diagramme en tuyaux d’orgue représentant les dépenses par catégorie pour chaque année est le suivant :
Dépenses culturelles et de loisirs en 2013 et en 2014 Autres biens culturels et de loisir 2014 Jeux de hasard 2013 Services récréatifs et sportifs Jardinage, animaux de compagnie Jeux, jouets, articles de sport Services culturels Presse, livres et papeterie Disques, cassettes, pellicules photo Informatique Télévision, hi‐, vidéo, photo 0 2 4 6 8 10 12 14 16 18 20
Comparaison des dépenses culturelles et de loisirs en 2013 et en 2014 : la principale dépense est celle consacrée aux services culturels, ce, aussi bien en 2013 qu’en 2014.
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.