18-1-2005 Statistique descriptive Nino Silverio Support de cours provisoire pour l’unité de valeur “Mathématiques et statistiques” destiné aux classes du BTS Comptabilité-Gestion de l’ECG. Introduction STATISTIQUE La statistique est un ensemble de méthodes scientifiques basées sur le recueil, l’organisation, la présentation de données, ainsi que sur la modélisation et la construction de résumés numériques [3]. STATISTIQUE DESCRIPTIVE On parle de statistique descriptive lorsqu’on décrit et analyse des données observées et qu’on tire des conclusions valables uniquement pour l’ensemble étudié. POPULATION On désigne par le mot population tout ensemble étudié par la statistique ; on le note généralement Ω . On notera N le nombre d’éléments de Ω , c’est-à-dire l’effectif total de la population (nous supposerons toujours dans ce cours qu’une population est finie). Il faut que la population soit définie avec précision ; ceci peut se faire de deux manières : • en extension, c’est-à-dire en dressant la liste explicite de tous les membres de la population • en compréhension, à l’aide d’une propriété caractéristique qui permet de décider qui appartient ou non à la population. Exemples : • l’ensemble des étudiants du BTS de l’ECG • les habitants domiciliés à Luxembourg-Ville 1Introduction ÉCHANTILLON Un échantillon désigne un sous-ensemble d’une population Ω . UNITÉ STATISTIQUE, Une unité statistique, un individu ou un membre est un élément INDIVIDU, MEMBRE ...
18-1-2005dSteastcisrtiipqtiuveeNino SilverioSupport de cours provisoire pour lunité de valeur Mathématiques et statistiques destiné aux classes du BTS Comptabilité-Gestion de lECG.IntroductionSTATISTIQUELa statistique est un ensemble de méthodes scientifiques basées sur le recueil, lorganisation, la présetnation de données, ainsi que sur la modélisationetlaconstructionderésumésnumériques[3].STATISTIQUE DESCRIPTIVEOn parle de statistique descriptive lorsquon décrit et analyse des données observées et quon tire desc onclusions valables uniquement pour lensemble étudié.POPULATIONOn désigne par le mot population tout ensemble étudié par la statistique;onlenotegénéralementΩ. On notera N le nombre déléments de Ω, cest-à-dire leffectif total de la population (nous supposerons toujours dans ce cours quune population est finie). Il faut quelapopulationsoitdéfinieavecprécision;cecipeutsefairededeuxmanières:en extension, cest-à-dire en dressnat la liste explicite de tous les membres de la populationen compréhension, à laide du nperopriété caractéristique qui permet de décider qui appartient ou non à la population.Exemples : lensemble des étudiants du BTS de lECGles habitants domiciliés à Luxembourg-Ville1
ÉCHANTILLONUNITÉ STATISTIQUE, INDIVIDU, MEMBRECARACTÈRECARACTÈRE QUALITATIFCARACTÈRE QUANTITATIFSÉRIE STATISTIQUEDISTRIBUTION STATISTIQUEEFFECTIF DUNE MODALITÉ2IntroductionUn échantillon désigne un sous-ensemble dune population Ω.Une unité statistique, un individu ou un membre est un élément constitutif dune populaiton ou dun échantillon.Toute propriété des individus dune population est appelléecaractèredes individus.Si le caractère étudié admet des valeurs ou modalités non mesurables, on dit que le caractère est qualitatif. Exemples :la professionle sexela nationalitéLorsque les modalités dun caractèer sont mesurables, on dit que ce caractère est quantitatif.Exemples:lâgela surface dune habitationla vitessela températureOn appelle série statistique une liste de N observations faites pour un caractère dune population Ω.Une série statistique ordonnée est appelée une distribution statistique.Leffectifni dune modalitéxi est égal au nombre dindividus de la population qui possèdent cette modalité xi. On a bien sûr :mN=n1+n2+...+nm=∑ni(1)=1iavec m étant le nombre de modalités possibles sur le caractère étudié.Exemple : voici une série statistique sur la nationalité des habitants du Grand-DuchédeLuxembourgen2001(source:Statec)Statistique descriptive
FRÉQUENCEIntroductionEffectif 277.258.7192014.849.8439.5(x1000)On appelle fréquence dune modalité xi deffectif ni le rapport nfi=-i. En multipliant fi par 100, nous obtenons le pourcentage de Nla modalité xi.Exemple : pour la série statistique précédente, nous obtenonsEffectif 277.258.7192014.849.8439.5(x1000)Fréquence0.630.130.040.050.030.111Pourcentage63%13%4%5%3%11%100%La réalisation dune série statistique peut vite devenir laborieuse. Cest pourquoi, de nos jours, il ets préférable dutiliser un outil informatique, comme un tableur(1).Nous constatons que la somme des fréquences vaut 1. Ceci nest pas unhasard,eneffet:1.En fait, bien que nous puissions utiliser nimporte quel tableur ,dans le cadre de ce cours nous travaillons avec Excel.Statistique descriptive3
GRERPARPÉHISQEUNETSATIONSDIAGRAMME EN BÂTONSDIAGRAMME EN BARRES4Introductionmmn1m1∑fi=∑---i=--N-∑ni=--N-N=1Ni=1i=1i=1Il est souvent préférable de représenter graphiquement une série statistique. Un graphique permet davoir une vue densemble, synthétique de toutes les données mesurées. Ceci est dautant plus facile si on utilise loutil informatique.En Excel, ce type de diagramme est une variation du Chart typ e: line.La largeur de la base des barres est identique pour toutes les barres, la base chacun des rectangles étant centrée sur les points représentés sur laxe des abscisses.Statistique descriptive
BDIAANGDREAAMUMXEENSDIEACGTREAUMRSMEENEFFECTIFS CUMULÉS CROISSANTS, DÉCROISSANTSIntroductionCe diagramme est semblable à un diagramme en barres, sauf que les effectifs sont placés sur laxe des abscisses.Chaque secteur représente une modalité et la taille de chaque secteur est proportionnelle à leffectif( fréquence) de la modalité.Dans la pratique, lorsquon este n présence dune distribution statistique, il est souvent intéressant de connaître le nombre de valeurs inférieures ou égales à une modalité xi. Il en est de même pour le nombre de valeurs supérieures ou égales à une modalité xi.À cet effet, on calcule leffectif cumulé croissant :in1+n2+...+ni=∑nk(2)=1kStatistique descriptive5
FRÉQUENCES CUMULÉES CROISSANTES, DÉCROISSANTES6Introductionou leffectif cumulé décroissan t:1iN(n1+n2+...+ni1)=N∑nk(3)=1kDune manière tout à fait semblabel, on peut calculer la fréquence cumulée croissante de la valeur xi de la distribution statistique X :if1+f2+...+fi=∑fk(4)=1kCette somme désigne la proportion dindividus dans la population Ωpour lesquels X prend une valeur inférieure ou égale à xi.Si on sintéresse à la proportiond individus dans la population Ωpour lesquels X prend une valeur supérieure ou égale à xi, on calcule la fréquence cumulée décroissante :1i1(f1+f2+...+fi1)=1∑fk(5)=1kExemple : voici une série statistique sur la composition des ménages au Luxembourg en 1991.Dans cette liste Excel, seules les colonnes A et B contiennent les données fournies par le Statec.Les colonnes C à G résultent de calculs en appliquant les formules vues plus haut.Statistique descriptive
IntroductionÀ partir de ces données, on peut produire différents graphiques. Voici par exemple un diagramme en barres renseignant sur la composition des ménages privés selon le nombre de personnes en 1991 au Grand-DuchédeLuxembourg(sourceStatec).Mais on peut aussi faire un graphique représentant les effectifs cumulés croissants et décroissants :De même, nous pouvons faire un diagramme en barres sur les fréquencescumuléescroissantesetdécroissantes:Statistique descriptive7
CLASSE8Groupement de données en classesGroupement de données en classesDans la pratique, il est très fréquent pour une série statistique (en présence dun grand nombre de vlaeurs) de regrouper des valeurs proches les unes des autres. On appelle un tel groupement de données une catégorie ou une classe.Pour une classe ]ai1,ai] ou [ai1,ai[:ai1 et ai sont les bornes ou limites de la classe+aale centre de la classe vaut i1--i2lamplitudeou létenduede la classe vaut aiai1leffectif de la classeni est égal à la somme des effectifs des valeurs de la série statistique appartenant à la classe.Statistique descriptive
HEIFSFTEOCGTIRFASMMEDESLE MODELA MOYENNE ARITHMÉTIQUELA MOYENNE ARITHMÉTIQUE SIMPLELA MÉDIANELes paramètres de positionIl nexiste pas de règle claire quan tau choix du nombre de classes. Il existequelquesrèglessimplesquonessaieradesuivre:leffectif dune classe ndeo it pas être inférieur à cinqle nombre de classes ne doit pas être trop faibleil existe quelques formules empiriques pour déterminer le nombre de classes c,parexemple:c=N, c=(1+3,3log10N)en général, nous essaierons davoir des classse de même amplitude qui sera de préférence une valeur simple comme un entier.Pour représenter de telles séries, on utilise souvent lhistogramme des effectifs. Il sagit dun diagramme ebna rres comprenant une barre pour chaque classe et où la surface de la barre est proportionnelle à leffectif de la classe.Les paramètres de positionOn appelle mode dune série statistique la modalité la plus fréquente. Il peut ne pas exister et nest pas nécessairement unique.La moyenne arithmétique dune série statistique quantitative vau t:mx=n1x1+n-2x2+...-+nmxm-=--1-nx(6)∑iin1+n2+...+nmNi=1Cette formule se simplifie si ni=1 pour i=1…m. En effet alorsmx∑imx=1x1+1-x2+...-+1xm-=i=1-=--1-x(7)i1+1+...+1mmi=∑11∑=1iLa médiane dune série statistique rnagée en ordre croissant ou décroissant est une valeur qui partage en deux parties égales leffectif total de cette série. Si leffectif est un nombr epair, on prendra comme valeur médiane la moyenne arithmétique des deux valeurs centrales.Statistique descriptive9
ÉTENDUEVARIANCEÉCART-TYPE01Les paramètres de dispersionExemple : soit la série statistique suivante 5366162171La moyenne arithmétique vaut 3.8, les modes sont 1 et 6, la médiane est égale à (3+5-)=4.2Dans le cas dune séries tatistique numérique classée, on peut calculer une valeur approchée de la moyenne en prenant pour xi les centres de classe, pour ni les effectifs de classe et m égal au nombre de classes.Les paramètres de dispersionOn appelle étendue dune série statistique l adifférence entre les deux valeurs extrêmes de la série.La variance dune série statistique qauntitative est la moyenne arithmétique des carrés des écarts à la moyenne arithmétique. On la 2note généralement σ.m122σ=m-∑(xix)(8)=1iLécart-type est définie comme étant la racine carrée positive de la variance. Lavantage de lécart-ty ppear rapport à la variance est que cest un nombre qui sexprime danlsamême unité que les valeurs observées.m12σ=-m--∑(xix)(9)=1iLa signification de lécart-typee t de la variance est simple : plus les valeurs observées sont homogènes, plus ces deux nombres sont petits et inversement, plus les valeurs sont hétérogènes, plus ces deux nombres sont grands.En général, la formule de la variance sécritStatistique descriptive
Les paramètres de dispersionet lécart-typemσ2=--1-∑ni(xix)2N=1i)01(mσ=1-∑ni(xix)2(11)N=1iEn présence dune série statistique numérique classée, on peut calculer une valeur approchée de lécart-type et de lav ariance en prenant pour xi les centres de classe, pour ni les effectifs de classe et m égal au nombre de classes.Pour les calculs pratiques, ces formules peuvent être simplifiées :mmAinsi σ2=--1-∑(xix)2=--1-∑(xi22xix+x2)mi=1mi=1et la variance peut sécrire1m21m21m222---∑xi2x---∑xi+x=-∑xi2x+x en utilisant (7)mi=1mi=1ni=1mσ2=--1-x2x2=x2x2mi=∑1imDans le cas général : σ2=-1--∑ni(xix)2N=1im122=--N-∑ni(xi2xix+x)=1i1m2m2m=---∑nixi2x∑nixi+x∑niNi=1i=1i=1Statistique descriptive)21(11