Introduction a la statistique descriptive.fm

Introduction a la statistique descriptive.fm

-

Documents
14 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

21-1-2003Statistique descriptiveNino SilverioSupport de cours provisoire pour l’unité de valeur “Mathématiques et statistiques” destiné aux classes du BTS Comptabilité-Gestion de l’ECG.IntroductionSTATISTIQUE La statistique est un ensemble de méthodes scientifiques basées sur le recueil, l’organisation, la présentation de données, ainsi que sur la modélisation et la construction de résumés numériques [3].STATISTIQUE DESCRIPTIVE On parle de statistique descriptive lorsqu’on décrit et analyse des données observées et qu’on tire des conclusions valables uniquement pour l’ensemble étudié.POPULATION On désigne par le mot population tout ensemble étudié par la statistique ; on le note généralement Ω . On notera N le nombre d’éléments de Ω , c’est-à-dire l’effectif total de la population (nous supposerons toujours dans ce cours qu’une population est finie). Il faut que la population soit définie avec précision ; ceci peut se faire de deux manières :• en extension, c’est-à-dire en dressant la liste explicite de tous les membres de la population• en compréhension, à l’aide d’une propriété caractéristique qui permet de décider qui appartient ou non à la population.Exemples : • l’ensemble des étudiants du BTS de l’ECG• les habitants domiciliés à Luxembourg-Ville1IntroductionÉCHANTILLON Un échantillon désigne un sous-ensemble d’une population Ω .UNITÉ STATISTIQUE, Une unité statistique, un individu ou un membre est un élément INDIVIDU, MEMBRE ...

Sujets

Informations

Publié par
Nombre de visites sur la page 44
Langue Français
Signaler un problème

21-1-2003
Statistique
descriptive
Nino Silverio
Support de cours provisoire pour
l’unité de valeur “Mathématiques
et statistiques” destiné aux classes
du BTS Comptabilité-Gestion de
l’ECG.
Introduction
STATISTIQUE La statistique est un ensemble de méthodes scientifiques basées sur le
recueil, l’organisation, la présentation de données, ainsi que sur la
modélisation et la construction de résumés numériques [3].
STATISTIQUE DESCRIPTIVE On parle de statistique descriptive lorsqu’on décrit et analyse des
données observées et qu’on tire des conclusions valables uniquement
pour l’ensemble étudié.
POPULATION On désigne par le mot population tout ensemble étudié par la
statistique ; on le note généralement Ω . On notera N le nombre
d’éléments de Ω , c’est-à-dire l’effectif total de la population (nous
supposerons toujours dans ce cours qu’une population est finie). Il faut
que la population soit définie avec précision ; ceci peut se faire de
deux manières :
• en extension, c’est-à-dire en dressant la liste explicite de tous les
membres de la population
• en compréhension, à l’aide d’une propriété caractéristique qui
permet de décider qui appartient ou non à la population.
Exemples :
• l’ensemble des étudiants du BTS de l’ECG
• les habitants domiciliés à Luxembourg-Ville
1Introduction
ÉCHANTILLON Un échantillon désigne un sous-ensemble d’une population Ω .
UNITÉ STATISTIQUE, Une unité statistique, un individu ou un membre est un élément
INDIVIDU, MEMBRE constitutif d’une population ou d’un échantillon.
CARACTÈRE Toute propriété des individus d’une population est appellée caractère
des individus.
CARACTÈRE QUALITATIF Si le caractère étudié admet des valeurs ou modalités non mesurables,
on dit que le caractère est qualitatif. Exemples :
• la profession
• le sexe
• la nationalité
CARACTÈRE QUANTITATIF Lorsque les modalités d’un caractère sont mesurables, on dit que ce
caractère est quantitatif. Exemples :
• l’âge
• la surface d’une habitation
• la vitesse
• la température
SÉRIE STATISTIQUE On appelle série statistique une liste de N observations faites pour un
caractère d’une population Ω .
DISTRIBUTION Une série statistique ordonnée est appelée une distribution statistique.
STATISTIQUE
EFFECTIF D’UNE L’effectif n d’une modalité x est égal au nombre d’individus de la i i
MODALITÉ
population qui possèdent cette modalité x . On a bien sûr :i
m
Nn==++n ...+n n1 2 m ∑ i
i = 1
avec m étant le nombre de modalités possibles sur le caractère étudié.
Exemple : voici une série statistique sur la nationalité des habitants du
Grand-Duché de Luxembourg en 2001 (source : Statec)
2 Statistique descriptiveIntroduction
Effectif
277.2 58.7 19 20 14.8 49.8 439.5
(x1000)
FRÉQUENCE On appelle fréquence d’une modalité x d’effectif n le rapport i i
nif = ---- . En multipliant f par 100, nous obtenons le pourcentage de i iN
la modalité x .i
Exemple : pour la série statistique précédente, nous obtenons
Effectif
277.2 58.7 19 20 14.8 49.8 439.5
(x1000)
Fréquence 0.63 0.13 0.04 0.05 0.03 0.11 1
Pourcentage 63% 13% 4% 5% 3% 11% 100%
La réalisation d’une série statistique peut vite devenir laborieuse.
C’est pourquoi, de nos jours, il est préférable d’utiliser un outil
(1)informatique, comme un tableur .
Nous constatons que la somme des fréquences vaut 1. Ceci n’est pas
un hasard, en effet :
1. En fait, bien que nous puissions utiliser n’importe quel tableur, dans le cadre de ce cours
nous travaillons avec Excel.
Statistique descriptive 3
Nationalité Nationalité
luxembourgeois
luxembourgeois
portugais
portugais
italiens
italiens
français
français
belges
belges
autres
autres
To t a l
To t a l
N
NIntroduction
m m mn 1 1i ---- ----f==---- n=N=1∑ i ∑ ∑ iN NN
i = 1 i = 1 i = 1
REPRÉSENTATIONS Il est souvent préférable de représenter graphiquement une série
GRAPHIQUES statistique. Un graphique permet d’avoir une vue d’ensemble,
synthétique de toutes les données mesurées. Ceci est d’autant plus
facile si on utilise l’outil informatique.
DIAGRAMME EN BÂTONS En Excel, ce type de diagramme est une variation du “Chart type :
line”.
DIAGRAMME EN BARRES La largeur de la base des barres est identique pour toutes les barres, la
base chacun des rectangles étant centrée sur les points représentés sur
l’axe des abscisses.
4 Statistique descriptiveIntroduction
DIAGRAMME EN Ce diagramme est semblable à un diagramme en barres, sauf que les
BANDEAUX effectifs sont placés sur l’axe des abscisses.
DIAGRAMME EN Chaque secteur représente une modalité et la taille de chaque secteur
SECTEURS est proportionnelle à l’effectif (fréquence) de la modalité.
EFFECTIFS CUMULÉS Dans la pratique, lorsqu’on est en présence d’une distribution
CROISSANTS, statistique, il est souvent intéressant de connaître le nombre de valeurs
DÉCROISSANTS
inférieures ou égales à une modalité x . Il en est de même pour le i
nombre de valeurs supérieures ou égales à une modalité x .i
À cet effet, on calcule l’effectif cumulé croissant :
i
n++n ...+n = n (1)1 2 i ∑ k
k = 1
Statistique descriptive 5Introduction
ou l’effectif cumulé décroissant :
i – 1
Nn–()++n ...+n =Nn– (2)1 2 i – 1 ∑ k
k = 1
FRÉQUENCES CUMULÉES D’une manière tout à fait semblable, on peut calculer la fréquence
CROISSANTES, cumulée croissante de la valeur x de la distribution statistique X :iDÉCROISSANTES
i
f++f ...+f = f (3)1 2 i ∑ k
k = 1
Cette somme désigne la proportion d’individus dans la population Ω
pour lesquels X prend une valeur inférieure ou égale à x .i
Si on s’intéresse à la proportion Ω
pour lesquels X prend une valeur supérieure ou égale à x , on calcule i
la fréquence cumulée décroissante :
i – 1
1–1()f++f ...+f = – f (4)1 2 i – 1 ∑ k
k = 1
Exemple : voici une série statistique sur la composition des ménages
au Luxembourg en 1991.
Dans cette liste Excel,
seules les colonnes A et B
contiennent les données
fournies par le Statec.
Les colonnes C à G
résultent de calculs en
appliquant les formules
vues plus haut.
6 Statistique descriptiveIntroduction
À partir de ces données, on peut produire différents graphiques. Voici
par exemple un diagramme en barres renseignant sur la composition
des ménages privés selon le nombre de personnes en 1991 au Grand-
Duché de Luxembourg (source Statec).
Mais on peut aussi faire un graphique représentant les effectifs
cumulés croissants et décroissants :
De même, nous pouvons faire un diagramme en barres sur les
fréquences cumulées croissantes et décroissantes :
Statistique descriptive 7Groupement de données en classes
Groupement de données en classes
CLASSE Dans la pratique, il est très fréquent pour une série statistique (en
présence d’un grand nombre de valeurs) de regrouper des valeurs
proches les unes des autres. On appelle un tel groupement de données
une catégorie ou une classe.
(2)Pour une classe []a , a :i – 1 i
• a et a sont les bornes ou limites de la classei – 1 i
a + ai – 1 i----------------------• le centre de la classe vaut
2
• l’amplitude ou l’étendue de la classe vaut a – ai i – 1
• l’effectif de la classe n est égal à la somme des effectifs des i
valeurs de la série statistique appartenant à la classe.
2. En fait, l’intervalle ne doit pas être fermé !
8 Statistique descriptiveLes paramètres de position
Il n’existe pas de règle claire quant au choix du nombre de classes. Il
existe quelques règles simples qu’on essaiera de suivre :
• l’effectif d’une classe ne doit pas être inférieur à cinq
• le nombre de classes ne doit pas être trop faible
• il existe quelques formules empiriques pour déterminer le nombre
de classes c, par exemple : cN= , c =()1 + 3.3log N10
• en général, nous essaierons d’avoir des classes de même amplitude
qui sera de préférence une valeur simple comme un entier.
HISTOGRAMME DES Pour représenter de telles séries, on utilise souvent l’histogramme des
EFFECTIFS effectifs. Il s’agit d’un diagramme en barres comprenant une barre
pour chaque classe et où la surface de la barre est proportionnelle à
l’effectif de la classe.
Les paramètres de position
LE MODE On appelle mode d’une série statistique la modalité la plus fréquente.
Il peut ne pas exister et n’est pas nécessairement unique.
LA MOYENNE La moyenne arithmétique d’une série statistique quantitative vaut :
ARITHMÉTIQUE
mn x++n x ...+n x 11 1 2 2 m m ----x==---------------------------------------------------------- n x∑ i iNN
i = 1
LA MÉDIANE La médiane d’une série statistique rangée en ordre croissant ou
décroissant est une valeur qui partage en deux parties égales l’effectif
total de cette série. Si l’effectif est un nombre pair, on prendra comme
valeur médiane la moyenne arithmétique des deux valeurs centrales.
Exemple : soit la série statistique suivante
5366162171
La moyenne arithmétique vaut 3.8, le mode est 6 et la médiane est
()35+égale à -----------------4= .
2
Statistique descriptive 9Les paramètres de dispersion
Dans le cas d’une série statistique numérique classée, on peut calculer
une valeur approchée de la moyenne en prenant pour x les centres de i
classe, pour n les effectifs de classe et m égal au nombre de classes.i
Les paramètres de dispersion
ÉTENDUE On appelle étendue d’une série statistique la différence entre les deux
valeurs extrêmes de la série.
VARIANCE La variance d’une série statistique quantitative est la moyenne
arithmétique des carrés des écarts à la moyenne arithmétique. On la
2
note généralement σ .
m12 2----σ = ()x – x∑ iN
i = 1
ÉCART-TYPE L’écart-type est définie comme étant la racine carrée positive de la
variance. L’avantage de l’écart-type par rapport à la variance est que
c’est un nombre qui s’exprime dans la même unité que les valeurs
observées.
m
1 2----σ = ()x – x∑ iN
i = 1
La signification de l’écart-type et de la variance est simple : plus les
valeurs observées sont homogènes, plus ces deux nombres sont petits
et inversement, plus les valeurs sont hétérogènes, plus ces deux
nombres sont grands.
En présence de séries statistiques numériques classées, on peut
calculer une valeur approchée de l’écart-type et de la variance en
prenant pour x les centres de classe, pour n les effectifs de classe et i i
m égal au nombre de classes. Pour l’écart-type on aura donc
m
1 2----σ = n()x – x∑ i iN
i = 1
10 Statistique descriptive