Statistiques Descriptives
Serge Iovleff
5 avril 2007
Table des mati`eres
1 Introduction 2
1.1 Qu’est ce que les statistiques? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Recueil des donn´ees statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Le recensement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Le plan d’exp´erience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 L’exploitation des bases de donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Statistiques descriptives univari´es 5
´2.1 Etude statistique d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Distributions d’effectifs et de fr´equences . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Repr´esentations de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
´2.2 Etude statistique d’une variable quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Repr´esentation de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 R´esum´es statistiques de position : La moyenne et la m´ediane . . . . . . . . . . . . . . 9
2.2.3 R´esum´es statistiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Statistiques descriptives bivari´es 13
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
´3.2 Etude statistique de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 Distributions marginales et conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.2 Ind´ependances de deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
´3.3 Etude statistique d’une variable qualitative et d’une variable quantitative . . . . . . . . . . . 16
´3.4 Etude statistique de deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 La r´egression lin´eaire 19
A Liste des variables pour les clientes d’une soci´et´e de VPC 22
B Programmes R 24
´B.1 Traitements univari´es : Etude d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . 24
´B.2 Traitements univari´es : Etude d’une variable quantitative . . . . . . . . . . . . . . . . . . . . 25
C Traitements bivari´es 28
C.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
C.2 R´egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
11 Introduction
1.1 Qu’est ce que les statistiques?
Definition 1. On appelle Statistique Descriptive l’ensemble des m´ethodes et techniques math´ematiques
permettant de pr´esenter, d´ecrire et r´esumer un ensemble de donn´ees.
Les m´ethodes utilis´ees en Statistique descriptive sont tr`es vite limit´ees.
Definition 2. La Statistique Inf´erentielle est l’ensemble des techniques visant `a mod´eliser un ensemble de
donn´ees en vue d’une extrapolation ´eventuelle a` un ensemble plus vaste.
La statistique inf´erentielle utilise de mani`ere importante les probabilit´es. Elle atteint ses limites lorsque
l’on est en pr´esence d’un trop grand nombre de donn´ees, ou en pr´esence de donn´ees h´et´erog`enes.
Definition 3. L’apprentissage statistique est l’ensemble des techniques visant `a mod´eliser et a` extraire
automatiquement une connaissance d’une grande base de donn´ees.
On atteint la fronti`ere avec les m´ethodes utilis´ees en Intelligence Artificielle.
1.2 Recueil des donn´ees statistiques
1.2.1 Le recensement
Exemple 4. Pour´etudier la r´epartition des terres agricoles d’une r´egion, on r´ealise le recensement des exploi-
tations agricoles (soit n leur nombre) et on note pour chacune d’elles un certains nombre de caract´eristiques
comme : leurs tailles, le type de cultures, l’ageˆ de l’exploitant, ....
Les r´esultats obtenus sont consign´es dans un tableau :
ˆN Taille(ha) Age (ann´ees) Culture Nbre d’employ´es
1 50 50 bl´e 2
2 50,5 45 vigne 4
3 35 38 orge 3
. . . . .. . . . .. . . . .
630 10 57 vigne 1
Tab. 1 – R´esultat du recensement des exploitations agricoles de la r´egion
A partir de cette table on pourra r´ealiser diff´erentes ´etudes statistiques.
21.2.2 Le plan d’exp´erience
Exemple 5. Pour ´etudier l’effet d’un antid´epresseur, on administre en double aveugle un placebo et un
principe actif. On mesure `a intervalle r´egulier l’´evolution de la maladie. On cherche ensuite `a en tirer des
conclusions sur l’efficacit´e du traitement.
Pour mesurer l’efficacit´e du produit on demande aux patients de r´epondre a` un questionnaire de ce type
tous les mois pendant un an :
1. I say how bad or useless I am, for example, that I am a burden on others
2. I laugh or cry suddenly
3. I often moan and groan in pain or discomfort
4. I act nervous or restless
5. I keep rubbing or holding areas of my body that hurt or are uncomfortable
6. I talk about the future in a hopeless way
7. I get sudden frights
Les r´esultats obtenus sont consign´es dans un tableau :
Visite Individu Rep1 ... Rep7 Groupe
1 1 0 ... 1 2
1 2 0 ... 0 1
. . . . . .. . . . . .. . . . . .
1 175 1 ... 0 1
2 1 1 ... 1 2
2 2 0 ... 0 1
. . . . . .. . . . . .. . . . . .
2 175 1 ... 0 1
12 1 1 ... 1 2
12 2 0 ... 0 1
. . . . . .. . . . . .. . . . . .
12 175 1 ... 0 1
Tab. 2 – R´eponses de 175 personnes tous les mois pendant un an
Cet exemple est particulier dans la mesure ou` les individus sont index´es par le temps : c’est ce que l’on
appelle une s´erie chronologique.
1.2.3 L’exploitation des bases de donn´ees
Exemple 6. Un VPCiste poss`ede environ 3 millions de clientes. Pour chaque cliente il dispose d’environ 3000
donn´ees. En vue d’avoir une profitabilit´e maximum, l’envoi d’une promotion est faite sur une partie de ces
clientes. L’objectif est d’identifier les clientes qui sont le ”plus”susceptible d’acheter.
Pour r´ealiser son objectif, la soci´et´e doit pouvoir exploiter les bases de donn´ees internes et externes qui
vont nous renseigner sur le comportement d’achat des clientes.
Cela n´ecessite de stocker un maximum d’information ”utile” sur les clientes (comportements d’achats
pass´es, mode d’achat, age,ˆ boutiques d’achats,...) et ´eventuellement d’avoir recours a` des pan`elistes (INSEE,
SECODIP,...)
3Liste des variables
– Numcli num´ero de client
– Dep d´epartement
– Com commune
– Reg R´egion
– Sig Signal´etique
ˆ– Agepro Age Probable
– RpQuEn R´eponse a` la question“ Avez vous des enfants?”
– RpQuTr R´eponse `a la question“Travaillez vous?”
– Unitur Taille d’unit´e urbaine
– Niveauvie Niveau de vie
´– PROPRIETAIRES proportion de propri´etaires de leur logement dans l’iris
– STABILITE mesure du lien employeurs-employ´es dans l’iris par type de contrat.
– CONFORT mesure de l’´equipement en bien ou pi`eces de conforts des logements de l’iris
– REVENU r´ealis´e a` partir des fichiers des impotˆ s
1.3 D´efinitions
Definition 7. Une population statistique est l’ensemble sur lequel on effectue des observations. Elle est bien
sp´ecifi´ee s’il n’y a pas d’ambigu¨ıt´e sur la d´efinition de l’ensemble.
Dans la partie Statistique Descriptive on appellera population l’ensemble des individus effectivement
´etudi´es, sans chercher a` ´etendre les constatations faites `a une population plus vaste, ce qui rel`eve de la
Statistique Inf´erentielle.
Dans les exemples pr´ec´edents, les populations ´etaient :
1. L’ensemble des exploitation agricole de la r´egion,
2. L’ensemble de personnes interrog´ees dans le cadre d’un essai th´erapeutique,
3. L’ensemble des clientes d’un VPCiste `a un instant donn´e.
Definition 8. Les individus (ou unit´es statistiques) sont les ´el´ements de la population statistique ´etudi´ee.
Pour chaque individu, on dispose d’une ou plusieurs observations.
Dans les exemples pr´ec´edents, les individus ´etaient :
1. Une exploitation agricole,
2. Un patient,
3. Une cliente.
Definition 9. Une variable statistique (ou caract`ere statistique) est ce qui est observ´e ou mesur´e sur les
individus d’une population statistique.
Definition 10. Une variable est dite, selon le cas :
1. Quantitative : ses valeurs sont des nombres exprimant une quantit´e, sur lesquels les op´erations arith-
m´etiques (somme, etc...) ont un sens.
La variable peut alors ˆetre discr`ete ou continue selon la nature de l’ensemble des valeurs qu’elle est
susceptible de prendre (valeurs isol´ees ou intervalle deR).
2. Qualitative :sesvaleurssontdes modalit´es,(ou cat´egories,ou caract`eres)exprim´eessousformelitt´erale
ou par un codage num´erique sur lequel des op´erations arithm´etiques n’ont aucun sens.
On distingue des variables qualitatives ordinales ou nominales, selon que les modalit´es peuvent ˆetre
naturellement ordonn´ees ou pas.
4Une variable est dichotomique si elle n’a que 2 modalit´es.
Fig. 1 – R´esum´e des diff´erents types de variables
2 Statistiques descriptives univari´es
´2.1 Etude statistique d’une variable qualitative
2.1.1 Distributions d’effectifs et de fr´equences
En pr´esence d’une variable qualitative X pouvant prendre K modalit´es x , x , ..., x , on commence par1 2 K
r´ealiser un tri `a plat, c’est `a dire faire l’inventaire des modalit´es ou valeurs rencontr´ees dans la s´erie, avec les
effectifs correspondants. On construit donc un tableau de la forme :
Modalit´es Effectifs
x n1 1
x n1 2
. .. .. .
x nK K
Total n
Tab. 3 – Tri a` plat (distribution d’effectifs)
On parle alors de la distribution d’effectifs de la variable X.
On calcule ensuite les proportions (ou fr´equence) de chaque modalit´e en divisant l’effectif de chaque
modalit´e par l’effectif total
nk
f =k
n
On r´esume cette distribution dans un tableau de la forme :
5Modalit´es fr´equences
x f1 1
x f1 2
. .. .. .
x fK K
Total 1
Tab. 4 – Distribution de Fr´equences
Definition 11. Le mode de la variable X est la modalit´e ayan