7. Statistiques descriptives, analyse de données 7.1. Introduction - Vocabulaire A l’origine (en Chine 2000 ans avant JC, en égypte 1700 ans avant JC, puis dans l’empire romain), la statistique (du latin « Status » : Etat) rassemblait des informations intéressant l’état, concernant la POPULATION, dont les éléments sont des INDIVIDUS et consiste à observer, étudier un même aspect de chaque individu appelé VARIABLE OU CARACTERE. • On distingue deux types de caractères : o Les caractères QUALITATIFS (profession, couleur des yeux...). o Les caractères QUANTITATIFS que l’on peut mesurer. Ces valeurs peuvent être regroupées en CLASSES ( 1m20;1m50 , 1m50;1m60 ...) [ [ [ [• L’EFFECTIF n d’une valeur x de la variable est le nombre d’individus i icorrespondant à une même valeur. on note n ,n ,K, n les effectifs respectifs des valeurs x , x ,K, x . 1 2 p 1 2 p• La FREQUENCE d’une valeur est le quotient de l’effectif de cette valeur par nil’effectif total de la population. f = inRemarque : Les fréquences sont des nombres compris entre 0 et 1, dont la somme est 1. Elles sont souvent exprimées en pourcentage ou transformée en degré pour la construction d’un diagramme circulaire. • On présente souvent les données sous la forme d’un tableau où apparaissent les valeurs ou les effectifs correspondants. • L’effectif cumulé croissant (ECC) (respectivement fréquence cumulée croissante (FCC)) de x est égal à la somme des effectifs des valeurs inférieures ou ...
7.1.Introduction - Vocabulaire A l’origine (en Chine 2000 ans avant JC, en égypte 1700 ans avant JC, puis dans l’empire romain), la statistique (du latin « Status » : Etat) rassemblait des informations intéressant l’état, concernant laPOPULATION, dont les éléments sont desISUDVIDIN et consiste à observer, étudier un même aspect de chaque individu appeléVARIABLE OU CRACAETRE. ·On distingue deux types de caractères : oLes caractèresQFSTATIUALI(profession, couleur des yeux...). oLes caractèresQTATITNAUSFIl’on peut mesurer. Ces valeurs peuvent êtreque regroupées enCLESSSA( 1m20;1m50 , 1m50;1m60 ...) ·L’EFITCEFFni valeur d’unexide la variable est le nombre d’individus correspondant à une même valeur. on noten1,n2,,nples effectifs respectifs des valeursx1,x2,,xp. ·LaFEUQEECNRle quotient de l’effectif de cette valeur par d’une valeur est l’effectif total de la population.fi1nin Remarque Les fréquences sont des nombres compris entre :0 et 1, dont lasomme est 1. Elles sont souvent exprimées en pourcentage ou transformée en degré pour la construction d’un diagramme circulaire. ·On présente souvent les données sous la forme d’un tableau où apparaissent les valeurs ou les effectifs correspondants. ·L’effectif cumulé croissant (ECC) (respectivement fréquence cumulée croissante (FCC)) dexila somme des effectifs des valeurs inférieures ou égales àest égal à xi. ·L’effectif cumulé décroissant (ECD) (respectivement fréquence cumulée décroissante (FCD)) dexiest égal à la somme des fréquences des valeurs supérieures ou égales à xi. Exemple 1 : Pour mieux gérer les demandes de crédits de ses clients, le directeur d’une agence bancaire réalise une étude relative à la durée de traitement de 50 dossiers. Compléter le tableau suivant : Durée en minutes [0 ;10[ [10 ;20[ [20 ;30[ [30 ;40[ [40 ;50[ Nombre de dossiers 5 10 17 12 6 ECC5 15 32 44 50 fréquence0,1 0,2 0,34 0,24 0,12 FCD 0,71 0,9 0,12 0,36 FCC (en %)1030%%46%88%01%0
1.1.la moyenne Lamoyenneest un indicateur decentralité(marquant la position) des valeurs de la série. La moyenne d’une série statistique est le nombre noté défini par : Le symbole p 1 1#2 2# #∑1nixiomslebo.mesemyselt n x n x n x x1p p1i1n n Remarqueest donnée par le tableau des effectifs: dans le cas où la population nide chacune despclasses [ai; bi[, on prend pourxila valeur du centre de la classeai#bi2 Exemple 2 :On a relevé la taille en cm de 20 personnes : Dans ce cas, il faut déterminer le centre de classe.
Classe [145 ;155[ [155 ; 165[ [165 ; 175[ [175 ;185[ [185 ;195[ Centre de classe 150 160 170 180 190 Effectif 2 5 8 4 1 En remarquant que l’effectif total est de 20, la moyenne des tailles est : 150 2 160 5 170 8 180 4 0 m1011921168,5 cm Remarque :regroupée en classe, on se ramène au cas Pour calculer la moyenne d’une série discret en remplaçant chaque classe par son centre. Propriété de la moyenne : Si les populations E1et E2n’ont aucun élément commun, alors la populationE1E1ÈE2est d’effectifN1#N2et la moyenne sur E est égale à :X1N1NX1##NN2X21 2
1.2.La médiane Soit une série quantitative dont la liste est rangée parordre croissant. La médiane notéeMeest un nombre qui sépare la série en deux sous-ensembles de même effectif. ·Si la série est de taille impaire (N2n la médiane est la donnée de rang1 ),n+1. ·Si la série est de taille paire (N2n), la médiane est la demi somme des données de rangnetn+1. 50% de l’effectif 50% de l’effectif xσMeMex³MeMen’est pas forcément une valeur de la série : SiN2n1,Me=xn#1 SiN2n,Me1xn#2xn#1 On peut aussi donner l’intervalle médian :MeÎ]xn;xn#1Exemple 3 : Les notes de Paul sont : 7 ;8 ;8 ;10 ;12 ;13 ;14. La note médiane est 10. · ·Les notes d’Alice sont : 5 ;8 ;9 ;10 ;10 ;14. La note médiane est 9,5 :Me19 10. 2
1.3.Quartile Pour une série dont la liste des valeurs observées est rangée dans l’ordre croissant : ·Le 1erquartileQ1est la plus petite valeur de la série telle qu’au moins 25% des valeurs soient inférieures ou égales àQ1. ·Le 3èmequartileQ3de la série telle qu’au moins 75% des valeursest la plus petite valeur soient inférieures ou égales àQ3.
2.Indicateur de dispersion
2.1.L’étendue L’étendueplus grande et la plus petite valeur de la variable.est la différence entre la
2.2.L’écart interquartile L’écart interquartileQ3%Q1est un indicateur dedispersiondes valeurs de la série ; L’intervalle interquartileQ1;Q3]contient 50% des effectifs. Exemple 4 :(Effectif de 16, puis 17, puis 18, puis 19)Exemple choisi dans la classe: Montant dépensé par chaque élève lors des soldes.
3.Autre indicateur : le mode Lemoded’une série statistique est la valeur la plus présente dans la série. Méthode d’application Les résultats d’une enquête auprès de 30 médecins sur le nombre de revues spécialisées auxquels ils sont abonnés sont regroupés dans le tableau suivant : Nombre d’abonnements 1 2 3 4 5 6 7 8 9 10 11 Nombre de médecins 1 1 2 4 7 3 3 3 2 3 1 Comment obtenir la médiane et les quartiles? On dresse le tableau des effectifs cumulés croissants : Nombre d’abonnements 1 2 3 4 5 6 7 8 9 10 11 Nombre de médecins 1 2 4 8 15 18 21 24 26 29 30 50%25%57%On en déduit la médiane, les 1eret 3èmequartiles, l’écart interquartiles et les 1eret 9èmedécile ·023enai:aLdém115 , donc la médiane se trouve entre les valeurs observées de rang 15 et 16 ; on prend pour médiane la moyenne de ces deux valeurs :Me152#615,5 ·034Quars:tile17,5 , donc le 1erquartile est la valeur observée de rang 8 :Q114 3´4301 donc le 322,5 ,èmequartile est la valeur observée de rang 23 :Q318 ·Ecart interquartile : 8-4=4.