Cette publication ne fait pas partie de la bibliothèque YouScribe
Elle est disponible uniquement à l'achat (la librairie de YouScribe)
Achetez pour : 22,99 € Lire un extrait

Téléchargement

Format(s) : PDF

avec DRM

Partagez cette publication

1. D istributions statistiques
I.
à un caractère
Le savant doit ordonner ; on fait la science avec des faits comme une maison avec des pierres ; mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison. La Science et l’hypothèse,Henri Poincaré (1854-1912) a statistique descriptive est un ensemble de méthodes permettant de décrire, présenter, résumer des données souvent très nom-deLtableaux, calcul de moyennes…) et/ou mener à des représentations breuses. Ces méthodes peuvent être numériques (tris, élaboration graphiques.
D éfinitions
A. P opulation, individu, échantillon Une฀populationelbsedelmesnuxaelquéméltsenselaprseessttenrtpodon-nées฀ étudiées.฀En฀statistique,฀le฀terme฀«฀population฀»฀s’applique฀à฀des฀ensem-blesdetoutenature:étudiantsduneacadémie,productionduneusine, poissonsdunerivière,entreprisesdunsecteurdonnéDes฀enquêtes฀de฀l’Office฀statistique฀des฀communautés฀européennes฀don-nent฀la฀durée฀hebdomadaire฀moyenne฀du฀travail฀des฀salariés฀à฀temps฀com-plet฀pour฀15฀pays฀membres.฀Les฀résultats฀de฀ces฀enquêtes฀ne฀donnent฀pas d’information฀«฀atomisée฀»฀à฀un฀niveau฀plus฀bas฀que฀le฀pays฀ ;฀la฀population de฀référence฀n’est฀donc฀pas฀ici฀l’ensemble฀(plusieurs฀millions)฀de฀tous฀les salariés฀des฀15฀pays.฀L’étude฀de฀ces฀15฀observations฀concerne฀un฀ensemble ©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
฀฀฀1
de฀15฀unités฀(statistiques),฀les฀15฀pays฀sélectionnés฀qui฀constituent฀la฀popu-lation฀ de฀l’étude.฀ Dansunepopulationdonnée,chaqueélémentestappelé«individu»ou «unitéstatistique». La฀collecte฀d’informations฀sur฀une฀population฀peut฀être฀effectuée฀sur฀la totalité฀des฀individus฀ ;฀on฀parle฀alors฀d’enquêtes฀exhaustives.฀Lorsque฀la taille฀de฀la฀population฀étudiée฀est฀élevée,฀de฀telles฀enquêtes฀sont฀fort฀coû-teuses฀ou฀impossibles,฀et฀le฀cas฀échéant,฀leurs฀résultats฀souvent฀très฀longs à฀rassembler฀peuvent฀être฀dépassés฀avant฀même฀la฀fin฀de฀l’enquête.฀C’est la฀raison฀pour฀laquelle฀on฀a฀souvent฀recours฀aux฀enquêtes฀par฀sondage฀ qui portent฀sur฀une฀partie฀de฀la฀population฀appelée฀échantillon.฀ Les฀observa-tions฀obtenues฀sur฀une฀population฀ou฀sur฀un฀échantillon฀constituent฀un ensemble฀de฀données฀auxquelles฀s’appliquent฀les฀méthodes฀de฀la฀statistique descriptive฀dont฀le฀but฀est฀de฀décrire฀le฀plus฀complètement฀et฀le฀plus฀sim-plement฀l’ensemble฀des฀observations฀qu’elles฀soient฀relatives฀à฀toute฀la population฀ou฀seulement฀à฀un฀sous-ensemble.
B. Variables Chaqueindividudunepopulationpeutêtredécritselonuneouplusieurs variablesirtsqieucracaéteatdievsesouspqrueanldirtiuqreêtesduvpeten valeursnumériques. Une฀variable฀est฀dite฀qualitative฀ si฀ses฀différentes฀réalisations฀(modalités) nesontpasnumériques.Ainsi:lesexe,lasituationmatrimoniale,lacatégorie socioprofessionnelle…฀sont฀des฀variables฀qualitatives.฀On฀peut฀toujours฀rendre numérique฀une฀telle฀variable฀en฀associant฀un฀nombre฀à฀chaque฀modalité฀ ;฀on dit฀alors฀que฀les฀modalités฀sont฀codées.฀Bien฀entendu,฀les฀valeurs฀numériques n’ont฀dans฀ce฀cas฀aucune฀signification฀particulière,฀et฀effectuer฀des฀opérations algébriques฀sur฀ces฀valeurs฀numériques฀n’a฀pas฀de฀sens. Unevariableestditequantitativeémun-iremqutentrinsèinllesetolsruqeque:effectuerdesopérationsalgébriques(addition,multiplication)surune tellevariableaalorsunsens.Unevariablequantitativepeutêtreunevariable statistiquediscrèteoucontinue. Les฀raaivsttiueiqesbltassetidsèrcsriablestdesvaueevtnpuqienp-nernosdrequedesvaleursisolées,discrètes.Lenombredenfantsdunefamille,le nombredepétalesdunefleur,lenombredebutsmarquéslorsdunerencon-tredefootballsontdesvariablesquantitativesdiscrètes.Leplusfréquem-ment,lesvaleurspossiblessontdesnombresentiers. Les฀esbltasviaarocsnitntsiteuqiuessurlevapreventpeuelsetstuodner numériquespossiblesdunensembleinclusdanslel:reeevun,altiall,e tauxdenatalitésontdesvariablescontinues.
2฀฀฀OHEDMTÉÀALOINDUCTNTROIUEIQTASSTTI
Ladistinctionentrevariablesquantitativesdiscrètesetcontinuespeut paraîtrefactice,cartoutemesureestdiscrèteenraisonduneprécisiontou-jourslimitée;etinversement,lorsquunevariablediscrètepeutprendreun grandnombredevaleursetquelatailledelapopulation(oudeléchantillon) étudiéeestélevée,onregrouperadesvaleursvoisinesetlavariablesera,par extension,traitéecommeunevariablecontinue.Enpratique,lorsqueles valeursdunevariablesontregroupéesenklassctseiarteét,esvlaiaarebl commeunevariablequantitativecontinue,maisellepeutaussiêtreenvisagée commeunevariableaeuvàilatqitk฀modalités. Les฀données฀dont฀on฀dispose฀sont฀les฀modalités฀ou฀valeurs฀prises฀par plusieurs฀variables฀qualitatives฀ou฀quantitatives฀sur฀les฀individus฀d’une population฀ou฀d’un฀échantillon฀;฀pour฀une฀population฀d’entreprises,฀on฀peut disposer,฀par฀exemple,฀de฀données฀sur฀le฀chiffre฀d’affaire,฀le฀bénéfice฀net, le฀nombre฀d’employés,฀la฀masse฀salariale฀annuelle,฀le฀secteur฀d’activité principale… Onpeut,dansunpremiertemps,décrirechaquevariableséparément,puis ensuite,étudierlesrelationsouliaisonsexistantesentreelles.Ainsi,dansce livre,nousenvisageronsdabordlespopulationsstatistiquesdécritesselon uneseulevariable,puisselondeuxvariables.Létudedespopulationscarac-tériséesparplusdedeuxvariablesnestpasabordéedanscetouvrage.
II.
R eprésentations graphiques
Deux฀méthodes฀de฀représentation฀des฀données฀vont฀être฀exposées.฀On฀com-mencera฀par฀celles฀adaptées฀aux฀données฀nombreuses฀et/ou฀anonymes,฀c’est-à-dire฀pour฀lesquelles฀l’identité฀des฀individus฀n’a฀pas฀été฀relevée฀ou฀ne฀pré-sente฀pas฀d’intérêt฀à฀être฀conservée฀pour฀l’interprétation.฀Ceci฀n’est฀pas฀le฀cas lorsque฀les฀individus฀sont฀peu฀nombreux฀(régions,฀pays…),฀où฀on฀définira฀un nouveau฀mode฀de฀représentation฀graphique฀dû฀à฀J.W.฀Tukey฀(§฀II.B.).฀L’étude d’une฀population฀selon฀une฀variable฀sera฀restreinte฀au฀cas฀des฀variables฀quan-titatives,฀car฀la฀description฀d’une฀population฀selon฀une฀variable฀qualitative฀est totalement฀résumée฀dans฀un฀tableau฀de฀pourcentages฀ou฀dans฀un฀diagramme circulaire,฀appelé฀aussi฀diagramme฀en฀«฀ camembert฀»฀(cf..fgiure1.1)
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
฀฀฀3
Figure฀1.1฀–฀Surface฀du฀verger฀français฀en฀2005
LesrésultatsconcernantlesobservationsdelavariableXensetldesmblenodvaleurs฀est฀{i,=x1,…฀,฀k},฀sont฀présentés฀dans฀le฀tableau฀des฀effectifs฀(x ,฀n) ii ioudansletableaudesfréquences(x,fvea)c/n=fnsestilintlouveeuno(ii฀i i pourcentage100·fI.)selsedleabedprtéréflseféraccllureàpartirquencesi effectifscumulés(§II.A.3)afinquedeserreurssuccessivesdarrondisne donnentpasunesommetotaledefréquencesdifférentede1.
8,8 10% 8 %
ExtraitdeAgreste,GraphAgri2006, MinistèredelAgricultureetdelaPêche.
Noix
4฀฀฀TRODUCTIONÀLAÉMHTDOETSTASIITEQUNI
Distributions statistique s et représentations graphiques
A.
5 % 5 % 6 %
Poire de table
Pêche et nectarine
Cerise
Prune
Pomme à cidre
Autres fruits
10 %
10 % 10 %
24 %
Pomme de table
12 %
Olives
Abricot
1) Variables statistiques discrètes
Considéronsunevariableobservéesurunepopulation฀de฀n.iiSdnvidisu lavariableX฀ prend฀ kecqnasius(aleurésdppeldesvaenseblemrueluosavsuit,modalités),lepremiertraitementdesdonnéesbrutesconsisteàcompter e lenombrennetnedsérpdniiuqdivsiulatialodm(tié=i,21k,,).฀ i
Tableau฀des฀effectifsTableau฀des฀fréquences
Modalité Effectif Modalité Fréquence฀ x n x f฀=฀n/n 1 1 1 1 1 . . . . x n x f฀=฀n/n i i i i i . . . . x n x f฀=฀n/n k k k k k kk n=n f i=1 ∑ ∑ i i=1 i=1 Onprésentelogiquementlesmodalitésnumériquesenordrecroissant.On peutassocieràcestableauxunereprésentationgraphiqueappelée «diagrammeenbâtons». Un฀bâtonsidgaarmmene฀ (cf.฀tsmènysenscouitrdatunsugif1er)2.tse d’axes฀rectangulaires฀;฀les฀valeurs฀de฀la฀variable฀statistique฀Xntsoneseétropabscisse;àpartirdechaquevaleurxrticalroitevetoncera,tnedednumges i฀ etdontlahauteurestproportionnelleàleffectifcorrespondant.Onpeutrete-nirindifféremmentuneéchellequiexpliciteleseffectifsnlleécheuneou, i฀ quiexplicitelesfréquencesfsidselruoP.-ur,1onoplbaeu.1nsdutatributio i฀ raitreprésentersurlemêmegraphiquelesdiagrammesenbâtonsdeplusieurs paysavecdescouleursdifférentes,chaquecouleurcorrespondantàunpays, cequipermettraitdecomparerlesdistributionsdunombredepersonnespar ménage.
Tableau1.1Ménages฀suivant฀le฀nombre฀de฀personnes฀du฀ménage dans฀quelques฀pays฀en฀1995฀(%)
Ménages฀de฀: –1personne –2personnes –3personnes –4personnes 5personnes฀et฀plus
Ensemble฀(en฀milliers)
Allemagne Espagne
34,4 32,3 16,0 12,6 4,7
34฀413
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
12,7 24,5 21,8 24,0 17,0
12฀112
Finlande
37,4 31,0 14,4 11,9 5,3
2฀222
France
29,2 31,8 16,8 14,2 8,0
23฀126
Grèce
20,7 28,9 19,8 21,7 8,9
3฀756
Irlande
22,8 23,1 15,6 17,1 21,4
1฀146
Italie
22,7 23,1 15,6 17,1 21,4
1฀146
Pays-Bas Portugal
30,6 34,0 13,4 15,9 6,2
6฀425
13,7 26,4 24,7 22,8 12,4
3฀275
Source฀:T.I,0EESN9991002-erFonimsienaaçauxableÉcodel
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
5
Nombre฀de personnes 1 2 ฀3 4 5฀ou฀plus
f฀(%) i
29,2 31,8 16,8 14,2 8,0 100฀%
30 %
20 %
10 %
1
2
3
4
5 ou +
Figure฀1.2฀–฀Diagramme฀en฀bâtons฀–฀Nombre฀de฀personnes฀par฀ménage฀en฀France฀en฀1995
2) Variables statistiques continues
Linfinitédesvaleursobservablesnerendpaspossiblelagénéralisationdu diagrammeenbâtons.eniamodiravednioatLe฀ d’une฀satbaelqieuittsriva continueXntsatarpegéekrtpaseie[retnllav.iL,xx[agcueh,efmréà i–1i฀ e ouvertàdroite,estappeléilc(asse=i1,2,k,lptinma;os):duesetgélaeà a=xx1 i฀ ฀i i– Ilarrivequelamplitudedesclassesextrêmessoitindéterminée:lapre-mièreclasseétantdéfiniepar«moinsdetelaed»,«arièrnprelupeds฀» (cf.lbat.1.2)eauLechoixdesextrémitésedritrapàtiafesessslacesdeénnodsseturbsel; nombre฀kemeletnertne410tL).déeu-codesssecalttêdioodérremsuelé(u pageenclassesestassezsouventchoisitelquelamplitudedesclassessoit constante,outelqueleseffectifsdesclassessoientconstants(parexemple, 10%delapopulationdanschaqueclasse,cf.)..61uaelbatLeclassementdunesériestatistiquecorrespondàunepertedinformation parrapportauxdonnéesinitialespuisqueseulsleseffectifsdesclassessont retenus.Letravailsurunetellesérieimposealorslhypothèsequelesdon-néessontrépartiesuniformémentn.sOàlhcedrueirétniseasclsdeeunac parleaussidéquirépartition฀diesivndusiduoocnederhomogénéité฀ dans chacunedesclasses.Chaquepartiedelaclassecorrespondalorsàuneffectif proportionnelàsalongueur.Lidéeest,biensûr,quechaqueclasserepré-senteuneentitéquidoitsedistinguerparrapportauxautresclasses.Comme précédemment,lesrésultatssontprésentésdansuntableaudeffectifsoude fréquences.Onassocieàunteltableauunhistogramme฀ne-rpséeeruntesiqu tationgraphiquetrèsrépandue.Lhistogrammeestconstituédelajuxtaposi-tionderectangles(pourrespecterlhypothèsedéquirépartition)dontles basesreprésententlesdifférentesclassesetdontelsutsfrscansoeproportion-nellesauxeffectifsdesclasses฀(cf.฀1.eurig)3f.
6฀฀฀MALÀNSEDOHTÉIQSTTITAUEINTCTIORODU
Onverraparlasuitequunedifficultédutravailavecdessériesclassées estlechoixdeslimitespourlesclassesextrêmes,indispensableaussipourle tracédelhistogramme. e À฀la฀i฀ classe,฀corre spond฀un฀rectangle฀dont฀la฀base฀est฀l’intervalle฀[x฀ –฀1,฀x[ ii ffectif฀n etdontlasurfaceestproportionnelleàlafréquencefiouàle(iiS.) lesclassesonttouteslamêmeamplitude,leshauteursdesrectanglessont proportionnellesauxfréquences.Danslecasoùlesclassessontdamplitudes e inégales,lahauteurdurectanglecorrespondantàlaiilpmedutessaadcla i e sera=hfa/altnatnesércaeusfrLarepngleectaduriiégalensaiaersseascl i i฀ i. à฀f i PourunesériedobservationsrelativesàunevariablestatistiqueX฀ dis-crèteoucontinueclassée,ladonnéedesmodalitésetdeleursfréquencesest appelée«ististationibutsirtdeuqleabaliraved»X.
Tableau1.2Chômeurs฀BIT฀selon฀le฀sexe฀et฀l’ancienneté฀de฀chômage฀en฀septembre฀ 2006
Distributionenmilliers Ancienneté฀d’inscription Hommes Femmes Moins฀d’un฀mois 180,3 181,0 D’un฀à฀moins฀de฀trois฀mois 203,9 204,9 De฀trois฀à฀moins฀de฀six฀mois 169,3 163,1 De฀six฀mois฀à฀moins฀d’un฀an 202,1 191,1 D’un฀à฀moins฀de฀deux฀ans 197,3 199,3 De฀deux฀à฀moins฀de฀trois฀ans 74,5 75,4 Trois฀ans฀ou฀plus 67,1 62,9 Ensemble 1฀094,5 1฀077,7 Ancienneté฀moyenne฀en฀jours 341,5334,5 Source:dseusleMnetenisduiquetistStaliavarTlluB
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
Distributionenpourcentage Hommes Femmes 16,5 16,8 18,6 19,0 15,5 15,1 18,5 17,7 18,0 18,5 6,8 7,0 6,1 5,8 100,1100,1
,www.travail.gouv.fr,octobre2006.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
7
fi ai
Mois 013 6 36 6012 24 Figure฀1.3฀–฀Histogramme฀de฀la฀distribution฀des฀chômeurs฀«฀ Femmes฀»฀selon฀l’ancienneté (voirtableau1.2)
Laclasse«Troisansouplus5ans(60mois).
»estsupposéebornéesupérieurementpar
3) Fréquences cumulées et courbe cumulative
a)฀Tableau฀des฀fréquences฀cumulées Lestableauxdefréquences(oudeffectifs)quiviennentdêtredéfinispeu-ventêtremodifiésdefaconàprésenterunrésumédesdonnéessousune formedifférente. e฀ Onappelleumcéulfeefifctledaiindrednomblealc,esssuvidiNpour i lesquelslavariableprendunevaleurinférieureàx฀: i n N฀ =jpour฀i=2,1,,k i ji e OndéfinitdemêmeF,aluqneférumulcecéeeladisalc:esn/N=F i฀ i i฀
8฀฀฀DOETSTASIITUQEDORTNIÀONTIUCTHMÉAL
Lestableauxdeffectifscumulésoudefréquencescumuléessedéduisent destableauxdeffectifsoudefréquences(noncumulés)ensubstituantaux effectifsoufréquencesnoncumulésleseffectifsoufréquencescumulés.Les deux฀types฀de฀tableaux฀sont฀donc฀équivalents฀(cf.฀figures฀ 1.2฀et฀1.4).
b)฀Fonction฀cumulative฀et฀courbe฀cumulative La฀courbe฀cumulative฀ ou฀courbe฀des฀fréquences฀cumulées฀est฀la฀représentation graphique฀des฀fréquences฀cumulées.฀Plus฀précisément,฀la฀courbe฀cumulative est฀la฀représentation฀graphique฀de฀la฀proportion฀F(t)฀ des฀individus฀de฀la฀popu-lation฀dont฀le฀caractère฀prend฀une฀valeur฀inférieure฀à฀t.฀Cette฀fonction,฀appelée fonction฀cumulative฀ou฀fonction฀de฀répartitionste:, 1.outurtédeopifint∈฀2.corsiastn)etrsonnntmeteicnassiorcsiam(et 3.฀ullepourntinféueiràrnimx i 1in 4.égealu1ràpotsinmouaxamàlagéx i 1in
Pourunevariablestatistiquediscrètece,etttseenucnofnoitnenfonctio escaliercahcnesedenusurlevaleibssposséneattn,rpx,nutgésualaalàfré-i quencecorrespondantef฀(cf.14..)firegu i Danslecasdunevariablestatistiquecontinueaofcnit,livateconulum nestconnuequepourlesvaleursdeX.sessaclsdestémiréxtxueseagélaLhypothèsedéquirépartition(§II.A.2)impliquequelafonctionF฀ est linéaireentrecesvaleurs(cf.)5.1erufig.ontincfoondsteetteCeuetcocinnt linéaireparmorceaux.encore,Icicéseasrilietsnesdirishocdeeruopsetimilles฀classes฀extrêmes.
t F(t)฀(%) 100 % <฀1 0 [1฀;฀2[ 29,2 [2฀;฀3[ 61,0 [3฀;฀4[ 77,8 [4฀;฀5[ 92,0 ≥฀5 100 1 2 3 4 5 et + Figure฀1.4฀–฀Graphe฀des฀fréquences฀cumulées฀de฀la฀distribution฀représentée฀à฀la฀figure฀ 1.2
Cesfréquencescumuléessontdesfréquencescumuléesascendantes,car ellesontétéobtenuesencalculantlesfréquencesFelqsuoreu-lindduspivid i leslecaractèreétudiéX฀ est฀auplusàalégxon;puetuassiédifnirlesfré-©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.i
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
9
t 0 1 3 6 12 24 36 60
F(t)฀(%) 0 16,8 35,8 50,9 68,7 87,2 94,2 100
F i
100
0 13 6
12
24
36
Figure฀1.5฀–฀Courbe฀cumulative฀de฀la฀distribution฀représentée฀à฀la฀figure฀ 1.3
60
Mois
quencescumuléesdescendantesqérfselerid-à-sqleroupesncueeullseest,c lecaractèreétudiéXàrépusueirestx.enécspanQuondpasifietypelede i fréquencescumulées,onsous-entendquilsagitdesfréquencescumulées ascendantes.
B. L e diagramme « branche et feuille » Lorsquelatailledelapopulationétudiéenestpastropélevée(inférieureà lacentaine),ilestintéressantdutiliserlareprésentationendiagramme 1 «brancheetfeuille»euàdtàlafoisduideargaemmneit.JTW.eyukC. tableautedealtaoinrgpeéresrtnaphiqueetdonnenoinedenusivesmbsedle données฀ererdsnpaslnuméionrmatinforapruelaveuqirr.eualv
1) Profondeur d’une observation
SelonquonrangelesvaleursobservéesdelavariablestatistiqueXusplaedlfaibleàlaplusélevéeoudelaplusélevéeàlaplusfaible,onassocieàcha-queobservationxentsaisrocs,ngarxuedqueorstalndi.tOssnarciotédla i distributionestordonnée. Onappelleprofondeur฀de฀xelnmorbaalégeusedtitearxuedngspuspl i Lesduréeshebdomadairesdutravaildessalariésàtempscompletdansles paysdelUnioneuropéenne(cf.et,notêtoernodrseénleau1.3)peuventba endéduitlaprofondeurdechaquevaleurdechacunedesséries.
1.฀J.฀W.฀Tukey,
Exploratory฀Data฀Analysis
(EDA),฀Addison-Wesley,฀1977.
10฀฀฀TCUDORTNIQIEUITTSSATHODEMÉTÀLAION
.
Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin