Introduction à la méthode statistique - 6e éd.

De
Publié par

Cet ouvrage regroupe en un seul volume la statistique descriptive, les éléments de probabilité et les principaux modèles. Il permet d'acquérir des bases solides et pratiques (nombreux exemples, synthèses pédagogiques, applications sur Excel et SPSS...) Cette sixième édition mise à jour introduit la simulation des lois de probabilité et met l'accent sur l'utilisation de la dernière version du tableur Excel. Les exercices et les exemples sont renouvelés.
Publié le : mercredi 12 janvier 2011
Lecture(s) : 164
Tags :
Licence : Tous droits réservés
EAN13 : 9782100558926
Nombre de pages : 376
Voir plus Voir moins
Cette publication est uniquement disponible à l'achat
1. D istributions statistiques
I.
à un caractère
Le savant doit ordonner ; on fait la science avec des faits comme une maison avec des pierres ; mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est une maison. La Science et l’hypothèse,Henri Poincaré (1854-1912) a statistique descriptive est un ensemble de méthodes permettant de décrire, présenter, résumer des données souvent très nom-deLtableaux, calcul de moyennes…) et/ou mener à des représentations breuses. Ces méthodes peuvent être numériques (tris, élaboration graphiques.
D éfinitions
A. P opulation, individu, échantillon Une฀populationelbsedelmesnuxaelquéméltsenselaprseessttenrtpodon-nées฀ étudiées.฀En฀statistique,฀le฀terme฀«฀population฀»฀s’applique฀à฀des฀ensem-blesdetoutenature:étudiantsduneacadémie,productionduneusine, poissonsdunerivière,entreprisesdunsecteurdonnéDes฀enquêtes฀de฀l’Office฀statistique฀des฀communautés฀européennes฀don-nent฀la฀durée฀hebdomadaire฀moyenne฀du฀travail฀des฀salariés฀à฀temps฀com-plet฀pour฀15฀pays฀membres.฀Les฀résultats฀de฀ces฀enquêtes฀ne฀donnent฀pas d’information฀«฀atomisée฀»฀à฀un฀niveau฀plus฀bas฀que฀le฀pays฀ ;฀la฀population de฀référence฀n’est฀donc฀pas฀ici฀l’ensemble฀(plusieurs฀millions)฀de฀tous฀les salariés฀des฀15฀pays.฀L’étude฀de฀ces฀15฀observations฀concerne฀un฀ensemble ©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
฀฀฀1
de฀15฀unités฀(statistiques),฀les฀15฀pays฀sélectionnés฀qui฀constituent฀la฀popu-lation฀ de฀l’étude.฀ Dansunepopulationdonnée,chaqueélémentestappelé«individu»ou «unitéstatistique». La฀collecte฀d’informations฀sur฀une฀population฀peut฀être฀effectuée฀sur฀la totalité฀des฀individus฀ ;฀on฀parle฀alors฀d’enquêtes฀exhaustives.฀Lorsque฀la taille฀de฀la฀population฀étudiée฀est฀élevée,฀de฀telles฀enquêtes฀sont฀fort฀coû-teuses฀ou฀impossibles,฀et฀le฀cas฀échéant,฀leurs฀résultats฀souvent฀très฀longs à฀rassembler฀peuvent฀être฀dépassés฀avant฀même฀la฀fin฀de฀l’enquête.฀C’est la฀raison฀pour฀laquelle฀on฀a฀souvent฀recours฀aux฀enquêtes฀par฀sondage฀ qui portent฀sur฀une฀partie฀de฀la฀population฀appelée฀échantillon.฀ Les฀observa-tions฀obtenues฀sur฀une฀population฀ou฀sur฀un฀échantillon฀constituent฀un ensemble฀de฀données฀auxquelles฀s’appliquent฀les฀méthodes฀de฀la฀statistique descriptive฀dont฀le฀but฀est฀de฀décrire฀le฀plus฀complètement฀et฀le฀plus฀sim-plement฀l’ensemble฀des฀observations฀qu’elles฀soient฀relatives฀à฀toute฀la population฀ou฀seulement฀à฀un฀sous-ensemble.
B. Variables Chaqueindividudunepopulationpeutêtredécritselonuneouplusieurs variablesirtsqieucracaéteatdievsesouspqrueanldirtiuqreêtesduvpeten valeursnumériques. Une฀variable฀est฀dite฀qualitative฀ si฀ses฀différentes฀réalisations฀(modalités) nesontpasnumériques.Ainsi:lesexe,lasituationmatrimoniale,lacatégorie socioprofessionnelle…฀sont฀des฀variables฀qualitatives.฀On฀peut฀toujours฀rendre numérique฀une฀telle฀variable฀en฀associant฀un฀nombre฀à฀chaque฀modalité฀ ;฀on dit฀alors฀que฀les฀modalités฀sont฀codées.฀Bien฀entendu,฀les฀valeurs฀numériques n’ont฀dans฀ce฀cas฀aucune฀signification฀particulière,฀et฀effectuer฀des฀opérations algébriques฀sur฀ces฀valeurs฀numériques฀n’a฀pas฀de฀sens. Unevariableestditequantitativeémun-iremqutentrinsèinllesetolsruqeque:effectuerdesopérationsalgébriques(addition,multiplication)surune tellevariableaalorsunsens.Unevariablequantitativepeutêtreunevariable statistiquediscrèteoucontinue. Les฀raaivsttiueiqesbltassetidsèrcsriablestdesvaueevtnpuqienp-nernosdrequedesvaleursisolées,discrètes.Lenombredenfantsdunefamille,le nombredepétalesdunefleur,lenombredebutsmarquéslorsdunerencon-tredefootballsontdesvariablesquantitativesdiscrètes.Leplusfréquem-ment,lesvaleurspossiblessontdesnombresentiers. Les฀esbltasviaarocsnitntsiteuqiuessurlevapreventpeuelsetstuodner numériquespossiblesdunensembleinclusdanslel:reeevun,altiall,e tauxdenatalitésontdesvariablescontinues.
2฀฀฀OHEDMTÉÀALOINDUCTNTROIUEIQTASSTTI
Ladistinctionentrevariablesquantitativesdiscrètesetcontinuespeut paraîtrefactice,cartoutemesureestdiscrèteenraisonduneprécisiontou-jourslimitée;etinversement,lorsquunevariablediscrètepeutprendreun grandnombredevaleursetquelatailledelapopulation(oudeléchantillon) étudiéeestélevée,onregrouperadesvaleursvoisinesetlavariablesera,par extension,traitéecommeunevariablecontinue.Enpratique,lorsqueles valeursdunevariablesontregroupéesenklassctseiarteét,esvlaiaarebl commeunevariablequantitativecontinue,maisellepeutaussiêtreenvisagée commeunevariableaeuvàilatqitk฀modalités. Les฀données฀dont฀on฀dispose฀sont฀les฀modalités฀ou฀valeurs฀prises฀par plusieurs฀variables฀qualitatives฀ou฀quantitatives฀sur฀les฀individus฀d’une population฀ou฀d’un฀échantillon฀;฀pour฀une฀population฀d’entreprises,฀on฀peut disposer,฀par฀exemple,฀de฀données฀sur฀le฀chiffre฀d’affaire,฀le฀bénéfice฀net, le฀nombre฀d’employés,฀la฀masse฀salariale฀annuelle,฀le฀secteur฀d’activité principale… Onpeut,dansunpremiertemps,décrirechaquevariableséparément,puis ensuite,étudierlesrelationsouliaisonsexistantesentreelles.Ainsi,dansce livre,nousenvisageronsdabordlespopulationsstatistiquesdécritesselon uneseulevariable,puisselondeuxvariables.Létudedespopulationscarac-tériséesparplusdedeuxvariablesnestpasabordéedanscetouvrage.
II.
R eprésentations graphiques
Deux฀méthodes฀de฀représentation฀des฀données฀vont฀être฀exposées.฀On฀com-mencera฀par฀celles฀adaptées฀aux฀données฀nombreuses฀et/ou฀anonymes,฀c’est-à-dire฀pour฀lesquelles฀l’identité฀des฀individus฀n’a฀pas฀été฀relevée฀ou฀ne฀pré-sente฀pas฀d’intérêt฀à฀être฀conservée฀pour฀l’interprétation.฀Ceci฀n’est฀pas฀le฀cas lorsque฀les฀individus฀sont฀peu฀nombreux฀(régions,฀pays…),฀où฀on฀définira฀un nouveau฀mode฀de฀représentation฀graphique฀dû฀à฀J.W.฀Tukey฀(§฀II.B.).฀L’étude d’une฀population฀selon฀une฀variable฀sera฀restreinte฀au฀cas฀des฀variables฀quan-titatives,฀car฀la฀description฀d’une฀population฀selon฀une฀variable฀qualitative฀est totalement฀résumée฀dans฀un฀tableau฀de฀pourcentages฀ou฀dans฀un฀diagramme circulaire,฀appelé฀aussi฀diagramme฀en฀«฀ camembert฀»฀(cf..fgiure1.1)
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
฀฀฀3
Figure฀1.1฀–฀Surface฀du฀verger฀français฀en฀2005
LesrésultatsconcernantlesobservationsdelavariableXensetldesmblenodvaleurs฀est฀{i,=x1,…฀,฀k},฀sont฀présentés฀dans฀le฀tableau฀des฀effectifs฀(x ,฀n) ii ioudansletableaudesfréquences(x,fvea)c/n=fnsestilintlouveeuno(ii฀i i pourcentage100·fI.)selsedleabedprtéréflseféraccllureàpartirquencesi effectifscumulés(§II.A.3)afinquedeserreurssuccessivesdarrondisne donnentpasunesommetotaledefréquencesdifférentede1.
8,8 10% 8 %
ExtraitdeAgreste,GraphAgri2006, MinistèredelAgricultureetdelaPêche.
Noix
4฀฀฀TRODUCTIONÀLAÉMHTDOETSTASIITEQUNI
Distributions statistique s et représentations graphiques
A.
5 % 5 % 6 %
Poire de table
Pêche et nectarine
Cerise
Prune
Pomme à cidre
Autres fruits
10 %
10 % 10 %
24 %
Pomme de table
12 %
Olives
Abricot
1) Variables statistiques discrètes
Considéronsunevariableobservéesurunepopulation฀de฀n.iiSdnvidisu lavariableX฀ prend฀ kecqnasius(aleurésdppeldesvaenseblemrueluosavsuit,modalités),lepremiertraitementdesdonnéesbrutesconsisteàcompter e lenombrennetnedsérpdniiuqdivsiulatialodm(tié=i,21k,,).฀ i
Tableau฀des฀effectifsTableau฀des฀fréquences
Modalité Effectif Modalité Fréquence฀ x n x f฀=฀n/n 1 1 1 1 1 . . . . x n x f฀=฀n/n i i i i i . . . . x n x f฀=฀n/n k k k k k kk n=n f i=1 ∑ ∑ i i=1 i=1 Onprésentelogiquementlesmodalitésnumériquesenordrecroissant.On peutassocieràcestableauxunereprésentationgraphiqueappelée «diagrammeenbâtons». Un฀bâtonsidgaarmmene฀ (cf.฀tsmènysenscouitrdatunsugif1er)2.tse d’axes฀rectangulaires฀;฀les฀valeurs฀de฀la฀variable฀statistique฀Xntsoneseétropabscisse;àpartirdechaquevaleurxrticalroitevetoncera,tnedednumges i฀ etdontlahauteurestproportionnelleàleffectifcorrespondant.Onpeutrete-nirindifféremmentuneéchellequiexpliciteleseffectifsnlleécheuneou, i฀ quiexplicitelesfréquencesfsidselruoP.-ur,1onoplbaeu.1nsdutatributio i฀ raitreprésentersurlemêmegraphiquelesdiagrammesenbâtonsdeplusieurs paysavecdescouleursdifférentes,chaquecouleurcorrespondantàunpays, cequipermettraitdecomparerlesdistributionsdunombredepersonnespar ménage.
Tableau1.1Ménages฀suivant฀le฀nombre฀de฀personnes฀du฀ménage dans฀quelques฀pays฀en฀1995฀(%)
Ménages฀de฀: –1personne –2personnes –3personnes –4personnes 5personnes฀et฀plus
Ensemble฀(en฀milliers)
Allemagne Espagne
34,4 32,3 16,0 12,6 4,7
34฀413
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
12,7 24,5 21,8 24,0 17,0
12฀112
Finlande
37,4 31,0 14,4 11,9 5,3
2฀222
France
29,2 31,8 16,8 14,2 8,0
23฀126
Grèce
20,7 28,9 19,8 21,7 8,9
3฀756
Irlande
22,8 23,1 15,6 17,1 21,4
1฀146
Italie
22,7 23,1 15,6 17,1 21,4
1฀146
Pays-Bas Portugal
30,6 34,0 13,4 15,9 6,2
6฀425
13,7 26,4 24,7 22,8 12,4
3฀275
Source฀:T.I,0EESN9991002-erFonimsienaaçauxableÉcodel
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
5
Nombre฀de personnes 1 2 ฀3 4 5฀ou฀plus
f฀(%) i
29,2 31,8 16,8 14,2 8,0 100฀%
30 %
20 %
10 %
1
2
3
4
5 ou +
Figure฀1.2฀–฀Diagramme฀en฀bâtons฀–฀Nombre฀de฀personnes฀par฀ménage฀en฀France฀en฀1995
2) Variables statistiques continues
Linfinitédesvaleursobservablesnerendpaspossiblelagénéralisationdu diagrammeenbâtons.eniamodiravednioatLe฀ d’une฀satbaelqieuittsriva continueXntsatarpegéekrtpaseie[retnllav.iL,xx[agcueh,efmréà i–1i฀ e ouvertàdroite,estappeléilc(asse=i1,2,k,lptinma;os):duesetgélaeà a=xx1 i฀ ฀i i– Ilarrivequelamplitudedesclassesextrêmessoitindéterminée:lapre-mièreclasseétantdéfiniepar«moinsdetelaed»,«arièrnprelupeds฀» (cf.lbat.1.2)eauLechoixdesextrémitésedritrapàtiafesessslacesdeénnodsseturbsel; nombre฀kemeletnertne410tL).déeu-codesssecalttêdioodérremsuelé(u pageenclassesestassezsouventchoisitelquelamplitudedesclassessoit constante,outelqueleseffectifsdesclassessoientconstants(parexemple, 10%delapopulationdanschaqueclasse,cf.)..61uaelbatLeclassementdunesériestatistiquecorrespondàunepertedinformation parrapportauxdonnéesinitialespuisqueseulsleseffectifsdesclassessont retenus.Letravailsurunetellesérieimposealorslhypothèsequelesdon-néessontrépartiesuniformémentn.sOàlhcedrueirétniseasclsdeeunac parleaussidéquirépartition฀diesivndusiduoocnederhomogénéité฀ dans chacunedesclasses.Chaquepartiedelaclassecorrespondalorsàuneffectif proportionnelàsalongueur.Lidéeest,biensûr,quechaqueclasserepré-senteuneentitéquidoitsedistinguerparrapportauxautresclasses.Comme précédemment,lesrésultatssontprésentésdansuntableaudeffectifsoude fréquences.Onassocieàunteltableauunhistogramme฀ne-rpséeeruntesiqu tationgraphiquetrèsrépandue.Lhistogrammeestconstituédelajuxtaposi-tionderectangles(pourrespecterlhypothèsedéquirépartition)dontles basesreprésententlesdifférentesclassesetdontelsutsfrscansoeproportion-nellesauxeffectifsdesclasses฀(cf.฀1.eurig)3f.
6฀฀฀MALÀNSEDOHTÉIQSTTITAUEINTCTIORODU
Onverraparlasuitequunedifficultédutravailavecdessériesclassées estlechoixdeslimitespourlesclassesextrêmes,indispensableaussipourle tracédelhistogramme. e À฀la฀i฀ classe,฀corre spond฀un฀rectangle฀dont฀la฀base฀est฀l’intervalle฀[x฀ –฀1,฀x[ ii ffectif฀n etdontlasurfaceestproportionnelleàlafréquencefiouàle(iiS.) lesclassesonttouteslamêmeamplitude,leshauteursdesrectanglessont proportionnellesauxfréquences.Danslecasoùlesclassessontdamplitudes e inégales,lahauteurdurectanglecorrespondantàlaiilpmedutessaadcla i e sera=hfa/altnatnesércaeusfrLarepngleectaduriiégalensaiaersseascl i i฀ i. à฀f i PourunesériedobservationsrelativesàunevariablestatistiqueX฀ dis-crèteoucontinueclassée,ladonnéedesmodalitésetdeleursfréquencesest appelée«ististationibutsirtdeuqleabaliraved»X.
Tableau1.2Chômeurs฀BIT฀selon฀le฀sexe฀et฀l’ancienneté฀de฀chômage฀en฀septembre฀ 2006
Distributionenmilliers Ancienneté฀d’inscription Hommes Femmes Moins฀d’un฀mois 180,3 181,0 D’un฀à฀moins฀de฀trois฀mois 203,9 204,9 De฀trois฀à฀moins฀de฀six฀mois 169,3 163,1 De฀six฀mois฀à฀moins฀d’un฀an 202,1 191,1 D’un฀à฀moins฀de฀deux฀ans 197,3 199,3 De฀deux฀à฀moins฀de฀trois฀ans 74,5 75,4 Trois฀ans฀ou฀plus 67,1 62,9 Ensemble 1฀094,5 1฀077,7 Ancienneté฀moyenne฀en฀jours 341,5334,5 Source:dseusleMnetenisduiquetistStaliavarTlluB
©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.
Distributionenpourcentage Hommes Femmes 16,5 16,8 18,6 19,0 15,5 15,1 18,5 17,7 18,0 18,5 6,8 7,0 6,1 5,8 100,1100,1
,www.travail.gouv.fr,octobre2006.
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
7
fi ai
Mois 013 6 36 6012 24 Figure฀1.3฀–฀Histogramme฀de฀la฀distribution฀des฀chômeurs฀«฀ Femmes฀»฀selon฀l’ancienneté (voirtableau1.2)
Laclasse«Troisansouplus5ans(60mois).
»estsupposéebornéesupérieurementpar
3) Fréquences cumulées et courbe cumulative
a)฀Tableau฀des฀fréquences฀cumulées Lestableauxdefréquences(oudeffectifs)quiviennentdêtredéfinispeu-ventêtremodifiésdefaconàprésenterunrésumédesdonnéessousune formedifférente. e฀ Onappelleumcéulfeefifctledaiindrednomblealc,esssuvidiNpour i lesquelslavariableprendunevaleurinférieureàx฀: i n N฀ =jpour฀i=2,1,,k i ji e OndéfinitdemêmeF,aluqneférumulcecéeeladisalc:esn/N=F i฀ i i฀
8฀฀฀DOETSTASIITUQEDORTNIÀONTIUCTHMÉAL
Lestableauxdeffectifscumulésoudefréquencescumuléessedéduisent destableauxdeffectifsoudefréquences(noncumulés)ensubstituantaux effectifsoufréquencesnoncumulésleseffectifsoufréquencescumulés.Les deux฀types฀de฀tableaux฀sont฀donc฀équivalents฀(cf.฀figures฀ 1.2฀et฀1.4).
b)฀Fonction฀cumulative฀et฀courbe฀cumulative La฀courbe฀cumulative฀ ou฀courbe฀des฀fréquences฀cumulées฀est฀la฀représentation graphique฀des฀fréquences฀cumulées.฀Plus฀précisément,฀la฀courbe฀cumulative est฀la฀représentation฀graphique฀de฀la฀proportion฀F(t)฀ des฀individus฀de฀la฀popu-lation฀dont฀le฀caractère฀prend฀une฀valeur฀inférieure฀à฀t.฀Cette฀fonction,฀appelée fonction฀cumulative฀ou฀fonction฀de฀répartitionste:, 1.outurtédeopifint∈฀2.corsiastn)etrsonnntmeteicnassiorcsiam(et 3.฀ullepourntinféueiràrnimx i 1in 4.égealu1ràpotsinmouaxamàlagéx i 1in
Pourunevariablestatistiquediscrètece,etttseenucnofnoitnenfonctio escaliercahcnesedenusurlevaleibssposséneattn,rpx,nutgésualaalàfré-i quencecorrespondantef฀(cf.14..)firegu i Danslecasdunevariablestatistiquecontinueaofcnit,livateconulum nestconnuequepourlesvaleursdeX.sessaclsdestémiréxtxueseagélaLhypothèsedéquirépartition(§II.A.2)impliquequelafonctionF฀ est linéaireentrecesvaleurs(cf.)5.1erufig.ontincfoondsteetteCeuetcocinnt linéaireparmorceaux.encore,Icicéseasrilietsnesdirishocdeeruopsetimilles฀classes฀extrêmes.
t F(t)฀(%) 100 % <฀1 0 [1฀;฀2[ 29,2 [2฀;฀3[ 61,0 [3฀;฀4[ 77,8 [4฀;฀5[ 92,0 ≥฀5 100 1 2 3 4 5 et + Figure฀1.4฀–฀Graphe฀des฀fréquences฀cumulées฀de฀la฀distribution฀représentée฀à฀la฀figure฀ 1.2
Cesfréquencescumuléessontdesfréquencescumuléesascendantes,car ellesontétéobtenuesencalculantlesfréquencesFelqsuoreu-lindduspivid i leslecaractèreétudiéX฀ est฀auplusàalégxon;puetuassiédifnirlesfré-©฀Dunod.฀La฀photocopie฀non฀autorisée฀est฀un฀délit.i
DISTRIBUTIONSSTATISTIQUESÀUNCARACTÈRE
9
t 0 1 3 6 12 24 36 60
F(t)฀(%) 0 16,8 35,8 50,9 68,7 87,2 94,2 100
F i
100
0 13 6
12
24
36
Figure฀1.5฀–฀Courbe฀cumulative฀de฀la฀distribution฀représentée฀à฀la฀figure฀ 1.3
60
Mois
quencescumuléesdescendantesqérfselerid-à-sqleroupesncueeullseest,c lecaractèreétudiéXàrépusueirestx.enécspanQuondpasifietypelede i fréquencescumulées,onsous-entendquilsagitdesfréquencescumulées ascendantes.
B. L e diagramme « branche et feuille » Lorsquelatailledelapopulationétudiéenestpastropélevée(inférieureà lacentaine),ilestintéressantdutiliserlareprésentationendiagramme 1 «brancheetfeuille»euàdtàlafoisduideargaemmneit.JTW.eyukC. tableautedealtaoinrgpeéresrtnaphiqueetdonnenoinedenusivesmbsedle données฀ererdsnpaslnuméionrmatinforapruelaveuqirr.eualv
1) Profondeur d’une observation
SelonquonrangelesvaleursobservéesdelavariablestatistiqueXusplaedlfaibleàlaplusélevéeoudelaplusélevéeàlaplusfaible,onassocieàcha-queobservationxentsaisrocs,ngarxuedqueorstalndi.tOssnarciotédla i distributionestordonnée. Onappelleprofondeur฀de฀xelnmorbaalégeusedtitearxuedngspuspl i Lesduréeshebdomadairesdutravaildessalariésàtempscompletdansles paysdelUnioneuropéenne(cf.et,notêtoernodrseénleau1.3)peuventba endéduitlaprofondeurdechaquevaleurdechacunedesséries.
1.฀J.฀W.฀Tukey,
Exploratory฀Data฀Analysis
(EDA),฀Addison-Wesley,฀1977.
10฀฀฀TCUDORTNIQIEUITTSSATHODEMÉTÀLAION
.
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

Diffusez cette publication

Vous aimerez aussi