La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Partagez cette publication

NotesdecoursdeStatistiquesunivarie´esJean-EtiennePoirrier26septembre2006Tabledesmatie`res1Introductionetde´nitions31.1Population,e´chantillon,unite´etvariable........................31.2Lestroistypesdevariables...............................32Lastatistiquedescriptive42.1Lapprochegraphiquedere´ductiondesdonne´es....................42.1.1Variablediscre`te.................................42.1.2Variablecontinue.................................72.2Lapprochenume´riqueder´eductiondesdonne´es....................83Parame`tresnume´riquesdere´ductiondesdonne´es83.1Lesparame`tresdeposition...............................83.1.1Lemode......................................93.1.2Lamoyenne....................................93.1.3Lame´diane....................................103.1.4Lequantile....................................103.2Lesparame`tresdevariabilite´..............................113.2.1Le´tendue.....................................113.2.2Lintervalleinter-quartiles............................113.2.3Le´cartmoyen...................................123.2.4Lavariance....................................123.2.5Le´cart-type....................................123.3Lesparame`tresdeforme.................................143.3.1Coecientdesyme´trie..............................143.3.2Coecientdaplatissement...........................143.4Lesparame`tresdassociation..............................143.4.1Covariance....................................153.4.2Coecientdecorre´lation............................15Cesnotesdecoursdestatistiquessontlargementinspire´esdemesnotesprisesaucoursduprofesseurA.Albertpourlesdeuxie`mescandidaturesenbiologiea`l’Universite´deLie`ge(Belgique).Jenesuisdoncpasstatisticienet,sivousaviezdesremarques,dessuggestionsousivoustrouviezdeserreurs,vouspouvezm’enfaireparta`l’adressesuivante:jepoirrier@gmail.com.Ladernie`reversiondecesnotessetrouventici:http://www.poirrier.be/jean-etienne/notes/.CesnotessontsouslaGNUFreeDocumentationLicencedontletextesetrouveici:http://www.gnu.org/copyleft/fdl.html1
TABLEDESMATIE`RES4ABC3.4.3Droitedere´gression.......................3.4.4Coecientdede´termination...................Enchantillonnage,probabilite´etvariablesale´atoiresDe´monstrationdelaformuledelavariancedanslecasou`n=2De´monstrationdelaformuledetravaildelavarianceDe´monstrationdelaformuledetravaildelacovariance................2166171818191
1INTRODUCTIONETDE´FINITIONS31Introductionetde´nitionsR.A.Fisherade´finilastatistiquecommeladisciplinequie´tudielesme´thodesdere´ductiondedonne´es,lavariabilite´etlespopulations.–Lesme´thodesdere´ductiondesdonne´esfontpartiedelastatistiquedescriptive(ouexplora-toire).Ellesconsistenta`essayerdere´sumerune´chantillondedonne´esviadesgraphiquesoudescaracte´ristiquesnume´riques.Elleestpre´sente´eende´taila`lasection2.–L’e´tudedelavariabilite´cherchea`l’expliquer.Ellefaitpartiedelath´eoriedel’e´chantillonnage.–L’e´tudedespopulationsfaitpartiedelastatistiqueinfe´rentiellequiprendune´chantillonetentiredesconclusionspourtoutelapopulation.Ellepartdoncdel’expe´riencea`l’hypothe`se(faiteaude´part).1.1Population,e´chantillon,unite´etvariableAvantd’allerplusloin,ilestimportantdede´finirclairementquelquestermes...Lapopulationestunensembledesujets(=objets=e´le´ments)quiontau-moinsuneproprie´te´encommun.L’e´chantillondelapopulationestunsous-ensembledelapopulation.Cete´chantillondoiteˆtrerepre´sentatifdelapopulation.L’unite´statistiqueestl’e´le´mentdelapopulationsurlequelontravaille.Parexemple,sions’inte´resseauxe´tudiantsd’unee´cole,l’unite´seral’e´tudiant.Finalement,lavariableestunegrandeurcaracte´ristiquea`laquelleons’inte´resse.Sions’inte´ressea`uneseulevariable,onparleradestatistiqueunivarie´e.Sions’inte´ressea`deuxouplusieursva-riable,onparleradestatistiquemultivarie´e.1.2LestroistypesdevariablesIlexistetroistypesdevariables:lesvariablesquantitatives,qualitativesetbinaires.Lesvariablesquantitativesexprimentunequantite´:x=0,1,2,3,...,n.Ellessontdoncmesurables,nume´riques.Onlesclasseenvariablesquantitativesdiscre`tesetvariablesquantitativescontinues.Unevariablequantitativediscre`tepeuteˆtrerepre´sente´parunnombrefinidevaleurs.Cesera,parexemple,lenombred’enfantsparfamille,lenombred’hospitalisationsparpatient,lenombredepe´talesdansunefleur,etc.Cesvaleurspeuventeˆtretraite´esmathe´matiquement(parexemple,pardesope´rationsdebasecommel’addition,lasoustraction,etc.).Unevariablequantativecontinuepeutprendretouteslesvaleurspossiblesdansunintervalledonne´[a,b]1.Parexemple,lepoids,lataille,l’aˆge,laconcentrationenozoneouencalcium,...sontdesvariablesqualitativescontinues.Eneffet,sijedisquejep`ese77kg,c’estuneapproximation:jepe`se,enre´alite´entre76.5et77.5kgouentre76.6et77.4kgou...Lesvariablesqualitativesexprimentunequalite´;cesontdesdonne´escate´gorise´es(onparleraaussidevariablesnominales):x=m1,m2,m3,...mq.Lesvaleursprisentparlavariablesontdesmodalite´s,setraduisantpardesnoms.Parexemple,lacouleurdepeauestunevariablequalitative:onestblanc,jaune,noir,rouge,etc.Legroupesanguinestunautreexempledevariablequalitative:onestA,BOouABmaisriend’autre.Ilarrivequel’onassocieunchiffrea`unemodalite´,ge´ne´ralementpourenfaciliterl’encodage.Maisilfautbienfaireattentionqu’onnepeutpaslestraitermathe´matiquement!1Cettenotation[a,b]signifieunensembleallantde”a”a`”b”enincluantcesdeuxvaleurssignifieunensembleallantde”a”a`”b”enincluantcesdeuxvaleurs.Lanotation]a,b]signifieraitl’ensembledesvaleurscomprisesentreaetbavecseulbcomprisdansl’ensemble.Touteslesvariationssontpermises.
2LASTATISTIQUEDESCRIPTIVE4Parmilesvariablesqualitatives,ilyalesvariablesordinalesdanslesquellesilyaunordredanslesmodalite´s:m1<m2<...<mp.Parexemple,legradea`unexamenestunevariablequalitativeordinale:AJ<S<D<GD<PGD2.Onpourraittraitercesvariablesmathe´matiquementcar,en-dessous,ilya(ouilpeutyavoir)unevariablequantitativecontinue.Poureˆtrecomplet,signalonsqu’ilexistedesvariablesquantitativescontinuesqu’oncate´gorisepourenfairedesvariablesqualitatives.C’estmoinsbien.Exemple:vousavezentre0-20ans,20-40ans,40-60ans,60+ans(alorsquel’aˆgeestunevariablequantitativecontinue).Finalement,lesvariablesbinairespeuventeˆtrededeuxtypes.Soitc’estunevariablequalita-tivequineprendquedeuxmodalite´s(exemples:lesexeM/F,lestatutdefumeurO/N,l’anomaliege´ne´tique:O/N).Soitc’estunevariablequantitativediscre`teneprenantquedeuxvaleurs.Onpeuttoujoursalorslaramenera`0ou1(N=2;x=0/1).2LastatistiquedescriptiveL’objectifdelastatistiquedescriptiveestdere´sumerune´chantillondedonne´es.Aude´part,onal’e´chantillonetunevariableXsuppose´equantitative.Onde´signeparnl’effectifdel’e´chantillon(enanglais:”samplesize”).L’effectifestlenombred’objets,desujets,depersonnes,...dansl’e´chantillon.Onrepre´sentel’e´chantillondesdonne´esdansuntableaubrutdesdonne´esdelamanie`resuivante3:{x1,x2,x3,...,xn}Deuxremarquesa`proposdesdonne´es:1.lesdonne´esmanquantes(missingvalues)doiventquandmeˆmeeˆtreencode´es.Onchoisipourcelaunsigneouunevaleurparticulie`re.Ilfautdoncindiquerauprogrammedenepasprendreenconside´rationcesigneoucettevaleur.Parexemple,danslelogicielSAS,lesdonne´esmanquantessontsignale´esparunpoint(”.”)maisd’autreslogicielsutilisente´ventuellementd’autresspe´cifications.2.lesdonne´escensure´es(censoredvalues)sontdesvaleursqu’onn’apaspuobtenirouobservermaisdontonauneborne(infe´rieureousupe´rieure).Parexemple,enparlantdupoidsd’unepersonne,onpeutnepasavoirsonpoidsmaiseˆtresuˆrqu’ellefaitplusde40kg.Ilnefautpaslaissertombercesdonne´esettrouverunmoyenpourlesencoder.Pourre´sumerl’e´chantillon,lastatistiquedescriptivedisposededeuxmoyens:l’approchegra-phiqueetl’approchenume´rique.2.1Lapprochegraphiquedere´ductiondesdonne´es2.1.1Variablediscre`teSoitl’e´chantillondedonne´essuivant:{x1,x2,x3,...,xn}.Sionletrie,onobtientune´chantillonordonne´:{x(1),x(2),c(3),...,x(n)}.Leschiffresenindiceentreparenthe`sesindiquelerangdel’ob-servation,ca`d.lapositiondelavaleurdansl’e´chantillons’ilesttrie´parordrecroissant.Ilya,ainsi,troistypesdetableaux:1.letableaubrutquinecontientquelesdonne´estellesquere´colte´es;2.letableauordonne´quicontientlesdonne´estrie´esparordrecroissant;3.letableaurecense´:(x1,x2,x3,...,xn).2AJ=ajourne´;S=satisfaction;D=distinction;GD=grandedistinction;PGD=plusgrandedistinction3lechiffreenindiceindiquelenume´rodelavaleurdansl’e´chantillon
2LASTATISTIQUEDESCRIPTIVE500111111112222222222333333333333333333333333333333333333333333333333333344444444444444444444444445555555555555566666666666666666779910Tab.1–Nombred’enfantsparfamille(variableX)observe´dansune´chantillonde133famillesNbreenfants/familleRe´pe´titionsFrrie´quencesFrPe´q.cumule´esXirifi=n(en%)ci=jfj(en%)021.51.5186.07.52107.515.035239.154.142518.872.951410.583.461712.896.2721.597.780097.7921.599.21010.8100.0Totaln=133100Tab.2–Tableaurecense´dunombred’enfantsparfamilledansune´chantillonde133famillesDansl’exemplesuivant(voirtableaux24;letableau1reprendlesvaleursbrutesordonne´es),lapremie`recolonnereprendlesvaleursdelavariable(Xi),lasecondemontrelenombredere´pe´titions(absolutefrequency,ri),lacolonne3montrelesfre´quences(fi)etladernie`relesfre´quencescu-mule´es(ci).Lafre´quencecumule´esertnotammenta`re´pondrea`desquestionscomme“quelleestlaproportiondefamilleposse´dantmoinsde3enfants?”.Elleexistetoujoursetonpeuttoujourslacalculer.Onpeutde´riverunpremiergraphiquedecestableaux:lediagrammedebaˆtons(enanglais:bardiagram)ou`onrepre´sentelesfre´quences(fi,enordonne´es)enfonctiondunombred’enfantsparfamille(Xi,enabcisse).Parfois,one´crirae´galementcetterepre´sentationfivsXiSurlegraphique15,vousremarquerezque“c¸a`montepuisc¸a`descend”:c’estunedistributionunimodale.Nouspouvonse´galementde´riverunsecondgraphiquedecestableaux:lediagrammedesfre´quencescumule´esoudiagrammecumulatif,ou`onrepre´sentecivsXi.Surlegraphique2,vousremarquerezque“c¸a`monteenescalier”.Notezquesinousavonsunevariablequalitative,nouspouvonse´galementtraiterlesdonne´esdelameˆmemanie`regraphique(saufci).4danscetableau,ilyadonc0re´pe´titionsdufaitd’avoir8enfantsparfamilledansl’e´chantillonobserve´;maiscelanesignifiepasquecelan’existepasdanslapopulation!5surlesdiffe´rentsgraphiquesstatistiques(etdoncceuxpre´sente´sici),ilfautessayerd’indiquerlale´gendedesaxesainsiquelenombred’e´chantillonsobserve´s.Celarendplusfacilelacompre´hensiondugraphique
2LASTATISTIQUEDESCRIPTIVEFig.1–Histogrammedesdensite´sdunombred’enfantsparfamilleFig.2–Diagrammedesfre´quencescumule´es6
2LASTATISTIQUEDESCRIPTIVE1022244237778985286391075121527485433626299402611514262418534956375281342273312522681115654663353388582428552887727815218552631316426971053333858531067065879612477148214785737708491Tab.3–Agea`l’admissiona`l’hoˆpital(variableX)pourune´chantillonde100patientsClassesdaˆgesCentresRe´pe´titionsFre´quencesFre´q.cumule´es(enanne´es)Cirifi(en%)ci(en%)100--1200155822822320220-302513134330-403510105340-5045886150-605516167760-7065778470-8075558980-90851111100Totaln=100100Tab.4–Tableaudeclassesdel’aˆgea`l’admissiona`l’hoˆpitalchez100patients72.1.2VariablecontinueCommetoujours,ilvaeˆtreplusfaciledemontrerl’approchegraphiquedere´ductiondesdonne´esdevariablecontinueparunexemple.Dansletableaubrutdesdonne´essuivant–l’unite´statistiqueestlasuivante:lespatientsentranta`l’hoˆpital,–lavariable(continue)est:l’aˆgeenanne´es.Triercetableauseralourdetpeuinte´ressant(surtoutsinousavonse´norme´mentdedonne´es).C’estpourquoinousalloncre´eruntableaudeclasses.Danscetableau(voirtableau4),onde´finit10classes(danslacolonne1):de0a`10ans(inclus:0-10),de10(exclus)a`20ans(10-20),...The´oriquement,onde´finirakclassespoursone´chantillon,ou`l’heuristiquenousditquek=n(avecn=lenombrededonne´esdanssone´chantillon).Dansladeuxie`mecolonne,onde´finiralecentredelaclasse(Ci).Commelenoml’indique,lecentredelaclasseestlavaleurnume´riquedumilieudelaclasse.Parexemple,lecentredelaclasse0-10est5.PDanslatroisie`mecolonne,onde´finiralare´pe´tition:ri=n.Cenombrerepre´sentelenombredevaleurscontinuesseretrouvantdanschaqueclasse.Cettemanie`redeproce´dervaplusvitequeleclassement“classique”.Sinon,onrepre´senteraencorelesfre´quences(fi)etlesfre´quencescumule´es.)C(iCetableaudesclassesestdonccaracte´rise´sparlesclasses,Ci,ri,fi,ci.Onpeutde´riverunpremiergraphiquedecestableaux:l’histogramme(oudiagrammed’aires)ou`onrepre´sentelesfre´quences(fi,enordonne´es)enfonctiondesclasses:fivsclasses(voir
3PARAME`TRESNUME´RIQUESDERE´DUCTIONDESDONNE´ESFig.3–Histogrammedesdensite´sdesaˆgesd’admissiona`l’hoˆpital8graphique3).Troisremarques:1.lesclassesd’aˆgesdoiventeˆtree´quidistantes;2.sionveutregrouperdeuxclasses,ondoitadditionnerlesfre´quencesetlabasedel’airedoiteˆtreagrandie(exemple,sionveutregrouperles2dernie`resclasses,l’airedoitfaire16%);3.ilnefautpasoublierd’indiquerlendel’effectif.Nouspouvonse´galementde´riverunsecondgraphiquedecestableaux:lediagrammecumu-latifapproche´(voirgraphique4).Ici,celadonne´beaucoupplusd’informations;celapermet,parexemple,dere´pondrea`laquestion“quelleestlaproportiondesgensquionttelaˆgeouplus/moins?”.Commenousleverronsplustard(section3.1.3),nousavonsunevaleurparticulie`reim-portante:lame´diane,valeurou`50%desvaleurssonten-dessouset50%desvaleurssontau-dessus.2.2Lapprochenume´riquedere´ductiondesdonne´esSoitl’e´chantillond’effectifnsuivant:{x1,x2,x3,...,xn}Deuxfamillesdeparame`tresvontpouvoirre´duirelesdonne´esnume´riquement:lesparame`tresdepositionetlesparame`tresdevariabilite´.D’autresfamillesdeparame`trespourronteˆtrede´finies.Ellessonttoutesde´critesdanslasectionsuivante.3Parame`tresnume´riquesdere´ductiondesdonne´es3.1Lesparame`tresdepositionLesparame`tresdepositionsontlemode,lamoyennearithme´tique,lame´dianeetlequartile.Ilspermettentdesavoirautourdequellesvaleurstournentlesdonne´esdel’e´chantillon,detrouver
3PARAME`TRESNUME´RIQUESDERE´DUCTIONDESDONNE´ESFig.4–Diagrammecumulatifapproche´9unevaleurcentraledel’e´chantillon.3.1.1LemodeLemodeestlavaleurlaplusfre´quentedansl’e´chantillon.Parexemple,pourlenombred’en-fantsparfamille,lemodeest3(end’autrestermes,pourlavariablediscre`tedunombred’enfantsparfamille,lavaleurlaplusfre´quenteest3).Parcontre,pourl’aˆged’admissiona`l’hoˆpital,laclassemodaleest0-10ans(cetteclassedelavariablecontinuecontientleplusd’individus).3.1.2LamoyenneLamoyennearithme´tique(enanglais:mean,average)estde´finieparl’e´quationsuivante:Pxx=m=i(1)nPDansl’exempledunombred’enfantsparfamille,n=133etx=498.Donc,x=3.74.Cere´sultatestbizarrepourunevariablediscre`te.Ondiraiciquelamoyennesesitueentre3et4,qu’elleestplusprochede4quede3.PDansl’exempledel’aˆged’admissiona`l’hoˆpital,n=100etx=3920.Donc,x=39.2ans.Lamoyennearithme´tiquealesproprie´te´ssuivantes:1.simplicite´(d’emploietdeconcept)2.ge´ne´ralite´(utilise´partout)3.sensibleauxvaleursaberrantes(erreursdedonne´es)4.siX=0/1avec0=nonfumeuret1=fumeur,n=100:x=nbrnede1.Celadonne´uneproportionp!Uneproportionestdoncunemoyennearithme´tiquedevariablesbinaires.Uneproportionpeutdonceˆtretraite´ecommeunemoyennearithme´tique.
3PARAME`TRESNUME´RIQUESDERE´DUCTIONDESDONNE´ES013.1.3Lame´dianeLame´dianeMestlavaleurquilaisse50%desobservationsen-dessouset50%desobservationsau-dessus.Onl’appellee´galementparfois“percentile50”:c’estlavaleurcentraleparexellence.Pourlacalculer,ilfautd’abordtrierl’e´chantillon.Ensuite,–sil’effectifndel’e´chantillonestimpair,M=x(n2+1)Parexemple,sil’e´chantillonest(28,14,11,21,13),ildevient,unefoistrie´:(11,13,14,21,28).M=x(52+1)=x3=14.–sil’effectifndel’e´chantillonestpair,x(2n)+x(n2+1)=M2Parexemple,sil’e´chantillonest(28,14,11,13,12,23),ildevient,unefoistrie´:(11,12,13,14,23,28)etM=x(26)+x(26+1)=x3+x4=13+14=13.5.222Lame´dianea,commeproprie´te´,d’eˆtrepeusensibleauxvaleursextreˆmes.3.1.4LequantileLequantileα6estlavaleurPαquilaisseα%desobservationsen-dessouset(1α)%desobservationsau-dessusd’elle.Lesdeux“quartiles”7lesplusimportantssontP25(quilaisse25%desobservationsen-dessous)etP75.Cesdeuxquartilespeuvente´galementeˆtrede´finisdemanie`regraphique.Sionreportesurungraphiquelafre´quencedesobservationsenfonctiondecesobservations,onobtientlegraphique5.P25estlavaleurenabcissepourlaquelleladroited’e´quationx=P25de´coupeuneairerepre´sentant25%del’airetotalesouslespoints.Afind’avoirunaperc¸udesdonne´es,onpeutcomparerlamoyenneetlame´diane.Troiscassontpossibles...1.Six'M,nousnoustrouvonsdanslecaside´al:c’estunindicateurdesyme´trie.Afind’obtenircettecourbe,nouspouvonse´ventuellementnormaliserlesdonne´es,c’est-a`-direleurappliquerunetransformationcommelnxoux.2.Six>>>M,c’est–soitunindicateurd’erreur(s)danslesdonne´es,–soitsigned’unedistributiondissyme´triquea`droite(c’estlecas,notamment,deladure´edevie(MTBFdune´on,tempsd’hospitalisation,etc.),d’e´tudessurlesenzymes,leshormones,.)...3.Six<<<M,c’est–soit,denouveau,unindicateurd’erreur(s)danslesdonne´es,–soitsigned’unedistributiondissyme´triquea`gauche(c’estlecas,notamment,del’aˆgelorsd’uneinterventionchirurgicale,sionintervientapre`suncertainaˆge).Onpeute´galementnormalisercesdonne´esavecunetransformationcommex2oux3.6Alaplacedequartile,onparleaussidepercentile7les4quartilesde´coupentl’e´chantillonen4morceaux