s s s W · q · q s q s " q Statistique et Probabilités : Estimation par intervalle de confiance
Chapitre 1
Estimation par intervalle de confiance
1. Estimation ponctuelle
1.1. Notion d’estimateur
Soit X une variable observée sur une population dont la loi dépend d’un paramètre inconnu . Soit (X , X ,..., X ) une suite de variables issue de la variable X. Un 1 2 n estimateur T de sera une variable aléatoire T = T (X , X ,..., X ) fonction de n n n 1 2 n l’échantillon. X + X +L + X1 2 nPar exemple, T = X = est un estimateur de . n n La valeur de T calculée à partir d'un échantillon observé est appelée estimation de , n elle sera notée T (x , x ,..., x ) . n 1 2 n
1.2. Exemples d’estimateurs 1.2.1. Estimateur de la moyenne empirique
On appelle moyenne empirique du caractère X sur un échantillon (X , X ,..., X ) la variable aléatoire X suivante : 1 2 n n1 X = X∑ i n i=1
On suppose que l'échantillon (X , X ,..., X ) est formé de variables aléatoires 1 2 n indépendantes et de même loi que X. On pose 2E(X ) = m et Var(X ) = i. i i
On a : Espérance de X : E(X ) = m 2 Variance de : V (X ) = X n En effet, on a: n n n1 1 1 1 E(X) = E X = E(X ) = m = (n m) = m ∑ ∑∑ ii n n nn i=1 i=1 i =1 n 2n n1 1 1 1 2 2V(X) =V X = V(X ) = = (n ) = ∑ ∑∑ i i 2 2 2 nn n i=1 n i=1 n i =1 Cours de Statistique EBAD - UCAD 4/2/2007 1:37:05 PM Abdon Privat PAMBOU 1 ...
Statistique et Probabilités : Estimation par intervalle de confiance Chapitre 1 Estimation par intervalle de confiance 1. Estimation ponctuelle 1.1. Notion destimateur Soit X une variable observée sur une population W dont la loi dépend dun paramètre inconnu q. Soit (X1,X2,...,Xn) une suite de variables issue de la variable X. Un estimateurTndeqsera une variable aléatoire Tn1Tn(X1,X2,...,Xn) fonction de léchantillon. X#X#L#XPar exemple, Tn1X112n est un estimateur deq&nLavaleurdeTncalculéeàpartird'unéchantillonobservéestappeléeestimationdeq, elle sera notée Tn(x1,x2,...,xn).1.2. Exemples destimateurs 1.2.1. Estimateur de la moyenne empirique On appelle moyenne empirique du caractère X sur un échantillon (X1,X2,...,Xn) la variable aléatoire X suivante : n1X1n∑Xi1i1On suppose que l'échantillon (X1,X2,...,Xn) est formé de variables aléatoires indépendantes et de même loi que X.On pose E(Xi)1metVar(Xi)1s2"i.On a : Espérance de X:E(X)1m2sVariance de X : V(X)1nEn effet, on a: nE(X)1E1∑X11∑nE(Xi)11∑nm11(n´m)1mni11ini11ni11nnnn2V(X)1V1∑X11∑V(Xi)11∑s211(n´s2)1sini11n2i11n2i11n2nCoursdeStatistiqueEBAD-UCAD1 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 1.2.2. Estimateur de la variance On appelle variance empirique du caractère X sur un échantillon (X1,X2,...,Xn)lavariablealéatoireS2suivante:S211n∑Xi-X2ni11On appelle variance empirique corrigée la variable aléatoire S2suivante: nS211∑Xi-X2n-1i11On a donc la relation : nS21(n-1)S2ùo'DS21nS2-n1On a : EspérancedeS2:ES21n-1s2n2Espérance de S : ES21s2On démontre (et nous l'admettons) que, dès lors que la loi L admet des moments jusqu'àl'ordre4,S2etS2 possèdent une variance. Celle-ci tend vers zéro lorsque n augmente.1.2.3. Estimation ponctuelle dune proportion (pourcentage) Supposons quune population est constituée de deux catégories dindividus A e tB ; où la catégorie A est en proportion inconnue p inconnue. Si sur un échantillon représentatif donné on observe une proportion f dindividus de la catégorie A, alors on estime que: p = f1.2.4. Propriété dun estimateur 1.2.4.1. Estimateur sans biais UnestimateurTndeqest dit sans biais si E(Tn)1q,"qÎQoùQest appelé espace des paramètres ou espace des états de la nature. - La moyenne empirique X est un estimateur sans biais de la moyenne E(Xi)1mE(X)1mici le paramètreqest m. CoursdeStatistiqueEBAD-UCAD2 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance - La variance empirique corrigée S2 est un estimateur sans biais de la variance V(Xi)1s2E(S2)1s2Ici le paramètreqest s2.1.2.4.2. Estimateur asymptotiquement sans biaisUnestimateurTndeqest dit asymptotiquement sans biais si "qÎQ,E(Tn)®qquandn®#¥. La variance empirique S2 est un estimateur asymptotique sans biais de la variance. On :aE(S2)1n-1s2nDonc : E(S2)®s2quandn®#¥1.2.4.3. Estimateur convergent Un estimateur sans biais ou asymptotiquement sans biais dont la variance tend vers zéro lorsque n tend vers l'infini est convergent. 2X est un estimateur convergent de m car il est sans biais et sa variance sntend vers zéro lorsque n®¥. 2S2etSsont des estimateurs convergents de 2.En rfésumé En labsence de tout autre information sur la variable X, on estime - que la moyenne inconnue m de la variable X sur la population est égale à la moyenne de X sur léchantillon ; cest-à-direm1x . -quelameilleureestimationponctuelledelécarttypeinconnuσ (de la population) est donnée en fonction de lécart type de léchantillon (se) par la formule : s1sn-11sn-1. ennCours de Statistique EBAD - UCAD 3 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 1.2.5. Comparaison des estimateurs ~SoientTnetTn deux estimateurs sans biais dun paramètreq.Tnestditplus~efficace que Tn si : ~"qÎQ, V(Tn)£V(Tn)2. Estimation par intervalle de confiance Entreprendre une estimation ponctuelle est une démarche naturelle. En effet si l'on se trouve placé face à un phénomène aléatoire dépendant d'un paramètre inconnu q, il est logique de chercher à disposer d'une valeur numérique de ce paramètre. Cependant il existe de nombreuses situations où une telle estimation ponctuelle n'est pas, en elle-même d'un grand intérêt. La méthode destimation ponctuelle est une méthode qui nest donc pas entièrement satisfaisante. En effet, les valeurs estimées varient dun échantillon à lautre, et peuvent parfois être très éloignées des vraies caractéristiques m, σ et p de la population . Cette estimation est donc peu précise. Pour palier à ce défaut de précision, on définit à partir de l échantillon, un intervalle dans leque,l on est sûr de trouver la valeur inconnue du paramètre avec un risque donné. Estimer un paramètre en montrant qu'il appartient avec une probabilité donnée (par exemple 95%) à un intervalle, est ce que l'on appelle réaliser une estimation par intervalle de confiance. Remarque Dans la suite nous distinguerons deux types déchatnillons : -Lespetitséchantillonsdontlatailleestinférieureà30.-Lesgrandséchantillonsdontlatailleestsupérieureouégaleà30.2.1. Intervalle de confiance pour un paramètre réel DéfinitionSoit (X1,,Xn)unéchantillonissud'unevariablealéatoiredontlaloideprobabilitédépend dun paramètre inconnu q. Soit aÎ]0,1[ un réel quelconque fixé a prior. On appelle intervalle de confiance pour le paramètre q au niveau de confiance 1-a, tout intervalle de la forme [An,Bn],oùAnetBnsontdeuxstatistiquessurl'échantillon(X1,,Xn)tellesque:Pr[An£q£,Bn]11-aCours de Statistique EBAD - UCAD 4 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance Remarques Leréelapeut être interprété comme le risque que l'intervalle de confiance [An,Bn] ne contienne pas la vraie valeur du paramètre. Si AnetBn sont toutes deux finies et aléatoires, on dit que l'intervalle [An,Bn]est bilatéral. Si l'une des statistiques Anou Bn, est certaine ou infinie, l'intervalle est dit unilatéral. 2.2. Intervalle de confiance dune moyenneSoit (X1,,Xn)un échantillon issu d'une variable aléatoire suivant une loi normale de moyenne inconnue m et décart typeσ . Soitaun réel quelconque fixé a priori, aÎ]0,1[. On se propose de déterminer un intervalle de confiance pour le paramètreqau niveau de confiance 1 - a : Pr[An£m£,Bn]11-aPour construire un intervalle de confiance pour la moyenne m inconnue de la variable X suivant une loi normale N (m,s), on considère la variable suivante : T1Xn-m1nXn-mssnnLa quantitéT1Xn-mest une variable aléatoire qui dépend du paramètre quel'on scherche à estimer, m,mais dont la loi ne dépend pas de ce paramètre et est parfaitement connue si lon connaît le paramètre s. Sisest connu,nXn-mest une variable aléatoire pivotable pour le sn-paramètrem de N (m, s). Dans ce cas Xn-m®N(0,1)sn- Sisest inconnu, on lestime par S. Dans ce cas Xn-msuit une loi de sStudent à (n-1)degrés de liberté. nXn-md®T(n-1)s-Cours de Statistique EBAD - UCAD 5 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 2.2.1. Cas oùsest connuSoit(X1,,Xn)l'échantillonindépendant.Onutilisecommeestimateurdem,lan1moyenne empirique X1n∑Xi. 1i1X suit alors une loi normaleNm,s. La variablenX-msuit une loi normale N(0 sn, 1). N (0 , 1)a-1a/ 2a/ 2-ttaanX-mPr-ta£s£ta11-aPrX-sta£m£X#sta11-annCeci conduit à l'intervalle bilatéral symétrique centré en X: X-sta£m£X#stannConnaissant la moyenne et lécart type de léchalnltoin, on obtient lintervalle ssmÎx-ta;x#tannta est lu sur la table de la loi normale centrée réduite. 2.2.2. Cas oùsest inconnu (situation la plus fréquente) :et n < 30La loi deX dépendant des, on utilise comme estimateur des2la variance empirique n122Sn1n-1∑Xi-X. 1i1(n-1)S2On sait que la variable aléatoire 2nsuit une loi du Khi-Deux à (n-1) degrés de sliberté. CoursdeStatistiqueEBAD-UCAD6 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 22Par suite on a Sn suit une loi c(n-1) . 2n-1snX-msnX-mLe rapport 1 suit une loi de Student à (n-1)degrés de liberté. sSSnnT1-na-1a/ 2a/ 2-tataPr-ta£nX-m£ta11-aSnPrX-Snta£m£X#Snta11-annCe qui conduit à l'intervalle bilatéral symétrique : X-Snta£m£X#SntannnOn sait Sn1Sn, on a : n-1X-Snta£m£X#Sntan-1n-1Connaissant la moyenne et lécart type de léchalnltoin, on obtient lintervalle mÎx-tas;x#tasn-1n-1ta est lu sur la table de la loi de Student à (n-1)degrés de liberté. CoursdeStatistiqueEBAD-UCAD7 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 2.2.3 Cas oùsest inconnu et n ≥ 30 ("grands échantillons")Si la taille de léchantillon est supérieure à 30,l a loi de Student est remplacée par la loi normale. ta est lu sur la table de la loi normale. Dans ce cas l'intervalle de confiance s'écrit aussi : X-Snta£m£X#SntannConnaissant la moyenne et lécart type de léchalnltoin, on obtient lintervalle mÎx-tas;x#tasnnta est lu sur la table de la loi normale.Exemple Un analyste financier étudie les comptes de 200 clients ayant souscrit un emprunt. A partir d'un échantillon de 20 comptes, il trouve que le solde moyen d'un compte est de 1514,69 Francs avec un écart type égal à 453,34 Francs. Donner un intervalle de confiance à 95% du solde moyen d'un compte. CorrigéLes hypothèses se traduisent par : n=20x11514,69s=453,34L'écart type de la population est inconnu, nous devons utiliser la loi de Student à(n-1)degrésdeliberté:T19. a=0,05ta12,093L'intervalle de confiance ayant 95 chances sur 100 de contenir la valeur vraie de la moyenne m est : ssx-ta£m£x#tan-1n-11514,69-2,093´453,34£m£1514,69#2,093´453,3491911297,02 ≤m≤ 1732,36CoursdeStatistiqueEBAD-UCAD8 4/2/2007 1:37:05 PM Abdon Privat PAMBOU
Statistique et Probabilités : Estimation par intervalle de confiance 2.3. Estimation par intervalle de confiance d'une proportion2.3.1. Intervalle de confiance dune proportion qest la proportion p d'individus de P qui possèdent la propriété Q.La variable aléatoire Xiassociéeauièmeindividuaid'unéchantillondetaillenestdéfiniepar:Xi11siaipossédelapropriétéQiXi10sinonnTn11∑Xi1Nn1Fnnn11iFnestlafréquencedeQdansl'échantillon, XisuituneloideBernoullideparamètrep.Nn®B(n,p!: loi binomialeE(Nn)=npE(Fn)=pVar(Nn)=npqVar(Fn)1pqnOn suppose que l'on est dans les conditions d'approximation de la loi binomiale B(n, p) par la loi normale. UneapproximationdelaloideFnestalorslaloinormaleNp,p(1-p!. nOn considère donc que la variable : Tn1Fn-p®N(0,1). p(1-p!nOn a alors : P-tp(1-p)£F-p£tp(1-p)11-aannanConnaissant la fréquencef0du caractère dans un échantillon de taille n, dans la pratique on remplace dans la racine carrée p parf0. D'oùP-tf0(1-f0)£f-p£tf0(1-f0)11-aan0anSi on pose s1f0(1-f0), alors on a : fnPf0-tasf£p£f0#tasf11-aCoursdeStatistiqueEBAD-UCAD9 4/2/2007 1:37:05 PM Abdon Privat PAMBOU