STATISTIQUE MULTIVARIEE APPROFONDIE 2009-2010 14 octobre 2009 Corrigé des exercices Exercice 1 : On cherche la loi du couple (U,V), on a : EU()=+E(X Y+Z)=E(X)+E(Y)+E(Z)=0 EV()=−E(X Y)=E(X)−E(Y)=0 et d’autre part, var(UX)=+var(Y+Z)=var(X)+var(Y)+var(Z)=3 22var(VX)=−var(Y)=E((X−Y) )−EX−Y=var(X)+var(Y)=2 ()et cov(UV, )E (UV ) E (U )E (V )=E ((X+Y+Z )(X−Y )) 22=−EX()E(Y)+EX(Z)−E(YZ)=var(X)−var(Y)=0donc U ⎛⎞030 ⎛⎞⎛ ⎞ ∼ N , ⎜⎟ 2 ⎜⎟⎜ ⎟V 002⎝⎠ ⎝⎠⎝ ⎠⎝⎠ Comme cette loi est normale alors comme les covariances sont nulles alors les variables U et V sont indépendantes. Exercice 2 : La combinaison linéaire d’une variable aléatoire multinormale est multinormale. On a E()Y=+E(AZ c)=E(AZ)+c=AE(Z)+c . Pour la variance, var(YA) = var(Z+=c) var(AZ)2 TT==EA(() ) E(AZA ) TT TAEZ()Z A Avar(Z)ATTAI A AAp 1STATISTIQUE MULTIVARIEE APPROFONDIE 2009-2010 14 octobre 2009 Exercice 3 : Afin de trouver l’ellipsoïde d’isodensité, on utilise la distance de Mahalanobis, celle-ci suit 2une loi du χ à p degré de liberté (p étant la dimension du vecteur traité, ici p=2). On calcule pdonc dans le premier cas : 2x 10⎛⎞⎛ ⎞ y22 Dx==yx+ ()⎜⎟⎜ ⎟y 014 4⎝⎠⎝ ⎠ 22 2CommeD ∼ χ , on veutP()x∈=E0,95⇒Px(<χ)=Px(<6)=0,95, le k vaudra 6, on k 2veut donc résoudre : 222yx⎛⎞⎛y⎞2x+=61⇔ + = ⎜⎟⎜⎟4 626⎝⎠⎝⎠ On a 62,45. Une ellipse de centre (0,0) et de rayon 2,45 sur les x et 4,9 sur les y. De même pour P2. 2 22x − 2() 2 ⎛⎞xy−−⎛⎞+−=⇔ + =On ...
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009 Corrigé des exercices Exercice 1 : On cherche la loi du couple (U,V), on a : E(U)=E(X+Y+Z)=E(X)+E(Y)+E(Z)=0E(V)=E(X−Y)=E(X)−E(Y)=0et d’autre part, var(U)=var(X+Y+Z)=var(X)+var(Y)+var(Z)=32 2 var(V)=var(X−Y)=E((X−Y) )−E(X−Y)=var(X)+var(Y)=2et cov(U,V)=E(UV)−E(U)E(V)=E((X+Y+Z)(X−Y)) 2 2 =E(X)−E(Y)+E(XZ)−E(YZ)=var(X)−var(Y)=0 donc ⎛U⎞ ⎛⎛0⎞ ⎛3 0⎞ ⎞ ⎜ ⎟∼N⎜ ⎜⎟,⎟⎜ ⎟2 V20 0 ⎝ ⎠⎝ ⎝⎠ ⎝⎠ ⎠ Comme cette loi est normale alors comme les covariances sont nulles alors les variables U et V sont indépendantes. Exercice 2 : La combinaison linéaire d’une variable aléatoire multinormale est multinormale. On a(Y)=E(AZ+c)=E(AZ)+c=AE(Z)+c. Pour la variance, var(Y) var(AZ+c)=var(AZ) 2T T =E((AZ) )=E(AZZ A) T TT =E(ZZ)A=Avar(Z)A T T =AI A=AA p
1
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009 Exercice 3 : Afin de trouver l’ellipsoïde d’isodensité, on utilise la distance de Mahalanobis, celleci suit 2 une loi duχà p degré de liberté (p étant la dimension du vecteur traité, ici p=2). On calcule p donc dans le premier cas : 2 1 0 2⎛x⎞⎞ ⎛2y D=(x y)=x+⎜ ⎟⎜ ⎟ y4 40 1 ⎝ ⎠⎝ ⎠ 2 22 Comme onveutP(∈E) 0,95P(xχ)P(x6) 0,, le k vaudra 6, on D∼χ2,xk= ⇒<2== <95 veut donc résoudre : 2 2 2 2y⎛x⎞ ⎛y⎞ x+ =6=⇔ +1⎜ ⎟⎜ ⎟ 4⎝6⎠ ⎝2 6⎠ On a62, 45. Une ellipse de centre (0,0) et de rayon 2,45 sur les x et 4,9 sur les y. De même pour P2. 2 22 − (x2)2⎛x−2⎞ ⎛y−2⎞ On obtient+(y−2)=6⇔ + =1⎜ ⎟⎜ ⎟ 4⎝2 6⎠ ⎝6⎠ Une ellipsoïde de centre (2,2) et de raton 4,9 sur les x et 2,45 sur les y. Exercice 4 : μˆ−μ 2 1)On aμˆ∼N(μ,σn), on aura doncπ=, on utilise 2 σn P(−u≤ ≤u)=1−α1−α1/ 2−α/ 2 2 2 ⎡ ⎤ σ σ On obtientun IC :⎢μˆ−1, 96;μˆ+1, 96⎥n n ⎢ ⎥ ⎣ ⎦ Pour l’intervalle de tolérance, on utilise la formule du cours. Dans le cas univarié, on connaît la variance, on trouve une transformation afin d’avoir une loi standard. On a ⎛2⎛1⎞ ⎞ x−g∼N0,σ1+ ⎜ ⎜ ⎟⎟ n ⎝ ⎝ ⎠⎠ x−g∼N(0,1) 2⎛1⎞ σ1+ ⎜ ⎟ ⎝n⎠
2
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009
On a donc ⎛ ⎞ ⎜ ⎟ x−g ⎜ ⎟ αP−u−α≤ ≤u−α=1− 1 /2 1/ 2 ⎜ ⎟ 2⎛1⎞ σ1+ ⎜ ⎟ ⎜ ⎟ ⎝n⎠ ⎝ ⎠ L’intervalle de tolérance pourxest tel que : ⎡ ⎤ 2⎛1⎞2⎛1⎞ IC:⎢X−uσ1+;X+uσ1+ ⎥1−α/ 2⎜ ⎟1−α/ 2⎜ ⎟ ⎝n⎠ ⎝n⎠ ⎢ ⎥ ⎣ ⎦ 2)Si la variance est inconnue, on utilise l’estimation de celleci : n 212 ∑i ˆ=(x−μˆ ), on a que ni=1 μˆ−μ T ∼n12 σˆ n−1 La loi de Student ne dépend ni de µ ni de la variance. On a donc un intervalle de confiance IC : ⎛ ⎞ ⎜ ⎟ μˆ−μ ⎜ ⎟ P−t(α/ 2)≤ ≤t(α/ 2)=1−α n−1n−1 ⎜ ⎟ 2 σˆ ⎜ ⎟ ⎝n−1⎠ ⎡ ⎤ 2 2 σˆσˆ IC:X t(/ 2);X t(α/ 2) ⎢ −n−1α+n−1⎥ n−1n−1 ⎢ ⎥ ⎣ ⎦ et un intervalle de tolérance : 2 ⎛n(x−g)⎞ P−f(/ 2)≤ ≤f(α/ 2)=1−α ⎜1,n−1,1 2n−1⎟ n+1σˆ ⎝ ⎠ ⎡ ⎤ + + n12n12 g−f(α/ 2)σˆ ;g+f(α/ 2)σˆ ⎢1,n−1 1,n−1⎥ n n ⎣ ⎦
3
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009
Exercice 5 : Pour l’ellipsoïde de confiance de la moyenne, on utilise les formules du cours et on obtient donc : T−1 2 2 ⎛ −μ1⎞ ⎛1 0⎞ ⎛ −μ1⎞1 =F(2; 50−2) ⎜ ⎟⎜ ⎟⎜ ⎟ 2−μ0 42−μ50−2 ⎝2⎠ ⎝⎠ ⎝2⎠ 2 2(2−μ21) 4 ⇔(2−μ)+ ==1 4 486 2 2 ⎛ ⎞ ⎛ ⎞ ⎜ ⎟ − − ⎜2μ1⎟2μ2 ⇔ +=1 ⎜ ⎟ 1 2 ⎜ ⎟⎜ ⎟ ⎝6⎠ ⎝3⎠ Ellipsoïde de centre (2,2) et de rayon 0,408 sur les x et 0,816 sur les y. Pour l’intervalle de tolérance, on a donc : T−1 ⎛x−2⎞ ⎛1 0⎞ ⎛x−2⎞(50−1)2 50+1 =F(2; 50−2) ⎜ ⎟⎜ ⎟⎜ ⎟ y−42 0y−2 50−2 50 ⎝ ⎠⎝ ⎠⎝ ⎠ 2 2(y−2) 4998 ⇔(x−2)+ =48.33 4 2400 2 2 ⎛x−2⎞ ⎛y−2⎞ ⇔ +=1 ⎜ ⎟⎜ ⎟ ⎝8.33⎠ ⎝2 8.33⎠ Ellipsoïde de centre (2,2) et de rayon 2,88 sur les x et 5,77 sur les y.
4
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009 Exercice 6 : On teste l’égalité de deux moyennes avec le logiciel SAS et la proc discrim que vous étudierez plus tard dans le cours. Pages 149 – 150 : les données, p. 163, stat générales p. 155, matrices de covariances intraclasses (pour chaque classe) p. 156, moyenne des matrices de covariances intraclasses calculée par : 2 1 W=n V∑ k k nk=1 et matrice interclasses, matrice de covariances obtenue à partir des centres de gravité de chaque classe p. 157, matrice de covariance de l’ensemble de l’ensemble de l’échantillon, distance de Mahalanobis entre les classes, calculé par : 2T−1 D=(X−X)V(X−X)ij ij ij 2 On aD=4, 94≠0. Si on créé un intervalle de confiance autour par cette distance. On a n1n n−p−1250⋅49 99−7−1 2 D=4, 942=16, 39p n p(n−7(992) 99−2) etF(7, 91)=2,12On n’a donc pas égalité entre les moyennes. Exercice 7 : 1La période est de 3. 1 1 2La densité de la loi de Cauchy est donnée parf(x)=. Sa fonction de 2 π1+ 1 1−1 répartition est donc donnée par:(t)= +tan(t) (onajoute ½ afin de bien 2π π π⎤ définir l’intervalle sur lequel la fonction est définie:−;). On utilise la 2 2⎦ méthode d’inversion, on obtient donc pour une variable aléatoire R de distribution uniforme sur [0; 1] : ⎛1⎞ −1⎛ ⎞ x=F(u)=tanπu−. ⎜ ⎜⎟ ⎟ ⎝ ⎝2⎠ ⎠ Il suffit de simuler une variable uniforme et d’utiliser la transformation cidessus.
5
STATISTIQUE MULTIVARIEE APPROFONDIE20092010 14 octobre 2009 3La loi de Poisson peut être reliée à la loi exponentielle. En effet, si des évènements surviennent à des dates séparées par des durées exponentielles de paramètreλ, le nombre d'évènements survenant en une unité de temps suit une loi de Poisson de même paramètre.On simule des variablY,Y. .... .exp es aléatoires{1 2i i dYi∼λ)à partir de la loi uniforme en utilisant la fonction de répartition inverse et on définit :∑ X=k⋅1{Z≤1≤Zk k+1 k≥0 k avec=Y∑ k i i=1 Il faut donc simuler des variables aléatoires exponentielles de paramètreλet compter le nombre de simulations nécessaires pour dépasser 1, ou bien simuler des variables aléatoires exponentielles de paramètre 1 et compter le nombre de simulations nécessaires pour dépasserλ.Exercice 8 : 1On utilisera comme bornes 5% et 95%. 2Algorithme à utiliser : a.Tirer aléatoirement B échantillons de taille n avec remise dans (X1,..,Xn). On tire donc des échantillons de distribution Fn(X). b b.Calculer la statistique Tpour chaque échantillon (b=1,…,B). c.La distribution d’échantillonnage G(x) de T peut être approximé par la b distribution empirique des des T: B 1b ∑ G(x)I(T≤x)Bb=1 d.Le biais, la variance et l’intervalle de confiance à 95% associés à T peuvent être approximés par : B 1b ∑ iais(T)T−θ(F)n Bb=1 avecθ(Fparamètre calculé pour la distribution empirique. n 2 B B 2 1b⎛1b⎞ ∑⎜∑⎟ Variance(T)(T)−TBb=1⎝Bb=1⎠ Recherche des percentilesα/2 et 1α/2 de G(x). L’intervalle de confiance de type percentile de niveau 1αest alors défini par : ⎡α α⎤ IC(T)=v⋅,v⋅1−( ) ⎣2 2⎦