METHODOLOGIE STATISTIQUEMounir MesbahCOURS 6Mardi 9 Novembre 2010METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010Comparaison de deux moyennes observéesPetits échantillons (n ou n < 30)1 2• Hypothèses testées H : μ = μ H : μ ≠ μo 1 2 1 1 2 ‐Observations attendues si H : μ = μ est vraie :o 1 2m-m12T = 22ss+nn12suit une loi de Studentà n +n ‐2 ddl1 2• Test : On calcule la valeur de T observée sur l’échantillon : m-m12t = O 22ss+nn12On rejette Ho si |t | ≥ to n1+n2‐2;α/2• Conditions d'application ‐distribution de X normale dans les 2 populationsPage : 2‐variances de X égales dans les 2 populations1METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010ExempleParmi 42 sujets obèses, 20 ont eu un régime amaigrissant A et 22 un régime B.Pour chaque sujet, le régime a été tiré au sort.Y a‐t‐il un rééigime plus efficace que l'autre ?• H : μ = μ H : μ ‡ μo A B 1 A Bμ et μ variation de poids moyenne vraie avec les régimes A et B.A B 2• Régime A : n = 20 m = 3,9 kg = 2,6sA A A2sRégime B : n = 22 m = 2,9 kg = 1,8BB B• Conditions d'application (échantillons petits) :‐la distribution de la variation de poids est normale avec les 2 régimes‐les variances de la variation de poids avec les 2 régimes sont égales‐Estimation variance commune : 22(n -1)s +(n -1)s (20−×1) 2,6+(22−1)×1,82 AABBs 2===,18n+n-2 20+−22ABPage ...
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Comparaison de deux moyennes observées Petits échantillons (n 1 ou n 2 < 30) Hypothèses testées H o : μ 1 = μ 2 H 1 : μ 1 ≠ μ 2 ‐ Observations attendues si H o : μ 1 = μ 2 est vraie : T = m 1 -m 2 2 2 s s + n 1 n 2 suit une loi de Student à n 1 +n 2 ‐ 2 ddl Test : On calcule la valeur de T observée sur léchantillon : m -m t O = 2122 s s + n 1 n 2 On rejette Ho si |t o | ≥ t n1+n2 ‐ 2; α /2 Conditions d'application ‐ distribution de X normale dans les 2 populations ‐ variances de X égales dans les 2 populations
Page : 2
1
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010
Exemple Parmi 42 sujets obèses, 20 ont eu un régime amaigrissant A et 22 un régime B. Pour chaque sujet, le régime a été tiré au sort. a ‐ t ‐ un r g me p us e cace que autre H o : μ A = μ B H 1 : μ A μ B μ A et μ B variation de poids moyenne vraie avec les régimes A et B. Régime A : n A = 20 m A = 3,9 kg s 2A 2,6 = s 2 Régime B : n B = 22 m B = 2,9 kg B = 1,8 Conditions d'application (échantillons petits) : ‐ la distribution de la variation de poids est normale avec les 2 régimes ‐ les variances de la variation de poids avec les 2 régimes sont égales ‐ Estimation variance commune : − × 6 + (22 − 1) × 1, s 2 = (n A -1)s 2A +(n B -1)s 2B = (20 1) 2, 8 = 2,18 n +n -2 20 + 22 − 2 A B Page : 3
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010
Test de Student A B 9 t O =ms 2 -ms 2 =2,13,9-12,1=2,19>2,021=t 40; 0,025 n + n 8( 2 0 + 2 2 ) rejet de Ho 2×0,01 = 2% < p = P(|t 40 | ≥ |t o | = |2,19|) < 2×0,025 = 5%
Page : 4
2
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010
Conclusion 1. Ju ement de si nification ‐ il y a une différence significative entre les variations de poids après les régimes A et B. ‐ le degré de signification est 2% < p < 5% ‐ la différence est dans le sens d'une diminution de poids plus forte avec le régime A 2. Jugement de causalité ‐ la différence est due au régime ( causalité ) car les régimes ont été tirés au sort . Le régime A est plus efficace que le régime B.
Page : 5
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010
Comparaison de deux moyennes quand les conditions dapplication du test T ne sont pas satisfaites Lhypothèse de normalité est dimportance relativement secondaire. Lhypothèse dégalité des variances nest pas fondamentale dun point de vue pratique lorsque les effectifs des échantillons sont égaux. Les variances ne doivent cependant pas être trop différentes (par exemple, rapport inférieur à 3). En pratique, il reste surtout un problème lorsque les effectifs des 2 échantillons sont inégaux et les variances différentes
Page : 6
3
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Comparaison de deux moyennes Effectifs petits et inégaux Variances différentes m -m On montre que t 'O = 2122 s 1 + s 2 n 1 n 2 suit approximativement une loi de Student avec ddl = lentier le plus proche de k donné par : 2 2 s 1 + s 2 k = 2 2 2 2 1 ⎡⎢ s 1 ⎤⎥ + 1 ⎡⎢ s 2 ⎤⎥ n 1 − 1 ⎣ n 1 ⎦ n 2 − 1 ⎣ n 2 ⎦
Page : 7
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Exemple Echantillon 1 : n 1 = 13 m 1 = 2,7 s² 1 = 1,2 Echantillon 2 : n 2 = 7 m 2 = 4,6 g s² 2 = 5,2 g Effectifs petits et inégaux, variances différentes t 'O = m 21 -m 22 = 2,7-4,6 = − 2, 08 s 1 + s 2 1, 2 + 5, 2 n 1 n 2 13 7 T 'O ∼ Student à k' ddl, avec k' l'entier le plus proche de : s 2 s 2 n 1 n 2 = 13 7 = ⎤ k = n 1 1 − 1 ⎢⎣⎡ sn 121 ⎦⎥⎤ 2 +n 2 1 − 1 ⎣⎢⎡ sn 222 ⎦⎥⎤ 2 112 ⎢⎣⎡ 11,32 ⎥⎦⎤ 2 +16 ⎢⎣⎡ 5,72 ⎥⎦ 2 7, 57 soit k = 8 ddl. t 8; α /2 = t 8; 0,025 = 2,306 On ne met donc pas en évidence de différence entre les deux moyennes. Conditions de validité : distributions normales.
Page : 8
4
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Alternative : Test de Wilcoxon Mann ‐ Whitney : Soit le problème de comparer les distributions de deux variables quantitatives au vu dun échantillon de chacune. Exemple : comparer la distribution du taux de cholestérol dans un groupe ayant reçu un traitement à celle dun groupe ayant reçu un placebo A= prise dun médicament ; B= prise dun placebo On mesure chez les individus du groupe A, le caractère quantitatif que nous notons X. On observe donc un échantillon (X 1 , , X n(A) ) de la loi de X. La taille de léchantillon est n(A) = n A . Sur le deuxième groupe B, on mesure aussi le caractère quantitatif, qui est noté Y. Les valeurs observées sont Y 1 , , Y n(B) La taille de léchantillon est n(B) = n B . Notons n=n A +n B , leffectif cumulé des deux échantillons. Les distributions théoriques de X et de Y sont inconnues. . H 0 : Distribution théorique de X = Distribution théorique de Y Contre lhypothèse alternative: H 1 : Lune des deux distributions théoriques est décalée par rapport à lautre.
Page : 9
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Test de Wilcoxon Mann ‐ Whitney L'idée du test de Wilcoxon est la suivante : On rassemble les échantillons A et B, et l'on ordonne les valeurs, Si n A = n B , théoriquement, dans léchantillon global ordonné, sous H 0 , on devrait observer alternativement une valeur de X et une valeur de Y Si par contre, on observait que les Y i sont souvent plus grands que les X i , ou plus petits, ou plus fréquents dans une certaine plage de valeurs, on aura des doutes sur la véracité de H 0 . On commence donc par déterminer les rangs de chaque observation dans l'échantillon global. Remarque : s'il y a des ex ‐ æquo , on tire au hasard un des deux ordres possibles : si X i0 = Y j0 , on décide (à laide dun tirage au sort !) i ou ii : i) X i0 < Y i0 , ou ii) X i0 > Y i0 . On obtient ainsi une suite mélangée des X i et des Y j . i . X C'est la statistique de Wilcoxon pour léchantillon de la variable X. La loi exacte de W X sous H 0 est calculable. Néanmoins, pour cette année, sa connaissance est hors programme. Page : 10
5
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010
Test de Wilcoxon Mann ‐ Whitney On montre assez facilement que les moyennes et variances théoriques exactes de W X , sous H 0 , sont : E(W ) = n A (n A 2+n B +1) et Var(W ) = n A n B (n1 A 2+n B +1) X X Loi approchée de W X sous H 0 : Pour les grandes valeurs des tailles déchantillon, on montre, sous l'hypothèse H 0 , le résultat suivant : Z = W X − n A ( n A + n B + 1) / 2 ∼ N 0,1 n A n B n A + n B + En pratique, on considère que le résultat est valide dès que (n A +n B ) ≥ 20 . Aucune condition sur la loi des variables dorigine : cest un test non paramétrique. Cest un test de Student sur les rangs des observations. Page : 11
METHODOLOGIE STATISTIQUE Cours 6 Mardi 9 Novembre 2010 Exemple On observe 2 échantillons de taille 10 : les conditions de validité sont réunies. Groupe A :4,6 ; 2,1 ; 7,3 ; 3,0 ; 5,8 ; 4,2 ; 0,6 ; 2,1 ; 1,4 ; 6,3 Groupe B : 7,0 ; 4,4 ; 2,3 ; 6,8 ; 3,5 ; 0,5 ; 7,4 ; 6,0 ; 7,6 ; 4,6. Les observations ordonnées dans l'échantillon global de taille 20 regroupé (les valeurs X i du premier échantillon sont soulignées). 0,5 ; 0,6 ; 1,4 ; 2,1 ; 2,1 ; 2,3 ; 3,0 ; 3,5 ; 4,2 ; 4,4 ; 4 ;6 ; 4,6 ; 5,8 ; 6,0 ; 6,3 ; 6,8 ; 7,0 ; 7,3 ; 7,4 ; 7,6 Les rangs sont donc : 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14; 15; 16; 17; 18; 19; 20 La statistique W X prend la valeur : 2+ 3+4+5+7+9+12+13+15+18 = 88 Les valeurs du premier échantillon ont tendance à être plus petites que celles du second. , gauche (rejet d'une valeur trop petite de W X ). ‐ Au risque α =5% , on rejettera si z 0 < 1, 64. 0 W X − n A ( n A + n B + 1) / 2 88 − 10(10 + 10 + 1) / 2 − 17 1 28 z = = = ≅ − , n A n B ( n A + n B + 1) /12 10 x 10(10 + 10 + 1) /12 5 7 On ne rejette pas H 0 . Page : 12