METHODOLOGIE STATISTIQUEMounir MesbahCOURS 5Mardi 2 Novembre 2010METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010Intervalle de confianceValeur théorique Observations(ou vraie) Prédiction :Intervalle de fluctuationPopulation EchantillonEstimation :Intervalle de confiancepopulation échantillonType Paramètre valeur théorique estimationPosition Pourcentage P p0Position Moyenne μ mDispersion Variance σ² s²Association Odds‐Ratio ORψAssociation Corrélation ρ rPage : 21METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010Test statistiquePopulationÉchantillonHypothèse Loi empiriqueEstimation(Loi théoriqueParamètre)Test = décision : rejeter Hypothèse ? Les étapes d’un test statistique1. Formuler la question posée et l’hypothèse testée (Ho)2. Concerne les paramètres théoriques (en population)2. Déterminer ce que devraient être les observations (loi ?)si Ho est vraie : fluctuation des paramètres empiriques3. Confronter les observations aux valeurs attendues : valeurs observée des paramètres empiriques et leur intervalle de fluctuation sous Ho4. Choisir la règle de décision, en fonction du risque α. Degré de signification.Page : 3METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010Règle de décision et risques d’erreurObservations•zz ≥ •zz < osos• Rejet de H • Non rejet de H0 ...
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Intervalle de confiance Valeur théorique Observations (ou vraie)
population échantillon Type Paramètre valeur théorique estimation Position Pourcentage P p 0 Position Moyenne μ m Dispersion Variance σ ² s² Association Odds ‐ Ratio ψ OR Association Corrélation ρ r
Page : 2
1
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
Règle de décision et risques derreur
• z ≥ z • z < z o s o s • Rejet de H 0 • Non rejet de H 0 • H 0 est vrai α 1 ‐ α • H 1 est vrai 1 ‐ β β
Page : 4
2
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
Degré de signification
Degré de signification : p = P(|Z| ≥ |z o |)
Page : 5
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
Formulation de lhypothèse alternative H 1 P = Proportion théorique dans lensemble de la population. ues on : = 0
Hypothèse nulle : H o : P = P 0 (= P Ho ) Hypothèse alternative (H 1 ) : nouvelle hypothèse pour décrire la réalité si H o est fausse. Notons μ 1 (= P H1 ) , la proportion théorique sous cette hypothèse.
Page : 6
3
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Paramètre Intitulé du test Hypothèse Nulle H 0 Distribution du Test Pourcentage P Comparaison dun pourcentage observé à une valeur de P=P 0 Normale Z eq Khi-référence Deux χ ²(1) ou table binomiale Pourcentage P Comparaison de deux pourcentages observés P 1 =P 2 Normale Z eq Khi-Deux χ ²(1) Moyenne μ Comparaison dune moyenne observée à une valeur de μ = μ 0 Normale Z ou Student T Moyenne μ Comparaison de deux moyennes observées μ 1 = μ 2 Normale Z ou Student T Variance σ ² Comparaison dune Variance observée à une valeur de σ ² = σ ² 0 Khi ‐ Deux : χ ²(C ‐ 1) référence Variance σ ² Comparaison de deux variances observées σ ² 1 = σ ² 2 Fisher F(n 1 ‐ 1)(n 2 ‐ 1) Odds ‐ Ratio ψ Indépendance entre deux caractères dichotomiques ψ = 1 Normale Z Corrélation ρ Corrélation ρ = 1 Student Pourcentage P Comparaison de plusieurs pourcentages observés P 1 =P 2 = =P C ‐ 1 =P C Khi-Deux χ ²(C ‐ 1) Pourcentage P Indépendance entre deux variables qualitatives à C et L P 11 =P 21 = =P C ‐ 1,1 =P C1 Khi-Deux modalités chacune P 12 =P 22 = =P C ‐ 1,2 =P C2 . χ ² (C ‐ 1)(L ‐ 1) . . P 1L =P 2L =P C ‐ 1,L =P CL = Moyenne μ Comparaison de plusieurs moyennes observées μ 1 = μ 2 = . . .= μ k ‐ 1 = μ k F,isher : ANOVA Page : 7
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Paramètre Intitulé du test Hypothèse Nulle H 0 Distribution du Test Pourcentage P Comparaison dun pourcentage observé à une P =P 0 Normale Z ou Khi-valeur de référence Deux χ ²(1)
Page : 8
4
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Comparaison dun pourcentage à une valeur théorique Test du χ 2 Hypothèse nulle Ho : P = P Ho Hypothèse alternative H 1 : P ≠ P Ho M+ M ‐ Effectifs observées O 1 O 2 Effectifs calculés C 1 = nP Ho C 2 = n(1 ‐ P Ho ) Si H o est vraie et si n est assez grand *: χ o2 = (O 1 C − C 1 ) 2 + (O 2 C − C 2 ) 2 Suit une loi du Khi ‐ deux à 1 ddl , notée ²(1). Doù le test de niveau α = 5%
Page : 9
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Comparaison dun pourcentage à une valeur théorique Les tests Z et du χ 2 sont identiques: M+ M ‐ Total Effectifs calculés C 1 = nP Ho C 2 = n(1 ‐ P Ho ) n
Mêmes Conditions d »utilisation : C 5 et C 2 5 H H 1 Mê ≥ mes limites ≥ de sign ⇔ ific a n ti P on O : ≥ 5 et nQ 0 ≥ 5 Prob ( χ 2o ≥ a) = Prob ( Z ≥ a ) Par exemple Prob ( χ 2o ≥ 3, 84 ) = Prob ( Z ≥ 3,84 = 1,96) Page : 10
5
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Exemple Parmi 400 habitants représentatifs dune région, 92 (23%) consomment des antidépresseurs Ce pourcentage diffère ‐ t ‐ il de la valeur 20% donnée par les chiffres de vente nationaux ? o : = , 1 : ≠ , Consommation dantidépresseurs Oui Non Total Effectifs observées 92 308 400 Effectifs calculés 400×0,20 = 80 400×0,80 = 320 400 Effectifs calculés ≥ 5 conditions dapplication satisfaites. 2 = (92 − 80) 2 (308 − 320) 2 χ o 80+320=2,25<3,84⇒ on ne rejette pas H O Conclusion :
Page : 11
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Paramètre Intitulé du test Hypothèse Nulle H 0 Distribution du Test Pourcentage P Comparaison de deux pourcentages P 1 = P 2 Normale Z ou Khi-Deux χ ²(1)
P 1 Population Proportion théorique P 2
E P 02 2
Page :
6
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Comparaison de deux pourcentages Test du χ 2 Hypothèse nulle Ho : P 1 = P 2 Hypothèse alternative H 1 : P 1 ≠ P 2 M+ M ‐ Pourcentage observés E 1 O 11 O 12 n 1 p = O 1 1 1 E 2 O 21 O 22 n 2 =On 121 p 2 m 1 m 2 n 2 Si H o est vraie, P 1 = P 2 = P (en population, pourcentages vrais) Tout se passe comme si E 1 et E 2 étaient tirés de la même population. La meilleure estimation de P est obtenue en re rou ant E et E . m p = 1 n × C 11 = n 1 × p = n 1 × m 1 = n 1 m 1 n n
Page : 13
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Comparaison de deux pourcentages : Test du χ 2 Calcul des effectifs sous lhypothèse nulle M+ M ‐ 1 11 1 C 1 E 2 O 21 O 22 n 2 21 22 1 m 2
Total général
Page : 14
7
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Comparaison de deux pourcentages :Test du χ 2 Calcul de la statistique du Khi ‐ Deux M+ M ‐ 1 1 11 (C ) 12 (C 12 ) 1 p 1 = 1 11 n 1 E 2 O 21 O 22 n 2 p = O 2 1 2 n 2 (C 21 ) (C 22 ) m 1 m 2 Si H 0 est vraie, et si la taille des échantillons est assez grande
n × m a v e c C ij = i n j ; c o n d itio n d 'a p p lic a tio n : C ij ≥ 5 .
Page : 15
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Exemple Hypothèse nulle H o : P 1 = P 2 Hypothèse alternative H 1 : P 1 ≠ P 2 P 1 = pourcentage vrai dhypotrophie dans la population des fumeuses P 2 = pourcentage vrai dhypotrophie dans la population des non fumeuses Consommation de tabac Oui Non Hypotrophie 45 68 113 p 1 =74953=5,7% (34,0) (79,0) = 6 8 = 3 7 % Poids normal 748 (759,0) 1778 (1767,0) 2526 p 2 1 8 4 8 , 793 1846 2 = (45 − 34) 2 (68 − 79) 2 (748 − 759) 2 (1778 − 1767) 2 + + χ o 34 79 + 759 1767 = (1314) 2 + ( − 7191) 2 + ( − 71519) 2 +(11716) 2 7 = 5, 37 ≥ 3,84 ⇒ le test est significatif. ⇒ rejet de H O P 1 et P 2 sont différents (au risque α = 5 %). C o n d itio n d 'a p p lic a tio n : C i j ≥ 5 s a tis fa ite . Page : 16
8
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Degré de signification p : = Prob ( χ o2 ≥ 5,37) 0,01 < p 0, 025 <
Page : 17
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
Conclusions 1. Jugement de signification Il y a une relation entre la consommation de tabac pendant la grossesse et lhypotrophie du nouveau ‐ né. On observe que la relation est dans le sens : plus dhypotrophiques parmi les fumeuses. 2. Jugement de causalité On ne démontre pas de lien causal entre tabac et hypotrophie.
Page : 18
9
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010
Autre expression du χ 2 à 1 ddl : M+ M ‐ 1 1 χ o2 = ∑ -C E 2 c d n 2 m 1 m 2 En réduisant au même dénominateur les 4 termes de la somme, on obtient : ad-bc ²n = o n 1 n 2 m 1 m 2 Expression plus simple à calculer mais, ne pas oublier de vérifier que tous les C i sont ≥ 5
Page : 19
METHODOLOGIE STATISTIQUE Cours 5 Mardi 2 Novembre 2010 Petits échantillons Un (au moins) des C ij est inférieur à 5 et tous les C ij sont supérieurs ou égaux à 3 M+ M ‐ 1 1 E 2 c d n 2 m 1 m 2 Correction de Yates : ( O-C -0,5)² 2 = C qui suit une loi de χ 2 à 1 ddl (si Ho est vraie) Conditions dapplication : C ij ≥ 3