6. Inférence Statistique – Test d'Hypothèses

Publié par

Méthode d’Analyse Statistique ULB - 1999
6. Inférence Statistique – Test d’Hypothèses

Comment prendre une décision relative à une population à partir
de l’examen d’un échantillon prélevé dans cette population ?

• Hypothèse : Affirmation relative à une ou plusieurs populations.
Exemples:
- un certain type d’annonce passée dans un journal attire
l’attention d’une plus grande partie des lecteurs qu’un autre
type d’annonce,
- le revenu moyen par ménage dans une certaine région est égal à
un montant spécifié,
- 60% des employés d’une entreprise sont favorables à une
modification des horaires de travail, ...

• Test d’hypothèse : Sept étapes.

– 56 – Méthode d’Analyse Statistique ULB - 1999
• Etape 1 : Formulation des hypothèses :
- Hypothèse nulle (H ) vs hypothèse alternative (H ). 0 1
- H est l’hypothèse testée. L’analyse repose sur cette 0
supposition. Il s’agit d’une hypothèse de « non différence »
(comporte en général un =).
- H est l’hypothèse alternative (vraie lorsque l’hypothèse nulle 1
est rejetée.
Exemple: H : µ=µ H : µ≠µ 0 10 0
• Formulation des hypothèses:
- L’hypothèse alternative exprime en général ce que l’on
souhaite mettre en évidence.
- Exception: l’hypothèse nulle doit inclure une égalité.
Exemples:
1° L’échantillon permet-il de conclure que la moyenne population
est différente de µ ?
→ H : µ≠µ → H : µ=µ (test bilatéral) 1 00 0
2° L’échantillon permoyenne population
est supérieure à µ ?
→ H : µ>µ → H : µ≤µ (test ...
Voir plus Voir moins
Méthode d’Analyse Statistique
ULB - 1999
– 56 –
6. Inférence Statistique – Test d’Hypothèses
Comment prendre une décision relative à une population à partir
de l’examen d’un échantillon prélevé dans cette population ?
• Hypothèse : Affirmation relative à une ou plusieurs populations.
Exemples:
- un certain type d’annonce passée dans un journal attire
l’attention d’une plus grande partie des lecteurs qu’un autre
type d’annonce,
- le revenu moyen par ménage dans une certaine région est égal à
un montant spécifié,
- 60% des employés d’une entreprise sont favorables à une
modification des horaires de travail, ...
• Test d’hypothèse : Sept étapes.
Méthode d’Analyse Statistique
ULB - 1999
– 57 –
• Etape 1 : Formulation des hypothèses :
- Hypothèse nulle (H
0
) vs hypothèse alternative (H
1
).
- H
0
est l’hypothèse testée. L’analyse repose sur cette
supposition. Il s’agit d’une hypothèse de «
non différence
»
(comporte en général un =).
- H
1
est l’hypothèse alternative (vraie lorsque l’hypothèse nulle
est rejetée.
Exemple:
H
0
:
µ
µ
=
0
H
1
:
µ
µ
0
• Formulation des hypothèses:
- L’hypothèse alternative exprime en général ce que l’on
souhaite mettre en évidence.
- Exception: l’hypothèse nulle doit inclure une égalité.
Exemples:
1° L’échantillon permet-il de conclure que la moyenne population
est différente de
µ
?
H
1
:
µ
µ
0
H
0
:
µ
µ
=
0
(test bilatéral)
2° L’échantillon permet-il de conclure que la moyenne population
est supérieure à
µ
?
H
1
:
µ
µ
>
0
H
0
:
µ
µ
0
(test unilatéral)
3° L’échantillon permet-il de conclure que la moyenne population
est inférieure à
µ
?
H
1
:
µ
µ
<
0
H
0
:
µ
µ
0
(test unilatéral)
- L’hypothèse nulle et l’hypothèse alternative sont
complémentaires l’une de l’autre.
- Si l’hypothèse nulle est, on peut conclure, avec un degré de
conviction élevé (fixé) que l’hypothèse alternative est vraie.
Méthode d’Analyse Statistique
ULB - 1999
– 58 –
- Si l’on ne peut rejeter l’hypothèse nulle, on peut seulement
conclure que l’hypothèse nulle peut être vraie. (données
observées compatibles avec H
0
)
• Etape 2 : Identification de la statistique de test et de sa
distribution:
- La valeur de la statistique calculée à partir de l’échantillon
permet de déterminer si H
0
est rejetée ou non.
Exemple:
Pour tester H
0
:
µ
µ
=
0
, une statistique possible est :
z
x
n
=
− µ
σ
0
qui suit une distribution normale réduite si H
0
est vrai (sous
certaines hypothèses). Autre statistique possible :
t
x
s
n
=
− µ
0
• Etape 3 : Fixation du niveau de probabilité :
- Quatre possibilités:
Etat réel de H
0
H
0
vraie
H
0
fausse
Action
Ne
pas
rejeter H
0
Correct
Erreur de type II
Rejeter H
0
Erreur de Type I
Correct
- Probabilités de commettre une erreur :
(
)
(
)
0
0
erreur de type I
RH | H vraie
P
P
α
=
=
(
)
(
)
0
0
erreur de type II
non RH | H fausse
P
P
β
=
=
- Diminuer
α
conduit à une augmentation de
β
, et inversément.
Méthode d’Analyse Statistique
ULB - 1999
– 59 –
-
α
= niveau de signification (petit, en général 5% ou 1%).
- La valeur de la statistique est calculée à partir de l’échantillon.
On calcule la probabilité d’observer une telle valeur (“au moins
aussi extrême), lorsque l’hypothèse nulle est vraie. Si cette
probabilité est inférieure ou égale à
α
, H
0
est rejetée en faveur
de H
1
(la valeur de la statistique est dite significative), sinon H
0
ne peut être rejetée (non significative).
- Zone de rejet : ensemble des valeurs de la statistique de test qui
sont peu vraisemblable si H
0
est vraie.
- Zone de non-rejet : ensemble formé par les autres valeurs de la
statistique.
- Valeurs critiques: valeurs de la statistique de test qui séparent la
zone de rejet de la zone de non-rejet.
• Etape 4 : Etablissement de la règle de décision :
Si la valeur de la statistique de test se trouve dans la zone de rejet
(ou est égale à une valeur critique), H
0
est rejetée. Sinon, H
0
n’est
pas rejetée.
• Etape 5 : Récolte des données et calculs:
Echantillon aléatoire simple.
• Etape 6 : Décision statistique.
• Etape 7 : Conclusion:
H
0
rejetée
Conclusion: H
1
est vraie.
H
0
non rejetée
Conclusion: H
0
peut être vraie.
Méthode d’Analyse Statistique
ULB - 1999
– 60 –
1. Moyenne d’une population normale –
Variance population connue
Exemple 1:
Une entreprise de vente par correspondance demande
un montant fixe pour les frais d’envoi, indépendamment du poids
du colis. Une étude réalisée il y a quelques années a montré quele
poids moyen d’un colis était de 17.5 kg avec un écart-type de 3.6
kg. La comptabilité soupçonne que le poids moyen est maintenant
différent de 17.5 kg. Un échantillon aléatoire de 100 colis est
prélevé et fournit un poids moyen de
x
=
18 4
. kg. On suppose que
les poids des colis sont distribués normalement.
1° Hypothèses :
H
0
:
µ =
17 5
.
H
1
:
µ ≠
17 5
.
2° Statistique de test :
z
x
n
=
− µ
σ
0
(distribution normale réduite sous H
0
)
3° Niveau de probabilité :
α =
0 05
.
Régions de rejet et de non rejet (test bilatéral) :
4° Règle de décision : H
0
est rejetée si
z
196
.
ou
z
196
.
5° Calculs :
z
=
=
18 4 17 5
36
100
2 5
.
.
.
.
6° Décision : H
0
est rejetée.
7° Conclusion : Le poids moyen des colis a changé.
Méthode d’Analyse Statistique
ULB - 1999
– 61 –
• Test d’hypothèse et intervalle de confiance :
Pour un niveau
α
fixé, H
0
est rejetée si l’intervalle de confiance
correspondant pour
µ
n’inclut pas la valeur
µ
0
.
Exemple 2:
Le département de contrôle de la qualité d’une
entreprise détermine que le poids moyen net d’une boîte de
céréales ne devrait pas être inférieur à 200 g. L’expérience a
montré que les poids sont approximativement distribués
normalement avec un écart-type de 15 g. Un échantillon de 15
boîtes prélevé aléatoirement sur la ligne de production donne un
poids moyen de 195 g. Cela est-il suffisant pour pouvoir affirmer
que le poids moyen des boîtes est inférieur à 200 g ?
1° Hypothèses :
H
0
:
200
µ ≥
H
1
:
200
µ <
2° Statistique de test :
z
x
n
=
− µ
σ
0
3° Niveau de probabilité :
α =
0 05
.
Zones de rejet et de non rejet (test unilatéral) :
4° Règle de décision : H
0
est rejetée si
z
1645
.
5° Calculs :
195 200
1.29
15
15
z
=
=
Méthode d’Analyse Statistique
ULB - 1999
– 62 –
6° Décision : H
0
ne peut être rejetée.
7° Conclusion: Même si
x
<
200 g, il n’y a pas d’éléments
significatifs indiquant que la moyenne population est inférieure à
200 g.
• Probabilité de signification (p-value) : Probabilité d’observer
une valeur de la statistique de test au moins aussi « extrême » que
celle qui a été calculée, lorsque H
0
est vraie. Cette valeur
correspond au plus petit niveau de probabilité pour lequel H
0
est
rejetée.
Comparer la p-value à
α
au lieu de comparer la valeur de la
statistique de test à une valeur critique (table).
Plus général (résultat directement connu pour tout niveau
α
).
Exemple 1:
Exemple 2:
Méthode d’Analyse Statistique
ULB - 1999
– 63 –
2. Moyenne d’une population normale –
Variance population inconnue
Exemple 3:
Un fabricant de pneus prétend que la durée de vie
moyenne d’un nouveau type de pneus est supérieure à 25000
miles sous certaines conditions. Un échantillon aléatoire de 15
pneus est étudié. La moyenne et l’écart-type obtenus sont
respectivement de 27000 et 5000 miles. En supposant que la durée
de vie d’un pneu est distribuée normalement, peut-on conclure
que l’affirmation du fabricant est valide ?
1° Hypothèses :
H
0
:
µ ≤
25000
H
1
:
µ >
25000
2° Statistique de test :
t
x
s
n
=
− µ
0
(distribution de Student sous H
0
)
3° Niveau de probabilité :
α =
0 05
.
Zones de rejet et de non rejet (test unilatéral) :
4° Règle de décision : H
0
est rejetée si
t
17613
.
5° Calculs :
t
=
=
27000
25000
5000
15
155
.
6° Décision:
H
0
ne peut être rejetée.
7° Conclusion: Même si
x
>
25000, il n’y a pas d’éléments
significatifs permettant d’affirmer que la durée de vie moyenne
d’un pneu est supérieure à 25000.
Méthode d’Analyse Statistique
ULB - 1999
– 64 –
• Observations appariées :
Exemple 4:
Neuf paires de représentants d’une société sont
constituées en tenant compte de l’âge, des années d’expérience,
du niveau d’initiative et d’autres variables. Un membre de chaque
paire choisi au hasard suit une formation selon la méthode A.
L’autre membre de chaque paire reçoit une formation selon la
méthode B. A la fin des formations, chacun passe un examen pour
tester l’efficacité de la formation. La méthode A est-elle meilleure
que la méthode B ?
Paire
A
B
d
i
1
90
85
5
2
95
88
7
3
87
87
0
4
85
86
-1
5
90
82
8
6
94
82
12
7
85
70
15
8
88
72
16
9
92
80
12
1° Hypothèses :
H
0
:
µ
d
0
H
1
:
µ
d
>
0
2° Statistique de test :
t
d
s
d
d
=
− µ
0
(supposition : normalité)
3° Niveau de probabilité :
α =
0 05
.
4° Règle de décision :
H
0
est rejetée si
t
18595
.
5° Calculs :
t
=
=
8 2
0
612
9
4 02
.
.
.
6° Décision:
H
0
est rejetée.
7° Conclusion: La méthode A est meilleure que la méthode B.
Méthode d’Analyse Statistique
ULB - 1999
– 65 –
3. Moyenne d’une population non normale
Exemple 5:
Une firme spécialisée dans le marketing s’intéresse au
montant hebdomadaire dépensé par les ménages bruxellois en
épicerie. La firme pense que le montant moyen dépensé est
inférieur à €90. Un échantillon aléatoire de 100 ménages fournit
une moyenne de €88 et un écart-type de €10. Ces données
permettent-elle de valider l’impression de la firme ?
1° Hypothèses :
H
0
:
µ ≥
90
H
1
:
µ <
90
2° Statistique de test :
z
x
s
n
=
− µ
0
(approx. normale réduite sous H
0
)
3° Niveau de probabilité :
α =
0 05
.
4° Règle de décision :
H
0
est rejetée si
z
1645
.
5° Calculs :
z
=
=
88
90
10
100
2 0
.
6° Décision : H
0
est rejetée.
7° Conclusion: Les données permetttent de valider l’impression de
la firme.
Méthode d’Analyse Statistique
ULB - 1999
– 66 –
4. Différence entre les moyennes de deux
populations normales
• Variances population connues: Statistique de test :
z
x
x
n
n
=
+
1
2
1
2
0
1
2
1
2
2
2
a
f
a
f
µ
µ
σ
σ
Exemple 6:
Une entreprise peut utiliser deux procédures pour
fabriquer du cable. Les résistances des cables produits par chaque
procédure sont supposées être normalement distribuées. Pour la
procédure 1, l’écart-type est de 6 psi. Pour la procédure 2, il est de
8 psi. Peut-on dire que les résistances moyennes sont différentes
d’une procédure de fabrication à l’autre ?
Un échantillon aléatoire de 12 cables fabriqués au moyen de la
procédure 2 donne une moyenne de 40 psi. Un autre échantillon
aléatoire de 16 cables fabriqués au moyen de la procédure 2 donne
une moyenne de 34 psi.
1° Hypothèses :
H
0
:
µ
µ
1
2
0
=
H
1
:
µ
µ
1
2
0
2° Statistique de test :
z
x
x
n
n
=
+
1
2
1
2
1
2
2
2
0
a
f
σ
σ
3° Niveau de probabilité :
α =
0 05
.
4° Règle de décision :
H
0
est rejetée si
z
196
.
ou
z
196
.
5° Calculs :
z
=
+
=
40
34
0
36
12
64
16
2 27
a
f
.
6° Décision : H
0
est rejetée.
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.