METHODOLOGIE STATISTIQUEMounir MesbahCOURS 9Mardi 30 Novembre 2010METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010Le coefficient de corrélation : ρcov(X,Y)ρ = var(X)Var(Y)Définition : cocov (X(X, Y)Y) = cocovva ariiaanncece enentre X eet t Y(x−−μμ)(y )∑ i XiY = N2(x − μ )∑ i XComme : var (X) = = cov (X,X)N2(y - μ )∑ iY var ()(Y ) = N(x - μ )(y - μ )∑ iXiYOn obtient : ρ = 22(x - μ)(y-μ )∑∑iX iYPage : 2ρest symétrique en X et Y1METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010Relation entre ρet β(pente de la droite de régression)(x - μ )(y - μ )∑ iXiY ρ = 22(x - μ)(y-μ )∑∑iX iY2(x - μ )(y - μx-μ )iXiY iX= 22 (y μ )(x - μ ) ∑ iY∑ iX2(x - μ )∑ iX(x - μ )(y - μ )∑ iXiY N= 22 (y - μ )(x - μ ) ∑ iY∑ i XN2σσXX= ββ= 2YYPage : 3METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010Propriétés du coefficient de corrélation(1)• ρest lié à β(pente de la droite de régression) par :σ Xρβ=σ Y•1) ρa le même signe que βρ > 0 => Y augmente en moyenne lorsque X augmente•2) ρest inchangé si on change d’unité et/ou d’origine pour X et YX ‐> X’ = aX+ b (a > 0)et/ou ρ’ = ρY ‐> Y’ = cY+ d (c > 0)Le coefficient de corrélation mesure l’association entre X et Yindépendamment des unités choisies pour ces variablesPage ...
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Le coefficient de corrélation : ρ
ρ est symétrique en X et Y
Page : 2
1
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Relation entre ρ et β (pente de la droite de régression)
Page : 3
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Propriétés du coefficient de corrélation (1)
ρ est lié à β (pente de la droite de régression) par :
1) ρ a le même signe que β ρ > 0 => Y augmente en moyenne lorsque X augmente 2) ρ est inchangé si on change dunité et/ou dorigine pour X et Y X ‐ > X = aX + b (a > 0) et/ou = Y ‐ > Y = cY + d (c > 0)
Page : 4
2
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010
Propriétés du coefficient de corrélation (2) 3) ρ est toujours compris entre ‐ 1 et +1 Ces bornes ne peuvent être atteintes que si Y = aX+b
Attention, linverse nest pas vrai
Page : 5
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Liaison entre deux variables X et Y
valables aussi bien pour la valeur vraie ρ que pour lestimation r : r a le même signe que b r est inchangé si on change dunité et/ou dorigine pour X et Y r est toujours compris entre ‐ 1 et +1
Page : 6
3
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Estimation du coefficient de corrélation ρ
n 2 -i X E s t i m a t i o n d e v a r ( X ) = i = 1 n - 1 n ∑ ( y - m ) 2 i Y i = 1 Y E s t i m a t i o n d e v a r ( ) = n - 1 n ∑ ( x i - m X ) ( y i - m Y ) E s t i m a t i o n d e c o v ( X , Y ) = i = 1 -⇒ E s t i m a t i o n d e ρ :
Page : 7
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Autres façons décrire r :
ou :
ou encore :
En pratique, on utilise la formule qui est la plus commode avec les données dont on dispose. Page : 8
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Test de ρ Hypothèse nulle H O : ρ = 0 Hypothèse alternative H 1 : ρ ≠ 0 N.B. : ρ = 0 <= β = 0 > si H O est vraie, on montre que :
‐ > le test consiste à calculer t O et à le comparer à la valeur seuil de la loi de Student à (n2) ddl Rejet de H O si |t O | ≥ t n ‐ 2 ;α /2 on t ons app cat on : ‐ régression entre X et Y linéaire ‐ une des deux distributions conditionnelles est normale et de variance constante (c'est ‐ à ‐ dire distribution de Y à X fixé, ou de X à Y fixé)
Page : 11
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010
Remarques : Les conditions dapplication sont symétriques en X et Y Si la régression entre X et Y nest pas linéaire : perte de puissance E n r e m p l a ç a n t r p a r Y b , o n o b t i e n t : s X r n - 2 b t O = 1 - r 2 = v a r ( b )
Page : 12
6
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Exemple Corrélation entre poids maternel et paternel : r = 0,26 ; n = 63 = H O : ρ 0 H 1 : ρ ≠ 0 t = , = 2 , 1 0 O2 1 - 0 , 2 6 t 6 1 ; 0 , 0 2 5 ≈ 2 , 0 0
‐ > rejet de H o ‐ > Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0 Conditions dapplication : ‐ la régression du poids maternel sur le poids paternel est linéaire ‐ la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou l'inverse) Page : 13
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Régression et corrélation Régression adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X exemple : Poids de naissance / Poids maternel Corrélation a apt e au cas o es varia es X et Y joue es r es sym triques : on c erc e une relation dinterdépendance entre elles exemple : Poids paternel / Poids maternel Cependant ‐ il y a une forte parenté entre β et ρ : ‐ les tests des hypothèses β = 0 et ρ = 0 sont identiques ‐ > En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes. La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé. Page : 14
7
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Coefficient de corrélation et force de lassociation entre X et Y (1) Si la régression est linéaire, on montre que : =s 2 − n-12s 2Y Y 2 n -X s Y 2 2 2 n -d 'o ù : s Y = s Y (1 − r)21 X n -
Lorsque n est assez grand, on a n − 1 ≈ n − 2 , doù : s 2Y ≅ s 2Y (1 − r 2 ) X Plus |r| (ou r 2 ) est grand (proche de 1), plus la variance de Y à X fixé s 2 Y X est petite. |r| = 1 s 2Y = 0 <=> X <=> Y est connu exactement quand on connaît la valeur de X <=> la relation entre X et Y est parfaite Page : 15
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010
Page : 16
8
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Coefficient de corrélation et force de lassociation entre X et Y (2) s 2Y ≅ s 2Y (1 − r 2 ) p e u t a u s s i s 'é c r i r e s 2Y ≅ s 2Y + r 2 s 2Y X X
+ Proportion de la variance totale (1 ‐ r 2 ) r 2 ‐ > r 2 = proportion de la variance de Y qui est expliquée par X
Page : 17
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Exemple Coefficient de corrélation entre le Poids de naissance et le Poids maternel : r 1 = 0 41 ‐ > part de variance du Poids de naissance expliquée par le Poids maternel = 0,41 2 = 0,17 (soit 17%) Coefficient de corrélation entre le Poids de naissance et le Poids paternel : r = 0,11 ‐ > part de variance expliquée par le Poids paternel = 0,11 2 soit 1% peu e que : Lassociation est plus forte entre le poids de naissance et le poids maternel quentre le poids de naissance et le poids paternel.
Page : 18
9
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Régression linéaire Rappels Droite de régression : Y= α + β x Y = moyenne e Y X x Estimation des coefficients α et β Observations sur un échantillon de n sujets : (x i , y i ) i = 1,n
Page : 19
METHODOLOGIE STATISTIQUE Cours 9 Mardi 30 Novembre 2010 Test H 0 : β = 0 pas d'association (linéaire) entre X et Y H 1 : β ≠ 0 s 2 Y 2 − 2 t O =bs 2 s u i t u n e l o i d e S t u d e n t à ( n - 2 ) d d l , a v e c s 2b = s X n − 2 b Rejet de H o si |t o | ≥ t n ‐ 2; α /2 Conditions dapplication ‐ La régression entre X et Y est linéaire ‐ À X fixé, la distribution de Y est normale et de variance constante Si la régression s'écarte de la linéarité : perte de puissance Interprétation des résultats du test : ‐ Significatif : il y a une association entre X et Y (mais elle n'est peut ‐ être pas linéaire) ‐ Non significatif : il n'y pas d'association linéaire entre X et Y, mais peut ‐ être une association non linéaire Page : 20