//img.uscri.be/pth/069f0b7d694f21d02de876c82e6c8176ab35a578
La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
Télécharger Lire

Cours 9x

De
14 pages
METHODOLOGIE STATISTIQUEMounir MesbahCOURS 9Mardi 30 Novembre 2010METHODOLOGIE STATISTIQUE    Cours 9              Mardi 30 Novembre 2010Le coefficient de corrélation : ρcov(X,Y)ρ = var(X)Var(Y)Définition : cocov (X(X, Y)Y) = cocovva ariiaanncece enentre X eet t Y(x−−μμ)(y )∑ i XiY = N2(x − μ )∑ i XComme : var (X) = = cov (X,X)N2(y - μ )∑ iY var ()(Y ) = N(x - μ )(y - μ )∑ iXiYOn obtient : ρ = 22(x - μ)(y-μ )∑∑iX iYPage : 2ρest symétrique en X et Y1METHODOLOGIE STATISTIQUE    Cours 9              Mardi 30 Novembre 2010Relation entre ρet β(pente de la droite de régression)(x - μ )(y - μ )∑ iXiY ρ = 22(x - μ)(y-μ )∑∑iX iY2(x - μ )(y - μx-μ )iXiY iX= 22 (y μ )(x - μ ) ∑ iY∑ iX2(x - μ )∑ iX(x - μ )(y - μ )∑ iXiY N= 22 (y - μ )(x - μ ) ∑ iY∑ i XN2σσXX= ββ= 2YYPage : 3METHODOLOGIE STATISTIQUE    Cours 9              Mardi 30 Novembre 2010Propriétés du coefficient de corrélation(1)• ρest lié à β(pente de la droite de régression) par :σ Xρβ=σ Y•1) ρa le même signe que βρ > 0 => Y augmente en moyenne lorsque X augmente•2) ρest inchangé si on change d’unité et/ou d’origine pour X et YX ‐> X’ = aX+ b (a > 0)et/ou                                                                          ρ’ = ρY ‐> Y’ = cY+ d (c > 0)Le coefficient de corrélation mesure l’association entre X et Yindépendamment des unités choisies pour ces variablesPage  ...
Voir plus Voir moins

Vous aimerez aussi

METHODOLOGIE  STATISTIQUE Mounir  Mesbah
COURS  9
Mardi  30  Novembre  2010
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Le  coefficient  de  corrélation  :  ρ
ρ est  symétrique  en  X  et  Y
Page  :  2
1
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Relation  entre  ρ et  β (pente  de  la  droite  de  régression)
Page  :  3
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Propriétés  du  coefficient  de  corrélation (1)
 ρ est  lié  à  β (pente  de  la  droite  de  régression)  par  :
1)  ρ a  le  même  signe  que  β ρ >  0  =>  Y  augmente  en  moyenne  lorsque  X  augmente 2)  ρ est  inchangé  si  on  change  dunité  et/ou  dorigine  pour  X  et  Y X >  X  =  aX +  b  (a  >  0) et/ou                                                                            = Y >  Y  =  cY +  d  (c  >  0)
Page  :  4
2
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010
Propriétés  du  coefficient  de  corrélation (2)  3) ρ est  toujours  compris  entre 1  et  +1 Ces  bornes  ne  peuvent  être  atteintes  que  si  Y  =  aX+b
         Attention,  linverse  nest  pas  vrai
Page  :  5
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Liaison  entre  deux  variables  X  et  Y
valables aussi bien pour la valeur vraie ρ que pour lestimation r :  r a le même signe que b  r est inchangé si on change dunité et/ou dorigine pour X et Y  r est toujours compris entre 1 et +1
Page  :  6
3
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Estimation  du  coefficient  de  corrélation  ρ
n 2 -i X E s t i m a t i o n d e v a r ( X ) = i = 1 n - 1 n ( y - m ) 2 i Y i = 1 Y E s t i m a t i o n d e v a r ( ) = n - 1 n ( x i - m X ) ( y i - m Y ) E s t i m a t i o n d e c o v ( X , Y ) = i = 1 - E s t i m a t i o n d e ρ  :
Page  :  7
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Autres  façons  décrire  r  :
ou  :
ou   encore  :
En  pratique,  on  utilise  la  formule  qui  est  la  plus  commode  avec  les  données  dont  on  dispose. Page  :  8
4
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Exemple Poids  de  naissance  de  63  nouveaux  nés,  poids  maternel,  poids  paternel N° PN PM=X PP=Y N° PN PM=X PP=Y 1 3850 83 100 33 3400 55 75 2 4400 50 100 34 2700 58 75 3 2950 70 120 35 2750 46 75 63 63 43350648536323500056008730 x i = 3 644 y i = 4 729 5 3550 50 72 37 3 6 3700 54 64 38 3100 55 75 i=1 i=1 8 3400 48 78 40 4400 50 75 63 63 9 4350 67 83 41 3300 55 78 x i2 = 217502 y i2 =363527 10 3500 55 85 42 3250 40 75 = 11 3100 63 68 43 1250 40 51 i=1 i 1 12 3550 64 64 44 3800 66 61 63 14 3300 70 95 46 3750 59 76 x i y i   275 480 13 3500 71 72 45 4450 68 67 = 15 4350 66 80 47 3150 65 68 i=1 16 1750 62 70 48 3050 58 90 17 2400 40 76 49 3450 55 70 275480 1 (3 644)(4 9 18 2750 46 72 50 3300 53 62 19 3600 47 80 51 3150 51 66 r = 6372) 2221232337240000004457507668975553453336515050004678206712204 [217502 613(3 644) 2 ][363527 613(4 729) 2 ] 24 3550 62 82 56 3100 63 90 25 4200 92 76 57 3300 60 75     0,26 = 26 3450 55 67 58 2900 65 82 27 4200 70 64 59 3050 54 69 28 4100 73 65 60 3300 62 69 29 4300 55 73 61 3400 70 60 30 2850 40 63 62 3200 50 69 31 3300 60 77 63 3100 64 62 32 3500 50 80
Page  :  9
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010
N ° 1 2 3 4 . . . 60 61 62 63 Total
X 83 50 70 64 . . . 62 70 50 64 3644 Σ x
Y XY X*X Y*Y 100 8300 6889 10000 100 5000 2500 10000 120 8400 4900 14400 85 5440 4096 7225 . . . . . . . . . . . . 69 4278 3844 4761 60 69 3450 2500 4761 62 3968 4096 3844 4729 275480 217502 363527 Σ y Σ xy Σ Σ
Page  :  10
5
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Test  de  ρ Hypothèse  nulle  H O :   ρ =  0   Hypothèse  alternative  H 1 : ρ 0 N.B.  :  ρ =  0  <=  β =  0 > si  H O est  vraie,  on  montre  que  :
>  le  test  consiste  à  calculer  t O et  à  le  comparer  à  la  valeur  seuil  de  la  loi  de  Student à  (n2)  ddl Rejet  de  H O si  |t O | t n 2 /2 on t ons  app cat on  : régression  entre  X  et  Y  linéaire une  des  deux  distributions  conditionnelles  est  normale  et  de  variance  constante  (c'est à dire  distribution  de  Y  à  X  fixé,  ou  de  X  à  Y  fixé)
Page  :  11
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010
Remarques  :  Les  conditions  dapplication  sont  symétriques  en  X  et  Y  Si  la  régression  entre  X  et  Y  nest  pas  linéaire  :  perte  de  puissance  E n r e m p l a ç a n t r p a r Y b , o n o b t i e n t : s X r n - 2 b t O  = 1 - r 2  = v a r ( b )
Page  :  12
6
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Exemple Corrélation  entre  poids  maternel  et  paternel  : r =  0,26  ;   n  =  63 = H O :   ρ  0   H 1 : ρ 0 t = , = 2 , 1 0 O2 1 - 0 , 2 6 t 6 1 ; 0 , 0 2 5   2 , 0 0
>  rejet  de  H o >  Le  coefficient  de  corrélation  entre  le  poids  maternel  et  le  poids  paternel  est  différent  de  0 Conditions  dapplication  : la  régression  du  poids  maternel  sur  le  poids  paternel  est  linéaire la  distribution  du  poids  paternel  à  poids  maternel  constant  est  normale  et  de  variance  constante  (ou  l'inverse) Page  :  13
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Régression  et  corrélation  Régression adaptée  au  cas   les  variables  X  et  Y  jouent  des  rôles  dissymétriques  :  on  veut  prédire  Y  en  fonction  de  X exemple  :  Poids  de  naissance  /  Poids  maternel  Corrélation a apt e au cas o es varia es X et Y joue es r es sym triques : on c erc e une relation dinterdépendance entre elles exemple  :  Poids  paternel  /  Poids  maternel  Cependant il  y  a  une  forte  parenté  entre  β et  ρ :    les  tests  des  hypothèses  β =  0  et  ρ =  0  sont  identiques > En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes. La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé. Page  :  14
7
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Coefficient  de  corrélation  et  force  de  lassociation  entre  X  et  Y (1) Si  la  régression  est  linéaire,  on  montre  que  : =s 2 n-12s 2Y Y 2 n -X    s Y 2 2 2 n -d 'o ù : s Y  = s Y (1 r)21 X n -
Lorsque  n  est  assez  grand,  on  a      n          1          n          2   ,    doù  :  s 2Y   s 2Y (1 r 2 ) X Plus  |r|  (ou  r 2 )  est  grand  (proche  de  1),  plus  la  variance  de  Y  à  X  fixé     s   2  Y    X        est  petite. |r|  =  1                            s 2Y  = 0 <=> X <=>  Y  est  connu  exactement  quand  on  connaît  la  valeur  de  X <=>  la  relation  entre  X  et  Y  est  parfaite Page  :  15
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010
Page  :  16
8
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Coefficient de corrélation et force de lassociation entre X et Y (2)  s 2Y   s 2Y (1 r 2 ) p e u t a u s s i s 'é c r i r e s 2Y   s 2Y +  r 2 s 2Y X X
  +                        Proportion  de  la  variance  totale (1 r 2 )                                           r 2 >  r 2 =  proportion  de  la  variance  de  Y  qui  est  expliquée  par  X
Page  :  17
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Exemple  Coefficient de corrélation entre le Poids de naissance et le Poids maternel : r 1 = 0 41 > part de variance du Poids de naissance expliquée par le Poids maternel = 0,41 2 = 0,17 (soit 17%)  Coefficient de corrélation entre le Poids de naissance et le Poids paternel : r  =  0,11 > part de variance expliquée par le Poids paternel = 0,11 2 soit 1% peu e que : Lassociation est plus forte entre le poids de naissance et le poids maternel quentre le poids de naissance et le poids paternel.
Page  :  18
9
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010 Régression  linéaire Rappels  Droite  de  régression  :  Y=  α +  β x Y  =  moyenne  e  Y   X  x  Estimation  des  coefficients  α et  β Observations  sur  un  échantillon  de  n  sujets  :  (x i ,  y i )  i  =  1,n
Page  :  19
METHODOLOGIE  STATISTIQUE     Cours  9               Mardi  30  Novembre  2010  Test  H 0 : β =  0  pas  d'association  (linéaire)  entre  X  et  Y                   H 1 :  β 0 s 2 Y 2 2 t O  = bs 2  s u i t u n e l o i d e S t u d e n t à ( n - 2 ) d d l , a v e c s 2b  = s X n 2 b Rejet  de  H o si  |t o | t n 2; α /2 Conditions  dapplication La  régression  entre  X  et  Y  est  linéaire À  X  fixé,  la  distribution  de  Y  est  normale  et  de  variance  constante Si  la  régression  s'écarte  de  la  linéarité  :  perte  de  puissance  Interprétation  des  résultats  du  test  : Significatif  :  il  y  a  une  association  entre  X  et  Y  (mais  elle  n'est  peut être  pas  linéaire) Non  significatif  :  il  n'y  pas  d'association  linéaire  entre  X  et  Y,  mais  peut être  une  association  non  linéaire Page  :  20
01