Notes de cours Biostatistiques MIV L3 Tests non parametriques
14 pages
Français

Notes de cours Biostatistiques MIV L3 Tests non parametriques

-

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
14 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Niveau: Supérieur, Licence, Bac+3

  • cours - matière potentielle : biostatistiques


Notes de cours Biostatistiques – MIV (L3) Tests non parametriques M. Bailly-Bechet Universite Claude Bernard Lyon 1 – France 1 Interets de la variable rang Dans certains cas, le test de la moyenne ne peut pas etre employe. Ty- piquement, on a les cas ou l'echantillon n'est pas distribue normalement, ou est trop petit pour que l'on puisse verifier statistiquement que la distribution est normale, les tests de normalite acceptant toujours l'hypothese nulle si on a trop peu de donnees. Un autre exemple est celui ou les variables sont direc- tement ordinales, ou classees qualitativement – et ou l'on n'a pas de moyen de revenir a une variable quantitative. Dans ces cas la, on va associer a nos variables xi, i = 1..N leur rang Ri = 1..N , qui est leur position une fois les variables classees par ordre croissant. Voici un exemple ou l'on donne les xi et les Ri associes : xi = 2, 4, 1,?3, 7, 3 (1) Ri = 3, 5, 2, 1, 6, 4. (2) Que ce soit parce que ce sont les seules donnees dont on dispose, ou bien parce que l'on a choisi de travailler sur les rangs plutot que sur les donnees de depart, on va s'interesser aux rangs des variables plutot qua leurs valeurs.

  • coefficient de correlation

  • comparaison de moyennes

  • fois classees

  • ri ?

  • variable

  • idee des tests

  • variables classees par ordre croissant

  • proprietes des developpements

  • rang


Sujets

Informations

Publié par
Nombre de lectures 19
Langue Français

Exrait

Notes de cours Biostatistiques { MIV (L3)
Tests non parametriques
M. Bailly-Bechet
Universite Claude Bernard Lyon 1 { France
1 Inter^ets de la variable rang
Dans certains cas, le test de la moyenne ne peut pas ^etre employe. Ty-
piquement, on a les cas ou l’echantillon n’est pas distribue normalement, ou
est trop petit pour que l’on puisse verier statistiquement que la distribution
est normale, les tests de normalite acceptant toujours l’hypothese nulle si on
a trop peu de donnees. Un autre exemple est celui ou les variables sont direc-
tement ordinales, ou classees qualitativement { et ou l’on n’a pas de moyen
de revenir a une variable quantitative. Dans ces cas la, on va associer a nos
variables x;i = 1::N leur rang R = 1::N, qui est leur position une fois lesi i
variables classees par ordre croissant. Voici un exemple ou l’on donne les xi
et les R associes :i
x = 2; 4; 1; 3; 7; 3 (1)i
R = 3; 5; 2; 1; 6; 4: (2)i
Que ce soit parce que ce sont les seules donnees dont on dispose, ou bien
parce que l’on a choisi de travailler sur les rangs pluto^t que sur les donnees
de depart, on va s’interesser aux rangs des variables plutot^ qua leurs valeurs.
Un exemple intuitif de l’inter^et de cette procedure consiste a comparer deux
procedures de calculs des correlations, celles de Pearson et de Spearman. On
suppose que l’on dispose de 2 echantillons de taille n pour les variablesX et
Y . On note R les rangs des mesures x et S les rangs des mesures y . Oni i i i
de nit alors les coe cients de correlation comme suit :
1Pn (x x) (y y)i ii=1q qr = ; (3)Pearson P Pn 2 n 2
(x x) (y y)i ii=1 i=1
et
Pn R R S Si ii=1r =r (R;S ) =q q : (4)Spearman Pearson i i P P 2 2n n R R S Si ii=1 i=1
Ces coe cients mesurent la relation entre les variables x et y ; plus pre-
cisement, le coecient de correlation de Pearson mesure l’existence d’une
relation lineaire entre les deux variables. Le coe cient de Spearman, lui, me-
sure plus generalement l’existence d’une relation monotone : il sut que les
rangs soient identiques dans les 2 echantillons pour que le coecient de cor-
relation vaille 1. Avec les notations ci-dessus, les coe cients de correlation
3xide Pearson et Spearman des variables x = 1; 2;:::; 99; 100 et y =e sonti i
respectivement :
x <- 1:100
y <- exp(3 * x)
cor.test(x, y)
Pearson s product-moment correlation
data: x and y
t = 1.8225, df = 98, p-value = 0.07143
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.01592979 0.36451007
sample estimates:
cor
0.1810548
cor.test(x, y, method = "spearman")
Spearman s rank correlation rho
data: x and y
S = 0, p-value < 2.2e-16
2
''alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
1
On peut voir que les coe cients de correlation sont tres dierents, et
m^eme que le coecient de correlation de Pearson n’est pas signicativement
dierent de 0 dans ce cas, au risque de 5%. Ceci est normal : ce dernier
coe cient mesure une relation lineaire, ce qui n’est pas du tout le cas ici.
Mais cela veut aussi dire que la mesure de Spearman est plus propice a
une recherche plus large, et moins sensible a des variations des donnees, par
exemple a cause d’un bruit experimental. Cette consideration se generalise
a l’etude des rangs comme variables statistiques : ils doivent ^etre employes
dans un premier temps quand la robustesse des resultats est recherchee, ou
que le statisticien a peu d’informations sur la nature des donnees qu’il etudie.
1.1 Proprietes de la variable rang
On va travailler sur la variable rang. Pour un echantillon unique de n
tirages x de la v.a. X, dont on ne conna^t pas la loi, on a :i
X
n(n+1)
R = (5)i 2
X
n(n+1)(2n+1)2R = (6)i 6
On peut demontrer ces egalites de plusieurs manieres. Pour 5, il sut de
remarquer que c’est une suite arithmetique simple, a savoir 1 + 2 + 3 +::: +
(n 1) +n, et de remarquer dans la suite u = 1; 2; 3; 4;. . . , la somme desn
termes u +u est constante, et vaut n + 1. On reformule alors la sommei n i
globale en paires constantes, et on doit diviser par deux car on compte chaque
terme deux fois. Techniquement, cela donne :
X
R = 1+ 2+ 3+ ::: +(n 1) +n (7)i
i
X
R =n+ (n 1)+ (n 2)+ ::: +2 +1; (8)i
i
(9)
3ce qui, par addition des deux lignes, donne
X
2 R = (n + 1) + (n + 1) + (n + 1) +::: + (n + 1) + (n + 1) (10)i
i
X
2 R =n(n + 1) (11)i
i
X n(n + 1)
R = (12)i
2
i
On peut demontrer la formule 6 par recurrence a partir de la reponse.
De maniere plus generale, on peut faire le calcul suivant, se basant sur les
3proprietes des developpements de (a +b) ’ :
3 3 2(n + 1) =n + 3n + 3n + 1 (13)
3 3 2n = (n 1) + 3(n 1) + 3(n 1) + 1 (14)
::: (15)
3 3 21 = 0 + 3(0 ) + 3(0) + 1 (16)
Pn kPar addition des termes en colonnes, si on note S k = i , on a :n i=1
S 3 =S 3 + 3S 2 + 3S + (n + 1) (17)(n+1) n n n
En faisant passer le terme S 3 a gauche, on a :n
n(n + 1)3(n + 1) = 3S 2 + 3 +n + 1 (18)n
2
En developpant et en transformant on obtient :
23n + 3n3 23S 2 =n + 3n + 3n + 1 n 1n
2
23n + 3n3=n n +
2 (19)
1 3 2S 2 = 2n + 3n + 3n 2nn
6
n
= f(2n + 1) (n + 1)g
6
Grac^ e a ces egalites on peut montrer que, pour une v.a. X dont les rangs
des tirages sont notes R :i
4nX1 1n(n + 1) n + 1
E(R) = R = =i
n n 2 2
i=1
n 2 2X1 (n + 1) n (n + 1)2 (20)V(R) = R = ((2n + 1) (n + 1))in 2 6 2
i=1
2n 1
= :
12
Ces proprietes vont nous ^etre utiles par la suite, pour developper un test
non parametrique de comparaison des moyennes.
2 Test de Wilcoxon et White-Manney
On va le plus souvent s’interesser aux rangs dans le cadre d’une compa-
raison d’echantillons. Dans ce cas on a 2 echantillons venant de v.a. X etY ,
de tailles respectivesn etm, que l’on va classer ensemble. On obtient donc un
classement unique avec deux ensembles de rangs R;i = 1::n etS ;j = 1::m,i j
tels que l’ensemble des rangsfRg[fSg = 1::n +m. L’idee des tests associesi i
aux rangs est que, si les deux echantillons viennent de la m^eme distribution,
les rangs doivent ^etre repartis de maniere homogene dans les deux echan-
tillons. Le test de comparaison des rangs a donc pour hypothese nulle H0
"Les deux echantillons viennent de distributions ayant la m^eme moyenne", ce
qui est logiquement equivalent au fait que les rangs R et S soient repartisi j
de maniere "homogene", aux ucutations pres. Voici un exemple simple :
x =1; 3; 5; 6; 8; 9 (21)i
y = 6; 2; 4; 7; 18 (22)i
x [y = 6; 1; 2; 3; 4; 5; 6; 7; 8; 9; 18 (23)i i
R [S =1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11 (24)i i
Ici on voit bien que les variables, une fois classees ensemble, alternent
globalement, et donc que les moyennes de X et Y doivent ^etre sensiblement
les m^emes. Si la moyenne deY etait plus elevee que celle deX, on observerait
un decalage du rouge vers la droite, et le contraire si la moyenne de Y etait
inferieure a celle de X.
5Pn
On va calculer la statistique R , la somme des rangs desn elementsii=1
x parmi les m + n des deux echantillons. On va pour cela se servir desi
proprietes que l’on a vues plus haut. On a :
nX Pn n(n+m+1)
E( R ) = E(R ) = (25)i ii=1 2
i=1
nX P P Pn
V( R ) = V(R ) + cov(R;R ) (26)i i i ji=1 i j=i
i=1
n+m+1Ici,E(R ) vaut car le rangR peut prendre toute valeur entre 1 eti i2
n +m.
Un probleme se pose pour calculer la variance, car les covariances des
rangs ne sont pas nulles ; intuitivement, si un on sait que les rang de la ieme
variable estk, on a une informatio partielle sur le rang de lai+1eme, qui est
forcement superieur ak. Pour calculer ces covariances, on va d’abord etudier
la somme des rangs totaux, S . Pour cela on va de nir la variable globaleRT Pn+m (n+m)(n+m+1)
de rangT;i = 1::n +m, avecT =R[S. On aS = T .i RT ii=1 2
(n+m)(n+m+1)Cette variable est constante, on a doncE(S ) = etV(S ) =RT RT2
0. On va developper cette derniere egalite :
n+m n+mn+mX XX
V(S ) = 0 = V(T ) + cov(T;T )RT i i j
i=1 i=1 j=1
j=i
2 (27)(n +m) 1
0 = (n +m) + (n +m)(n +m 1)cov(T;T )i j
12
2((n +m) 1) (n +m + 1)
cov(T;T ) = =i j
12(n +m 1) 12
Le passage a la derniere ligne ayant lieu car les covariances sont toutes
egales et independantes de i;j. On peut le comprendre intuitivement en se
disant que le fait de xer un rang en particulier i ne fait que restreindre
l’espace des possibles pour les autres rangs, creant une relation entre eux,
mais n’ayant pas plus d’e et sur les rangs j >i que sur les rangs j <i.
On peut alors reprendre le calcul precedent en remplacant les covariances
par leur expression, les covariances calculees sur les T etant les m^emes quei
celles calculees sur les R :i
6
66n 2X (n +m) 1 (n +m + 1)
V( R ) =n n(n 1)( ) (28)i
12 12
i=1
1
= (n +m + 1) (n (n +m 1) n (n + 1)) (29)
12
nm(n +m + 1)
= : (30)
12
Cette statistique est directement utilisee dans le test de Wilcoxon. Pour
de petits echantillons, on peut calculer numeriquement, par permutations,
la probabilite pour un classement d’avoir une somme des rangs superieure
a n’importe quelle valeur { et dans ce cas le calcul de la moyenne et de la
variance ne sont qu’indicatifs. Si les echantillons sont grands, on applique leP
ntheoreme central limite a la variable R , dont on conna^t l’esperance etii=1
la variance, et on peut calculer une p-valeur, ou bien appliquer un test avec
un risque connu a l’avance, en disant que la somme des n rangs suit une loi
n(n+m+1) (n+m+1)(nm)2normaleN ( = ; = ). C’est le test de Wilcoxon.
2 12
Une variante que l’on observe souvent est de calculer la statistique U de
White-Manney, qui est simplement une version centree de la statistique dePn n(n+m+1)
Wilcoxon W : U =W E(W ) = R .ii=1 2
3 Fonction de repartition
3.1 De nitions et proprietes
La fonction de reparition d’une v.a. X represente la probabilite cumulee
pour cette v.a. d’^etre inferieure a une valeur donnee x. Elle est de

  • Accueil Accueil
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • BD BD
  • Documents Documents