Notes de cours Biostatistiques MIV L3 Tests non parametriques

ondey - Claude Bernard Lyon

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

14 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Niveau: Supérieur, Licence, Bac+3

cours - matière potentielle : biostatistiques

Notes de cours Biostatistiques – MIV (L3) Tests non parametriques M. Bailly-Bechet Universite Claude Bernard Lyon 1 – France 1 Interets de la variable rang Dans certains cas, le test de la moyenne ne peut pas etre employe. Ty- piquement, on a les cas ou l'echantillon n'est pas distribue normalement, ou est trop petit pour que l'on puisse verifier statistiquement que la distribution est normale, les tests de normalite acceptant toujours l'hypothese nulle si on a trop peu de donnees. Un autre exemple est celui ou les variables sont direc- tement ordinales, ou classees qualitativement – et ou l'on n'a pas de moyen de revenir a une variable quantitative. Dans ces cas la, on va associer a nos variables xi, i = 1..N leur rang Ri = 1..N , qui est leur position une fois les variables classees par ordre croissant. Voici un exemple ou l'on donne les xi et les Ri associes : xi = 2, 4, 1,?3, 7, 3 (1) Ri = 3, 5, 2, 1, 6, 4. (2) Que ce soit parce que ce sont les seules donnees dont on dispose, ou bien parce que l'on a choisi de travailler sur les rangs plutot que sur les donnees de depart, on va s'interesser aux rangs des variables plutot qua leurs valeurs.

coefficient de correlation

comparaison de moyennes

fois classees

ri ?

variable

idee des tests

variables classees par ordre croissant

proprietes des developpements

rang

Sujets

Pearson

Corrélation (statistiques)

Variable

Informations

Publié par	ondey
Nombre de lectures	19
Langue	Français

Extrait

Notes de cours Biostatistiques { MIV (L3)
Tests non parametriques
M. Bailly-Bechet
Universite Claude Bernard Lyon 1 { France
1 Inter^ets de la variable rang
Dans certains cas, le test de la moyenne ne peut pas ^etre employe. Ty-
piquement, on a les cas ou l’echantillon n’est pas distribue normalement, ou
est trop petit pour que l’on puisse verier statistiquement que la distribution
est normale, les tests de normalite acceptant toujours l’hypothese nulle si on
a trop peu de donnees. Un autre exemple est celui ou les variables sont direc-
tement ordinales, ou classees qualitativement { et ou l’on n’a pas de moyen
de revenir a une variable quantitative. Dans ces cas la, on va associer a nos
variables x;i = 1::N leur rang R = 1::N, qui est leur position une fois lesi i
variables classees par ordre croissant. Voici un exemple ou l’on donne les xi
et les R associes :i
x = 2; 4; 1; 3; 7; 3 (1)i
R = 3; 5; 2; 1; 6; 4: (2)i
Que ce soit parce que ce sont les seules donnees dont on dispose, ou bien
parce que l’on a choisi de travailler sur les rangs pluto^t que sur les donnees
de depart, on va s’interesser aux rangs des variables plutot^ qua leurs valeurs.
Un exemple intuitif de l’inter^et de cette procedure consiste a comparer deux
procedures de calculs des correlations, celles de Pearson et de Spearman. On
suppose que l’on dispose de 2 echantillons de taille n pour les variablesX et
Y . On note R les rangs des mesures x et S les rangs des mesures y . Oni i i i
de nit alors les coe cients de correlation comme suit :
1Pn (x x) (y y)i ii=1q qr = ; (3)Pearson P Pn 2 n 2
(x x) (y y)i ii=1 i=1
et
Pn R R S Si ii=1r =r (R;S ) =q q : (4)Spearman Pearson i i P P 2 2n n R R S Si ii=1 i=1
Ces coe cients mesurent la relation entre les variables x et y ; plus pre-
cisement, le coecient de correlation de Pearson mesure l’existence d’une
relation lineaire entre les deux variables. Le coe cient de Spearman, lui, me-
sure plus generalement l’existence d’une relation monotone : il sut que les
rangs soient identiques dans les 2 echantillons pour que le coecient de cor-
relation vaille 1. Avec les notations ci-dessus, les coe cients de correlation
3xide Pearson et Spearman des variables x = 1; 2;:::; 99; 100 et y =e sonti i
respectivement :
x <- 1:100
y <- exp(3 * x)
cor.test(x, y)
Pearson s product-moment correlation
data: x and y
t = 1.8225, df = 98, p-value = 0.07143
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.01592979 0.36451007
sample estimates:
cor
0.1810548
cor.test(x, y, method = "spearman")
Spearman s rank correlation rho
data: x and y
S = 0, p-value < 2.2e-16
2
''alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
1
On peut voir que les coe cients de correlation sont tres dierents, et
m^eme que le coecient de correlation de Pearson n’est pas signicativement
dierent de 0 dans ce cas, au risque de 5%. Ceci est normal : ce dernier
coe cient mesure une relation lineaire, ce qui n’est pas du tout le cas ici.
Mais cela veut aussi dire que la mesure de Spearman est plus propice a
une recherche plus large, et moins sensible a des variations des donnees, par
exemple a cause d’un bruit experimental. Cette consideration se generalise
a l’etude des rangs comme variables statistiques : ils doivent ^etre employes
dans un premier temps quand la robustesse des resultats est recherchee, ou
que le statisticien a peu d’informations sur la nature des donnees qu’il etudie.
1.1 Proprietes de la variable rang
On va travailler sur la variable rang. Pour un echantillon unique de n
tirages x de la v.a. X, dont on ne conna^t pas la loi, on a :i
X
n(n+1)
R = (5)i 2
X
n(n+1)(2n+1)2R = (6)i 6
On peut demontrer ces egalites de plusieurs manieres. Pour 5, il sut de
remarquer que c’est une suite arithmetique simple, a savoir 1 + 2 + 3 +::: +
(n 1) +n, et de remarquer dans la suite u = 1; 2; 3; 4;. . . , la somme desn
termes u +u est constante, et vaut n + 1. On reformule alors la sommei n i
globale en paires constantes, et on doit diviser par deux car on compte chaque
terme deux fois. Techniquement, cela donne :
X
R = 1+ 2+ 3+ ::: +(n 1) +n (7)i
i
X
R =n+ (n 1)+ (n 2)+ ::: +2 +1; (8)i
i
(9)
3ce qui, par addition des deux lignes, donne
X
2 R = (n + 1) + (n + 1) + (n + 1) +::: + (n + 1) + (n + 1) (10)i
i
X
2 R =n(n + 1) (11)i
i
X n(n + 1)
R = (12)i
2
i
On peut demontrer la formule 6 par recurrence a partir de la reponse.
De maniere plus generale, on peut faire le calcul suivant, se basant sur les
3proprietes des developpements de (a +b) ’ :
3 3 2(n + 1) =n + 3n + 3n + 1 (13)
3 3 2n = (n 1) + 3(n 1) + 3(n 1) + 1 (14)
::: (15)
3 3 21 = 0 + 3(0 ) + 3(0) + 1 (16)
Pn kPar addition des termes en colonnes, si on note S k = i , on a :n i=1
S 3 =S 3 + 3S 2 + 3S + (n + 1) (17)(n+1) n n n
En faisant passer le terme S 3 a gauche, on a :n
n(n + 1)3(n + 1) = 3S 2 + 3 +n + 1 (18)n
2
En developpant et en transformant on obtient :
23n + 3n3 23S 2 =n + 3n + 3n + 1 n 1n
2
23n + 3n3=n n +
2 (19)
1 3 2S 2 = 2n + 3n + 3n 2nn
6
n
= f(2n + 1) (n + 1)g
6
Grac^ e a ces egalites on peut montrer que, pour une v.a. X dont les rangs
des tirages sont notes R :i
4nX1 1n(n + 1) n + 1
E(R) = R = =i
n n 2 2
i=1
n 2 2X1 (n + 1) n (n + 1)2 (20)V(R) = R = ((2n + 1) (n + 1))in 2 6 2
i=1
2n 1
= :
12
Ces proprietes vont nous ^etre utiles par la suite, pour developper un test
non parametrique de comparaison des moyennes.
2 Test de Wilcoxon et White-Manney
On va le plus souvent s’interesser aux rangs dans le cadre d’une compa-
raison d’echantillons. Dans ce cas on a 2 echantillons venant de v.a. X etY ,
de tailles respectivesn etm, que l’on va classer ensemble. On obtient donc un
classement unique avec deux ensembles de rangs R;i = 1::n etS ;j = 1::m,i j
tels que l’ensemble des rangsfRg[fSg = 1::n +m. L’idee des tests associesi i
aux rangs est que, si les deux echantillons viennent de la m^eme distribution,
les rangs doivent ^etre repartis de maniere homogene dans les deux echan-
tillons. Le test de comparaison des rangs a donc pour hypothese nulle H0
"Les deux echantillons viennent de distributions ayant la m^eme moyenne", ce
qui est logiquement equivalent au fait que les rangs R et S soient repartisi j
de maniere "homogene", aux ucutations pres. Voici un exemple simple :
x =1; 3; 5; 6; 8; 9 (21)i
y = 6; 2; 4; 7; 18 (22)i
x [y = 6; 1; 2; 3; 4; 5; 6; 7; 8; 9; 18 (23)i i
R [S =1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11 (24)i i
Ici on voit bien que les variables, une fois classees ensemble, alternent
globalement, et donc que les moyennes de X et Y doivent ^etre sensiblement
les m^emes. Si la moyenne deY etait plus elevee que celle deX, on observerait
un decalage du rouge vers la droite, et le contraire si la moyenne de Y etait
inferieure a celle de X.
5Pn
On va calculer la statistique R , la somme des rangs desn elementsii=1
x parmi les m + n des deux echantillons. On va pour cela se servir desi
proprietes que l’on a vues plus haut. On a :
nX Pn n(n+m+1)
E( R ) = E(R ) = (25)i ii=1 2
i=1
nX P P Pn
V( R ) = V(R ) + cov(R;R ) (26)i i i ji=1 i j=i
i=1
n+m+1Ici,E(R ) vaut car le rangR peut prendre toute valeur entre 1 eti i2
n +m.
Un probleme se pose pour calculer la variance, car les covariances des
rangs ne sont pas nulles ; intuitivement, si un on sait que les rang de la ieme
variable estk, on a une informatio partielle sur le rang de lai+1eme, qui est
forcement superieur ak. Pour calculer ces covariances, on va d’abord etudier
la somme des rangs totaux, S . Pour cela on va de nir la variable globaleRT Pn+m (n+m)(n+m+1)
de rangT;i = 1::n +m, avecT =R[S. On aS = T .i RT ii=1 2
(n+m)(n+m+1)Cette variable est constante, on a doncE(S ) = etV(S ) =RT RT2
0. On va developper cette derniere egalite :
n+m n+mn+mX XX
V(S ) = 0 = V(T ) + cov(T;T )RT i i j
i=1 i=1 j=1
j=i
2 (27)(n +m) 1
0 = (n +m) + (n +m)(n +m 1)cov(T;T )i j
12
2((n +m) 1) (n +m + 1)
cov(T;T ) = =i j
12(n +m 1) 12
Le passage a la derniere ligne ayant lieu car les covariances sont toutes
egales et independantes de i;j. On peut le comprendre intuitivement en se
disant que le fait de xer un rang en particulier i ne fait que restreindre
l’espace des possibles pour les autres rangs, creant une relation entre eux,
mais n’ayant pas plus d’e et sur les rangs j >i que sur les rangs j <i.
On peut alors reprendre le calcul precedent en remplacant les covariances
par leur expression, les covariances calculees sur les T etant les m^emes quei
celles calculees sur les R :i
6
66n 2X (n +m) 1 (n +m + 1)
V( R ) =n n(n 1)( ) (28)i
12 12
i=1
1
= (n +m + 1) (n (n +m 1) n (n + 1)) (29)
12
nm(n +m + 1)
= : (30)
12
Cette statistique est directement utilisee dans le test de Wilcoxon. Pour
de petits echantillons, on peut calculer numeriquement, par permutations,
la probabilite pour un classement d’avoir une somme des rangs superieure
a n’importe quelle valeur { et dans ce cas le calcul de la moyenne et de la
variance ne sont qu’indica