STATISTIQUE MATHEMATIQUE

Publié par

C. Huber Master de Santé publique
M2 recherche








STATISTIQUE MATHEMATIQUE




PARTIE PRATIQUE 1 - 66

Table des matières au début (p. 1-2)



________________________________________




Tables statistiques T1 - T22




_________________________________________



PARTIE THEORIQUE 1 - 50

Table des matières à la fin (p. 49-50) 1

Table des matières
de la PARTIE PRATIQUE


Introduction 3

A Rappels de probabilités. Principes des tests et de l'estimation


A1 Calcul de probabilités et variables aléatoires réelles 3
A2 Lois de probabilité les plus utilisées 5
A2-1 Lois continues 5
a. Lois normales 5
b. Lois exponentielles 7
c. Lois gamma 7
d. Lois du chi deux 8
e. Lois béta 9
f. Lois de Fisher-Snedecor 10
g. Lois de Student 10
A2-2 Lois discrètes 10
a. Lois de Bernoulli 10
b. Lois binomiales 11
c. Lois multinomiales 11
d. Lois de Poisson 11
A2-3 Approximations 12
a. Approximation normale de la binomiale
b. Approximatiale d'une somme 13
c. Approximation de Poisson de la binomiale 13
d. Approximation normale du chi deux 14
A3 Principe des tests 14
A4 Principe de l'estimation et maximum de vraisemblance 15

B Tests d'ajustement

B1 Introduction 17
B2 Test d'ajustement du chi2 pour une loi spécifiée 17
a. cas discret 17
b. cas ...
Nombre de pages : 117
Voir plus Voir moins
C. Huber Master de Santé publique M2 recherche STATISTIQUE MATHEMATIQUE PARTIE PRATIQUE 1 - 66 Table des matières au début (p. 1-2) ________________________________________ Tables statistiques T1 - T22 _________________________________________ PARTIE THEORIQUE 1 - 50 Table des matières à la fin (p. 49-50) 1 Table des matières de la PARTIE PRATIQUE Introduction 3 A Rappels de probabilités. Principes des tests et de l'estimation A1 Calcul de probabilités et variables aléatoires réelles 3 A2 Lois de probabilité les plus utilisées 5 A2-1 Lois continues 5 a. Lois normales 5 b. Lois exponentielles 7 c. Lois gamma 7 d. Lois du chi deux 8 e. Lois béta 9 f. Lois de Fisher-Snedecor 10 g. Lois de Student 10 A2-2 Lois discrètes 10 a. Lois de Bernoulli 10 b. Lois binomiales 11 c. Lois multinomiales 11 d. Lois de Poisson 11 A2-3 Approximations 12 a. Approximation normale de la binomiale b. Approximatiale d'une somme 13 c. Approximation de Poisson de la binomiale 13 d. Approximation normale du chi deux 14 A3 Principe des tests 14 A4 Principe de l'estimation et maximum de vraisemblance 15 B Tests d'ajustement B1 Introduction 17 B2 Test d'ajustement du chi2 pour une loi spécifiée 17 a. cas discret 17 b. cas continu 18 B3 Test d'ajustement du chi2 avec estimation de paramètres 19 B4 Test de Kolmogorov-Smirnov pour un échantillon 23 C Mise en évidence de liaisons : tests d'indépendance C1 Cas de deux variables discrètes 25 a. à deux valeurs 25 b. à un nombre quelconque de valeurs 27 C2 Cas d'une variable continue et d'une variable à deux valeurs 29 a. Test de comparaison de moyennes 30 a1 grands échantillons 30 a2 petits échantillons 30 b. Tests non paramétriques 32 b1 Test de la médiane 33 C. Huber 2 b2 Test de Wilcoxon 35 b3 Test de Kolmogorov-Smirnov pour 2 échantillons 36 C3 Cas de deux variables continues 38 a. Couple normal : test du coefficient de corrélation 38 b. Cas général : tests non paramétriques 39 coefficient de corrélation des rangs de Spearman 39 cientation de Kendall 41 c. Intervention d'un troisième facteur 43 coefficient de corrélation partielle 43 D Tests non paramétriques pour comparer k échantillons 1 k échantillons indépendants 45 Test de la médiane généralisée 46 Analyse de la variance non paramétrique : test de Kruskal-Wallis 49 2 k échantillons liés : analyse de la variance NP à deux facteurs 52 Variables binaires: test de Cochran 52 Variables continues: test de Friedman 54 Exercices 57 Tables Normale T1 Student T2 Chi deux T3 T4 Kolmogorov-Smirnov pour un échantillon T5 Wilcoxon, Mann-Whitney T6 T7 T8 T9 T10 Spearman T11 Kolmogorov-Smirnov pour deux échantillons T12 T13 Kendall T14 Fisher-Snedecor T15 T16 T17 T18 Kruskal-Wallis T19 T20 Friedman T21 T22 C. Huber Rappels : Probabilités, principes des tests et de l'estimation 3 PARTIE PRATIQUE Introduction Nous rappelons dans cette première partie, plus pratique que celle qui suit: A. Les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. B. Les "Tests d'ajustement" qui traitent le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. C. Les "Tests d'homogénéité et d'indépendance", qui servent à mettre en évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple conduit à la comparaison de deux proportions observées, qui peut être considéré: - Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades et non-malades) : on se demande si le facteur de risque est présent dans la même proportion dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1. Les tests de comparaison de deux échantillons sont de trois types: - approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de l'échantillon est assez grande, - paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations. - non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui n'est pas toujours le cas.). D. Les tests non paramétriques d'analyse de variance destinés à comparer plus de deux échantillons dans le cas où ces échantillons sont liés et dans le cas où ils sont indépendants. C. Huber Rappels : Probabilités, principes des tests et de l'estimation 4 A Rappel de notions de probabilités. Principe des Tests et de l'estimation. A1 - Calcul des probabilités et variables aléatoires réelles Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu a. Ces événements seront notés A, B, C, D,... . Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B) . b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) c Si A ne se produit pas, c'est que c'est son complémentaire A dans E qui se produit : cP(A ) = 1 - P(A) c) Probabilité que A se produise sachant que B s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à B est notée P(A|B) et définie comme P(A|B) = P(A∩B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que c'est une figure ? d) Probabilité que A et B se produisent ensemble : C. Huber Rappels : Probabilités, principes des tests et de l'estimation 5 Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A∩B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on a P(A∩B) = P(A|B)P(B) = P(B|A)P(A) Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements : Si A et B sont indépendants , P(A∩B) = P(A) P(B), P(A|B) = P(A) , P(B|A) = P(B) . Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B. Espérance et variance d'une variable aléatoire réelle : Si X est une variable aléatoire réelle (v.a.r.), son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies : 1)Si X est discrète, telle que P(X = x ) = p , i = 1, 2, ..,k , son espérance EX et sa variance i i Var(X) sont respectivement : EX = Σ p x , i i 2 2 Var(X) = E [ (X - EX) ] = Σ p (x -EX) . i i Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) . 2) De même, si X est continue, de densité de probabilité f(x) au point x, 2EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX) f(x) dx et σ(X) = √ Var(X) . Propriétés de l'espérance et de la variance : - L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X + X + ... + X ) = E X + E X + ...+ E X . 1 2 n 1 2 n - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y), où cov(X,Y) vaut, par définition : cov(X,Y) = E(XY) - EX EY . Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y). Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette 4unité contre le centimètre, la covariance sera, comme le produit XY, multipliée par 10 . Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y: C. Huber Rappels : Probabilités, principes des tests et de l'estimation 6 ρ = cov(X,Y) / σ σ X Y A2 - Lois de probabilité les plus utilisées A2-1. Lois continues 2a) Lois normales N (µ, σ ) 2 Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ ) si sa densité de probabilité au point x vaut 2 1 (x - µ)f(x) = exp (- ),x∈ IR . 22πσ 2 σ 2 Alors, EX = µ, Var(X) = σ , et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z : 2 z -1 2ϕ(z) = e ,z ∈ IR . 2π On note Φ la fonction de répartition correspondante z Φ (z)= P(Z≤z)= ϕ(t)dt ∫−∞ Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute 2probabilité relative à une variable normale quelconque N (µ, σ ). En effet , si X suit la loi 2normale N(µ,σ ) P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ] Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes, leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes C. Huber Rappels : Probabilités, principes des tests et de l'estimation 7 2 2 2 L (X) = N(µ, σ ) L (X+Y) = N(µ, + µ', σ + σ' )⇒ 2L (Y) = N(µ', σ' ) Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si, pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(X,Y) soit nul. b) Lois exponentielles E (λ) La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à : - λx f(x) = λ e si x ≥ 0 , ( λ > 0 ) . = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut - λx F(x) = 1 - e , si x ≥ 0 ; = 0 , si x < 0 . 2 L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ - x - x En particulier, lorsque λ vaut 1, f(x) = e , F(x) = 1 - e , EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs : aλ a _1 −λx f (x)= x e x ≥0 a,λ Γ(a) où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ... 3. 2.1 . Γ (a) s'écrit ∞ -t a-1 Γ(a) = e t dt 0 C. Huber Rappels : Probabilités, principes des tests et de l'estimation 8 On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = √π . Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ) . La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : -tX ϕ(t) = E (e ) (par définition de la transformée de Laplace) X a λ a-1 −(λ+t)x∞= x e dx . 0Γ(a) a -1 λ (λ+t)a-1 −y∞= y e dy . 0 a-1Γ(a) (λ+t) a λ= a (λ+t) -t(X + Y) -tX -tYAlors ϕ (t) = E ( e ) = E ( e ) E ( e ) puisque X et Y sont indépendantes, X+Y ϕ a+b , et par conséquent (t) = (λ /( λ+t)) qui est la transformée de Laplace de la X + Y loi Γ(a+b, λ) . χ2 d) Lois du chi deux ( ) à n degrés de liberté χ2 C'est, par définition la loi Γ(n/2, 1/2) : = Γ(n/2, 1/2) . Donc sa densité de n probabilité est égale à 1 n / 2−1 −x / 2 f (x) = x e si x ≥ 0 n n / 22 Γ(n/ 2) n/2 Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] , soit - n/2 ϕ (t) = (2t + 1) . Théorème Soit Z , Z , ..., Z , n variables indépendantes de loi normale N(0,1). Alors la variable 1 2 n χ 2 2 2 2 = Ζ + Ζ + .... + Zn 1 2 n χ2 χ2 suit la loi du à n degrés de liberté (d.d.l.) , notée . n C. Huber Rappels : Probabilités, principes des tests et de l'estimation 9 démonstration: 2 D'après ce qui précède, il suffit de montrer que L (X ) = Γ(1/2 , 1/2) si X est normale -1/2N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) : 2 2 –t(X ) –x (t+1/2) –1/212ϕ (t) = E ( e ) = (1/ 2π) e =(2t+1) . X1 Moments χ 2 2 On voit sans calcul que E ( ) = 1, puisque cette moyenne est égale à celle de Z , c'est à 1 1 dire à la variance de Z , qui est de moyenne nulle, et de variance 1. De même, 1 χ 2 E ( ) = n . n χ 2k Pour calculer tous les moments, E( ) , il suffit de dériver la transformée de Laplace n ϕ χ 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la 1 démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette -3/2 χ 2fonction, on voit que ϕ ' (t) = (2t+1) = E( ) et que, de manière générale, la dérivée n d'ordre k vaut (k) - (k + 1/2) 2k -tx 2 2ϕ (t) = 1.3.5..(2k-1) (2t+1) = x e f(x ) d( x ) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k) χ 2k (0) = 1.3.5..(2k-1) E( ) 1 χ 2 χ 2 2 χ 2 2Par définition de la variance, on a Var( ) = E (( ) ) - (E ( )) = 3 − 1 = 2. Comme 1 1 1 2 l'indépendance de Z , Z ,...., Z entraîne l'indépendance de leurs carrés et que tous les Z1 2 n i χ 2 suivent la même loi du , on a immédiatement 1 χ 2 Var ( ) = 2 n . n e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si x1 a−1 b−1 P(β≤ x)=I (a,b) = y (1− y) dy x ∈[0 1] x ∫0B(a,b) Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est 1 a−1 b−1 f(x;a,b) = x (1− x) x ∈[0 1] B(a,b) C. Huber
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.