57 pages

Français

Cours de Statistiques (2e partie)

Adrie - Henri Immediato

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

57 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

LICENCE ScientifiqueCours de Statistiques (2e partie) *Henri IMMEDIATO * Ce cours reprend dans ses grandes lignes le cours de Mme F. Duheille-Bienvenüe (MASS 42, 2001, Université Claude Bernard - Lyon 1) dont on n'a pu qu'apprécier la clarté et la concision. Chapitre 1. Méthodes de simulation d'un échantillon. Effectuer une simulation consiste à générer des données qui sont des réalisations de variables déterministes ou aléatoires selon des lois données, afin d'étudier et de comprendre le fonctionnement de systèmes économiques, industriels, scientifiques, politiques, etc. Exemples : simulation d'un trafic urbain, de gestion d'un hôpital, d'évolution d'une population, de variations boursières, etc. Une simulation permet de provoquer le déroulement d'une expérience de façon rapide et économique, et permet aussi d'éviter les dangers liés à la réalisation de certaines expériences à l'échelle réelle. Elle permet aussi de répéter l'expérience en faisant varier les paramètres. Enfin elle aide à l'élaboration de techniques de prévision et d'amélioration. 1.1. Méthodes de Monte-Carlo. 1.1.1. Principe d'une méthode de Monte-Carlo. Une méthode de Monte-Carlo consiste à calculer un échantillon de loi déterminée à partir d'un échantillon de loi uniforme (nombres choisis au hasard à l'aide d'une table de nombres au hasard, ou nombres pseudo-aléatoires générés par un logiciel). Rappelons qu'on appelle n-échantillon indépendant tout n-uple (X , ... , X ) de 1 ...

Informations

Publié par	Adrie
Nombre de lectures	184
Langue	Français

Extrait

LICENCE Scientifi ue Cours de Statistiques (2e partie) * Henri IMMEDIATO

* Ce cours reprend dans ses grandes lignes le cours de Mme F. Duheille-Bienvenüe (MASS 42, 2001, Université Claude Bernard - Lyon 1) dont on n'a pu qu'apprécier la clartéet la concision. Chapitre 1. Méthodes de simulation d'un échantillon. Effectuer une simulation consiste à générer des données qui sont des réalisations de variables déterministes ou aléatoires selon des lois données, afin d'étudier et de comprendre le fonctionnement de systèmes économiques, industriels, scientifiques, politiques, etc. Exemples : simulation d'un trafic urbain, de gestion d'un hôpital, d'évolution d'une population, de variations boursières, etc. Une simulation permet de provoquer le déroulement d'une expérience de façon rapide et économique, et permet aussi d'éviter les dangers liés à la réalisation de certaines expériences à l'échelle réelle. Elle permet aussi de répéter l'expérience en faisant varier les paramètres. Enfin elle aide à l'élaboration de techniques de prévision et d'amélioration. 1.1. Méthodes de Monte-Carlo. 1.1.1. Principe d'une méthode de Monte-Carlo. ne méthode de Monte-Carlo consiste àcalculer un échantillondeloi déterminéeà partir d'un échantillon deloi uniforme(nombres choisis au hasard à l'aide d'une table de nombres au hasard, ou nombres pseudo-aléatoires générés par un logiciel). Rappelons qu'on appellen-échantillon indépendant toutn-uple (X1, ... ,Xn) de variables aléatoires indépendantes et identiquement distribuées (c'est-à-dire de même loi), ou, si l'on aime les sigles ésotériques,VA iid. ésultat fondamental : pour une variable aléatoireUde loi uniforme, ou constante, sur l'intervalle [0, 1],XetFX1(U) ont lamême loi de probabilité. Condition : , fo e répartition deX, est une bijection deRsur ]0, 1[. FXnction d Etant donné un échantillonU1, ... ,U, de nombres choisis au hasard dans n 1 l'intervalle ] 0, 1 [, les variables aléatoiresFX(U1), ... ,FX1(Un), forment un échantillon de la loi deX. Cette méthode est utile pour : construire un échantillon de loi connue ermettant d'étudier

les paramètres d'un échantillon de loi inconnue, donner une estimation d'un paramètre, d'une constante, d'une intégrale, etc. 1.1.2. Application pratique de la méthode de Monte-Carlo avec la fonction de répartition. tant donnée une variable aléatoireX: on fixe a priori, à l'aide de la fonction de répartition deX, pour chaque nombre choisi au hasard, une valeur deX(c'est ce qu'on appelle latransformation par quantile). on tire au sortnnombres au hasard, on en déduitnvaleurs deXqui constituent la réalisation d'un échantillon deX. 1.1.2.1. Simulation d'une variable aléatoireXde Bernoulli de paramètrep. pour chaque nombreui, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend xi= 0 siui ∈[0, 1 p], xi= 1 siui ∈] 1 p, 1]. Cela revient à tracer un trait horizontal à l'ordonnéeuiet à regarder où il coupe la courbe représentative de la fonction de répartition deX, les points de discontinuité étant rejoints par un trait vertical : l'abscisse du point d'intersection est xi. (x 1, ... ,xn) est la réalisation d'unn-échantillon deX: P(X= 1) =P(U ∈] 1 p, 1]) =p. Remarque. Dès qu'on sait simuler une loi de Bernoulli, on sait simuler les lois qui en dérivent : loi géométrique (nombre d'épreuves pour arriver à un succès), somme de variables géométriques de même paramètre (nombre d'épreuves pour arriver àksuccès), loi inomiale nombre de succès enn .é reuves

Exemple (engendré avec la fonction ALEA d'Excel).

Uniforme sur [0;1] 0.175 0.693 0.162 0.822 0.024 0.051 0.720 0.882 0.069 0.797 0.489 0.206 0.675 0.546 0.880 0.086 0.346 0.986 0.604 0.005 Bernoulli (0.32)0 0 0 0 1 0 0 1 0 00 1 0 1 0 0 1 1 0 1 Geom*(0.32) 2 1 3 5 2 3 2 Somme de 2 Geom*(0.32) 4 4 7 Binom(20;0.32) 15 Uniforme sur [0;1] 0.133 0.230 0.802 0.210 0.351 0.806 0.850 0.238 0.282 0.166 0.371 0.332 0.521 0.115 0.751 0.428 0.999 0.065 0.516 0.533 Bernoulli (0.32)0 0 0 0 1 0 1 0 0 00 0 1 0 0 1 1 0 0 0 Geom*(0.32) 2 1 8 5 3 Somme de 2 Geom*(0.32) 10 8 4 Binom(20;0.32) 22 Uniforme sur [0;1] 0.497 0.008 0.407 0.815 0.800 0.168 0.795 0.552 0.383 0.331 0.366 0.036 0.804 0.604 0.340 0.372 0.002 0.036 0.753 0.561 Bernoulli (0.32)0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 Geom*(0.32) 7 1 2 6 6 (0.32) 8 8 Somme de 2 Geom* Binom(20;0. ) 16 32 Uniforme sur [0;1] 0.507 0.315 0.122 0.554 0.387 0.506 0.199 0.025 0.831 0.292 0.862 0.105 0.240 0.651 0.352 0.487 0.027 0.650 0.116 0.281 Bernoulli (0.32)0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 Geom*(0.32) 2 10 Somme de 2 Geom*(0.32) 16 Binom(20;0.32) Uniforme sur [0;1] 0.794 0.714 0.330 0.965 0.643 0.117 0.747 0.403 0.888 0.275 0.802 0.136 0.352 0.356 0.759 0.982 0.911 0.473 0.558 0.634 Bernoulli (0.32)1 1 0 1 0 0 1 0 1 0 1 0 0 0 1 1 1 0 0 0 Geom*(0.32) 4 1 1 3 2 210 1 2 Somme de 2 Geom*(0.32) 2 5 612 3 m(20;0.32) Bino

1.1.2.2. Simulation d'une variable aléatoireXde loi discrète à support borné ou non. pour chaque nombreui, 1≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend pour valeurxde ' du point cisse iX, l abs 'intersection de la droite d'ordonnéeua courbe représe di de la fonction deavec l ntative répartition deX. , (x 1... ,xn) est la réalisation d'unn-échantillon deX. 1.1.2.3. Simulation d'une variable aléatoireXde loi continue à support borné ou non. pour chaque nombreui, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend pour valeurxideX, l'abscisse du point d'intersection de la droite d euavec la courbe représentative de l 'ordonnéia fonction de répartition deX. ... ,x (x 1,n) est la réalisation d'unn-échantillon deX. Si la fonction de répartition n'est continue que par morceaux, on joint les points de discontinuité par des segments verticaux, la longueur du segment étant la probabilité de l'abscisse. 1.1.3. Autres applications pratiques de la méthode de Monte-Carlo. Comme il n'est pas toujours facile de déterminer la valeur dexià partir deuiet de la fonction de répartition deX, on utilise souvent des méthodes particulières à chaque type de loi. 1.1.3.1. Simulation d'une variable aléatoireXde loi géométrique surN* de paramètrep. On a vu plus haut comment procéder. Au lieu d'utiliser la fonction de répartition, on utilise la propriété de la loi géométrique surN* : c'est la loi de probabilité du nombre de répétitions d'une épreuve de Bernoulli qu'il faut pour atteindre un premier succès. On tire une suite de nombres au hasard dans l'intervalle [0, 1]. On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètrep, d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli. rmes x Dans cette suite, on compte lenombre de te 1qu'il faut pour atteindre un 1 (premier succès de l'épreuve de Bernoulli), puis le nombrex 2de termes suivants, qu'il faut our atteindre le 1 suivant, etc.

Lx a suite desiest un échantillon deloi géométriquesurN* de paramètrep. L'inconvénient de la méthode est qu'il faut en moyenne ombres aléatoiresuipour x engendrer une valeuri. L'avantage de la méthode est qu'elle dispense du calcul de logarithme nécessité par la fonction réci ro ue de la fonction de répartition de la loi géométrique : X= 1 + où [ ,x] désigne la partie entière dex.

1.1.3.2. Simulation d'une variable aléatoireXde loi binomiale de paramètresnet p. On a vu plus haut comme procéder. Au lieu d'utiliser la fonction de répartition, on utilise la propriété de la loi binomiale de paramètresnetp: c'est la loi de probabilité du nombre de succès dans la répétitionnfois d'une épreuve de Bernoulli. On tire une suite de nombres au hasard dans l'intervalle [0, 1]. On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètrep, d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli. Dans cette suite, on compte lenombre de succèsx1qu'on obtient ennépreuves, puis le nombrex 2de succès dans lesnépreuves suivantes, etc. La suite desxiest un échantillon de loi binomiale de paramètresnetp. L'inconvénient de la méthode est qu'il fa atoiresupour utnnombres aléi engendrer aleurx une vi. L'avantage de la méthode est qu'elle dispense du calcul de la fonction réciproque de la fonction de répartition de la loi binomiale. Méthode alternative. On tire une suite (ui)1≤ i ≤ n de nombres au hasard dans l'intervalle [0, 1]. Pour chaque indicei, on posey 1=ui, puis y= j +1

pour 1≤ j ≤ k 1. On désigne parxile nombre deyjcompris entre 1 pet 1. Explication. Cet algorithme revient à définir, à partir de la variable aléatoireUde loi uniforme sur [0, 1], d'abord une suite (Yj)1≤ j ≤ kde variables aléatoires à valeurs dans [0, 1] parY 1=U uis

Yj +1=1[0, 1 p](Yj) +1]1 p, 1](Yj) etX=1]1 p, 1](Yj).

Y 1=Usuit une loi uniforme sur [0, 1]. Donc la probabilité queY 1prenne une valeur dans un intervalle de longueuracontenu dans [0, 1] esta. ce, que la proba renne une valeur dans Supposons, hypothèse de récurren bilité queYjp un intervalle de longueuracontenu dans [0, 1] soita, pour touta ∈]0, 1[. D'après le dessin et la définition deYj +1,Yj +1est compris entrexetx+alorsqueYjest compris entrex(1 p) et (x+a)(1 p), ou entrep x+ (1 p) etp(x+a) + (1 p) : P[x<Yj+ 1 ≤ x + a] =P[x(1 p)≤ Yj ≤(x+a)(1 p)] +P[p x+ (1 p)≤ Yj ≤ p(x+ a) + (1 p)] =a(1 p) +a p=a. Donc l'hypothèse de récurrence est vraie encore pourj+ 1, dès qu'elle est vraie pourj. Le résultat est donc établi pour toutj ∈ N* puisqu'il est vrai pourj= 1 : La probabilité queYjprenne une valeur dans un intervalle de longueur contenu dans [0, 1] est égale àa, pour touta ∈]0, 1[. a La loi conjointe de1[0, 1 p](Yj) et1[0, 1 p](Yj+ 1) est donnée par : 1 1[0, 1 p](Yj+ 1) [0, 1 p](Yj)0 1 Total 0 ² 1 1 1 1 ² 1 Total 1 1 En effet, on connaît déjà les lois marginales d'après le résultat précédent. Il suffit donc de calculer une seule des quatre probabilités conjointes pour avoir les trois autres par différence. Calculons, par exemple : 1} | {1 P[{1[0, 1 p](Yj+ 1) = 1}{1[0, 1 p](Yj) = 1}] =P[{1[0, 1 p](Yj+ 1) =[0, 1 p](Yj) = 1}] ×P[{1[0, 1 p](Yj) = 1}] =P[0≤ Yj+ 1 ≤1 p} | {0≤ Yj ≤1 p}] ×P[{0≤ Yj ≤1 p}] Y P[0≤ Yj+ 1 ≤1 p} | {0≤ j ≤1 p}] = = 1 p P[{1[0, 1 p](Yj+ 1) = 1}{1[0, 1 p](Yj) = 1}] = (1 p) × (1 p) = (1 p) ². C'est bien la valeur indiquée dans le tableau des probabilités conjointes. Le tableau de la loi conjointe montre que les probabilités conjointes peuvent aussi s'obtenir par produit des lois marginales : atoires consécut ) sont donc deux variables alé ives1[0, 1 p](Yj) et1[0, 1 p](Yj+ 1 indé endantes.

On peut en déduire que les variables aléatoires1[0, 1 p](Yj) sont indépendantes dans leur ensemble (résultat admis ici) La variable aléatoireXsuit une loi binomiale de paramètresketp, parce queXest somme dekvariables aléatoires de Bernoulli indépendantes de paramètrep, car chaque variable aléatoire1]1 p, 1](Yj) est une variable de Bernoulli de paramètrep: P[1]1 p, 1](Yj) = 1] =P[1 p<Yj ≤1] = 1 (1 p) =p, pourj 1, d'après le résultat précédent. L u le .. ,x) forme ainsi une réalisation d'unn-échantillon de loi binomiale de en- p (x 1, .n paramètres ketp. L'avantage de la méthode est qu'il suffit d'une valeur deUpour définir une valeur deX. 1.1.3.3. Simulation d'une variable aléatoireX .de loi exponentielle de paramètre x). La densité de probabilité estf(x) = e x 1 R( + La fonction de répartition estF(x) = (1 e x)1 R(x). + La fonction réciproque de la fonction de répartition estF 1(u) = ln(1 u),u ∈] 0, 1 [. Pour chaque nombre aléatoireui ∈] 0, 1 [, on posexi= l n(1 ui). On obtient ainsi un échantillon de variable de loi exponentielle de paramètre. Remarque. Dès qu'on sait simuler une loi exponentielle, on sait simuler laloi Gammade paramètres netqui en découle :Y=X 1+ ... +Xn, oùX 1, ... ,Xn, suivent une loi exponentielle de même paramètre. 1.1.3.4. Simulation d'une variable aléatoireXde loi de Cauchy. La densité de probabilité estf(x .) = La fonction de répartition estF(x () =Arctan x+ . La fonction réciproque de la fonction de répartition estF 1(u) = tan( u = ) cotan( u). = Pour chaque nombre aléatoireui ∈] 0, 1 [, on posexicotan( ui). On obtient ainsi un échantillon de variable de loi de Cauchy.

1.2. Méthode de rejet de Von Neumann. 1.2.1. Méthode. On suppose que l'on sait simuler une variable aléatoireYde loi de probabilitég. On cherche à simuler une variable aléatoireXde densité de probabilitéf vérifiant f(x) =c h(x)g(x), avec 0≤ h(x)≤ 1, pour toutx. Laméthode de rejet de Von Neumannconsiste à : tirerUselon une loi uniforme sur [0, 1] ; tirerYselon la loi de densitég, jusqu'à ce queh(Y) U; puis recommencer : valeur deU, valeur deYjusqu'à ce queh(Y) U, ... Les valeurs retenuesxideYforment une réalisation d'un échantillon de loif. 1.2.2. Justification. Soit (Ui)i ∈ N*une suite de variables aléatoires indépendantes et identiquement distribuées de loi uniforme sur [0, 1]. Soit (Yi)i ∈ N*suite de variables aléatoires indépendantes et identiquement distribuées de loiune g, indépendante de la suite (Ui)i ∈ N*. SoitT our obtenir la condition d'acceptation de la valeur dele nombre d'essais nécessairesY. On peut écrireXsous la formeX=Yn 1{T=n}.

L'événement {T=n {} est la conjonction des événementsUi>h(Yi)} et {Un ≤ h(Yn)}. Or, pour tout indicej ∈ N*, on a :

= P[{Uj ≤ h(Yj)}] =u g(y)dy= (y)h(y)dy (y)dy=f(y) dy . =

n 1 De sorte que, par suite de l'indépendance des variables,P[{T=n .}] = × 1 Cette égalité qui montre queTsuit une loi géométriquesurN*, de paramètre .

La robabilité de l'événementX ≤ ar donnée : est

=Y 1 ≤ x n{T=n} [X ≤ x [{] =Yn ≤ x}{T=n}] n 1 = 1 P[{Yn ≤ x}{Un ≤ h(Yn)}] n 1 Or 1 = =c

Donc :

[X ≤ x] =c d(y)dy

=c(y)g(y)dy

=f(y)dy

Ceci montre queXest une variable aléatoire de densité de probabilitéf. Remarque. L'espérance mathématique deTestc. Pluscest petit, moins il faut d'essais, en moyenne, pour obtenir une valeur deX. On aura donc intérêt à prendre la plus petite valeur possible dec, par exemple celle qui fait que les courbes représentatives defet dec gsont tangentes. Application : simulation de la normale centrée réduite.

La densité de probabilité estf(x .) = On commence par simuler une variable aléatoireAayant pour densité de probabilité celle de la valeur absolue d'une variable normale centrée réduite. La densité de probabilité deAest de la formec h(x)g(x) avecc= ,g(x) =ex,h(x) =e

. est la densité de probabilité d'unevariable exponentiellede paramètre 1 : on sait la simuler (1.1.3.3). Laméthode de rejetde Von Neumann permet donc de simulerA. On sait simuler aussi unevariable discrète prenant .les valeurs 1 et 1 avec les probabilités La variable aléatoireX=Asuit une loinormale centrée réduite.

1.3. Méthode polaire de simulation d'une variable normale. SiUetVindépendantes de loi uniforme sur [0, 1], alors les variablessont des variables aléatoires X=cos(2 V) etY=sin(2 V) sont des variables aléatoires normales centrées réduites indépendantes. X Y² = 2ln U ² + U= tan(2 V) = V=Arctan

En effet, l'espérance d'une fonctionhdeXetYest donnée par :

[h(X,Y)] = (cos(2 V),sin(2 V))dU dV

= (x,y)dx dy

= (x,y)

dx dy

dx dy=h(x,y)

x dy

Et ceci montre que les variablesXetYsont indépendantes et suivent chacune la loi normale centrée réduite. Remarque. Dès qu'on sait simuler une variable aléatoireXde loi normale centrée réduite, on sait simuler les lois qui en découlent : loi normale de paramètres µ et² :Y= µ + X, oùXsuit une loi normale centrée réduite ; loi² deKarl Pearsonà degrés de liberté : ² =X 1² + ... +X ², oùX 1, ... ,X, suivent une loi normale centrée réduite.

loi deStudentà degrés de liberté :T= , oùXsuit une loi normale centrée réduite et

² une loi de Pearson à de és de liberté ;