Coalescents échangeables et ﬂots de ponts

Shuwyur

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

54 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Coalescents échangeables et ﬂots de ponts
MÉMOIRE DE M2 RÉALISÉ SOUS LA DIRECTION D’AMAURY LAMBERT
Patrick Hoscheit
Soutenu le 15 janvier 2009Table des matières
1 Rappels 4
1.1 Modèles de population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Modèle de Cannings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 de Wright-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Partitions aléatoires échangeables . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Théorie des coalescents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Coalescent de Kingman . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 -coalescent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3 -coalescents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Représentations de généalogies . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Correspondance de Bertoin-Le Gall 23
2.1 Ponts échangeables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Construction de partitions aléatoires . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Théorème de correspondance . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 Construction poissonnienne du ﬂot associé à un -coalescent . . . . . . 30
2.4.1 Construction de Pitman . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.2 Limites de ﬂots simples . . . . . . . . . . . . . . . . . . . . . . . ...

Sujets

Modelé (géologie)

Loisy

Théorème de Rice

Ponts de Florence

D'une ombre à l'autre

Limite d'élasticité

Informations

Publié par	Shuwyur
Nombre de lectures	126
Langue	Français

Extrait

Coalescents échangeables et ﬂots de ponts

MÉMOIRE DEM2RÉALISÉ SOUS LA DIRECTION D’AMAURYLAMBERT

Patrick Hoscheit

Soutenu le 15 janvier 2009

Table des matières

1 Rappels 1.1 Modèles de population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Modèle de Cannings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Modèle de Wright-Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Partitions aléatoires échangeables . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Théorie des coalescents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Coalescent de Kingman . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2Λ . . . . . . . . . . . . . . . . . . . . . . . . -coalescent .. . . . . . . . 1.3.3Ξ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .-coalescents . 1.4 Représentations de généalogies . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Correspondance de Bertoin-Le Gall 2.1 Ponts échangeables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Construction de partitions aléatoires . . . . . . . . . . . . . . . . . . . . . . 2.3 Théorème de correspondance . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Construction poissonnienne du ﬂot associé à unΛ-coalescent . . . . . . 2.4.1 Construction de Pitman . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Limites de ﬂots simples . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Processus de Fleming-Viot 3.1 Théorie classique de Fleming-Viot . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Processus de Fleming-Viot généralisés . . . . . . . . . . . . . . . . . . . . . . 3.3 Application à la généalogie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 4 4 6 8 11 11 14 20 21 23 23 27 29 30 30 31 34 34 37 42

Introduction

Dans ce travail, nous nous proposons d’étudier deux formalisations mathéma-tiques de l’étude d’une population. En effet, cette étude peut se faire soit en remon-tant le temps, par exemple pour déduire d’une partition allélique donnée l’état de la population à un temps antérieur, soit en faisant avancer le temps pour prédire l’évo-lution future de cette population. La première modélisation de l’évolution du futur d’une population remonte à T. Malthus, dans son ouvrage[Mal78]qui propose de représenter le nombre d’humains sur Terre par une suite géométrique. Bien d’autres modèles ont suivi. Notons en parti-culier le premier modèle probabiliste, introduit indépendemment par I.-J. Bienaymé d’une part et F. Galton et H. Watson. Il visait à modéliser l’évolution des patronymes de la noblesse anglaise. Le modèle de Bienaymé-Galton-Watson est encore très utilisé de nos jours, en particulier à cause de sa simplicité. L’étape suivante fut franchie au début du XXe siècle par Yule, qui étudie des populations structurées (chaque individu possèdu une caractéristique, typiquement un allèleaouA) évoluant aléatoirement. De nombreuses études théoriques furent menées sur ce sujet, conduisant en particu-lier à l’importante loi de Hardy-Weinberg1et à la formulation du modèle de Wright-Fisher, que nous présenterons plus en détail. Dans le même ordre d’idées, on s’est intéressé à des processus aléatoires modélisant l’évolution d’une population représen-tée par une mesure de probabilités (une densité). C’est l’émergence dessuperprocessus, dont notamment le processus de Fleming-Viot. A l’inverse, on peut tenter de prédire la généalogie passée d’une population à par-tir de données concernant le présent. Un premier résultat dans ce sens est la formule d’échantillonnage d’Ewens qui donne sous certaines hypothèses la forme exacte de la partition allélique d’une population idéalisée. On a alors cherché à modéliser les as-cendances de populations issues des modèles de population cités plus haut. C’est l’idée du coalescent, introduit par Kingman dans l’article fondamental de 1982 ([Kin82b]). Ces concepts furent ensuite repris à la ﬁn des années 90 et donnent lieu à de nom-breuses études de nos jours. En particulier, dans ce travail, nous aimerions présenter une étude de ces deux su-jets simultanément : en effet, J. Bertoin et J.-F. Le Gall ont proposé un cadre de travail uniﬁé pour ces deux modélisations. Ainsi, ils ont introduit la notion de ﬂot de ponts : ce sont des familles d’applications sur[0,1], obéissant à des contraintes spéciﬁques vis-à-vis de la composition. L’objectif de ce travail est donc double : mettre en place les relations que les ﬂots de ponts entretiennent avec les processus généalogiques dé-crits plus haut et voir comment ils permettent de généraliser des propriétés connues jusqu’alors dans des cas particuliers. De plus, la plupart de ces résultats possèdent une 1. qui donne des conditions pour qu’une partition allélique soit à l’équilibre dans un modèle de Bienaymé-Galton-Watson

interprétation généalogique naturelle, que nous nous efforcerons de souligner. Ainsi, nous commencerons par rappeler les propriétés, maintenant classiques, de certains modèles de la génétique des populations, particulièrement les modèles de Cannings et de Wright-Fisher. Il s’agit de modélisations d’une population et d’une loi de reproduction. Ils ont la propriété d’être à taille de populationﬁxe: seuls certaines populations (les bactéries,...) peuvent être ainsi modélisées. L’analyse vers le futur de ces modèles recèle des mathématiques intéressantes : le modèle de Wright-Fisher est décrit dans l’approximation d’une grande population par une diffusion sur l’in-tervalle[0,1]. Nous nous intéresserons plutôt aux méthodes permettant d’analyser le passé, notamment les coalescents, en insistant sur l’interprétation généalogique qu’on peut leur prêter et leur apparition naturelle comme limite de processus ancestraux. Le coeur de notre travail est dans le chapitre 2. Il vise à mettre en place la corres-pondance, établie par Bertoin et Le Gall dans[BLG03], entre ﬂots de ponts échan-geables etΞ-coalescents (théorème 35). Il sera intéressant d’en étudier un cas particu-lier (lesΛ-coalescents) pour lequel les ﬂots de ponts prennent une forme particulière-ment simple (théorème 39). Enﬁn, nous nous intéresserons aux possibilités d’utilisation des ﬂots de ponts (et des processus à valeurs de mesures associés) pour modéliser l’évolution future d une ’ population. Comme nous l’avons déjà dit, l’idée n’est pas neuve. Aussi, nous com-mencerons par expliquer les bases de la théorie des processus de Fleming-Viot. En-suite, nous exposerons la généralisation qu’en proposent Bertoin et Le Gall. En parti-culier, nous montrerons comment, à l’instar des processus de Fleming-Viot classiques, ces processus généralisés se caractérisent par un problème de martingale, notion in-troduite par Stroock et Varadhan (théorème 47). Ce travail nous permettra aussi de généraliser la dualité connue entre processus de Fleming-Viot et coalescent de King-man (théorème 53). Un appendice propose, sans démonstration, un certain nombre de résultats tech-niques d’usage constant dans tout le travail, concernant en particulier la topologie de Skorokhod et le théorie de la convergence faible dans les espaces métriques. Je tiens évidemment à remercier pour sa patience et sa disponibilité Amaury Lam-bert, qui m’a fait découvrir la génétique des populations, particulièrement le beau sujet des coalescents. Merci aussi à Jean-François Le Gall, qui m’a fait rencontrer Amaury Lambert, et surtout merci à Jean Bertoin, mon tuteur attentif depuis deux ans.

Chapitre 1

Rappels

1.1 Modèles de population 1.1.1 Modèle de Cannings Le modèle de Cannings est une représentation stochastique de la généalogie d’une population de taille ﬁnie et ﬁxée. Historiquement, ce modèle est apparu comme gé-néralisation du modèle de Wright-Fisher, que nous présentons plus loin. Il permet d’étudier de façon très simple la dynamique de la proportion d’un allèle dans une population de gènes. SoitN≥1 un entier, correspondant à la taille de la population. Les individus à l’instantndonnent naissance –en temps discret– aux individus de la génération suivante. C’est un modèlehaploïde parent., dans lequel chaque individu n’a qu un ’ Plus précisément, on noteηn,ile nombre d’enfants de l’individuide la générationn. On met sur ces variables les conditions suivantes : Hypothèse 1.On dit que(ηk,i,k∈Z,i∈J1,NK)est de Cannings si – La population est de taille constante :∀k∈Z,ηk,1+...+ηk,N=N – Pour tout k, les variables(ηk,1, ...,ηk,N)sontéchangeables – Les vecteurs(ηk1, ...,ηk,N)pour k∈Zsont iid. , L’échangeabilité est une généralisation de l’indépendance et se déﬁnit ainsi : Déﬁnition 2.On dit que les variables(X1, ...,Xn)sontéchangeablessi, pour tout σ∈Sn, les vecteurs(X1, ...,Xn)et(Xσ(1), ...,Xσ(n))ont la même loi. On dit qu’une suite(Xi)i≥1de variables aléatoires est échangeable si pour tout n, les X1, ...,Xnsont échangeables. Une suite de variables iid est échangeable, et, siP(X1+...+Xn=x)>0 pour un certainx, conditionnellement à cet événement, elles sont encore échangeables. Donnons quelques propriétés supplémentaires, qui seront utiles plus loin (on pourra trouver un panorama assez complet de l’échangeabilité dans[Ald85]). Le théorème essentiel est le théorème de de Finetti : Théorème 3.(de Finetti) Soit(Xn)n≥1suite de v.a réelles, échangeables. Il existeune alors une mesure de probabilités aléatoire F surR les ,telle que conditionnellement à F (Xn)sont iid de loi F .

Démonstration.PosonsGn=σ(f(X1, ...,Xn),fetm´syiruqe)etHn=σ(Gn,Xn+1, ...). La suite(Hn)n≥1est alors une ﬁltration rétrograde. Par échangeabilité, siYestHn-mesurable, siϕest borélienne, alors(ϕ(X1, ...,Xn),Y)a la même loi que(ϕ(Xσ(1), ...,Xσ(n)),Y) pourσ∈Sn. Ainsi, siϕest borélienne, en appliquant ce résultat à la permutation 1↔i, on a E(ϕ(X1)|Hn) =E(ϕ(Xi)|Hn)pour 1≤i≤n 1n =E(niX=1ϕ(Xi)|Hn) =1nXϕ(Xi) ni=1 puisquen1Pni=1ϕ(Xi)estGn- doncHn-mesurable. Ainsi,(n1Pin=1ϕ(Xi))n≥1est une Hnqui converge p.s. (car elle est fermée) vers-martingale rétrograde, E(ϕ(X1)|H∞), où ∞ H∞=\Hn n=1 est la tribu échangeable. Le même argument que plus haut montre que sik<n, siϕ est mesurable bornée, =1X..,Xjk) E(ϕ(X1, ...,Xk)|Hn()n)k(j1,...,jk)∈Dk,nϕ(Xj1, . oùDk,={(j1, ...,jk)∈J1,nKk,jitous distincts}, qui est de cardinal(n)k=n(n− n 1)...(n−k+1). En utilisant encore une fois la convergence p.s. d’une martingale rétrograde fer-mée, ainsi que le fait que pourkﬁxé,|J1,nKk−Dk,n|=O(nk−1), on voit que 1Xn...nX njk1=1jk=1ϕ(Xj1, ...,Xjk)−→E(ϕ(X1, ...,Xk)|H∞)p.s. En appliquant ce résultat àϕ(x1, ...,xk) =ϕ1(x1)...ϕk(xk), on obtient que n 1kX...Xnϕ1(Xj1)...ϕk(Xjk)−→E(ϕ1(X1)...ϕk(Xk)|H∞)p.s. nj1=1jk=1 Or, le terme de gauche se factorise en(1/nPϕ1(Xi))...(1/nPϕk(Xi)), qui converge a (d’ près la convergence unidimensionnelle démontrée plus haut) versE(ϕ1(X1)|H∞)...E(ϕk(Xk)|H∞). Ceci montre donc bien que la suite(Xi)est indépendante conditionnellement àH∞. En prenant alors pourFune loi conditionnelle deX1sachantH∞(qui existe, les v.a étant réelles), il est facile de vériﬁer que, conditionnellement àF, les(Xi)sont iid de loiF. Supposons à présent que l’on étudie l’évolution d’un gène dans cette population, et que ce gène possède deux allèles, notés traditionnellementaetA. NotonsYnle nombre d’individus porteurs de l’allèleaà la générationnet soitPyla mesure condi-tionnelleP(.|Y0=y). La proposition suivante découle immédiatement de la déﬁni-tion du modèle de Cannings. 5

Proposition 4.Le processus(Yn)n≥0est une chaîne de Markov sur l’espace{0, ...,N}. En luant le c exc as oùηk,i=1p.s., cette chaîne ne possède que deux états absorbants, 0 et N qui sont tous deux accessibles. Par conséquent, si on noteτ=inf{n≥0,Yn∈ {0,N}}, on aτ <∞p.s. On dit qu’il y aﬁxationsiYτ=Net qu’il y aextinctionsiYτ=0. On peut calculer les probabilités de ﬁxation : Proposition 5.On aPy(Fix) =yN Démonstration.Remarquons d’abord que, dans la ﬁltrationFn=σ(ηk,1, ...,ηk,N, 0≤ k≤n),(Yn)est une martingale : conditionnellement àYn, par échangeabilité,Yn+1a la même loi quePYi=n1ηn,i. Comme de plus,E(ηk,i) =1, en conditionnant,Ey(Yn+1|Fn) = Yn. En appliquant alors le théorème d’arrêt à la martingale bornée(Yn), on obtient y=Ey(Yτ) =Ey(N1Yτ=N+0∙1Yτ=0) =NPy(Fix)

Il y a peu de résultats généraux concernant le modèle de Cannings, la plupart des études étant consacrées aux modèles de Wright-Fisher et de Moran. Mentionnons quand même le résultat central de Cannings ([Can74]) qui donne les valeurs propres de la matrice de transition associée à(Yn)n≥0en fonction de la loi de reproduction. Théorème 6.P est la matrice de transition de YSi net si|λ0| ≥ |λ1| ≥...≥ |λN|sont ses valeurs propres, alorsλ0=λ1=1(correspondant aux états absorbants 0 et N) et, pour j≥2, λj=E(η1η2...ηj)(1.1) En particulier, on peut remarquer que siσ2=Var(η), on aλ2=E(η1η2) = 1−σ2/(N−1). Il est alors facile de voir quePy(τ >n)décroît comme une suite géométrique de raisonλ2, ce qui donne une idée du temps de disparition d’un des deux allèles. En effet, siPn= (pjin), on a la forme asymptotique, sij∈/{0,N}, pnyj=r2yl2jλn2+O(λ3n) (avecretlles vecteurs propres à droite et à gauche respectivement). Ainsi,Py(τ > n)est de l’ordre deλn2. Le coefﬁcientλ2indique donc bien la vitesse de convergence vers la mesure invariante du modèle de Cannings. 1.1.2 Modèle de Wright-Fisher Le modèle de Wright-Fisher est un cas particulier du modèle de Cannings : il correspond au cas où les(ηk,1, ...,ηk,N)suivent une loi multinomiale de paramètres (N ;1/N,...,1/N). En d’autres termes, si on ai1+...+iN=N, N! 1 P(ηk,1=i1, ...,ηk,N=iN) =i1!...in!NN(1.2) Cette loi multinomiale correspond au résultat du tirage avec remise deNboules dans une urne comportantNboules différentes. Le modèle de Wright-Fisher peut 6

donc aussi s’interpréter comme résultant du tirage par chaque individu de la généra-tionn+1 de son père parmi la générationn, de façon uniforme et indépendante. Quitte à renuméroter, on peut supposer, par échangeabilité, que les descendants de l’individuià la générationnsont exactement les individusηn,1+...+ηn,i−1+ 1, ...,ηn,1+...+ηn,i.

FIGURE1.1 – Une réalisation du modèle de Wright-Fisher Si on reprend l’étude du processus(Yn)déﬁni au paragraphe précédent, on voit immédiatement grâce à l’interprétation en termes de tirages aléatoires, que condition-nellement àYn=j,Yn+1suit une loi binomiale de paramètres(N,j/N): P(Yn+1=i|Yn=j) =iNNji1−jNN−i(1.3) On peut montrer que la plupart des quantités associées au modèle de Wright-Fisher prennent en fait une forme plus simple lorsqueN→ ∞, c’est-à-dire dans la limite desgrandes populations. Par exemple, il n’est pas difﬁcile de voir que si l’on note(YnN)n≥1la chaîne de Markov décrivant l’évolution d’une sous-population de taille initialei, le processus(YNn)converge lorsqueN→ ∞. Théorème 7.La suite de processus(YNn)converge faiblement en loi vers un processus de Bienaymé-Galton-Watson Pn, de loi de reproduction poissonnienne de paramètre 1. Démonstration.Ceci découle en effet du théorème des événements rares, qui donne la convergence faible de la loi binomiale Bin(N,i/N)vers la loi de Poisson de paramètre i. Ceci nous donne la convergence en loi des lois ﬁni-dimensionnelles, qui sufﬁt pour prouver le résultat. Jusqu’à présent, nous avons donné des résultats qui traitent du futur, c’est-à-dire de la descendance d’une population. Or, en pratique, ce genre de problème est aussi (ou même moins) important que le problème inverse : à partir de données présentes, comment étudier le passé ? Ce sont les problèmes essentiels des généticiens, cherchant par exemple à construire des arbres phylogénétiques à partir de données génétiques disponibles aujourd’hui. Nous allons nous servir des processus ancestraux, déﬁnis comme suit : Déﬁnition 8.Le processus ancestral d’un modèle de Wright-Fisher de taille de population N est le processus aléatoire(RnN)n∈N, oùRnNest la relation d’équivalence surJ1,NK, déﬁnie par i∼j⇔ietjont le meˆme ancˆetre il y an´engseirona´t

Il faut ici se représenter le processus ancestral comme coalescence : dans un arbre généalogique, lu en remontant le temps, deux individus avec le même père « coa-gulent »pour former ce père. Essayons de donner une idée des processus ancestraux du modèle de Wright-Fisher et de leur comportement lorsque la taille de la population tend vers l’inﬁni. Pour une analyse rigoureuse, voir ([Kin82a]) ou encore ([Tav04]). Comme les choix de parents sont indépendants et uniformes, P(1 et 2 n0ont pas le meˆere`pem) =1−N1 Ainsi, la bonne échelle de temps pour observer l’ancêtre commun à 1 et 2 estN. Comme le même procédé de choix s’applique pour les pères, indépendemment du procédé de choix précédent, on peut itérer cet argument et on voit que P(1 et 2 n0ont pas le mˆeme ancˆetre il y arragt´ieonn´se) =1−N1r Dans l’échelle de tempsr=N t, siN→ ∞, le terme de droite converge vers exp(−t). En interprétant le terme de gauche comme la fonction de répartition du temps d’ap-parition du premier ancêtre commun, on voit que celui-ci possède, dans la limite des grandes populations, une loi exponentielle de paramètre 1. Si l’on répète le raison-nement pour tout couple d’individus, la limite sera la même, et les variables limites indépendantes, puisque les choix de parents le seront. Ainsi, le temps d’apparition du premier ancêtre commun àkindividus, dans la limite d’une population de taille N→ ∞, est1une variable exponentielle de paramètre2k(minimum de2kv.a expo-nentielles indépendantes de paramètre 1). Par indépendance des lois de reproduction dans le temps, on peut poursuivre cette analyse avec la population dek−1 individus obtenus, qui va admettre un ancêtre commun au bout d’un temps de loi exponentielle de paramètrek−12. On peut en fait décrire le processus limite, qui représente de manière plus précise la généalogie ancestrale d’un échantillon de tailleklorsque la population totale tend vers l’inﬁni. Il s’agit d’un processus de Markov, à valeurs dans l’espace des partitions deJ1,kK, qui saute depuis une partition àkblocs vers une partition à(k−1)blocs à vitesse2k. C’est lek-coalescent de Kingman. Avant d’en donner une description plus complète, étudions les lois sur l’espace des partitions. 1.2 Partitions aléatoires échangeables Dans toute la suite, pour toutn∈N, on noteraPnl’espace des partitions de J1,nKétend la notation pour désigner par. On P∞l’ensemble de toutes les partitions deN. SiΠest une partition deN, on noteraρnΠla partition deJ1,nKobtenue par restriction. Par abus de notation, on s’autorisera à écrire encoreρnΠlorsqueΠest une partition deJ1,mKavecm≥n. L’ensemblePn(n≤ ∞est ordonné par l’inclusion : on notera) τ⊆σsi les éléments deτpeuvent s’écrire comme union d’éléments deσ. On peut déﬁnir une autre relation surPnpar : siσ,τ∈ Pn, on noteστsiσest obtenue à partir deτ en fusionnant exactement deux éléments. 1. sous réserve d’un raisonnement plus précis

Déﬁnition 9.Soientσ,τdeux partitions deN. Notons(Ai)i∈N(resp.(Bi)i∈N) les blocs deσ(resp. deτ). Lacoagulationdeσparτest alors la partition dont les blocs sont les ensembles Ci=[Aj(1.4) j∈Bi Pour munirP∞d’une topologie, on identiﬁe une partitionΠavec le vecteur (ρ1Π,ρ2Π, ...). On munit alorsP∞de la topologie induite sur cet espace par la topo-logie produit deP1× P2×..., qui en fait évidemment un espace compact. On métrise cet espace par la distance classique d(σ,τ) =2−inf{n∈N,ρnσ6=ρnτ} On peut remarquer que siπest une partition deN, alors l’opération de coagulation parπest continue surP∞. On peut alors déﬁnir les partitions aléatoires qui sont les variables aléatoires à valeurs dans l’espaceP∞. Déﬁnition 10.Une partition aléatoire échangeable est une variable aléatoireΠà va-leurs dans l’espace des partitionsP∞telle que, pour tout n≥1, si{A1, ...,Ap}est une partition deJ1,nK, avec|A1|=k1, ...,|Ap|=kp, alors on a P(ρnΠ ={A1, ...,Ap}) =ψ(k1, ...,kp) pour une certaine fonctionψsymétrique. Proposition 11.SiΠest une telle partition, les fréquences asymptotiques An fi=lim|i|(1.5) n→∞n existent presque sûrement, où l’on a noté Ain plus grand bloc de la restriction de -èmele i ΠàJ1,nK. Démonstration.Sur le même espace de probabilité, soit(Ui)une suite iid de v.a. uni-formes sur[0, 1], indépendantes deΠ. Si on ordonne les blocs deΠsuivant leur plus petit élémentA1, ..., posonsXn=Uisin∈Ai. La suite(Xn)n≥1est alors échangeable. Il existe donc une mesure aléatoireFsur[0,1]telle que, conditionnellement àF, les (Xn)sont iid de loiF. En notantFnles mesures empiriques 1n Fn(r) =X1Xi≤r ni=1 on voit en combinant le théorème de de Finetti et le théorème de Glivenko-Cantelli2 que, conditionnellement àF, la suite de fonctions(Fn)converge uniformément vers la fonction de répartition deF, presque sûrement. Or, on a, pour toutn, en regroupant ensemble lesXicorrespondant aux blocs de ρnΠrangés par cardinal décroissant, Fn(r) =n|Ani| 1X1∞n1Uˆn,i≤r ni=1Xi≤r=i=X1(1.6) 2. Si(Xn)est une suite de v.a. iid, les mesures empiriquesn−1Pk≤n1Xk≤∙convergent uniformément surRvers la fonction de répartition de leur loi commune, presque sûrement. 9

ˆ ˆ où les(Un,i)i≥1sont un certain réordonnement des(Ui)(Un,i=Ujsijest l’indice deAindans la suite des blocsρnA1, ... ordonnée suivant le plus petit élément). Par convergence uniforme, on voit alors que|Ain|/n, qui est lei-ème plus grand saut de Fnconverge p.s. vers lei-ème plus grand saut de la fonction de répartition deF. Les fréquencesf= (f1, ...)forment une famille de réels positifs, telle quePfi≤1, par le lemme de Fatou. C’est la famille desfréquences asymptotiquesde la partition aléatoireΠ. Déﬁnition 12.On noteS↓={(xi)∈R+N,x1≥x2≥...≥0 etPxi≤1}. On vériﬁe facilement, commeS↓est un sous-espace fermé de[0, 1]N, que, muni de la topologie de la convergence uniforme,S↓est un espace compact. La famille des fréquences asymptotiques d’une partition aléatoire échangeable constitue un élément aléatoire deS↓. Si de plusPfi=1, on dit queΠpossède des fréquencespropreset ¯ on notef∈ S↓. On peut, de façon simple, associer à un élément deS↓une partition aléatoire deN. Sif∈ S↓, on se donne une famille(Un)de v.a à valeurs dansN, iid de loi donnée parP(Un=k) =fketP(Un=0) =1−Pfi. Ensuite, on déﬁnit une partition aléatoireπ(f)par i∼j⇔Ui6=0 etUj6=0 etUi=Uj Il est clair que la partitionπ(f)est échangeable, puisque lesUnsont iid. NotonsPfla loi de cette partition. Ce procédé, classique, est dû à Kingman ([Kin82b]). On l’ap-pelle procédé des boîtes de peinture (paintbox scheme), puisqu’on peut se représenter les valeurs prises par les(Un)comme différentescouleursen lesquelles on a peintN. En particulier, les entiers tels queUn=0 constituent un ensemble de singletons dans la partitionπ(f), appellée « poussière ». Si maintenant on choisitfaléatoire dansS↓, de loiQ, alors on obtient une parti-tion aléatoire échangeable de loi P=ZQ(df)Pf(1.7) En fait, dans l’article original, Kingman démontre que toutes les partitions aléa-toires échangeables sont de cette forme, des mélanges aléatoires de boîtes de peinture. Théorème 13.(Kingman) SiΠest une partition échangeable aléatoire, sifsont ses fré-quences asymptotiques, alors la loi deΠconditionnellement àfestPfet donc la loi deΠ est donnée par (1.7). Démonstration.Reprenons la démonstration de la proposition 11. NotonsBla fonc-tion de répartition deFque la suite décroissante des sauts de. Remarquons Ba la même loi quef. Soit alors une suite iid(Vi)de variables uniformes sur[0,1], indé-pendante deF. Conditionnellement àF, la suite(B−1(V1), ...)est alors iid, de loiF, c es e ’ t-à-dire que cette suite a la même loi que la suite(X1, ...). CommΠest la parti-tion deNdont les blocs sont les indicesitels que lesXisont égaux, on voit que deux entiersietjsont dans le même bloc deΠsi et seulement siB−1(Vi) =B−1(Vj). Or, on voit facilement3que, vu la répartition des masses des atomes deF, la partition aléatoire déﬁnie parB−1(Vi) =B−1(Vj)bien une boîte de peinture engendrée parest les fréquencesf. 3. Cette construction sera reprise en détail dans le chapitre 2 : on peut l’étendre et elle forme la base de la correspondance de Bertoin-Le Gall 10