Idee generale x P( ) Statistique Bayesienne 1 x est l’observation Connue 2 le parametre inconnu, a estimerAnne Philippe Laboratoire de Mathematiques Jean Leray Universite de Nantes Automne 2007 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 1 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 2 / 1 Idee generale Quelques references 1 Congdon, Peter Applied Bayesian modelling. Wiley Series in Probability and Statistics. D’ou ca vient? 2 Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Fondement des probabilites (debut du 20 ) ”Bayesian Data Analysis”Chapman and Hall Texts in Statistical - Frequentiste Science Series. - Subjectiviste 3 C.P. Robert The Bayesian Choice : from Decision-Theoretic - Logiciste Motivations to Computational Implementation (2001) Kolmogorov : esperance conditionnelle Springer-Verlag, New York 4 C.P. Robert et G. Casella Monte Carlo Statistical Methods (1999) Springer-Verlag, New York. A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 3 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 4 / 1Problematique Problematique Modele parametrique Observations x ,...,x1 n x = (x ,...,x ) f (x), ∈ est inconnu1 n Objectif on veut estimer le parametre a partir de l’echantillon x ,...x .1 n Exemple 2 2Observations suivant la loi normaleN(m, ) avec = (m, ) A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 5 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 6 / ...
Idee generale
x P( )
Statistique Bayesienne
1 x est l’observation Connue
2 le parametre inconnu, a estimerAnne Philippe
Laboratoire de Mathematiques Jean Leray
Universite de Nantes
Automne 2007
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 1 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 2 / 1
Idee generale Quelques references
1 Congdon, Peter Applied Bayesian modelling. Wiley Series in
Probability and Statistics.
D’ou ca vient?
2 Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin.
Fondement des probabilites (debut du 20 )
”Bayesian Data Analysis”Chapman and Hall Texts in Statistical
- Frequentiste Science Series.
- Subjectiviste
3 C.P. Robert The Bayesian Choice : from Decision-Theoretic
- Logiciste
Motivations to Computational Implementation (2001)
Kolmogorov : esperance conditionnelle Springer-Verlag, New York
4 C.P. Robert et G. Casella Monte Carlo Statistical Methods (1999)
Springer-Verlag, New York.
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 3 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 4 / 1Problematique Problematique
Modele parametrique
Observations x ,...,x1 n
x = (x ,...,x ) f (x), ∈ est inconnu1 n
Objectif
on veut estimer le parametre a partir de l’echantillon x ,...x .1 n
Exemple
2 2Observations suivant la loi normaleN(m, ) avec = (m, )
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 5 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 6 / 1
Problematique Problematique
Une approche classique : le maximum de vraisemblance Modele de Poisson
Poisson dataset,* represente la moyenne vraisemblance
+la vraisemblance : c’est une fonction de dans R
‘( )∝ f (x)
0 2 4 6 8 1 2 3 4 5
x lambda
On cherche la valeur de qui maximise la vraisemblance.
c’est a dire on cherche la valeur de qui rend l’observation de x la plus
probable.
2 4 6 8
Index
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 7 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 8 / 1
dpois(z, 1)
0.0
0.1
0.2
0.3
0
2
4
6
8
10
ell <− l(lambda, n, x)
0e+00
2e+05
4e+05
6e+05
8e+056
Problematique Problematique
Approche bayesienne Theoreme de Bayes
Incertitude sur le parametre est representee par une probabilite
sur .
A et E des evenements P(E) = 0,
Le parametre inconnu devient une variable aleatoire comme les P(A|E) et P(E|A) sont liees par la relation
observations
P(A)
P(A|E) = P(E|A)
P(E)
De nition
Inversion des probabilitesest la loi a priori sur .
Thomas Bayes, 1764On interprete la loi des observations f comme la loi conditionnelle des
observations sachant
f(x| ) = f (x)
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 9 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 10 / 1
Problematique Problematique
Inference Bayesienne
Modele a priori
La loi a priori sur :
+ ( , ( ))
Observations suivant une loi f(x| )
↓⇓
modele sur les observationsOn extrait des observations une information sur
On actualise la loi sur a partir des observations
(X,f(x| ))
( ) ↓
( |x) = f(x| ) .
Modele a posteriorim(x)
( , ( |x))De nition
La loi conditionnelle de sachant les observations x est appelee loi a
posteriori
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 11 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 12 / 1Problematique Problematique
Pieces conformes Traduction Bayesienne
Loi a priori sur p : p U([0,1])
(p) = I (p)[0,1]
X represente le nombre de pieces non-conformes dans un lot de taille
Observation X : X B(n,p)
n.
La proportion p de pieces non conformes est inconnue n x n xP(X = x|p) = p (1 p)
x
Question
Loi a posteriori sur p : p|x Be(x +1,n x +1)Etant donne X, que peut on dire de p?
loi Beta
x n x(p|X = x)∝ P(X = x|p) (p) = p (1 p) I (p)[0,1]
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 13 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 14 / 1
Problematique Problematique
a abLoi Beta x Be(a,b), E(x) = et Var(x) = 2a+b (a+b) (a+b+1)
0.5 0.5 0.5 0.5 1 3 15
1 loi a priori sur p : loi uniforme
1la moyenne de p vaut
2
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8
2 On observe x nombre de pieces defectueuses
1 1 1 1
0.5 3 15
⇓
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8 3 loi a posteriori sur p : loi beta
3 3 3 3
0.5 1 15 la moyenne de p sachant x vaut
x +1 1 n x
E(p|x) = = +
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8 n+2 2 2(n+1) n+2
15 15 15 15
0.5 1 3
0.0 0.8 0.0 0.8 0.0 0.8 0.0 0.8
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 15 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 16 / 1
deta dist
deta dist
deta dist
deta dist
0
5
10
15
0
2
4
6
8
1
2
3
4
5
1.0
2.0
3.0
deta dist
deta dist
deta dist
deta dist
0
5
10
15
0.0
1.0
2.0
3.0
0.6
0.8
1.0
1.2
1.4
1
2
3
4
5
deta dist
deta dist
deta dist
deta dist
0
1
2
3
4
5
0.0
0.5
1.0
1.5
0.0
1.0
2.0
3.0
0
2
4
6
8
deta dist
deta dist
deta dist
deta dist
0
1
2
3
4
0
1
2
3
4
5
0
5
10
15
0
5
10
15Problematique Problematique
la loi a priori uniforme suite des lois a posteriori quand le nb observations (n) loi a priori favorisant p < 1/2 ou p > 1/2
varie
a priori 5 10
a priori 100 200
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
p p p
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
15 20 25
p p p
300 400 500
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
p p p
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
30 35 40p p p
600 700 800
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
p p p
0.0 0.4 0.8 0.0 0.4 0.8 0.0 0.4 0.8
p p p
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 17 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 18 / 1
Problematique Problematique
Les lois qui interviennent ... Evolution de l’information sur
On se donne f(x| ) et ( )
( ) [a priori] + x ,...x f(x| ) [n mesures]0 1 nla loi jointe de ( ,x),
⇓
ϕ( ,x) = f(x| ) ( ); |x ( |x ,...x ) [a posteriori]n 1 n
la loi marginale de x, Updater
Z Z
( |x ,...x ) [a priori]m(x) = ϕ( ,x)d = f(x| ) ( )d ; n 1 n
La loi a posteriori a l’etape n devient la loi a priori
+la loi a posteriori de ,
x f(x| ) [nouvelle observation ]n+1
f(x| ) ( ) ⇓
( |x) = ;
m(x) |x ( |x ,...x ,x ) [a posteriori]n 1 n n+1
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 19 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 20 / 1
(p + 1)/(p + 1)
0
5
10
15
20
0
5
10
15
0.6
0.8
1.0
1.2
1.4
0
5
10
15
20
0
5
10
15
0
2
4
6
8
0
5
10
15
20
0
5
10
15
0
2
4
6
8
10
12
dbeta(p, 2, 5)
0
1
2
3
4
5
0
1
2
3
4
0.0
0.5
1.0
1.5
2.0
2.5
0
1
2
3
4
5
0
1
2
3
4
0.0
0.5
1.0
1.5
2.0
2.5
0
1
2
3
4
5
0
1
2
3
4
0.0
0.5
1.0
1.5
2.0
2.5
3.0loi a priori loi a priori
Choix de la loi a priori
On dispose d’informations sur
Question
Comment traduire cette information en loi a priori?
Question
Comment traduire la qualite de cette information?
!!! cas limite!!! : la loi a priori est concentree sur{ }0
( |x) ( )
Absence d’information : Approche non informative
On minimise le rolˆe de la loi a priori sur l’inference
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 21 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 22 / 1
loi a priori loi a priori
Determination Subjective Strategie
modele
On restreint le choix de a une famille de lois parametriquesX le nombre de pieces defectueuses dans un lot issu de la machinet
numero t : X B(n,p )t t
( | ) ∈
Information a priori sur p : la proportion de pieces defectueuses.t
machine 1 2 3 4 5
De nition
p Mean 0.3 0.4 0.5 0.2 0.2t
95% cred. int. [0.1,0.5] [0.2,0.6] [0.3,0.7] [0.05,0.4] [0.05,0.4] est appele un hyper-parametre
On xe l’hyper-parametre a partir de l’information que l’on possede sur lesSi p suit une loi beta, on ajuste les parametres pour que la moyenne et lest
moments ou/et les quartilesquartiles concident avec nos informations
= 0
Time 1 2 3 4 5
Dist. Be(6,14) Be(8,12) Be(12,12) Be(3.5,14) Be(3.5,14)
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 23 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 24 / 1loi a priori loi a priori
Alternative : Structure hierarchique Lois conjuguees
On met une loi sur l’hyper parametre :
( ) de moyenne et de variance0HP
le choix de traduit la con ance que l’on accorde a l’information F une famille de lois sur
contenue dans .0
De nition
F est une famille conjuguee pour la vraisemblance f(x| )
Si pour toute loi a priori ∈F, la loi a posteriori ( |x)∈F.
Preserve la structure sur la loi de
l’information apportee par les observations se traduit uniquement par
un changement de parametres.
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 25 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 26 / 1
loi a priori loi a priori
Famille Exponentielle les lois classiques
Cas particuliers : lois gaussiennes, betas binomiales ... f(x| ) ( ) ( |x)
vraisemblance a priori a posteriori
De nition
Normal Normal Normal
la densite est de la forme 2 2 2 2 2 2N( , ) N( , ) N( ( + x), )
1 2 2= +f(x| ) = h(x)exp{ x ( )},
Binomial Beta Beta
Construction de la famille des lois a priori conjuguees : B(n, ) Be( , ) Be( +x, +n x)
Poisson Gamma Gamman o
. ( )( | , ) = K( , )e , , P( ) G( , ) G( +x, +1)
Normal Gamma Gamma
2A priori ( , ) A posteriori ( +x, +1) N( , 1/ ) Ga( , ) G( +0.5, +( x) /2)
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 27 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 28 / 1loi a priori loi a priori
les lois classiques suite ... Lois non informatives
f(x| ) ( ) ( |x)
Question
vraisemblance a priori a posteriori
Comment choisir la loi a priori lorsque l’on ne dispose pas d’information?
Gamma Gamma Gamma
G( , ) G( , ) G( + , +x)
On distingue trois grandes familles de lois
Negative Binomial Beta Beta
1 la loi uniforme (loi de Laplace)
Neg(m, ) Be( , ) Be( +m, +x)
2 maximisation d’un critere d’information (loi de Je rey)Multinomial Dirichlet Dirichlet
3 argument frequentiste (loi de concordance)M ( ,..., ) D( ,..., ) D( +x ,..., +x )k 1 k 1 k 1 1 k k
A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 29 / 1 A. lippe (Univ. Nantes) Statistique Bayesienne Automne 2007 30 / 1
loi a priori loi a priori
choix uniforme Construction basee sur l’informa