Statistique avec des petits échantillons

De
Publié par

Statistiqueavecdespetitséchantillons
GillesCeleux
Select, Inria Saclay, Université Paris Sud
Gilles Celeux (Inria) Petitséchantillons 1 / 40 Plan
1 Modélisation statistique
Estimation du maximum de vraisemblance
Choix de modèles
2 Problèmes statistiquesàinformationfaible
3 Inférencebayésienne
Traduction des informations a priori en lois a priori
Approximation de la loi a posteriori
Illustration pour une loi de Weibull très censurée
Sélection bayésienne de modèles
Gilles Celeux (Inria) Petitséchantillons 2 / 40 Inférence statistique
dDes donnéesx = (x ,...,x ) dans R sont issues d’une loi den1
probabilité inconnue de densité f(x).
Les données sont utilisées pour tirer de l’information sur cette densité
f(x).
Modèle paramétrique : on suppose que
f(x) = f(x;θ),
avec θ paramètre inconnu à estimer à partir de (x ,...,x ).1 n
Gilles Celeux (Inria) Petitséchantillons 3 / 40 Exemple: la loinormale
Les données (x ,...,x ) représentent le poids de n objets fabriqués1 n
en série.
On suppose que ces poids suivent une loi normale de moyenne μ et
2de variance σ :
21 (x−μ)
pf(x;θ) = exp(− ).
2σ(2π)σ
2Le paramètre à estimer est θ = (μ,σ ).
GillesCeleux (Inria) Petitséchantillons 4 / 40 Exemple: la loide Weibull
Les données (x ,...,x ) représentent les durées de vie de nn1
matériels.
Une loi couramment utilisée pour modéliser des durées de vie est la loi
de Weibull.
Elle utilise un paramètre d’échelle η et un paramètre de forme β :
x xβ−1 βf(x;θ) = β( ) exp((− ) )
η η
Le paramètre à ...
Voir plus Voir moins
iGlleStatistiqueavecdespetitséchantillonsseCelxuI(rnai)GillesCeleuxSelect,InriaSaclay,UniversitéParis-SudePitstcéahtnliolsn1/04
lPna123ModélisationstatistiqueEstimationdumaximumdevraisemblanceChoixdemodèlesProblèmesstatistiquesàinformationfaibleInférencebayésienneTraductiondesinformationsapriorienloisaprioriApproximationdelaloiaposterioriIllustrationpouruneloideWeibulltrèscensuréeSélectionbayésiennedemodèlesiGllseeCelxuI(rnai)ePitstcéahtnliolsn2/04
nIéfercnetstasiituqeDesdonnéesx=(x1,...,xn)dansRdsontissuesd’uneloideprobabilitéinconnuededensitéf(x).Lesdonnéessontutiliséespourtirerdel’informationsurcettedensité.)x(fModèleparamétrique:onsupposequef(x)=f(x;θ),avecθparamètreinconnuàestimeràpartirde(x1,...,xn).iGllseeCelxuI(rnai)ePitstcéahtnliolsn3/04
xEmeple:alolionmrlaeLesdonnées(x1,...,xn)représententlepoidsdenobjetsfabriquésensérie.Onsupposequecespoidssuiventuneloinormaledemoyenneµetdevarianceσ2:1(xµ)2f(x;θ)=p(2π)σexp(σ2).Leparamètreàestimerestθ=(µ,σ2).iGllseeCelxuI(rnai)ePitstcéahtnliolsn4/04
Exemple:laloideWeibullLesdonnées(x1,...,xn)représententlesduréesdeviedenmatériels.UneloicourammentutiliséepourmodéliserdesduréesdevieestlaloideWeibull.Elleutiliseunparamètred’échelleηetunparamètredeformeβ:f(x;θ)=β(ηx)β1exp((ηx)β)Leparamètreàestimerestθ=(η,β).iGllseeCelxuI(rnai)ePitstcéahtnliolsn5/04
EstimationdumaximumdevraisemblanceLavraisemblanceduparamètreθassociéauxdonnéess’écritnYL(θ)=f(xi;θ).1=iLavraisemblancecontienttoutel’informationapportéepar(x1,...,xn)surleparamètreθ.Laméthodedumaximumdevraisemblanceconsisteàestimerθparθˆ=argmθaxL(θ).Cetestimateurjouitdebonnespropriétéslorsquenestgranddevantladimensiondeθ.iGllseeCelxuI(rnai)ePitstcéahtnliolsn6/04
xEmelpsedeCasgaussientsmitauesrudVMn1Xµˆ=nxi1=in1Xσˆ2=n(xiµˆ)2.1=iCasdeWeibull.LeséquationsdevraisemblancesontteiGllseeCelxuI(rnai)PP1in=1log(xi)in=1xiβˆlog(xi)ˆ+nPnβˆ=0.βi=1xiˆβnPηˆ=[i=1xi]1ˆ.nePitstcéahtnliolsn7/04
eTtsudarpprotedrviaesbmalcnePourchoisirentredeuxmodèlesM0etM1dontlesespacesdesparamètressontemboîtés,ondisposedutestderapportdevraisemblance.Λ=L(θˆ0)L(θˆ1)Sousl’hypothèsequelesdonnéessontissuesdelaloif(x;θ0),2logΛsuitasymptotiquementuneloiduχ2àdimθ1-dimθ0degrésdeliberté.iGllseeCelxuI(rnai)ePitstcéahtnliolsn8/04
CritèresdevraisemblancepénaliséeLescritèresdevraisemblancepénalisésontutiliséspourchoisirunmodèleparmidesmodèlesnonnécessairementemboîtés.AIC(M)=2logL(θˆM)+2dim(θM)BIC(M)=2logL(θˆM)+dim(θM)log(n)Cescritèressontobtenussousdesargumentsasymptotiquesetjouissentdepropriétésasymptotiquesoptimales.iGllseeCelxuI(rnai)ePitstcéahtnliolsn9/04
alPn123ModélisationstatistiqueEstimationdumaximumdevraisemblanceChoixdemodèlesProblèmesstatistiquesàinformationfaibleInférencebayésienneTraductiondesinformationsapriorienloisaprioriApproximationdelaloiaposterioriIllustrationpouruneloideWeibulltrèscensuréeSélectionbayésiennedemodèlesiGllseeCelxuI(rnai)ePitstcéahtnliolsn01/04
PetitséchantillonsLatailled’unéchantillonnestàcompareraunombreνdeparamètresàestimer.yTipuqmene,toprunueidtsrbituoinadsnRavec2paramètresàestimerlesproblèmespeuventcommenceravecn<20.Lesproblèmesdeviennentsérieuxlorsqueνn...Lesstatisticienssontdeplusenplusconfrontésàdestaillesnpluspetitesqueladimensionddesdonnées.iGllseeCelxuI(rnai)ePitstcéahtnliolsn11/04
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.