Partition BIC optimale de l'espace des prédicteurs

Publié par

Partition BIC optimale de l’espace
des pr´edicteurs
Gilbert Ritschard
∗D´epartement d’´econom´etrie, Universit´e de Gen`eve
gilbert.ritschard@themes.unige.ch
R´esum´e. Cet article traite du partitionnement optimal de l’espace de
pr´edicteurs cat´egoriels dans le but de pr´edire la distribution a poste-
riori d’une variable r´eponse elle-mˆeme cat´egorielle. Cette partition op-
timale doit r´epondre `a un double crit`ere d’ajustement et de simplicit´e que
prennentpr´ecis´ementencomptelescrit`eresd’informationd’Akaike(AIC)
ou bay´esien (BIC). Apr`es avoir montr´e comment ces crit`eres s’appliquent
dans notre contexte, on s’int´eresse a` la recherche de la partition qui mi-
nimise le crit`ere retenu. L’article propose une heuristique rudimentaire
et d´emontre son efficacit´e par une s´erie de simulations qui comparent le
quasi optimum trouv´e au vrai optimum. Plus que pour la partition elle-
mˆeme, la connaissance de cet optimum s’av`ere pr´ecieuse pour juger du
potentiel d’am´elioration d’une partition, notamment celle fournie par un
algorithme d’induction d’arbre. Un exemple sur donn´ees r´eelles illustre ce
dernier point.
1 Introduction
Enapprentissagesupervis´e,destechniquescommel’analysediscriminante,lar´egres-
sion logistique multinomiale, les mod`eles bay´esiens ou les arbres de d´ecisions induits
de donn´ees (arbres d’induction) apprennent la distribution a posteriori de la variable
a` pr´edire, l’objectif ´etant d’affecter un cas avec profil x en termes de pr´edicteurs ...
Voir plus Voir moins
1
Partition BIC optimale de l’espace despr´edicteurs
Gilbert Ritschard
D´epartementd´econome´trie,Universit´edeGene`ve gilbert.ritschard@themes.unige.ch
R´esum´e.Cet article traite du partitionnement optimal de l’espace de pr´edicteurscat´egorielsdanslebutdepr´edireladistributionaposte-rioridunevariabler´eponseelle-mˆemecate´gorielle.Cettepartitionop-timaledoitre´pondrea`undoublecrit`eredajustementetdesimplicite´que prennentpre´cise´mentencomptelescrite`resdinformationdAkaike(AIC) oubaye´sien(BIC).Apre`savoirmontre´commentcescrit`eressappliquent dansnotrecontexte,onsinte´ressea`larecherchedelapartitionquimi-nimiselecrit`ereretenu.Larticleproposeuneheuristiquerudimentaire etd´emontresonecacite´parunese´riedesimulationsquicomparentle quasioptimumtrouve´auvraioptimum.Plusquepourlapartitionelle-meˆme,laconnaissancedecetoptimumsav`erepr´ecieusepourjugerdu potentieldame´liorationdunepartition,notammentcellefournieparun algorithmedinductiondarbre.Unexemplesurdonn´eesr´eellesillustrece dernier point.
Introduction
Enapprentissagesupervis´e,destechniquescommelanalysediscriminante,lare´gres-sionlogistiquemultinomiale,lesmode`lesbay´esiensoulesarbresdede´cisionsinduits dedonn´ees(arbresdinduction)apprennentladistributionaposterioridelavariable `apr´edire,lobjectife´tantdaecteruncasavecprolxuetca`srrpedide´teenesrmla classeyiiorriteosap´eitiletrpbobapaulfsroayantlp(Y=yi|xe´raL.)eu,stiqlogisiongres lanalysediscriminanteetlesmode`lesbaye´siensparexemple,mode´lisentladistribution a posteriori sous forme d’une fonction vectorielle continue dex. Par contraste, les arbres dinductionconduisenta`unensemblenidedistributions,chaquedistributione´tant associ´eea`uneclassedunepartition«apprise»de l’ensemble des profilsxadmissibles. Nousnouspla¸consdanscederniercontexteetnousint´eressonsa`lad´eterminationdela partitionoptimale.Nousexaminonstoutdabordlescrit`eresdoptimalit´equipeuvent save´rerpertinents.Parmiceux-ci,nousporteronsuninte´rˆetparticulierauxcrit`eres dinformationdutypeAICetBICquipermettentdarbitrerentrequalit´edajuste-mentetcomplexite´.LecalculdesAICetBICpourunepartitionquelconquesefait parsimpleadaptationduprincipedelarbre´etenduintroduitdansRitschardetZighed (2003, 2002) pour le cas des arbres. La recherche de la partition optimale par exploration exhaustive des partitions ´etantdecomplexite´nonpolynomiale,ilconvientderecourir`adesheuristiques.Pour cettepremi`ereapprocheduprobl`eme,onenvisageiciuneproce´dureascendantedont on examine les performances par une analyse de simulations. L’heuristique est rudi-
99
Patition BIC optimale
mentaire,maissav`eresusammentperformantepourtraiterjusqua`unecentainede prolsdie´rents. Laport´eeduconceptmeˆmedepartitionoptimaleestquelquepeulimite´eenraisons depossiblesdicult´esdinterpre´tation.Contrairementauxpartitionsge´ne´re´esparles arbres,ladescriptiondunepartitionquelconquepeutn´ecessitereneetdescombinai-sonssouventdicilementinterpre´tablesdeconditions.Loptimumfournitcependant etdanstouslescasdesindicationspre´cieusessurlepotentieldam´eliorationquonpeut apportera`unepartition.Cetint´ereˆtdelapartitionglobalementoptimaleestillustr´e parunee´tudedelar´eussitedes´etudiantsdepremie`reanne´ea`laFaculte´dessciences e´conomiquesdeGen`eve. Larticleestorganise´commesuit.Lasection2introduitlecadreformeletles notations.Lasection3pre´ciseleconceptdepartitionoptimaleetd´enitformellement lescrit`eresa`optimiser.Lasection4traitedelad´eterminationdeloptimum.Ony proposeuneheuristiquedontonanalyseempiriquementlecacite´avecdessimulations. Lasection5expliciteleslimitesetlinte´rˆetduconceptdepartitionoptimalequiest illustre´a`lasection6.Enn,lasection7donnequelquespistesderecherchefuture.
2
Cadre formel et notations
Onseplacedanslecadredelapprentissagesupervis´eavecunevariablere´ponse Yetprseuctdie´rpx1, . . . , xpenabeutodnneseddap´eestissprendegaiateelln. On conside`repluspre´cise´mentlecaso`ulavariable`apre´direYeltserpe´dicteurssonttous cat´egoriels.Onnote`le nombre de valeurs distinctes deY,ck, le nombre de valeurs Q distinctesdupre´dicteurxk,k= 1, . . . , p, etcckle nombre de profils admissibles k 1 x= (x1, . . . , xp). Silobjectifdelapprentissageestenr`egleg´ene´ralelaconstructiondunclassieur f(xiableeslue´atdtlevaraatuiibtrunueunetq)Yl`oachaqueprx, les connaissances recherche´espeuventdanscertainscasportersurlesprobabilite´sdesdiverse´tatsdeY conditionnellement aux valeursxddansecasierllucitrapnetseice.Crseuctdi´epres les sciences de comportement (sociologie, sciences politiques, marketing, histoire, ...) quicherche`ade´crirelesm´ecanismesquire´gissentlesph´enom`enese´tudie´s.Nousnous pla¸consdanscecontexteestconsid´eronsdoncleproble`medelapr´edictiondeladistri-butiondeprobabilit´eaposteriorideYr,id-sae`-ctedep(Y|x) = (p1(x), . . . , p`(Yx)), ou`lonnotepi(x)lapbilirobae´tp(Y=yi|x). Notonsquedenombreusestechniquesdeclassicationsappuientdefac¸onplusou moins explicite sur la distribution a posteriorip(Y|xnatsa`tcnoiisnosiasatc),clla attribuerlescas`alacat´egorielaplusprobableargmaxipi(x) compte tenu dex. C’est lecasnotammentdelar´egressionlogistique,delanalysediscriminanteline´aireou quadratique, deskplus proches voisins, des arbres et graphes d’induction ou encore desr´eseauxbay´esiens.Cetaspectestenparticulierbienmisene´videncedansHastie et al. (2001). Danslecasdevariablescate´gorielles,lesdonn´eesdapprentissagepeuventeˆtrere-pr´esente´esdefac¸onsynth´etiquesousformedunetabledecontingenceTde taille`×c 1 Lecroisementdetouslespre´dicteurspeutdonnerlieua`desprolsnonadmissiblesdeectif structurellementnul,parexemple(homme,enceinte).Ceciexpliquelin´egalit´eutilis´eeici.
100 - RNTI
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.