Agregation´ de modeles` Philippe BESSE ´Laboratoire de Statistique et Probabilites UMR CNRS 5583 Universite´ Paul Sabatier Toulouse III besse@math.ups tlse.fr www.lsp.ups tlse.fr/Besse 1Journee´ IS2 2003 Apprentissage statistique 2 1 Introduction 1.1 Apprentissage • Supervise´ vs. non supervise´ • Discrimination vs. regression´ • Modelisation´ (explicative) vs. Apprentissage (predictif)´ • Statistique vs. Data Mining • Choix de methode´ et estimation de l’erreur • Choix de modele` : equilibre´ biais variance • Choix de modele` : selection´ vs. regularisation´ c ´Philippe Besse — LSP/UMR CNRS 5583 — Universite Paul SabatierJournee´ IS2 2003 Apprentissage statistique 3 ´1.2 Strategie 1. Extraction avec ou sans echantillonnage´ 2. Exploration (valeurs atypiques, incoherences,´ transformations) 3. Partition de l’echantillon´ (apprentissage, validation, test) 4. Pour chacune des methodes´ consider´ ees´ : modele` lineaire´ gen´ eral,´ discrimination parametrique´ ou non parametrique,´ k plus proches voi sins, arbre, reseau´ de neurones, support vecteur machine, combinaison de modeles` (bagging, boosting). ` ´Estimer le modele pour une valeur donnee d’un parametre` de complexite´ Optimiser ce parametre` (echantillon´ de validation) 5. Comparaison des modeles` optimaux obtenus (echantillon´ test) 6. Iteration´ ev´ entuelle (3 a` 5) 7. Choix de la methode´ • Enjeux : rechercher un modele` parcimonieux. c Philippe Besse — LSP/UMR CNRS 5583 — Universite´ Paul SabatierJournee´ ...
2.2.2Criterededivision •Divisionadmissible: descendants6=∅. •Xjre´elle ou ordinale :(cj−1)divisions possibles. •Xjnominale :2(cj−1)−1.snoidisiv •Fonction d’´et´eroghee´´nie´tD(k)d’unnœud 1.Nulle: une seule modalite´ deYouYconstante ; 2.amelaMix: modalite´s deYe´quire´parties ougrande variance. Notations •k:num´erod’unnœud. •(k+ 1)et(k+ 2)les nœuds ls. L’mherotilgaretient ladivisionrendantalesminimD(k+1)+D(k+2). Chaque e´tapekde construction de l’arbre:
ivisionsmdeaXxj;j=1}Dk−(D(k+1)+D(k+2)) {d,p
7
c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier
Journe´e IS2 2003 Apprentissage statistique
8
2.2.3Regled’arreˆt Unnœuddonne´, estterminallp´eeapoufeuille, lorsqu’il estmogoeenh: •plus departitionadmissible ou •nombreatioservd’obanueiru´fresnniseuil. 2.2.4 Affectation •Yeavtiittnauq, la valeur est lamoyenne des observations. •Ytativeqauil,chaquefeulaecunaessatseelliee´tceffT`deYen conside´rant lemode conditionnel: •la classe la´tneeeperxse´reumi ;dans le nœud •la classea posteriorila plusprobablesi desa priori ;sont connus •la classe lamoins couˆteusesi desstedocuˆiacsamvuemenlasstsont donne´s.
c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier
Journ´eeIS22003Apprentissagestatistique
2.3Criteresd’homog´ene´ite´ 2.3.1Yquantitavtei “Variance inter classe ou “desordre desbarycentres: ´
Δ =n1n2(µ.1−µ.2)2
9
Objectifam:eimix´euqpatehaacserΔ. •Chercher ladivisionrendant le test deFisherle pluscatifsignipos-sible. •irCretntlelaaeqe´vauieaicn´dvemndodu’.siengausele
2.3.2Yeativalitqu •Fone´gtie´:e´tincd’oneth´ro´eentropie,criteredecnnerttaoincode Gini ou statistique dutest duχ2. •L’entropieest le terme deaicn´dveed’unailnimomumdtoleel. Ytivelitaquaammodalite´s ou cate´goriesTt´ro´eumeens`= 1, . . . , m. L’arbre induit unepartitionoun+kest l’fffetiecduk.nmœeude Probabilit´eunue´q’unedt´lmekemenœudrtpaaplaenneia`assedelcemeY. m X
K K m D=XDk=−2X Xn+kp`klog(p`k). k=1k=1`=1 Quantite´positiveou nulle,nulleorabelps´tseibilsisp`ksont toutes nulles saufuneegalea1. ´ •n`kdelaobserv´eeffefitc`emnalsecealssdeke.udnœme •Unnœudkillohant’´ecedelitfffcedne’elbmesne-suosnutsn
D
K m =−2X Xn`klognn`+kk=Db. k=1`=1
+k=P`m=1n`
c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier