43 pages

Français

Agrégation de modèles

Cheyn

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

43 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Agregation´ de modeles`
Philippe BESSE
´Laboratoire de Statistique et Probabilites
UMR CNRS 5583
Universite´ Paul Sabatier Toulouse III
besse@math.ups tlse.fr
www.lsp.ups tlse.fr/Besse
1Journee´ IS2 2003 Apprentissage statistique 2
1 Introduction
1.1 Apprentissage
• Supervise´ vs. non supervise´
• Discrimination vs. regression´
• Modelisation´ (explicative) vs. Apprentissage (predictif)´
• Statistique vs. Data Mining
• Choix de methode´ et estimation de l’erreur
• Choix de modele` : equilibre´ biais variance
• Choix de modele` : selection´ vs. regularisation´
c ´Philippe Besse — LSP/UMR CNRS 5583 — Universite Paul SabatierJournee´ IS2 2003 Apprentissage statistique 3
´1.2 Strategie
1. Extraction avec ou sans echantillonnage´
2. Exploration (valeurs atypiques, incoherences,´ transformations)
3. Partition de l’echantillon´ (apprentissage, validation, test)
4. Pour chacune des methodes´ consider´ ees´ : modele` lineaire´ gen´ eral,´
discrimination parametrique´ ou non parametrique,´ k plus proches voi
sins, arbre, reseau´ de neurones, support vecteur machine, combinaison
de modeles` (bagging, boosting).
` ´Estimer le modele pour une valeur donnee
d’un parametre` de complexite´
Optimiser ce parametre` (echantillon´ de validation)
5. Comparaison des modeles` optimaux obtenus (echantillon´ test)
6. Iteration´ ev´ entuelle (3 a` 5)
7. Choix de la methode´
• Enjeux : rechercher un modele` parcimonieux.
c Philippe Besse — LSP/UMR CNRS 5583 — Universite´ Paul SabatierJournee´ ...

Sujets

Statistique

Lspci

Char Josef Stalin

N?ud sinusal

Banque d'Estonie

Errare humanum est, perseverare diabolicum

Informations

Publié par	Cheyn
Nombre de lectures	91
Langue	Français

Extrait

Agr´egationdemodeles

Philippe BESSE

LaboratoiredeStatistiqueetProbabilit´es UMR CNRS 5583 Universite´ Paul Sabatier Toulouse III besse@math.ups-tlse.fr www.lsp.ups-tlse.fr/Besse

Journ´eeIS22003Apprentissagestatistique

Introduction

1.1 Apprentissage •puSivree´svs.non-supervis´e •Dsircminitaoinvs.reegr´nioss •Mode´lisation (explicative)vs.Apprentissage (pre´dictif) •Statistiquevs.Data Mining •Choix de me´thode et estimation de l’erreur •iaebbrliuieq:´leedomedxiohCcneraaisiv-•´nelelcet:isoodexdemhCiovs.ularr´egoinsita

c ´ePhilippe Besse LSP/UMR CNRS 5583 Universit Paul Sabatier

Journ´eeIS22003Apprentissagestatistique

1.2Strat´egie 1.Extractionavec ou sans e´chantillonnage 2.Exploration(valeurs atypiques, incohe´rences, transformations) 3.Partitionahtnliol(nparpnedel’´ect)es,tonitadilav,egassit 4. Pour chacune desohed´mteses:meresid´con,n´´ealerae´ngeriedoilel ´ discriminationparame´triqueounonparam´etrique,kplus proches voi-sins,arbre,r´eseaudeneurones,supportvecteurmachine,combinaison demodeles(bagging,boosting). -Estimerlepeuourenavelrudonn´eedomel d’unparametrede´eclpmotixe -Oimpteristeerarmahtn´(cendevilloatioalid)npace 5.pmoCdnosiaraeldmoeses)tsllitetno´es(anchobuxnutematiop 6.´tIeratione´ventuelle (3 a5) 7.hCiodxeodth´eamel •Enjeux :rechercher unmxuoniercimlepaode.

BeseilppPihcU83veniitrsPa´eLesU/PSNCRM55SRluaSabitre

Journ´eeIS22003Apprentissagestatistique

Arbres binaires

2.1 Introduction •Classication and regression trees (CART) •Xjexplicatives quantitatives ou qualitatives, •Yquantitative :regression tree; •Yqualitative amt´esdalimo{T`;`= 1. . . , m}:classication tree; •Objectif: construction d’unarbre de de´cisionbinaire simple ain-terpre´ter. •sdehoetM´ucalclaseotri: peu d’hypoth

esesmaisbeaucoupdedonne´es.

c Paul SabatierPhilippe Besse LSP/UMR CNRS 5583 Universit ´e

Journe´e IS2 2003 Apprentissage statistique

2.2 Construction d’un arbre binaire 2.2.1 Principe De´terminerunes´equencet´erativeidenœuds. •Racine: nœudinitialenoudelembsenahce´’l.nollit •Nœud: choix d’unevariableet d’unedivision; sous-ensemble auquel est applique´e uneidhctoomie. •Division:valeur seuilougroupes des modalite´s.

cPhilippe Besse LSP/UMR CNRS 5583 Universit ´e Paul Sabatier

Journ´eeIS22003Apprentissagestatistique

Exemple´ele´mentaired’arbreded´ecision.

Choix ne´cessaires: 1.trieerCde la “meilleuredivisionparmi cellesadmissibles; 2.Reglede nœud terminal :feuille; 3.Reglenauneclassefa’dtcefoitaT`ou une valeur deY. Obtenirensuiteunmodeleuxieonimrcpapare´lagage(pruning) de l’arbre.

c e´ Paul SabatierPhilippe Besse LSP/UMR CNRS 5583 Universit

Journe´e IS2 2003 Apprentissage statistique

2.2.2Criterededivision •Divisionadmissible: descendants6=∅. •Xjre´elle ou ordinale :(cj−1)divisions possibles. •Xjnominale :2(cj−1)−1.snoidisiv •Fonction d’´et´eroghee´´nie´tD(k)d’unnœud 1.Nulle: une seule modalite´ deYouYconstante ; 2.amelaMix: modalite´s deYe´quire´parties ougrande variance. Notations •k:num´erod’unnœud. •(k+ 1)et(k+ 2)les nœuds ls. L’mherotilgaretient ladivisionrendantalesminimD(k+1)+D(k+2). Chaque e´tapekde construction de l’arbre:

ivisionsmdeaXxj;j=1}Dk−(D(k+1)+D(k+2)) {d,p

c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier

Journe´e IS2 2003 Apprentissage statistique

2.2.3Regled’arreˆt Unnœuddonne´, estterminallp´eeapoufeuille, lorsqu’il estmogoeenh: •plus departitionadmissible ou •nombreatioservd’obanueiru´fresnniseuil. 2.2.4 Affectation •Yeavtiittnauq, la valeur est lamoyenne des observations. •Ytativeqauil,chaquefeulaecunaessatseelliee´tceffT`deYen conside´rant lemode conditionnel: •la classe la´tneeeperxse´reumi ;dans le nœud •la classea posteriorila plusprobablesi desa priori ;sont connus •la classe lamoins couˆteusesi desstedocuˆiacsamvuemenlasstsont donne´s.

c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier

Journ´eeIS22003Apprentissagestatistique

2.3Criteresd’homog´ene´ite´ 2.3.1Yquantitavtei “Variance inter classe ou “desordre desbarycentres: ´

Δ =n1n2(µ.1−µ.2)2

Objectifam:eimix´euqpatehaacserΔ. •Chercher ladivisionrendant le test deFisherle pluscatifsignipos-sible. •irCretntlelaaeqe´vauieaicn´dvemndodu’.siengausele

c Paul Sabatier ´ePhilippe Besse LSP/UMR CNRS 5583 Universit

Journe´e IS2 2003 Apprentissage statistique

2.3.2Yeativalitqu •Fone´gtie´:e´tincd’oneth´ro´eentropie,criteredecnnerttaoincode Gini ou statistique dutest duχ2. •L’entropieest le terme deaicn´dveed’unailnimomumdtoleel. Ytivelitaquaammodalite´s ou cate´goriesTt´ro´eumeens`= 1, . . . , m. L’arbre induit unepartitionoun+kest l’fffetiecduk.nmœeude Probabilit´eunue´q’unedt´lmekemenœudrtpaaplaenneia`assedelceme Y. m X

p`k=P[T`|k]avecp`k= 1. `=1 D´esordredukœnemo,duueentropie, (convention = 00 log(0)). : m Dk=−2Xn+kp`klog(p`k). `=1

c Paul SabatierPhilippe Besse LSP/UMR CNRS 5583 Universit ´e

Journe´e IS2 2003 Apprentissage statistique

He´te´roge´ne´it´eou de´sordre de lapartition:

K K m D=XDk=−2X Xn+kp`klog(p`k). k=1k=1`=1 Quantite´positiveou nulle,nulleorabelps´tseibilsisp`ksont toutes nulles saufuneegalea1. ´ •n`kdelaobserv´eeffefitc`emnalsecealssdeke.udnœme •Unnœudkillohant’´ecedelitfffcedne’elbmesne-suosnutsn

K m =−2X Xn`klognn`+kk=Db. k=1`=1

+k=P`m=1n`

c Philippe Besse LSP/UMR CNRS 5583 Universit e´ Paul Sabatier

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

Agrégation de modèles

Statistique

Lspci

Char Josef Stalin

N?ud sinusal

Banque d'Estonie

Errare humanum est, perseverare diabolicum

YouScribe

Le catalogue

Le service

Les conditions