Pourquoi les modèles de mélange pour la classification ?

De
Publié par

Classification au pluriel Classification non supervisée Classification supervisée Mise à disposition par MIXMOD
Pourquoi les modèles de mélange
pour la classification ?
C. Biernacki
e2 rencontre MIXMOD – 4 décembre 2008 Classification au pluriel Classification non supervisée Classification supervisée Mise à disposition par MIXMOD
Outline
1 Classification au pluriel
Diversité des objectifs
Pourquoi les modèles de mélange?
2 Classification non supervisée
Rappel sur des méthodes très répandues
Exemple du modèle de mélange gaussien
3 Classification supervisée
Rappel sur des méthodes très répandues
Exemple du modèle multinomial avec indépendance conditionnelle
4 Mise à disposition par MIXMOD Classification au pluriel Classification non supervisée Classification supervisée Mise à disposition par MIXMOD
Diversité des objectifs
Classification non supervisée : principe général
Trouver une partition dans un jeu de données ...
6
5
4 4
3
2 2
1
00 −→
−1
−2−2
−3
−4
−4
−5
−6
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6 8
...afin de synthétiser des données complexes et volumineuses Classification au pluriel Classification non supervisée Classification supervisée Mise à disposition par MIXMOD
Diversité des objectifs
Classification non supervisée : exemples
Industrie : contrôle de cuve Sociologie : absences d’employés
100
Données d’absentéisme dans les collectivités (mairies, etc.)
80
60 150
40
100
20
0 50
−20
0
800
−40
600 1
0.8
400 0.6
−60
0.4200
0.2
0 0
−80 Montant remboursé par jour
−100 −50 0 50 100 150 Jours ...
Voir plus Voir moins
ClassicationaulprueiClalssiacontinsnoerupsévialCeissitacusnoiséepervàdisMiseitnoopisXIOMapMrD
2008
Pourquoi les modèles de mélange pour la classification ?
2er
C. Biernacki
ClpuanoitacissalticaisslalCieurssalacinoitepusnoonupnsviereCséisitnoapMrXIOMDrviséeMiseàdispo
Classification supervisée Rappel sur des méthodes très répandues Exemple du modèle multinomial avec indépendance conditionnelle
Outline
1
2
Classification non supervisée Rappel sur des méthodes très répandues Exemple du modèle de mélange gaussien
3
4
Mise à disposition par MIXMOD
Classification au pluriel Diversité des objectifs Pourquoi les modèles de mélange ?
laCésivalCesnonrepusuonrvpeissticanoualprussiaciticationielClassMrapnoitDOMXIseMiéeissipoisàd
4
6
8
5 4 3 2 1 0 −1 −2 −3 −4 −5
. . . afin desynthétiserdes données complexes et volumineuses
 
−4
−6 6 −6 −4
−2
4
2
0
−6 −4 −2
0 2
Diversité des objectifs Classification non supervisée : principe général
6
Trouver unepartition . .dans un jeu de données .
2 0−2
4
ésCereiviacalsssupetionéeMirvisopsidàesapnoitisDDMOIXrMtésierivClassicanoitlpuaeirualClissticanoonupnsnonnepuscisoitafstiasClsodeecbjxemplesrvisée:e
Unebonnepartition est composée de classesinterprétables: Une classe de craquements indique undéfautdans la cuve Une classe d’employés suggère unecause d’absence similaire
50
100
−50
0
100 80
60 40 20 0 −20 −40 −60 −80 −100
Sociologie: absences d’employés
Données d'absentéisme dans les collectivités (mairies, etc.)
150
Industrie: contrôle de cuve
50
100
600 1 0.8 4000.6 200 0.4 0.2 0 0 150 remboursés (%) JoursMontant remboursé par jour
0 800
4
6
?
. . . afin declasserde nouvelles données sans étiquettes
1 2 3
2 0 −2
−4
−6 −6
−4
−2
0
5 4 3 2 1 −→0 −1 −2 −3 −4 −5 2 4 6 −4 −2 0
2
Trouver unepartitionde l’espace complet . . .
Diversité des objectifs Classification supervisée : principe général
4
6
irlelCsaoianpuulassicatClMXIMDOsposeàdinparitiopureoisnMesiivésCléeisrvatcsiasoitacisepusnonn
sopsoitisiMeidàeDiODrsvearnpXMMIejtcfiCstidésebotionsupelassicaselpmexe:eésivrlCsaisnaioatcelriluupcissalCnonnoitarvissupeassiéeCloisnctaivéspure
Unebonnerègle doit conduire à unrisque acceptable La définition d’acceptabilitédépend du domained’étude
Espèce des petrels, sous−espèce borealis (Atlantiqu
Male Femelle
Marketing: revenus
Biologie: sexe d’oiseaux
1 0 −1  −1 −0.5 0 0.5 1 1.5 2 2.5 1st correspondance analysis axis  1 Average income 0 −1  −1 −0.5 0 0.5 1 1.5 2 2.5 1st correspondance analysis axis  1 High income 0 −1  −1 −0.5 0 0.5 1 1.5 2 2.5 1st correspondance analysis axis
64 62 60 58 56 54 52 65 60 18 55 17 16 50 15 14 L de bec45 13 ongueur Hauteur de bec
 Low income
MODrMIXsiopesdànoapisitssicationnonsupitnoualprueiClalontipesuisrvMiéeivreCeésssalaciacissalC
6
Diversité des objectifs Classification semi-supervisée
0
2
4
Données : de naturehybride(labels partiellement connus) Problématique :au choixentre partition et règle de classement
−4
−6 −6
−4
−2
2
4
−2
0
6
8
CicalassaupltionrMIXMODsitionpaopsidàesiMeésivrpesuonticaisslaésCereivsnpunooncatissilClaurie
Classification supervisée Choisir, interpréter et évaluer une règle de classement.
Pourquoi les modèles de mélange ? Répondre de façon unifiée, rigoureuse et interprétable
Commun aux trois classifications Tenir compte de la diversité des données : continues,catégorielles,haute dimension
Classification semi supervisée Gérer la coexistance de données avec et sans labels.
Classification non supervisée Choisir une partition (nombre de classes compris) et l’interpréter.
IndividusxPartitionzClasse 0.2 0.5 0.8 0 1 0G2 0.3 0.1 0.2 1 0 0G1 0.9 2.0 -1.2 0 0 1G3
Illustration
Individus:x= (x1    xn)nvecteurs de : Rdou{01}dou{1    m1} ×  × {1    md} Partition:z= (z1    zn)une matrice binaire où
xiGk⇐⇒zih=I{h=k}
Pourquoi les modèles de mélange ? Notations utilisées
lCissatacnaioluupelriasClrepusnoisiMeésivosspdieàarnpioittaoiiscusepnnnoéeClrviscatassiMIXMOD
Mise à disposition par MIXMOD
4
1
Classification au pluriel Diversité des objectifs Pourquoi les modèles de mélange ?
Outline
Classification non supervisée Rappel sur des méthodes très répandues Exemple du modèle de mélange gaussien
2
Classification supervisée Rappel sur des méthodes très répandues Exemple du modèle multinomial avec indépendance conditionnelle
3
lCsariluupnaioatcsinnoitacissalCleiséeClasonsupervsnpureivisctaoispdiitoseMséeàisDOMXpnoiIMra
Rappel sur des méthodes très répandues Critère d’inertie intraclasse
etnk=Pkn=1zikindique lenombre d’individusdansGk
Sélectionner la partitionzminimisantle critère n K WM(z) =X Xzikkxi¯xkkM 2 i=1k=1
d
k  kMest la distance euclidienne avecmetriqueMdansR x¯kest lamoyennede la classeGk
¯xk=n1kXnzikxi i=1
siasCleàdieMisitiosposIMMXpnraDOpesuisrvCléesiastacsnoirepuésivcationaupluriellCsaisctaoinnno
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.