cours-classif-4

Publié par

Introduction Mesures d’´eloignement La CAH Introduction Mesures d’´eloignement La CAHCadre du probl`emeLes donn´ees:G´en´eralit´es:◮ tableau X de n individus avec p variables (quantitatives, qualitatives, ou◮ Impossibilit´e d’une recherche exhaustive;mixte ;◮ Proc´edure it´erative tendant vers un optimum local d’un crit`ere fix´e;◮ un tableau de distances D entre les n individus.Objectif d’une classification: Choix laiss´es `a l’utilisateur:◮ d´efinition d’une mesure d’´eloignement (entre des classes);◮ partition des individus en des classes homog`enes et bien diff´erenci´ees entre◮elles; crit`ere d’homog´en´e¨ıt´e des classes ;◮ cr´eation d’une typologie, d’une segmentation des individus ◮ m´ethode: CAH ou r´eallocation dynamique ;◮ nombre de classes (question difficile) ;Difficult´es: ◮ outils d’interpr´etation des classes obtenues.◮ Le nombre de classes `a construire est g´en´eralement inconnu a priori ;◮ Apprentissage non-supervis´e - clustering ;◮ Diff´erent d’un probl`eme de discrimination - classification (faux ami!): :Introduction Mesures d’´eloignement La CAH Introduction Mesures d’´eloignement La CAHM´ethode de classification 1 M´ethode de classification 2R´eallocation dynamique :Synonymes: nu´ee, centres-mobiles◮CAH - classification ascendante hi´erarchique Nombre de classes K fix´e a priori;◮ Tirage des K centres de classes au hasard parmi les n individus;◮ Construction d’un dendogramme (arbre) par regroupement successifs des`◮ A chaque ´etape, on ...
Publié le : samedi 24 septembre 2011
Lecture(s) : 36
Nombre de pages : 4
Voir plus Voir moins
Cadreduprobl`eme
:
:
Onit`erecesdeux´etapesjusqua`laconvergencedelalgorithme.
La CAH
Me´thodedeclassication2
Choixlaisse´sa`lutilisateur: de´nitiondunemesured´eloignement(entredesclasses); crit`eredhomog´en´e¨ıt´edesclasses; me´thode:CAHour´eallocationdynamique; nombre de classes (question difficile) ; outilsdinterpr´etationdesclassesobtenues.
G´en´eralite´s: Impossibilit´edunerechercheexhaustive; Proc´edureit´erativetendantversunoptimumlocalduncrite`rex´e;
CAHclassicationascendantehi´erarchique Construction d’undendogramme(arbre) par regroupement successifs des individus, des groupes d’individus; ` Ad´enir,distanceentre2groupesdindividusa`partirdutableaude distanceDentre les individus; Dendogrammecoup´eselonleshauteurs de sautsselr,¸condefateni`aob classes finales.
Re´allocationdynamique: Synonymes:euqimanydee´un,centresmobiles Nombre de classesK´xrpaeiroi; Tirage desKcentres de classes au hasard parmi lesnindividus; ` Achaquee´tape,ondisposedeKcentresc1, . . . ,cK. Onles actualise en deux´etapes: 1.Regroupement des individusndeiquha:c`e´tceatseudiviequiauncentr est le plus proche (souvent la distance euclidienne); On obtient ainsiKclasses. 2.Actualisation des centres mobiles: cj=barycentre de la classej.
partition des individus en des classeseseng`mohoeterten´bdiiener´ecienes elles; cre´ationdunetypologie, d’unesegmentation des individus
: Introduction
Mesuresde´loignement
La CAH
Introduction
Diculte´s: Lenombredeclasses`aconstruireestge´ne´ralementinconnua priori ; Apprentissagenonsupervis´eclustering; Die´rentdunproble`medediscriminationclassification(faux ami!)
: Introduction
Mesuresd´eloignement
Mesuresde´loignement
Lesdonne´es: tableauXdenindividus avecpvariables (quantitatives, qualitatives, ou mixte ; untableau de distancesDentre lesnindividus.
La CAH
Mesuresd´eloignement
Introduction
La CAH
Objectif d’une classification:
Me´thodedeclassication1
M´ethodedeclassication3
Mesuresde´loignement
Introduction
:
Mesuresd´eloignement
Variables continues pvariables quantitatives; 1p un individuirulrveceeterp´pa´eremi= (X, . . . ,X). i i 2 2 Soit les variances des variables:D=diag(σ1, . . . , σp) Distanceeuclidienner´eduite: T1 d(i,k) =kmimkkD1= (mimk)D(mimk)
Distance de Mahalanobis: Danslaformulepr´ec´edente,onremplaceDpar 1p Σ =Cov(X, . . . ,X). Remarque:Deladu´ednaleiagoseedtstictnoΣ.
Mesuresd´eloignement
: Introduction
: Introduction
Mesuresd´eloignement
:
Variables binaires,ilaresimit´eecdsnIidusuels 1 1.Concordance :(aik+bik) 2 aik 2.Jaccard : aik+bik+cik 2aik 3.Dice : 2aik+bik+cik =sdceisedmisier.itl´aidni
Dissimilarit´eentrelesindividus2
La CAH
Dissimilarite´entrelesindividus2 Variables binaires caspvariables binaires ; Comparaison entre deux individusi,k mi= (1,0,1,0,0,1, . . . ,0,1,0,1), mk= (1,1,0,0,0,1, . . . ,0,0,1,1). Soit  „ «„ «ff „ «„ «ff j j X1X1 i i aik=cardj:j=,bik=cardj:j=, X1X0 k k  „ «„ «ff „ «„ «ff j j X0X0 i i cik=cardj:j=,dik=cardj:j=. X1X0 k k on a aik+bik+cik+dik=p.
La CAH
Dissimilarite´entrelesindividus1
La CAH
La CAH
Introduction
Classification mixte: CAH: 1.ouraciedpnelpttera`emicelngrand (temps de calcul trop long); 2.avantage: pas deKe´pairroi.xUnestrat´egiemixtepossible: 1.CAH sur un tableau partiel avecnnnerermiinasudividte´dednK, le nombre de classes a priori ; 2.Une RD ensuite avec ceK.
CAH 1. Actualisationdu tableauDir´timalsiisddees ` Achaquefoisquuneagre´gationestproduite(individus,groupes dindividus),unnouveaugroupeestcr´ee´; Letableaudesdissimilarit´esesta`actualiserpourcenouveaugroupe.
Dissimilarit´eentredeuxgroupesdindividus: groupesA,Bde poids respectifswA,wB(ex. leurtaille); soitd(i,k)isduursenldaimve;itsipee´hlciiroausesimxiueoddird di´erentschoixcasdunedissimilarite´ d(A,B) = min{d(i,k);iA,kB}saut minimumsingle linkage d(A,B) = max{d(i,k);iA,kB}saut maximumcomplete linkage X 1 d(A,B) =d(i,k),saut moyengroup average linkage |A||B| iA,kB
Dissimilarit´eentredeuxgroupesdindividus: Casdesvariablescontinuesm´etriqueeuclidienne d(A,B) =kgAgBkdistance centroides wawB d(A,B) =kgAgBksaut de Wardrd´eurpavale;edaftuSAS wA+wB
:
Dissimilarite´entrelesindividus4
La CAH
: Introduction
Donne´esmixtes:m´elangedevariablescontinuesetcat´egorielles: Deux alternatives: Discr´etiserlesvariablescontinuesetutilisercequipr´ece`de; ` A l’inverse,rendre toutes les variables continues !!
Mesuresd´eloignement
Mesuresde´loignement
Mesuresde´loignement
Transformationdesvariablescate´gorielles¿continues: 1p1p1p 1 2 SupposonsX, . . . ,X=Y, . . . ,Y,Z, . . . ,Z | {z }| {z } continuescate´gorielles 1p 2 AFCMsurlapartiecate´gorielle(Z, . . . ,Z); ensuite choisirkirotcafsdnetesleirel´eduxeaeskcomposantes 1k canoniques:C, . . . ,C 1p1k 1 Classicationsurlesdonn´eestransforme´es:Y, . . . ,Y,C, . . . ,C avecp1+k“variables” continues. j Important:comme les composantes canoniquesCormaontnees,lis´lis j convient dereuide´rles variablesYalableaupr´e
La CAH
La CAH
Introduction
Mesuresde´loignement
: Introduction
Dissimilarit´eentrelesindividus3 Variablescat´egoriellesg´en´erales: j cas depscle´eatrigoleelsavirbaX`acjsmladoe´ti{aj1, . . . ,ajcj}, respectivement ; Tableau disjonctif complet: 1p X= [X∙ ∙ ∙X]
La CAH
Comparaison entre deux individusi,k: 2 distancedeHamingpond´er´ee(χentre les profils lignes): c pj X X 2nj1 χ(i,k) =δ ik j p n j=1=1o`u j n=effectif deajce´tnahollindslan jj δ= 1siietkneettnnudesiocdrpr´ese´rlsuceanitalodamajdeX ik
CAH
Introduction
:
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.