Introduction Mesures d’´eloignement La CAH Introduction Mesures d’´eloignement La CAHCadre du probl`emeLes donn´ees:G´en´eralit´es:◮ tableau X de n individus avec p variables (quantitatives, qualitatives, ou◮ Impossibilit´e d’une recherche exhaustive;mixte ;◮ Proc´edure it´erative tendant vers un optimum local d’un crit`ere fix´e;◮ un tableau de distances D entre les n individus.Objectif d’une classification: Choix laiss´es `a l’utilisateur:◮ d´efinition d’une mesure d’´eloignement (entre des classes);◮ partition des individus en des classes homog`enes et bien diff´erenci´ees entre◮elles; crit`ere d’homog´en´e¨ıt´e des classes ;◮ cr´eation d’une typologie, d’une segmentation des individus ◮ m´ethode: CAH ou r´eallocation dynamique ;◮ nombre de classes (question difficile) ;Difficult´es: ◮ outils d’interpr´etation des classes obtenues.◮ Le nombre de classes `a construire est g´en´eralement inconnu a priori ;◮ Apprentissage non-supervis´e - clustering ;◮ Diff´erent d’un probl`eme de discrimination - classification (faux ami!): :Introduction Mesures d’´eloignement La CAH Introduction Mesures d’´eloignement La CAHM´ethode de classification 1 M´ethode de classification 2R´eallocation dynamique :Synonymes: nu´ee, centres-mobiles◮CAH - classification ascendante hi´erarchique Nombre de classes K fix´e a priori;◮ Tirage des K centres de classes au hasard parmi les n individus;◮ Construction d’un dendogramme (arbre) par regroupement successifs des`◮ A chaque ´etape, on ...
CAHclassificationascendantehi´erarchique ◮ Construction d’undendogramme(arbre) par regroupement successifs des individus, des groupes d’individus; ◮` Ad´efinir,distanceentre2groupesd’individusa`partirdutableaude distanceDentre les individus; ◮ Dendogrammecoup´eselonleshauteurs de sautsselr,¸condefateni`aob classes finales.
Re´allocationdynamique: Synonymes:euqimanydee´un,centresmobiles Nombre de classesK´xfirpaeiroi; ◮ ◮ Tirage desKcentres de classes au hasard parmi lesnindividus; ◮` Achaquee´tape,ondisposedeKcentresc1, . . . ,cK. Onles actualise en deux´etapes: 1.Regroupement des individusndeiquha:c`e´tceffatseudiviequiauncentr est le plus proche (souvent la distance euclidienne); On obtient ainsiKclasses. 2.Actualisation des centres mobiles: cj=barycentre de la classej.
partition des individus en des classeseseng`mohoeterteffn´bdiiener´ecienes ◮ elles; cre´ationd’unetypologie, d’unesegmentation des individus ◮
Dissimilarite´entrelesindividus2 Variables binaires caspvariables binaires ; ◮ Comparaison entre deux individusi,k ◮ mi= (1,0,1,0,0,1, . . . ,0,1,0,1), mk= (1,1,0,0,0,1, . . . ,0,0,1,1). Soit „ «„ «ff „ «„ «ff j j X1X1 i i aik=cardj:j=,bik=cardj:j=, X1X0 k k „ «„ «ff „ «„ «ff j j X0X0 i i cik=cardj:j=,dik=cardj:j=. X1X0 k k on a aik+bik+cik+dik=p.
La CAH
Dissimilarite´entrelesindividus1
La CAH
La CAH
Introduction
Classification mixte: CAH: ◮ 1.ourafficiedpnelpttera`emicelngrand (temps de calcul trop long); 2.avantage: pas deKe´pairroi.xfi Unestrat´egiemixtepossible: ◮ ′ 1.CAH sur un tableau partiel avecn≪nnerermiinasudividte´dednfiK, le nombre de classes a priori ; 2.Une RD ensuite avec ceK.
Donne´esmixtes:m´elangedevariablescontinuesetcat´egorielles: Deux alternatives: ◮ Discr´etiserlesvariablescontinuesetutilisercequipr´ece`de; ◮` A l’inverse,rendre toutes les variables continues !!
Comparaison entre deux individusi,k: ◮ 2 distancedeHamingpond´er´ee(χentre les profils lignes): c pj X X 2njℓ1 χ(i,k) =δ ik j p n j=1ℓ=1ℓ o`u j ◮ n=effectif deajℓce´’tnahollindslan ℓ jℓ j ◮ δ= 1siietkneettnnudesiocdrpr´ese´rlsuceanitalodamajℓdeX ik