La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Sujets
Informations
Publié par | choun |
Nombre de lectures | 251 |
Poids de l'ouvrage | 1 Mo |
Extrait
SY09
Analyse de Données et Data Mining
Gérard Govaert
Printemps 20082Table des matières
Notations .. .. .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 7
1 Introduction 9
2 Méthodes exploratoires élémentaires 11
2.1 Lesdonnéesindividus-variables . ... .. .. ... .. .. .. ... .. .. 11
2.1.1 Variablesquantitatives. . ... .. .. ... .. .. .. ... .. .. 11
2.1.2 Variablesqualitatives .. ... .. .. ... .. .. .. ... .. .. 12
2.1.3 Variablesbinaires. . . . . ... .. .. ... .. .. .. ... .. .. 13
2.1.4 Transformationdevariables .. .. .. ... .. .. .. ... .. .. 14
2.2 Descriptionsdesvariablesquantitatives . . . ... .. .. .. ... .. .. 15
2.2.1 Descriptionmonodimensionnelle . . . ... .. .. .. ... .. .. 15
2.2.2 Descriptionbidimensionnelle . . . . . ... .. .. .. ... .. .. 17
2.2.3 Descriptionmultidimensionnelle . . . ... .. .. .. ... .. .. 19
2.3 Descriptionsdesvariablesqualitatives .. .. ... .. .. .. ... .. .. 22
2.3.1 Descriptionmonodimensionnelle . . . ... .. .. .. ... .. .. 22
2.3.2 Tableauxdecontingence. ... .. .. ... .. .. .. ... .. .. 23
3 Vecteur aléatoire 25
3.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 25
3.2 Rappelssurlesvariablesaléatoires . . . . . . ... .. .. .. ... .. .. 25
3.3 Vecteursaléatoires . ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.1 Définition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.2 Loijointe .. ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.3 Loismarginales . . . . . . ... .. .. ... .. .. .. ... .. .. 27
3.3.4 Espérance .. ... .. .. ... .. .. ... .. .. .. ... .. .. 28
3.3.5 Matricedevariance . . . ... .. .. ... .. .. .. ... .. .. 28
3.3.6 Indépendancedevariablesaléatoires . ... .. .. .. ... .. .. 29
3.4 Statistiquesassociéesàunvecteuraléatoire . ... .. .. .. ... .. .. 29
3.5 Loinormalemultidimensionnelle ... .. .. ... .. .. .. ... .. .. 30
3.5.1 Loinormalemonodimensionnelle . . . ... .. .. .. ... .. .. 30
3.5.2 Loinormalebidimensionnelle . . . . . ... .. .. .. ... .. .. 30
3.5.3 Généralisation . . . . . . ... .. .. ... .. .. .. ... .. .. 31
3.5.4 Propriétés . . ... .. .. ... .. .. ... .. .. .. ... .. .. 31
3.5.5 Caractérisationdeladistribution . .. ... .. .. .. ... .. .. 31
3.5.6 Simulation d’un échantillon gaussien . . . . . . . . . . . . . . . . . 31
4 Distance et représentation euclidienne 35
4.1 Tableauxdeproximités . .. .. ... .. .. ... .. .. .. ... .. .. 35
4.1.1 Typesdeproximités . . . ... .. .. ... .. .. .. ... .. .. 35
4.1.2 Constitutiond’untableaudeproximités .. .. .. .. ... .. .. 36
4.1.3 Transformation . . . . . . ... .. .. ... .. .. .. ... .. .. 36
4.1.4 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Rappelsdegéométrieetdemécanique . . . . ... .. .. .. ... .. .. 36
4.2.1 Nuagedepoints . . . . . ... .. .. ... .. .. .. ... .. .. 36
4.2.2 Inertie .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 37
34 TABLE DES MATIÈRES
4.2.3 ThéorèmesdeHuygens . ... .. .. ... .. .. .. ... .. .. 37
4.2.4 Nuagecentré ... .. .. ... .. .. ... .. .. .. ... .. .. 37
4.2.5 Inertieexpliquée . .. .. ... .. .. ... .. .. .. ... .. .. 37
4.2.6 Expressionsmatriciellesdesinerties . ... .. .. .. ... .. .. 38
4.3 Représentationeuclidiennedesdonnées . . . ... .. .. .. ... .. .. 38
4.4 Interprétationstatistique .. .. ... .. .. ... .. .. .. ... .. .. 38
4.4.1 Tableaucentréencolonne ... .. .. ... .. .. .. ... .. .. 38
4.4.2 Variablesnormées .. .. ... .. .. ... .. .. .. ... .. .. 39
5 L’analyse en composantes principales 41
5.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 41
5.2 Axesprincipauxd’inertie . . . . ... .. .. ... .. .. .. ... .. .. 42
5.2.1 Formulationmathématique .. .. .. ... .. .. .. ... .. .. 42
5.2.2 Résultatspréalables . . . ... .. .. ... .. .. .. ... .. .. 42
5.2.3 Résolutionduproblème . ... .. .. ... .. .. .. ... .. .. 42
5.2.4 Résultatspratiques. . . . ... .. .. ... .. .. .. ... .. .. 43
5.2.5 Inertiesexpliquées .. .. ... .. .. ... .. .. .. ... .. .. 43
5.2.6 Choixdunombred’axesàretenir. . . ... .. .. .. ... .. .. 43
5.3 Composantesprincipales . .. .. ... .. .. ... .. .. .. ... .. .. 44
5.3.1 Définition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 44
5.3.2 Calculdescomposantesprincipales .. ... .. .. .. ... .. .. 44
5.3.3 Composantes principales : nouvelles variables . . . . . . . . . . . . 44
5.4 Formuledereconstitution .. .. ... .. .. ... .. .. .. ... .. .. 45
5.5 Qualitédelareprésentation . .. ... .. .. ... .. .. .. ... .. .. 46
5.5.1 Qualitéglobale .. .. .. ... .. .. ... .. .. .. ... .. .. 46
5.5.2 Contribution relative d’un axe à un individu . . . . . . . . . . . . 46
5.5.3 Contribution relative d’un individu à un axe . . . . . . . . . . . . 46
5.6 Représentationdesvariables. .. ... .. .. ... .. .. .. ... .. .. 46
5.7 Éléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.1 Individu supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.2 Variable supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.3 Importance pratique des éléments supplémentaires . . . . . . . . . 47
5.8 Unexempled’ACP . ... .. .. ... .. .. ... .. .. .. ... .. .. 47
5.8.1 Lesdonnées . ... .. .. ... .. .. ... .. .. .. ... .. .. 47
5.8.2 Centragedutableaudedonnées . . . ... .. .. .. ... .. .. 48
5.8.3 Matricedevariance . . . ... .. .. ... .. .. .. ... .. .. 48
5.8.4 Axesprincipauxd’inertie ... .. .. ... .. .. .. ... .. .. 48
5.8.5 Qualitédelareprésentation . . . . . . ... .. .. .. ... .. .. 48
5.8.6 Composantesprincipales. ... .. .. ... .. .. .. ... .. .. 49
5.8.7 Contributions relatives des axes aux individus . . . . . . . . . . . . 50
5.8.8 Contributions relatives des individus aux axes . . . . . . . . . . . . 50
n5.8.9 Analyse dansR . . . . . ... .. .. ... .. .. .. ... .. .. 50
6 Positionnement multidimensionnel 53
6.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 53
6.2 Leproblème. .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 53
6.3 Distanceseuclidiennes . . . . . . ... .. .. ... .. .. .. ... .. .. 53
6.3.1 Équivalence entre distances euclidiennes et produits scalaires . . . 53
6.3.2 Matricededistanceseuclidiennes . .. ... .. .. .. ... .. .. 54
6.3.3 CNS pour qu’une matrice de dissimilarités soit euclidienne . . . . . 54
6.4 Analysefactorielled’untableaudedistances. ... .. .. .. ... .. .. 55
1 26.4.1 W =− Q Δ Q estSDP .. .. .. ... .. .. .. ... .. .. 55n n2
1 26.4.2 W =− Q D Q n’estpasSDP . .. ... .. .. .. ... .. .. 55n n2
6.4.3 L’AFTDdansR . . . . . ... .. .. ... .. .. .. ... .. .. 56
6.4.4 Unexemple . ... .. .. ... .. .. ... .. .. .. ... .. .. 56
6.5 Méthodesnonlinéaires.. .. .. ... .. .. ... .. .. .. ... .. .. 57
6.5.1 FonctionsStress . . . . . ... .. .. ... .. .. .. ... .. .. 57TABLE DES MATIÈRES 5
6.5.2 Optimisation ... .. .. ... .. .. ... .. .. .. ... .. .. 57
6.5.3 ProjectiondeSammon. . ... .. .. ... .. .. .. ... .. .. 57
6.5.4 Remarques . ... .. .. ... .. .. ... .. .. .. ... .. .. 58
6.6 Méthodesnonmétriquesouordinales .. .. ... .. .. .. ... .. .. 58
6.6.1 Généralisation . . . . . . ... .. .. ... .. .. .. ... .. .. 58
6.6.2 ProjectiondeKruskal .. ... .. .. ... .. .. .. ... .. .. 58
6.7 Quelquesremarques ... .. .. ... .. .. ... .. .. .. ... .. .. 58
6.7.1 Dissimilaritésinitiales .. ... .. .. ... .. .. .. ... .. .. 58
6.7.2 Autresméthodes. .. .. ... .. .. ... .. .. .. ... .. .. 58
7 La classification automatique 61
7.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 61
7.2 StructuresdeClassification . .. ... .. .. ... .. .. .. ... .. .. 62
7.2.1 Partition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 62
7.2.2 Lahiérarchieindicée . . . ... .. .. ... .. .. .. ... .. .. 62
7.2.3 Partitionethiérarchie .. ... .. .. ... .. .. .. ... .. .. 63
7.2.4 Aspectscombinatoires .. ... .. .. ... .. .. .. ... .. .. 63
7.3 Liensaveclanotiond’ultramétrique . .. .. ... .. .. .. ... .. .. 64
7.3.1 Recherche de partitions associées à une mesure de dissimilarité . . 64
7.3.2 Ultramétrique associée à une hiérarchie indicée : fonction ϕ.. .. 65
7.3.3 Hiérarchie indicée associée à une ultramétrique : fonction ψ.. .. 65
7.3.4 Équivalence entre hiérarchie indicée et ultramétrique . . . . . . . . 65
7.3.5 Exemples . . ... .. .. ... .. .. ... .. .. .. ... .. .. 66
7.4 Objectifsdelaclassification . .. ... .. .. ... .. .. .. ... .. .. 66
7.4.1 Difficultésdecaractériserlesobjectifs ... .. .. .. ... .. .. 66
7.4.2 Démarchenumérique. . . ... .. .. ... .. .. .. ... .. .. 67
7.4.3 Démarchealgorithmique. ... .. .. ... .. .. .. ... .. .. 68
7.5 Laclassificationascendantehiérarchique . .. ... .. .. .. ... .. .. 68
7.5.1 L’algorithme ... .. .. ... .. .. ... .. .. .. ... .. .. 68
7.5.2 Lescritèresd’agrégation. ... .. .. ... .. .. .. ... .. .. 69
7.5.3 Formule de récurrence de Lance et Williams . . . . . . . . . . . . . 70
7.5.4 Unexemple . ... .. .. ... .. .. ... .. .. .. ... .. .. 70