SY09 Analyse de Données et Data Mining
112 pages

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

SY09 Analyse de Données et Data Mining

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
112 pages
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

  • cours - matière potentielle : il
SY09 Analyse de Données et Data Mining Gérard Govaert Printemps 2008
  • classification ascendante
  • vecteur aléatoire
  • individu supplémentaire
  • descriptions des variables qualitatives
  • vecteur dp vecteur
  • introduction aux analyses
  • introduction d'analyse
  • individus
  • individu
  • statistiques
  • statistique
  • méthode
  • méthodes
  • données
  • donnée

Sujets

Informations

Publié par
Nombre de lectures 251
Poids de l'ouvrage 1 Mo

Extrait

SY09
Analyse de Données et Data Mining
Gérard Govaert
Printemps 20082Table des matières
Notations .. .. .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 7
1 Introduction 9
2 Méthodes exploratoires élémentaires 11
2.1 Lesdonnéesindividus-variables . ... .. .. ... .. .. .. ... .. .. 11
2.1.1 Variablesquantitatives. . ... .. .. ... .. .. .. ... .. .. 11
2.1.2 Variablesqualitatives .. ... .. .. ... .. .. .. ... .. .. 12
2.1.3 Variablesbinaires. . . . . ... .. .. ... .. .. .. ... .. .. 13
2.1.4 Transformationdevariables .. .. .. ... .. .. .. ... .. .. 14
2.2 Descriptionsdesvariablesquantitatives . . . ... .. .. .. ... .. .. 15
2.2.1 Descriptionmonodimensionnelle . . . ... .. .. .. ... .. .. 15
2.2.2 Descriptionbidimensionnelle . . . . . ... .. .. .. ... .. .. 17
2.2.3 Descriptionmultidimensionnelle . . . ... .. .. .. ... .. .. 19
2.3 Descriptionsdesvariablesqualitatives .. .. ... .. .. .. ... .. .. 22
2.3.1 Descriptionmonodimensionnelle . . . ... .. .. .. ... .. .. 22
2.3.2 Tableauxdecontingence. ... .. .. ... .. .. .. ... .. .. 23
3 Vecteur aléatoire 25
3.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 25
3.2 Rappelssurlesvariablesaléatoires . . . . . . ... .. .. .. ... .. .. 25
3.3 Vecteursaléatoires . ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.1 Définition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.2 Loijointe .. ... .. .. ... .. .. ... .. .. .. ... .. .. 27
3.3.3 Loismarginales . . . . . . ... .. .. ... .. .. .. ... .. .. 27
3.3.4 Espérance .. ... .. .. ... .. .. ... .. .. .. ... .. .. 28
3.3.5 Matricedevariance . . . ... .. .. ... .. .. .. ... .. .. 28
3.3.6 Indépendancedevariablesaléatoires . ... .. .. .. ... .. .. 29
3.4 Statistiquesassociéesàunvecteuraléatoire . ... .. .. .. ... .. .. 29
3.5 Loinormalemultidimensionnelle ... .. .. ... .. .. .. ... .. .. 30
3.5.1 Loinormalemonodimensionnelle . . . ... .. .. .. ... .. .. 30
3.5.2 Loinormalebidimensionnelle . . . . . ... .. .. .. ... .. .. 30
3.5.3 Généralisation . . . . . . ... .. .. ... .. .. .. ... .. .. 31
3.5.4 Propriétés . . ... .. .. ... .. .. ... .. .. .. ... .. .. 31
3.5.5 Caractérisationdeladistribution . .. ... .. .. .. ... .. .. 31
3.5.6 Simulation d’un échantillon gaussien . . . . . . . . . . . . . . . . . 31
4 Distance et représentation euclidienne 35
4.1 Tableauxdeproximités . .. .. ... .. .. ... .. .. .. ... .. .. 35
4.1.1 Typesdeproximités . . . ... .. .. ... .. .. .. ... .. .. 35
4.1.2 Constitutiond’untableaudeproximités .. .. .. .. ... .. .. 36
4.1.3 Transformation . . . . . . ... .. .. ... .. .. .. ... .. .. 36
4.1.4 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Rappelsdegéométrieetdemécanique . . . . ... .. .. .. ... .. .. 36
4.2.1 Nuagedepoints . . . . . ... .. .. ... .. .. .. ... .. .. 36
4.2.2 Inertie .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 37
34 TABLE DES MATIÈRES
4.2.3 ThéorèmesdeHuygens . ... .. .. ... .. .. .. ... .. .. 37
4.2.4 Nuagecentré ... .. .. ... .. .. ... .. .. .. ... .. .. 37
4.2.5 Inertieexpliquée . .. .. ... .. .. ... .. .. .. ... .. .. 37
4.2.6 Expressionsmatriciellesdesinerties . ... .. .. .. ... .. .. 38
4.3 Représentationeuclidiennedesdonnées . . . ... .. .. .. ... .. .. 38
4.4 Interprétationstatistique .. .. ... .. .. ... .. .. .. ... .. .. 38
4.4.1 Tableaucentréencolonne ... .. .. ... .. .. .. ... .. .. 38
4.4.2 Variablesnormées .. .. ... .. .. ... .. .. .. ... .. .. 39
5 L’analyse en composantes principales 41
5.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 41
5.2 Axesprincipauxd’inertie . . . . ... .. .. ... .. .. .. ... .. .. 42
5.2.1 Formulationmathématique .. .. .. ... .. .. .. ... .. .. 42
5.2.2 Résultatspréalables . . . ... .. .. ... .. .. .. ... .. .. 42
5.2.3 Résolutionduproblème . ... .. .. ... .. .. .. ... .. .. 42
5.2.4 Résultatspratiques. . . . ... .. .. ... .. .. .. ... .. .. 43
5.2.5 Inertiesexpliquées .. .. ... .. .. ... .. .. .. ... .. .. 43
5.2.6 Choixdunombred’axesàretenir. . . ... .. .. .. ... .. .. 43
5.3 Composantesprincipales . .. .. ... .. .. ... .. .. .. ... .. .. 44
5.3.1 Définition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 44
5.3.2 Calculdescomposantesprincipales .. ... .. .. .. ... .. .. 44
5.3.3 Composantes principales : nouvelles variables . . . . . . . . . . . . 44
5.4 Formuledereconstitution .. .. ... .. .. ... .. .. .. ... .. .. 45
5.5 Qualitédelareprésentation . .. ... .. .. ... .. .. .. ... .. .. 46
5.5.1 Qualitéglobale .. .. .. ... .. .. ... .. .. .. ... .. .. 46
5.5.2 Contribution relative d’un axe à un individu . . . . . . . . . . . . 46
5.5.3 Contribution relative d’un individu à un axe . . . . . . . . . . . . 46
5.6 Représentationdesvariables. .. ... .. .. ... .. .. .. ... .. .. 46
5.7 Éléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.1 Individu supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.2 Variable supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7.3 Importance pratique des éléments supplémentaires . . . . . . . . . 47
5.8 Unexempled’ACP . ... .. .. ... .. .. ... .. .. .. ... .. .. 47
5.8.1 Lesdonnées . ... .. .. ... .. .. ... .. .. .. ... .. .. 47
5.8.2 Centragedutableaudedonnées . . . ... .. .. .. ... .. .. 48
5.8.3 Matricedevariance . . . ... .. .. ... .. .. .. ... .. .. 48
5.8.4 Axesprincipauxd’inertie ... .. .. ... .. .. .. ... .. .. 48
5.8.5 Qualitédelareprésentation . . . . . . ... .. .. .. ... .. .. 48
5.8.6 Composantesprincipales. ... .. .. ... .. .. .. ... .. .. 49
5.8.7 Contributions relatives des axes aux individus . . . . . . . . . . . . 50
5.8.8 Contributions relatives des individus aux axes . . . . . . . . . . . . 50
n5.8.9 Analyse dansR . . . . . ... .. .. ... .. .. .. ... .. .. 50
6 Positionnement multidimensionnel 53
6.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 53
6.2 Leproblème. .. .. ... .. .. ... .. .. ... .. .. .. ... .. .. 53
6.3 Distanceseuclidiennes . . . . . . ... .. .. ... .. .. .. ... .. .. 53
6.3.1 Équivalence entre distances euclidiennes et produits scalaires . . . 53
6.3.2 Matricededistanceseuclidiennes . .. ... .. .. .. ... .. .. 54
6.3.3 CNS pour qu’une matrice de dissimilarités soit euclidienne . . . . . 54
6.4 Analysefactorielled’untableaudedistances. ... .. .. .. ... .. .. 55
1 26.4.1 W =− Q Δ Q estSDP .. .. .. ... .. .. .. ... .. .. 55n n2
1 26.4.2 W =− Q D Q n’estpasSDP . .. ... .. .. .. ... .. .. 55n n2
6.4.3 L’AFTDdansR . . . . . ... .. .. ... .. .. .. ... .. .. 56
6.4.4 Unexemple . ... .. .. ... .. .. ... .. .. .. ... .. .. 56
6.5 Méthodesnonlinéaires.. .. .. ... .. .. ... .. .. .. ... .. .. 57
6.5.1 FonctionsStress . . . . . ... .. .. ... .. .. .. ... .. .. 57TABLE DES MATIÈRES 5
6.5.2 Optimisation ... .. .. ... .. .. ... .. .. .. ... .. .. 57
6.5.3 ProjectiondeSammon. . ... .. .. ... .. .. .. ... .. .. 57
6.5.4 Remarques . ... .. .. ... .. .. ... .. .. .. ... .. .. 58
6.6 Méthodesnonmétriquesouordinales .. .. ... .. .. .. ... .. .. 58
6.6.1 Généralisation . . . . . . ... .. .. ... .. .. .. ... .. .. 58
6.6.2 ProjectiondeKruskal .. ... .. .. ... .. .. .. ... .. .. 58
6.7 Quelquesremarques ... .. .. ... .. .. ... .. .. .. ... .. .. 58
6.7.1 Dissimilaritésinitiales .. ... .. .. ... .. .. .. ... .. .. 58
6.7.2 Autresméthodes. .. .. ... .. .. ... .. .. .. ... .. .. 58
7 La classification automatique 61
7.1 Introduction. . . . . ... .. .. ... .. .. ... .. .. .. ... .. .. 61
7.2 StructuresdeClassification . .. ... .. .. ... .. .. .. ... .. .. 62
7.2.1 Partition .. ... .. .. ... .. .. ... .. .. .. ... .. .. 62
7.2.2 Lahiérarchieindicée . . . ... .. .. ... .. .. .. ... .. .. 62
7.2.3 Partitionethiérarchie .. ... .. .. ... .. .. .. ... .. .. 63
7.2.4 Aspectscombinatoires .. ... .. .. ... .. .. .. ... .. .. 63
7.3 Liensaveclanotiond’ultramétrique . .. .. ... .. .. .. ... .. .. 64
7.3.1 Recherche de partitions associées à une mesure de dissimilarité . . 64
7.3.2 Ultramétrique associée à une hiérarchie indicée : fonction ϕ.. .. 65
7.3.3 Hiérarchie indicée associée à une ultramétrique : fonction ψ.. .. 65
7.3.4 Équivalence entre hiérarchie indicée et ultramétrique . . . . . . . . 65
7.3.5 Exemples . . ... .. .. ... .. .. ... .. .. .. ... .. .. 66
7.4 Objectifsdelaclassification . .. ... .. .. ... .. .. .. ... .. .. 66
7.4.1 Difficultésdecaractériserlesobjectifs ... .. .. .. ... .. .. 66
7.4.2 Démarchenumérique. . . ... .. .. ... .. .. .. ... .. .. 67
7.4.3 Démarchealgorithmique. ... .. .. ... .. .. .. ... .. .. 68
7.5 Laclassificationascendantehiérarchique . .. ... .. .. .. ... .. .. 68
7.5.1 L’algorithme ... .. .. ... .. .. ... .. .. .. ... .. .. 68
7.5.2 Lescritèresd’agrégation. ... .. .. ... .. .. .. ... .. .. 69
7.5.3 Formule de récurrence de Lance et Williams . . . . . . . . . . . . . 70
7.5.4 Unexemple . ... .. .. ... .. .. ... .. .. .. ... .. .. 70

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents