Ingénierie de l'analyse des données Jean-Louis Girard http://www.u-picardie.frTOUS/Documentation/Master1/IAD Plan de cours 1. Introduction générale.......................................................................................................... 2 1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2 1.2. Une autre illustration.................................................................................................. 3 1.3. Plan............................................................................................................................. 6 1.4. Lexique....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9 2. L'inertie comme somme des distances des points d'un nuage.......................................... 10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales… ................................................................................... 15 3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut…........................................................... 15 3.3. Maximiser l'inertie projetée, c'est ...
Ingénierie de l'analyse des données Jean-Louis Girard http://www.u-picardie.frTOUS/Documentation/Master1/IAD Plan de cours 1. Introduction générale.......................................................................................................... 2 1.1. Les Egyptiens antiques savaient-ils peindre ?............................................................ 2 1.2. Une autre illustration .................................................................................................. 3 1.3. Plan............................................................................................................................. 6 1.4. Lexique....................................................................................................................... 7 1.5. Principe de représentation géométrique ..................................................................... 9 2. L'inertiecomme somme des distances des points d'un nuage.......................................... 10 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales ................................................................................... 15 3.1. Quelques rappels sur les matrices et le calcul matriciel........................................... 15 3.2. Pour préparer une "bonne" matrice, il faut ........................................................... 15 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage .............................................................................. 17 3.4. Quelles sont les coordonnées des points projetés ?.................................................. 19 3.5. Comment représenter les variables (relations de transition) ? ................................. 20 3.6. Compléments et interprétations................................................................................ 22 3.7. Résumé ..................................................................................................................... 26 3.8. Exemples .................................................................................................................. 29 4. Passons maintenant à l'analyse de tableaux de variables qualitatives .......................... 37 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) ........... 37 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) .......................................................................................................................... 48 5. Mais dans les ordinateurs, comment ça marche ? Approche algorithmique de l'analyse factorielle.........................................................................................Erreur ! Signet non défini.5.1. Quelques algorithmes de diagonalisation................................................................. 53 5.2. Et les autres directions d'allongement ? ................................................................... 53
Ingénierie de l'analyse des données - Introduction générale
1. Introduction générale "Il avait appris sans effort l'anglais, le français, le portugais, le latin. Je soupçonne cependant qu'il n'était pas très capable de penser. Penser, c'est oublier des différences, c'est généraliser, abstraire. Dans le monde surchargé de Funes il n'y avait que des détails, presque immédiats. " Funes ou la mémoire, in Fictions, Jorge Luis Borges (1956)
1.1. Les Egyptiens antiques savaient-ils peindre ? Pourquoi les Egyptiens antiques peignaient les personnages dans une position peu naturelle alors que par ailleurs ils savaient depuis très longtemps représenter un corps en 3D ?
Le roi Amenemhat III XIX° siècle avant J.-C.
Jean-Louis Girard
Stèle de la dame Tapéret (Détail) Xe ou IXe siècle avant J.-C.
2 --
Ingénierie de l'analyse des données - Introduction générale
1.2. Une autre illustration On dispose d'un tableau donnant les coordonnées de points dans un espace tridimensionnel : IND X Y Z 1 52,58 -25,13 -101,93 2 51,5 -24,86 -101,77 3 52,49 -23,58 -101,61 4 52,03 -26,22 -101,55 5 54,32 -23,64 -101,44 6 53,63 -26,4 -101,4 7 50,47 -25,56 -101,36 21488 -49,21 79,23 60,14 21489 -47,28 86,02 60,15 21490 -46,34 87,09 60,16 21491 -48,21 81,83 60,19 21492 -46,91 79,37 60,19 21493 -43,92 87,68 60,2 21494 -47,29 84,45 60,23 21495 -45,55 81,08 60,23 21496 -44,41 83,48 60,25 21497 -43,46 85,53 60,26 21498 -45,39 85,67 60,3 21499 -45,39 85,67 60,3 Quelle forme a ce nuage de point (reconnaissance de forme) ? Représentation des différents plans : Plan X-Y
Jean-Louis Girard
- 3 -
Plan Y-Z
Plan X-Z
Ingénierie de l'analyse des données - Introduction générale
Quel est le meilleur plan de représentation ? Est-ce l'un des précédents ?
Jean-Louis Girard
- 4 -
Ingénierie de l'analyse des données - Introduction générale
Graphique factoriel
Jean-Louis Girard
- 5 -
Ingénierie de l'analyse des données - Introduction générale
1.3. Plan 1. Introduction générale 1.1. Les Egyptiens antiques savaient-ils peindre ? 1.2. Une autre illustration 1.3. Plan 1.4. Lexique 1.5. Principe de représentation géométrique 2. L'inertie comme somme des distances des points d'un nuage 3. Passons à la formalisation mathématique à partir de variables quantitatives : l'exemple de l'analyse en composantes principales 3.1. Quelques rappels sur les matrices et le calcul matriciel 3.2. Pour préparer une "bonne" matrice, il faut 3.3. Maximiser l'inertie projetée, c'est rendre maximale la somme des distances entre les projections de chaque point du nuage 3.4. Quelles sont les coordonnées des points projetés ? 3.5. Comment représenter les variables (relations de transition) ? 3.6. Compléments et interprétations 3.7. Résumé 3.8. Exemples 4. Passonsmaintenant à l'analyse de tableaux de variables qualitatives 4.1. L'analyse des correspondances (croisement de deux variables qualitatives) 4.2. L'analyse des correspondances multiples (croisement de nombreuses variables qualitatives) 5. Compléments 5.1. Quelques algorithmes de diagonalisation 5.2. Et les autres directions d'allongement ?
Jean-Louis Girard
- 6 -
1.4.
Ingénierie de l'analyse des données - Introduction générale
Lexique
Population (ou population statistique)
Individu (ou unité statistique)
Echantillon
Taille de l'échantillon
Enquête (statistique)
Recensement
Sondage
Variable (statistique)
Données (statistiques)
Jean-Louis Girard
WEnsemble (au sens mathématique du terme) concerné par une étude statistique. On parle parfois du champ de l'étude xÎWTout élément de la populationWSous-ensemble de la population sur lequel sont effectivement réalisées les observations Cardinal du sous-ensemble correspondant Opération consistant à observer (ou mesurer, ou questionner ) l'ensemble des individus d'un échantillon Enquête dans laquelle l'échantillon observé est la population tout entière (enquête exhaustive) Enquête dans laquelle l'échantillon observé est un sous-ensemble strict de la population (enquête non exhaustive) Αsi v W¾x|tivequisqeatitatitauil |RanCaractéristique (âge, salaire, sexe ) définie sur une population et observée sur l'échantillon ; mathématiquement, il s'agit d'une application définie sur l'échantillon. Si |la variable est à valeurs dans (ou une partie de|R, ou un ensemble de parties de|R), elle est dite quantitative (âge, salaire, taille ) ; sinon, elle est dite qualitative (sexe, CSP ) et les valeurs que peut prendre cette variable sont appelées modalités. Ensemble des individus observés (échantillon), des variables considérées, et des observations de ces variables sur ces individus. Elles sont généralement présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées dans un fichier informatique. Lorsqu'un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codées associées aux variables qualitatives), il correspond à la notion mathématique de matrice.
- 7 -
Ingénierie de l'analyse des données - Introduction générale
Ñest doté d'un "poids" (ou masse) différent. Par exemple, il n'y a aucune: chaque individu raison a priori de traiter différemment les personnes qui constituent une population (une personne = une personne) ; mais les régions ou les département ont des importances différentes, dont il faut parfois tenir compte (notion à rapprocher de celle de moyenne pondérée). Ñune variable quantitative peut être "classée" ou ordonnée, en effectuant par exemple des: découpages sur les valeurs que peut prendre cette variable Exemple : [{moins de 20 ans} ; {de 20 ans à 39 ans}; {de 40 ans à 59 ans}, {60 ans et plus}]. Dans ce cas, cette variable peut être traitée comme une variable qualitative, identique à [{jeune}, {adulte}, {mûr}, {âgé}] Ñles modalités d'une variable peuvent être :: ·Exhaustives : omodalités non-exhaustives [{adulte}, {âgé}]les jeunes n'y figurent pas oêtes-vous venu à la Préfecture pour : retirer votre permis de conduire ? retirer votre passeport ?
·
d'autres réponses sont possibles. Exclusives : omodalités non exclusives [{moins de 30 ans} ; {de 20 ans à 39 ans}; {de 40 ans à 59 ans}, {60 ans et plus}]si l'on a de 20 à 30 ans, on figure dans deux modalités oêtes-vous venu à la Préfecture pour : retirer votre permis de conduire ?
retirer votre passeport ? les deux réponses sont possibles. Ñ:On peut rendre les modalités exhaustives en proposant, par exemple, une modalité {autre} On peut rendre les modalités exclusives en demandant, par exemple, "quelle est la principale raison qui vous a fait venir à la préfecture ?"
Jean-Louis Girard
- 8 -
Vecteurs colonnes
1
j'
j
i
p points
dans un espace à
n
n dimensions (axes)
i
i '
n points
p dimensions (axes)
dans un espace à
,
n
p
j ,
1 1
,
,
,
,
,
xij ,
,
,
,
,
,
,
,
i , ,
1
j
p
Vecte
urs lignes
Ingénierie de l'analyse des données - Introduction générale
Principe de représentation géométrique
Deux nuages de points peuvent alors être construits : ·Le nuage des individus (les points-lignes) qui
opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre de variables ·Le nuage des variables (les points-colonnes) qui opère dans un espace dont le nombre de dimensions (le nombre d'axes) est égal au nombre d'individus
1.5.
Les tableaux peuvent être vus comme un ensemble de lignes ou de c En lignes figurent les individus · ·En colonnes figurent les variables
olonnes. Par convention,
- 9 -
Jean-Louis Girard
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
2. L'inertie comme somme des distances des points d'un nuage On considère ici un nuage de points dont les coordonnées sont présentées dans un tableau du type : Variable 1 Variable 2 Variable j Variable p Individu 1Individu 2Individu i tijIndividu nLes tijsont donc numériques. Définition 1 : l'inertie est la somme des carrés des distances qui relient chaque point du nuage à un point quelconque de l'espace. x x x O x x x x In1
Jean-Louis Girard
- 10 -
Ingénierie de l'analyse des données - L'inertie comme somme des distances des points d'un nuage
Comment mesurer la distance (métrique) ? y yA.A yB xA Équation 1
.B
xB
x
·Distance euclidienne (usuelle) : (xB%xA)2#(yB%yA)2· (Distance quadratique :xB%xA)2#(yB%yA)2·Distance de Manhattan :xB%xA#yB%yA·Distance entre ensembles :cf. TD ·Définition 2 : l'inertie projetée est la somme des carrés des longueurs des projections de chaque point du nuage sur une direction quelconque.