Maryse Raffestin – octobre 2005 Pratiquer une analyse en composantes principales I - Objectif de l'ACP 1 - LA PLACE DE L'ACP DANS LES METHODES STATISTIQUES a) Lorsqu'on recueille des informations sur des individus ou unités statistiques ( un individu, au sens statistiques du terme, peut être une personne physique, une entreprise, un pays ,etc.) , on aboutit à la constitution d'un tableau individus-variables du type suivant : individus V1 V2 V3 , , VpI1I2I3I4I5,,,In Ex. : les individus sont les 200 étudiants de 1e année de DEUG et les variables sont : l'âge, le sexe, le redoublement (oui/non), la série du bac, les notes en maths, stats, économie, etc. Pour décrire ces données, si elles sont nombreuses, le statisticien traitera d'abord les variables une par une (traitements univariés), puis il s'intéressera aux éventuelles interactions entre deux variables (traitement bivariés) voire plus (traitements multivariés). Après l'analyse descriptive des données (où toutes les variables sont placées sur le même plan), il poursuivra dans certains cas par une analyse explicative (il y a alors d'une part la variable expliquée, d'autre part les variables explicatives). Les variables (ou caractères) auxquels on s'intéresse sont essentiellement de deux natures : - les variables quantitatives (en abrégé VQT) sont mesurées par un nombre. ex. : âge, chiffre d'affaires, note en stats, température, poids - les variables qualitatives (en ...
1 -LA PLACE DE LACP DANS LES METHODES STATISTIQUES a) Lorsquon recueille des informations sur desindividus ouunits statistiquesun individu, au sens ( statistiques du terme, peut tre une personne physique, une entreprise, un pays ,etc.) , on aboutit la constitution duntableau individus-variablesdu type suivant : individus V1V2 V3, ,Vp
I1 I2 I3 I4 I5 , , , In Ex. : les individus sont les 200 tudiants de 1e anne de DEUG et les variables sont : lge, le sexe, le redoublement (oui/non), la srie du bac, les notes en maths, stats, conomie, etc. Pour dcrire ces donnes, si elles sont nombreuses, le statisticien traitera dabord les variables une par une (traitements univaris), puis il sintressera aux ventuelles interactions entre deux variables (traitement bivaris) voire plus (traitements multivaris). Aprslanalyse descriptivedonnes (o toutes les des variables sont places sur le mme plan), il poursuivra dans certains cas par uneanalyse explicative(il y a alors dune part la variable explique, dautre part les variables explicatives). Les variables (oucaractres) auxquels on sintresse sont essentiellement de deux natures : - lesvariables quantitatives(en abrg VQT) sontmesurespar un nombre. ex. : ge, chiffre daffaires, note en stats, temprature, poids - lesvariables qualitatives(en abrg VQL) peuvent prendre plusieursmodalits: ex. : sexe, srie du bac, code APE, jour de la semaine, profession LACP sert dcriredes tableaux "individus-variablesquantitatives" de grande dimension (beaucoup de variables - cest un traitementmultivari- et beaucoup dindividus -sil y an a peu, inutile de faire appel des outils statistiques pour rsumer). Remarques : - dans les enqutes dopinion, on utilise souvent des variables dun 3e type : les variables ordinales qui indiquent un rang de classement (ex : classer des produits par ordre de prfrence, se situer sur une chelle allant de "trs favorable" "trs dfavorable", etc.) - on peut passer dune variable quantitative (total des points obtenus un concours) une variable ordinale (rang de classement au concours) puis une variable qualitative (reu / coll). Mais linverse nest pas possible. En effectuant cette transformation, on perd de linformation. Cest le cas lorsquon passe dune variable QT (ex. : "effectif salari") une variable classifie ("tranche deffectif" avec par ex. 3 classes : petites, moyennes et grandes entreprises)qui devient alors une variable QL.
b) Les traitements statistiques des variables qualitalives et des variables quantitatives sont fondamentalement diffrents. Cest vrai notamment pour les mthodes descriptives : - caractres qualitatifs: n Traitement univariou des frquences f= :on calculera la distribution des effectifs ni/ selonles iin diffrentes modalits. On pourra ventuellement noter la modalit dominante (celle qui a la plus forte frquence), parfois appele "mode" par analogie aux variables quantitatives. Traitement bivari :lorsquon rpartit une population selon 2 caractres qualitatifs, on constitue untableau de contingence. Ce tableau peut tre trs grand (donc illisible) si les caractres tudis comportent beaucoup de modalits(ex. : rpartition de la population franaise par rgions et classes dges). Une technique danalyse factorielle, lanalyse factorielle des correspondances (AFC) sert dcrire les grands 2 tableaux de contingence. Lorsque lobservation porte sur un chantillon, le test duχ sert juger de lindpendance de ces 2 caractres - caractres quantitatifs: Traitement univari: on peut calculer la moyenne et lcart-type, ainsi que les quantiles (mdiane, quartiles, dciles , centiles...). Lorsque lobservation porte sur un chantillon, on peut estimer ces paramtres par intervalle de confiance. Traitement bivarilorsquon sintresse la liaison entre deux variables QT, on peut reprsenter le nuage : des points M(x ,y )et examiner sa forme. La covariance et le coef de corrlation linaire sont des i ii indicateurs de lintensit de la liaison linaire ventuelle de ces deux variables. Traitements multivaris :lorsquon sintresse la liaison entre plus de deux ou trois variables QT, on ne peut plus reprsenter graphiquement le nuage des points M. LACP nous permet de lobserver sous ses i angles les plus intressants, en examinant les projections du nuage sur des plans qui en conserve le mieux la forme. Elle permet galement de reprer les groupes de variables fortement corrles entre elles, et ventuellement de dtecter des caractres complexes sous-jacents ces groupes. 2 - LES DONNES TRAITEES EN ACPSoit X un tableau n lignes et m colonnes. La ligne i dcrit la valeur prise par mvariables quantitativespour lindividu i . Avant toutes choses, les donnes sont centres et rduites, cest--dire que chaque variable a une moyenne nulle et une variance gale 1. On note Xle vecteur-colonne constitu par les lments de la colonne j ; xdsigne llment situ jij lintersection de la ligne i et de la colonne j, cest--dire la valeur de la variable xpour lindividu i . j 3 - LE PROBLMEPour observer sous un angle plus favorable les donnes contenues dans le tableau X,on remplace les anciens axes (donc les anciennes variables x) par de nouveaux axes (donc par des variables nouvelles C). k k Ces nouvelles variables Csont appelescomposantes principales; elles sexpriment comme combinaisons k linaires des anciennes variables x,....x . 1 m C= ax +ax .......+a x kk1 1km mk2 2 Les nouveaux axes, appelsaxes factoriels, sont choisis de la faon suivante : - le 1er axe factoriel , ouaxe principal dinertie, est la direction de "plus grand allongement" du nuage (en statistiques on dit : "de plus grande dispersion" ou "de plus grande inertie" du nuage). Lorsque on projette les points Pdu nuage sur cet axe, leurs projections Hsont plus disperses quelles ne i i le seraient sur nimporte quel autre axe . Laxe factoriel F1 est donc laxe selon lequel est prserv, par projection, le maximum de la dispersion initiale des points du nuage. Le fait que le nuage soit allong prcisment dans cette direction doit trouver une explication. La nouvelle variable C1 (lacomposante principale n1) est le caractre selon lequel les individus se diffrencient le plus. Pourquoi ? Quelle signification peut bien avoir cette variable qui combine avec des
poids plus ou moins importants (les coefficients a) les variables initiales mesures sur les individus? Une i tape fondamentale de lACP est linterprtation de cette composante principale, qui se fera par lexamen de sa combinaison avec les variables de dpart. On espre toujours pouvoir dtecter dans cette nouvelle variable uncaractre complexe, qui nest pas directement mesurable par une seule quantit, mais bien rel, comme par exemple lasant(pour des individus, pour des entreprises...), lindustrialisation(dune rgion...), la qualit dujeu dattaque (pourun joueur de football, de tennis...), lacomptence dans les matires quantitatives(pour un tudiant), etc. - le 2e axe factoriel est la 2e direction dallongement du nuage, cest--dire celle qui explique, aprs le 1er axe, le maximum de linertie rsiduelle. De plus le 2e axe est choisi orthogonal au 1er , ce qui traduit -comme nous le verrons- le fait que la 2e composante principale est non corrle la 1e (les vecteurs directeurs des 2 premiers axes ont un produit scalaire nul⇔les 2 premires composantes principales ont une covariance nulle). Comme prcdemment, on cherchera donner un sens cette 2e composante principale, en observant comment elle combine les variables de dpart. -et ainsi de suite, jusqu avoir remplac les m anciens axes par m nouveaux axes (les axes factoriels), portant des part dcroissantes de la dispersion initiale et dont les 2, 3 ou 4 premiers suffisent souvent donner une image peine dforme du nuage initial. Cest cette imagerduite donc beaucoup plus accessible notre observation quenous examinerons pour dcrire et analyser les donnes du tableau initial. Mathmatiquement, la dtermination des axes factoriels se fait par diagonalisation de la matrice de variances-covariances, d’o le vocabulaire utilis (valeurs propres, vecteurs propres)
II - Interrter une ACP 1 - Le % de linertie explique par les premiers axes factoriels Un facteur est une variable composite fabrique partir des variables dorigine; il sexprime comme er combinaison linaire des anciennes variables. Le 1axe factoriel correspond la variable composite qui diffrencie le mieux les individus. Le % dinertie (ou "variance" du nuage ou "dispersion") explique par un axe factoriel permet dvaluer en quelque sorte la quantit dinformation recueillie par cet axe. Notons que linertie explique par un axe est gale lavaleur propreet que linertie totale (somme des valeurs propres) est gale au correspondante nombre de variables de dpart dans le cas d’une analyse sur donnes centres-rduites (qui est l’option par dfaut dans la plupart des logiciels) . La qualit de la reprsentation des donnes par un plan factoriel svalue en ajoutant les % d’inertie explique par les 2 axes. Si les 2 premiers axes factoriels expliquaient 100% de linertie du nuage , tous les points-individus seraient situs dans le plan factoriel 1-2 . Ceci narrive jamais... Il faut en gnral plusieurs facteurs pour expliquer une part significative de la dispersion. Sil ny avait pas de direction privilgie dallongement du nuage, chaque axe factoriel porterait une part identique de la dispersion : 100% divis par le nombre p de variables. Dans le cas d’une analyse sur donnes centres-rduites, chaque valeur propre serait gale 1.Ainsi , sil y a au dpart 5 variables , un er % dinertie explique par le 1axe factoriel qui serait de 25% montre que le nuage na pas de vritable axe dallongement remarquable (25% compar 20%, cest peu), alors que ce serait tout fait remarquable sil y a au dpart 50 variables (25% compar 2% , cest norme). Le cas le plus intressant est videmment celui o avec un petit nombre daxes on arrive bien rsumer un nuage dun espace de grande dimension. Lanalyse est pertinente si, avec un petit nombre daxes, on explique une part importante de linertie. Il est difficile de donner une rgle pour savoir combien daxes on va retenir. Certains critres peuvent tre proposs : - retenir autant daxes quil le faut pour atteindre le seuil de variance explique dsir ( 80% par ex.) - observer le changement de concavit de la courbe des valeurs propres (cfMarket – Nathan -p.373) - retenir les valeurs propres suprieures 1 (dans le cas d’une analyse sur donnes centres-rduites) En pratique, on pourra difficilement interprter plus de 3 axes, parfois 4. Donc concrtement lanalyse mrite dtre poursuivie si avec 3 ou 4 axes, on conserve une part importante de linertie initiale. 2 - La dmarche dinterprtation dune ACP 1 - Tenter de donner une signification aux nouveaux axes retenus pour lanalyse ( les 2 ou 3 premiers, parfois 4), en les interprtant partir des variables de dpart. Pour cela , on examine le nuage des points-variables, inscrit dans le cercle des corrlations. 2 - Etudier(ventuellement) le nuage des individus par rfrence aux nouveaux axes dont linterprtation vient dtre donne. Attention aux effets de perspective ! Les points-variables -Les nouvelles variables, associes aux axes factoriels, sont appeles facteurs ou composantes principales. Elles sexpriment comme combinaisons linaires des anciennes variables . -Les coefficients de ces combinaisons linaires sont fournis par le logiciel; cest eux qui dfinissent les nouveaux axes : oils permettent de calculer les nouvelles coordonnes dun point-individu partir des anciennes oils permettent galement de voir le poids dune ancienne variable dans la dfinition dun facteur. Le reprage des variable dorigine correspondant auxcoefficients les plus levs
en valeur absolu permet de dgager une interprtation des facteurs. Cette interprtation est facilite par lexamen des corrlations "anciennes- nouvelles" variables (qui sont dailleurs proportionnelles aux coefficients) reprsentes dans le cercle des corrlations... Le cercle des corrlations A chaquepoint-variable, on associe un point dont lacoordonnesur un axe factoriel est une mesure de la corrlationentre cette variable et le facteur. Dans lespace de dimension p la distance des points-variables lorigine est gale 1. Donc par projection sur un plan factoriel les points-variables sinscrivent dans un cercle de rayon 1 - le cercle des corrlations - et sontdautant plus proche du bord du cercleque le point-variable est bien reprsent par le plan factoriel, cest--direque la variable est bien corrle avec les deux facteursconstituant ce plan. Attention ! Les variables qui ne sont pas situes au bord du cercle dans un plan factoriel ne sont pas corrles avec les deux facteurs reprsentes. Elles ne servent pas linterprtation et leffet de perspective empche dinterprter la proximit de deux variables (voir dautres plans factoriels, o la corrlation sera plus forte) - Langle entre 2 point-variables, mesur par son cosinus est gal au coefficient de corrlation linaire entre les 2 variables:cosα,X )= r(X 1 2 Ainsi : -si les points sont trs proches (αpeu diffrent de 0 ) : cosα= 1 donc,X )= r(X 1 2 Xet Xsont trs fortement corrls positivement 1 2 -siαest gal 90, cosα= 0 alors pas de corrlation linaire entre X,X )et X= r(X 1 21 2 - si les points sont opposs,α180, cos vautαsont trs fortement= -1 : Xet X =r(X ,X ) 1 21 2 corrls ngativement Le cercle des corrlations permet de voir, parmi les anciennes variables, les groupes de variables trs corrles entre elles. Pour interprter un axe, on examine les coefficients de la combinaison linaire qui le dfinissent ou bien – si on prfre - on examine sa corrlation avec les anciennes variables en observant le cercle des corrlations (ou le tableau donnant ces corrlations). Une variable qui a une coordonne faible, donc un coefficient faible, ne sert pas pour linterprtation dun facteur. Une variable (ou un groupe de variables) ayant un coefficient fort -positif ou ngatif-servira dabord par elle-mme ( les "forts" en facteur i sont les "forts" en x, x ..(ou les "faibles"en k l cas de corrlation ngative) mais galement par opposition dautres variables diamtralement opposes.Les points-individus La qualit de la reprsentation dun point M par un axe U dpend de sa distance laxe dans le nuage, 2 mesure par langle (OM, U), ou plus exactement par son cosinus ou son cos. (sil est proche de 1 le point est bien reprsent). La qualit de la reprsentation dun point M par un plan factoriel constitu de 2 axes est mesure par la 2 somme des cosavec 2 axes (Pythagore!). La position dun point-individu par rapport un axe factoriel , ainsi que les proximits entre les individus, peuvent tre interprtes ds lors que ces points sont bien reprsents par le plan factoriel observ. Certains individus seront bien reprsents par le plan 1-2 (les "trs forts" ou "trs faibles " en facteur 1 et 2 surtout), dautres par le plan 1-3 sils sont mieux dcrits par laxe 3, etc.
III - Exemple Pendant une semaine, 2000 femmes de 30 40 ans ont not leur emploi du temps quart d’heure par quart d’heure. On a ainsi calcul ladure hebdomadaire qu’elles ont consacre aux 10 activits quotidiennes ci-dessous : profess travailprofessionnel transp transport sommeil sommeil sport activitsphysiques et sportives courses shopping- courses enfants enfants toilette toilette cuisine prparationdes repas menage travailmnager tele tlvision Une ACP a t effectue sur le tableau individus x variables de dimension (2000 x 10) ainsi constitu. Le logiciel SAS a fourni les rsultatssuivants, donnant respectivement les valeurs propres, les coordonnes des vecteurs propres et les corrlations des composantes principales avec les anciennes variables (pour ces 2 derniers tableaux, on a retenu seulement 3 composantes). L’tude des individus n’est pas ralise ici. Interprter les rsultats ci-dessous.