ACP - Cours.rtf

Phawyer - Mraffest

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

7 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Maryse Raffestin – octobre 2005 Pratiquer une analyse en composantes principales I - Objectif de l'ACP 1 - LA PLACE DE L'ACP DANS LES METHODES STATISTIQUES a) Lorsqu'on recueille des informations sur des individus ou unités statistiques ( un individu, au sens statistiques du terme, peut être une personne physique, une entreprise, un pays ,etc.) , on aboutit à la constitution d'un tableau individus-variables du type suivant : individus V1 V2 V3 , , VpI1I2I3I4I5,,,In Ex. : les individus sont les 200 étudiants de 1e année de DEUG et les variables sont : l'âge, le sexe, le redoublement (oui/non), la série du bac, les notes en maths, stats, économie, etc. Pour décrire ces données, si elles sont nombreuses, le statisticien traitera d'abord les variables une par une (traitements univariés), puis il s'intéressera aux éventuelles interactions entre deux variables (traitement bivariés) voire plus (traitements multivariés). Après l'analyse descriptive des données (où toutes les variables sont placées sur le même plan), il poursuivra dans certains cas par une analyse explicative (il y a alors d'une part la variable expliquée, d'autre part les variables explicatives). Les variables (ou caractères) auxquels on s'intéresse sont essentiellement de deux natures : - les variables quantitatives (en abrégé VQT) sont mesurées par un nombre. ex. : âge, chiffre d'affaires, note en stats, température, poids - les variables qualitatives (en ...

Informations

Publié par	Phawyer
Nombre de lectures	217
Langue	Français

Extrait

Maryse Raffestin – octobre 2005

Pratiquer une analyse en composantes principales

I - Ob ectif de lACP

1 -LA PLACE DE LACP DANS LES METHODES STATISTIQUES a) Lorsquon recueille des informations sur desindividus ouunits statistiquesun individu, au sens ( statistiques du terme, peut tre une personne physique, une entreprise, un pays ,etc.) , on aboutit  la constitution duntableau individus-variablesdu type suivant : individus V1V2 V3, ,Vp

I1 I2 I3 I4 I5 , , , In Ex. : les individus sont les 200 tudiants de 1e anne de DEUG et les variables sont : lge, le sexe, le redoublement (oui/non), la srie du bac, les notes en maths, stats, conomie, etc. Pour dcrire ces donnes, si elles sont nombreuses, le statisticien traitera dabord les variables une par une (traitements univaris), puis il sintressera aux ventuelles interactions entre deux variables (traitement bivaris) voire plus (traitements multivaris). Aprslanalyse descriptivedonnes (o toutes les des variables sont places sur le mme plan), il poursuivra dans certains cas par uneanalyse explicative(il y a alors dune part la variable explique, dautre part les variables explicatives). Les variables (oucaractres) auxquels on sintresse sont essentiellement de deux natures : - lesvariables quantitatives(en abrg VQT) sontmesurespar un nombre. ex. : ge, chiffre daffaires, note en stats, temprature, poids - lesvariables qualitatives(en abrg VQL) peuvent prendre plusieursmodalits: ex. : sexe, srie du bac, code APE, jour de la semaine, profession LACP sert dcriredes tableaux "individus-variablesquantitatives" de grande dimension (beaucoup de variables - cest un traitementmultivari- et beaucoup dindividus -sil y an a peu, inutile de faire appel  des outils statistiques pour rsumer). Remarques : - dans les enqutes dopinion, on utilise souvent des variables dun 3e type : les variables ordinales qui indiquent un rang de classement (ex : classer des produits par ordre de prfrence, se situer sur une chelle allant de "trs favorable"  "trs dfavorable", etc.) - on peut passer dune variable quantitative (total des points obtenus  un concours)  une variable ordinale (rang de classement au concours) puis  une variable qualitative (reu / coll). Mais linverse nest pas possible. En effectuant cette transformation, on perd de linformation. Cest le cas lorsquon passe dune variable QT (ex. : "effectif salari") une variable classifie ("tranche deffectif" avec par ex. 3 classes : petites, moyennes et grandes entreprises)qui devient alors une variable QL.

b) Les traitements statistiques des variables qualitalives et des variables quantitatives sont fondamentalement diffrents. Cest vrai notamment pour les mthodes descriptives : - caractres qualitatifs: n Traitement univariou des frquences f= :on calculera la distribution des effectifs ni/ selonles iin diffrentes modalits. On pourra ventuellement noter la modalit dominante (celle qui a la plus forte frquence), parfois appele "mode" par analogie aux variables quantitatives. Traitement bivari :lorsquon rpartit une population selon 2 caractres qualitatifs, on constitue untableau de contingence. Ce tableau peut tre trs grand (donc illisible) si les caractres tudis comportent beaucoup de modalits(ex. : rpartition de la population franaise par rgions et classes dges). Une technique danalyse factorielle, lanalyse factorielle des correspondances (AFC) sert  dcrire les grands 2 tableaux de contingence. Lorsque lobservation porte sur un chantillon, le test duχ sert  juger de lindpendance de ces 2 caractres - caractres quantitatifs: Traitement univari: on peut calculer la moyenne et lcart-type, ainsi que les quantiles (mdiane, quartiles, dciles , centiles...). Lorsque lobservation porte sur un chantillon, on peut estimer ces paramtres par intervalle de confiance. Traitement bivarilorsquon sintresse  la liaison entre deux variables QT, on peut reprsenter le nuage : des points M(x ,y )et examiner sa forme. La covariance et le coef de corrlation linaire sont des i ii indicateurs de lintensit de la liaison linaire ventuelle de ces deux variables. Traitements multivaris :lorsquon sintresse  la liaison entre plus de deux ou trois variables QT, on ne peut plus reprsenter graphiquement le nuage des points M. LACP nous permet de lobserver sous ses i angles les plus intressants, en examinant les projections du nuage sur des plans qui en conserve le mieux la forme. Elle permet galement de reprer les groupes de variables fortement corrles entre elles, et ventuellement de dtecter des caractres complexes sous-jacents  ces groupes. 2 - LES DONNES TRAITEES EN ACPSoit X un tableau  n lignes et m colonnes. La ligne i dcrit la valeur prise par mvariables quantitativespour lindividu i . Avant toutes choses, les donnes sont centres et rduites, cest--dire que chaque variable a une moyenne nulle et une variance gale  1. On note Xle vecteur-colonne constitu par les lments de la colonne j ; xdsigne llment situ  jij lintersection de la ligne i et de la colonne j, cest--dire la valeur de la variable xpour lindividu i . j 3 - LE PROBLMEPour observer sous un angle plus favorable les donnes contenues dans le tableau X,on remplace les anciens axes (donc les anciennes variables x) par de nouveaux axes (donc par des variables nouvelles C). k k Ces nouvelles variables Csont appelescomposantes principales; elles sexpriment comme combinaisons k linaires des anciennes variables x,....x . 1 m C= ax +ax .......+a x kk1 1km mk2 2 Les nouveaux axes, appelsaxes factoriels, sont choisis de la faon suivante : - le 1er axe factoriel , ouaxe principal dinertie, est la direction de "plus grand allongement" du nuage (en statistiques on dit : "de plus grande dispersion" ou "de plus grande inertie" du nuage). Lorsque on projette les points Pdu nuage sur cet axe, leurs projections Hsont plus disperses quelles ne i i le seraient sur nimporte quel autre axe . Laxe factoriel F1 est donc laxe selon lequel est prserv, par projection, le maximum de la dispersion initiale des points du nuage. Le fait que le nuage soit allong prcisment dans cette direction doit trouver une explication. La nouvelle variable C1 (lacomposante principale n1) est le caractre selon lequel les individus se diffrencient le plus. Pourquoi ? Quelle signification peut bien avoir cette variable qui combine avec des

poids plus ou moins importants (les coefficients a) les variables initiales mesures sur les individus? Une i tape fondamentale de lACP est linterprtation de cette composante principale, qui se fera par lexamen de sa combinaison avec les variables de dpart. On espre toujours pouvoir dtecter dans cette nouvelle variable uncaractre complexe, qui nest pas directement mesurable par une seule quantit, mais bien rel, comme par exemple lasant(pour des individus, pour des entreprises...), lindustrialisation(dune rgion...), la qualit dujeu dattaque (pourun joueur de football, de tennis...), lacomptence dans les matires quantitatives(pour un tudiant), etc. - le 2e axe factoriel est la 2e direction dallongement du nuage, cest--dire celle qui explique, aprs le 1er axe, le maximum de linertie rsiduelle. De plus le 2e axe est choisi orthogonal au 1er , ce qui traduit -comme nous le verrons- le fait que la 2e composante principale est non corrle  la 1e (les vecteurs directeurs des 2 premiers axes ont un produit scalaire nul⇔les 2 premires composantes principales ont une covariance nulle). Comme prcdemment, on cherchera  donner un sens  cette 2e composante principale, en observant comment elle combine les variables de dpart. -et ainsi de suite, jusqu avoir remplac les m anciens axes par m nouveaux axes (les axes factoriels), portant des part dcroissantes de la dispersion initiale et dont les 2, 3 ou 4 premiers suffisent souvent  donner une image  peine dforme du nuage initial. Cest cette imagerduite donc beaucoup plus accessible  notre observation quenous examinerons pour dcrire et analyser les donnes du tableau initial. Mathmatiquement, la dtermination des axes factoriels se fait par diagonalisation de la matrice de variances-covariances, d’o le vocabulaire utilis (valeurs propres, vecteurs propres)

II - Interrter une ACP 1 - Le % de linertie explique par les premiers axes factoriels Un facteur est une variable composite fabrique  partir des variables dorigine; il sexprime comme er combinaison linaire des anciennes variables. Le 1axe factoriel correspond  la variable composite qui diffrencie le mieux les individus. Le % dinertie (ou "variance" du nuage ou "dispersion") explique par un axe factoriel permet dvaluer en quelque sorte la quantit dinformation recueillie par cet axe. Notons que linertie explique par un axe est gale  lavaleur propreet que linertie totale (somme des valeurs propres) est gale au correspondante nombre de variables de dpart dans le cas d’une analyse sur donnes centres-rduites (qui est l’option par dfaut dans la plupart des logiciels) . La qualit de la reprsentation des donnes par un plan factoriel svalue en ajoutant les % d’inertie explique par les 2 axes. Si les 2 premiers axes factoriels expliquaient 100% de linertie du nuage , tous les points-individus seraient situs dans le plan factoriel 1-2 . Ceci narrive jamais... Il faut en gnral plusieurs facteurs pour expliquer une part significative de la dispersion. Sil ny avait pas de direction privilgie dallongement du nuage, chaque axe factoriel porterait une part identique de la dispersion : 100% divis par le nombre p de variables. Dans le cas d’une analyse sur donnes centres-rduites, chaque valeur propre serait gale  1.Ainsi , sil y a au dpart 5 variables , un er % dinertie explique par le 1axe factoriel qui serait de 25% montre que le nuage na pas de vritable axe dallongement remarquable (25% compar  20%, cest peu), alors que ce serait tout  fait remarquable sil y a au dpart 50 variables (25% compar  2% , cest norme). Le cas le plus intressant est videmment celui o avec un petit nombre daxes on arrive  bien rsumer un nuage dun espace de grande dimension. Lanalyse est pertinente si, avec un petit nombre daxes, on explique une part importante de linertie. Il est difficile de donner une rgle pour savoir combien daxes on va retenir. Certains critres peuvent tre proposs : - retenir autant daxes quil le faut pour atteindre le seuil de variance explique dsir ( 80% par ex.) - observer le changement de concavit de la courbe des valeurs propres (cfMarket – Nathan -p.373) - retenir les valeurs propres suprieures  1 (dans le cas d’une analyse sur donnes centres-rduites) En pratique, on pourra difficilement interprter plus de 3 axes, parfois 4. Donc concrtement lanalyse mrite dtre poursuivie si avec 3 ou 4 axes, on conserve une part importante de linertie initiale. 2 - La dmarche dinterprtation dune ACP 1 - Tenter de donner une signification aux nouveaux axes retenus pour lanalyse ( les 2 ou 3 premiers, parfois 4), en les interprtant  partir des variables de dpart. Pour cela , on examine le nuage des points-variables, inscrit dans le cercle des corrlations. 2 - Etudier(ventuellement) le nuage des individus par rfrence aux nouveaux axes dont linterprtation vient dtre donne. Attention aux effets de perspective ! Les points-variables -Les nouvelles variables, associes aux axes factoriels, sont appeles facteurs ou composantes principales. Elles sexpriment comme combinaisons linaires des anciennes variables . -Les coefficients de ces combinaisons linaires sont fournis par le logiciel; cest eux qui dfinissent les nouveaux axes : oils permettent de calculer les nouvelles coordonnes dun point-individu  partir des anciennes oils permettent galement de voir le poids dune ancienne variable dans la dfinition dun facteur. Le reprage des variable dorigine correspondant auxcoefficients les plus levs

en valeur absolu permet de dgager une interprtation des facteurs. Cette interprtation est facilite par lexamen des corrlations "anciennes- nouvelles" variables (qui sont dailleurs proportionnelles aux coefficients) reprsentes dans le cercle des corrlations... Le cercle des corrlations A chaquepoint-variable, on associe un point dont lacoordonnesur un axe factoriel est une mesure de la corrlationentre cette variable et le facteur. Dans lespace de dimension p la distance des points-variables  lorigine est gale  1. Donc par projection sur un plan factoriel les points-variables sinscrivent dans un cercle de rayon 1 - le cercle des corrlations - et sontdautant plus proche du bord du cercleque le point-variable est bien reprsent par le plan factoriel, cest--direque la variable est bien corrle avec les deux facteursconstituant ce plan. Attention ! Les variables qui ne sont pas situes au bord du cercle dans un plan factoriel ne sont pas corrles avec les deux facteurs reprsentes. Elles ne servent pas  linterprtation et leffet de perspective empche dinterprter la proximit de deux variables (voir dautres plans factoriels, o la corrlation sera plus forte) - Langle entre 2 point-variables, mesur par son cosinus est gal au coefficient de corrlation linaire entre les 2 variables:cosα,X )= r(X 1 2 Ainsi : -si les points sont trs proches (αpeu diffrent de 0 ) : cosα= 1 donc,X )= r(X 1 2 Xet Xsont trs fortement corrls positivement 1 2 -siαest gal  90, cosα= 0 alors pas de corrlation linaire entre X,X )et X= r(X 1 21 2 - si les points sont opposs,α180, cos vautαsont trs fortement= -1 : Xet X =r(X ,X ) 1 21 2 corrls ngativement Le cercle des corrlations permet de voir, parmi les anciennes variables, les groupes de variables trs corrles entre elles. Pour interprter un axe, on examine les coefficients de la combinaison linaire qui le dfinissent ou bien – si on prfre - on examine sa corrlation avec les anciennes variables en observant le cercle des corrlations (ou le tableau donnant ces corrlations). Une variable qui a une coordonne faible, donc un coefficient faible, ne sert pas pour linterprtation dun facteur. Une variable (ou un groupe de variables) ayant un coefficient fort -positif ou ngatif-servira dabord par elle-mme ( les "forts" en facteur i sont les "forts" en x, x ..(ou les "faibles"en k l cas de corrlation ngative) mais galement par opposition  dautres variables diamtralement opposes.Les points-individus La qualit de la reprsentation dun point M par un axe U dpend de sa distance  laxe dans le nuage, 2 mesure par langle (OM, U), ou plus exactement par son cosinus ou son cos. (sil est proche de 1 le point est bien reprsent). La qualit de la reprsentation dun point M par un plan factoriel constitu de 2 axes est mesure par la 2 somme des cosavec 2 axes (Pythagore!). La position dun point-individu par rapport  un axe factoriel , ainsi que les proximits entre les individus, peuvent tre interprtes ds lors que ces points sont bien reprsents par le plan factoriel observ. Certains individus seront bien reprsents par le plan 1-2 (les "trs forts" ou "trs faibles " en facteur 1 et 2 surtout), dautres par le plan 1-3 sils sont mieux dcrits par laxe 3, etc.

III - Exemple Pendant une semaine, 2000 femmes de 30  40 ans ont not leur emploi du temps quart d’heure par quart d’heure. On a ainsi calcul ladure hebdomadaire qu’elles ont consacre aux 10 activits quotidiennes ci-dessous : profess travailprofessionnel transp transport sommeil sommeil sport activitsphysiques et sportives courses shopping- courses enfants enfants toilette toilette cuisine prparationdes repas menage travailmnager tele tlvision Une ACP a t effectue sur le tableau individus x variables de dimension (2000 x 10) ainsi constitu. Le logiciel SAS a fourni les rsultatssuivants, donnant respectivement les valeurs propres, les coordonnes des vecteurs propres et les corrlations des composantes principales avec les anciennes variables (pour ces 2 derniers tableaux, on a retenu seulement 3 composantes). L’tude des individus n’est pas ralise ici. Interprter les rsultats ci-dessous.