- L'analyse factorielle, méthode scientifique - article ; n°1 ; vol.50, pg 61-75

De
Publié par

L'année psychologique - Année 1949 - Volume 50 - Numéro 1 - Pages 61-75
15 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : samedi 1 janvier 1949
Lecture(s) : 17
Nombre de pages : 16
Voir plus Voir moins

L. L. Thurstone
V. - L'analyse factorielle, méthode scientifique
In: L'année psychologique. 1949 vol. 50. pp. 61-75.
Citer ce document / Cite this document :
Thurstone L. L. V. - L'analyse factorielle, méthode scientifique. In: L'année psychologique. 1949 vol. 50. pp. 61-75.
doi : 10.3406/psy.1949.8425
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1949_hos_50_1_8425V
L'ANALYSE FACTORIELLE,
MÉTHODE SCIENTIFIQUE 1
par L. L. Thurstone
Université de Chicago.
Le point de départ de l'analyse factorielle est un remarquable
article publié en 1904 par le psychologue anglais Charles Spear
man. Il disposa les intercorrélations d'un ensemble de tests en
une table carrée, et remarqua que les colonnes et les lignes de
chaque table pouvaient être réarrangées de façon que les corré
lations élevées soient dans le coin gauche supérieur et les plus basses dans le coin inférieur de droite. Quand ceci
était fait, les corrélations semblaient s'étager dans chaque
colonne, depuis les valeurs relativement élevées jusqu'aux valeurs
basses. Spearman appela « hiérarchie » cette caractéristique de
la table d'intercorrélations. Cet important article fut le point
de départ d'un quart de siècle de débats. Spearman montra que
lorsqu'on pouvait obtenir cet arrangement hiérarchique des cor
rélations, on pouvait alors les expliquer à l'aide d'un seul fac
teur, qu'il appela facteur d'intelligence générale, symbolisé
par « g ». C'était l'introduction du « g » de Spearman, qui a été
le sujet de milliers de controverses et de recherches.
Au lieu de confier à la simple inspection le soin de démontrer
l'existence d'une hiérarchie, et donc du facteur commun « g »,
dans une table de corrélations particulière, Spearman essaya
de trouver quelque index numérique objectif pour démontrer
1. Cet article écrit pour ce volume dédié au professeur Henri Piéron, a
été lu à une réunion commune de 1' American Psychological Association, de
l' American Statistical Association et de la Psychometric Society, le 29 dé
cembre 1950. 62 PROBLÈMES GÉNÉRAUX ET MÉTHODOLOGIE
l'existence d'une hiérarchie. Une rétrospective de ses essais en
ces temps de statistiques débutantes, est assez intéressante.
D'abord, Spearman fit remarquer que, quand il y a hiérarchie,
les colonnes et les lignes sont alors proportionnelles, et ce critère
fut connu sous le nom de critère de proportionnalité. Il était
toujours possible de démontrer la proportionnalité en relevant
deux à deux les colonnes de corrélations, mais Spearman n'était
pas satisfait de ce procédé. Il voulait quelque index numérique
unique pour démontrer la hiérarchie. Il observa ensuite que,
lorsque les colonnes de coefficients de corrélation sont propor
tionnelles, il devrait y avoir alors une élevée entre
les paires de colonnes de coefficients. Avec cette idée dans l'es
prit, il calcula les coefficients de corrélation entre colonnes et
démontra occasionnellement que ces coefficients étaient élevés,
mais n'atteignaient jamais l'unité. Plus tard Spearman conçut
le critère des différences tétrades, qui est familier à tous ceux qui
ont étudié l'analyse factorielle. Dans une analyse complète uti
lisant les tétrades de Spearman, il était nécessaire de calculer
une tétrade pour chaque groupe de quatre tests dans la table.
Une pouvait être calculée pour un groupe de quatre tests,
en prenant deux colonnes et deux lignes quelconques, dont
l'intersection n'était pas sur la diagonale. Selon la théorie de
Spearman, toutes ces tétrades devraient s'annuler. En pratique
elles ne s'annulaient pas. Il était par conséquent nécessaire pour
lui de démontrer qu'on pouvait les considérer comme nulles, à
part les erreurs d'échantillonnage dans les coefficients de corréla
tion. Comme Spearman n'utilisait pas beaucoup de sujets, les
erreurs d'échantillonnage des coefficients de corrélation étaient
assez grandes, et il put souvent démontrer un accord raisonnable
entre son hypothèse d'un facteur central d'intelligence « g » et
les données expérimentales, pour de petites batteries de tests.
Quand nous considérons les premiers efforts de Spearman à
la lumière des développements ultérieurs, il semble vraiment
étrange que ses premiers critères pour la hiérarchie n'aient appa
remment jamais été considérés en relation avec le rang de la
table de coefficients de corrélation. Si les colonnes et les lignes
d'une table carrée symétrique sont proportionnelles, le rang est
alors nécessairement unité. De plus, on peut considérer les diff
érences tétrades dans le même contexte. De nombreuses années
plus tard, quand je travaillais sur le problème de l'analyse mul-
tifactorielle, je décidai d'étudier la relation entre quelques théo
rèmes relatifs aux facteurs multiples et le critère des différences L. THURSTONE. L'ANALYSE FACTORIELLE 63 L.
tétrades de Spearman. J'écrivis l'équation des différences tétrades
pour commencer cette étude, et il m'apparut alors que la diff
érence tétrade n'était rien d'autre que l'expansion d'un mineur
du second ordre. Si toutes les différences tétrades s'annulent,
cela revient à dire simplement que tous les mineurs du second
ordre s'annulent. Quand ceci arrive, le rang de la matrice de
corrélations est unité. Si, à l'époque des premiers efforts de Spear
man, la question avait été présentée de cette façon, il aurait
alors été facile d'étendre la même question en demandant quelle
interprétation devait être donnée si tous les mineurs du troisième
ordre, ou si tous les mineurs du quatrième ordre s'annulent. Si
une telle question avait été posée, il semble presque certain que
l'analyse multifactorielle aurait été développée un quart de siècle
plus tôt.
Les premiers essais d'étendre l'analyse factorielle auTdelà de
l'hypothèse spearmanienne d'un facteur unique furent tentés
par Truman Kelly, dans sa monographie : Crossroads in the
Mind of Man, publiée en 1926. Dans cette monographie, Kelly
essaya d'étendre le type de raisonnement de Spearman à des
corrélations affectées par plus d'un facteur commun. Kelly n'en
visagea pas le problème du point de vue du rang de la matrice.
Dans le multifactoriel, nous débutons par une ques
tion différente. En fait, nous demandons au départ quel est le
rang de la table d'intercorrélations donnée, et ce rang est le
nombre de facteurs qui doivent être postulés pour rendre compte
des corrélations obtenues expérimentalement. Au point de vue
mathématique, le rang d'une matrice de corrélations est tou
jours égal à son ordre, à cause de l'existence dans tous les termes
d'erreurs d'échantillonnage fortuites. Nous devons par consé
quent utiliser une approximation du rang de la matrice. Nous
demandons en réalité s'il est possible de produire une matrice
théorique de corrélations, de rang bien inférieur, qui ne diffère
que légèrement des corrélations observées expérimentalement.
Quand on peut trouver une telle matrice de corrélations, son
rang donne le nombre de facteurs qui doivent être postulés pour
rendre compte des corrélations observées.
Il est apparu que les modèles géométriques sont extrêmement
utiles pour clarifier les concepts et les problèmes fondamentaux
en analyse factorielle. Dans le modèle géométrique, nous repré
sentons chaque test par un vecteur dans un espace total dont le
nombre de dimensions est donné par le rang de la matrice de
corrélations. Ordinairement, nous assignons à chaque variable 64 PROBLÈMES GÉNÉRAUX ET MÉTHODOLOGIE
une variance égale à un, de façon que chacun des vecteurs-tests
soit de longueur unité dans l'espace total.
L'analyse multifactorielle débute par une équation d'obser
vation linéaire, dans laquelle la note d'un individu dans un test
est exprimée comme la somme pondérée de ses notes (en écart
réduit) dans les facteurs. Les poids sont fonction des tests. On
peut montrer qu'avec cette interprétation chaque coefficient de
corrélation est un produit scalaire de deux vecteurs-tests. Si
les vecteurs-tests sont de longueur unité, les corrélations sont
les cosinus des angles séparant les vecteurs-tests. Avec cette
interprétation géométrique du problème multifactoriel, plu
sieurs conséquences deviennent évidentes. Considérons d'abord
la représentation des coefficients de corrélation comme produits
scalaires de paires de vecteurs. Le produit scalaire d'une paire
de vecteurs est entièrement indépendant de l'emplacement des
axes de référence. Il en découle ce résultat intéressant, que les
corrélations entre les tests définissent uniquement une configu
ration de vecteurs-tests, sans aucun cadre de référence. Si le
rang de la matrice de corrélations est trois, on peut alors faire
un modèle physique de la configuration de vecteurs-tests. Ce
modèle contient toute l'information contenue dans la matrice
de corrélations. Quand nous savons que le rang d'une
de corrélations est trois par exemple, et quand nous avons un
modèle physique des corrélations, nous n'avons toujours pas de
cadre de référence. Il est évidemment possible d'insérer un
groupe de trois axes de référence dans cette configuration;
chaque vecteur-test peut alors être décrit par rapport à trois
axes de référence seulement. Mais il devrait être clair que lorsque
l'on insère un cadre de référence dans la configuration, on donne
sa propre interprétation de l'ordre sous-jacent. Mathématique
ment, il n'y a pas de solution unique à ce problème, car des
axes de référence dans une configuration de vecteurs-tests à
trois dimensions peuvent être insérés d'un nombre infini de façons
différentes. S'il y a, disons, vingt tests comme variables, dont
les intercorrélations sont de rang trois, il est alors possible d'in
sérer un groupe de trois axes de référence, linéairement indépen
dants, par rapport auxquels tous les vecteurs-tests peuvent être
décrits. Du point de vue statistique ou mathématique, la posi
tion de ces axes de référence est sans importance. Mais si nous
regardons l'analyse factorielle comme une méthode scientifique,
la valeur d'une recherche est alors déterminée largement par la
plausibilité de l'interprétation des axes de référence, qui repré- L. THURSTONE. LANALYSE FACTORIELLE 65 L.
sentent les concepts ou paramètres sous-jacents. Il arrive fr
équemment, même avec des auteurs avertis, que ces simples faits
soient grossièrement incompris ou ignorés.
Pour établir un diagramme ordinaire, on définit habituell
ement la position d'un point par des coordonnées x et y. D'une
façon similaire, la position d'un vecteur est définie par ses pro
jections sur les différents axes de coordonnées. Dans un espace
à trois dimensions, un vecteur peut être décrit comme la somme
de trois vecteurs, qui sont ses composantes le long des axes de
coordonnées. De la même façon, il est désirable pour beaucoup
de problèmes de définir la position des vecteurs-tests par leurs
projections sur un système d'axes orthogonaux. En vue d'at
teindre ce résultat, il est nécessaire d'abord de placer des axes
de référence orthogonaux dans la configuration définie par les
corrélations. Le résultat est une autre table, qui montre les pro
jections de chaque vecteur-test sur les trois axes orthogonaux. Une
telle table est appelée une matrice de facteurs. La matrice de
facteurs et la matrice de corrélations définissent toutes deux la
configuration de vecteurs-tests, mais avec une importante dif
férence. La matrice de définit uniquement la con
figuration de sans cadre de référence. La matrice
de facteurs définit la même configuration de vecteurs-tests, par
rapport à des axes de référence orthogonaux qui ont été insérés
dans la configuration.
Il y a bien des façons d'obtenir une matrice de facteurs, à
partir d'une matrice de corrélations donnée expérimentalement.
Peu importe, en général, laquelle de ces diverses méthodes est
utilisée pour calculer la matrice de facteurs. La première méthode
que j'aie conçue à cet effet fut appelée la méthode diagonale.
Plus tard, plusieurs méthodes centroïdes furent trouvées. La
méthode des groupes multiples est encore un autre procédé.
La situation est un peu comparable à la préférence de chacun
pour sa propre méthode de calculer les coefficients de corréla
tion. Pareillement, en analyse factorielle, chaque investigateur
peut avoir sa méthode préférée pour extraire les facteurs de la
matrice de corrélations. La position des axes de référence est
déterminée par la méthode particulière qui a été utilisée pour
extraire les facteurs. Il est évident que pour une matrice dé cor
rélations donnée, on peut écrire un nombre infini de matrices
de facteurs qui, toutes, reproduisent exactement les corrélations.
L'interprétation d'une matrice de facteurs devrait être faite, par
conséquent, en fonction de la méthode qui a servi à la calculer.
A P VOL. JUB. PROBLÈMES GÉNÉRAUX ET METHODOLOGIE 66
Dans les débuts de l'analyse factorielle, ce fut d'abord une
déception de découvrir qu'un nombre infini de matrices de fac
teurs pouvaient être trouvées, pour une matrice de corrélations
donnée. Pour qu'une interprétation de la condensation factor
ielle des intercorrélations ait signification et utilité du point
de vue scientifique, il est évident que la plus grande attention
doit être donnée aux critères selon lesquels nous situons les axes
de référence dans la configuration. Aucune méthode d'extrac
tion des facteurs ne peut, par elle-même, esquiver ce problème,
qui est universel en analyse factorielle. La seule exception est
celle du cas originel de Spearman, où il n'y avait qu'un seul
facteur, avec une matrice de corrélations de rang unité. Une
solution un seul facteur dans une seule dimension n'a pas
ailleurs où aller, et la solution peut alors être regardée comme
unique, sans que l'on ait à s'inquiéter de la position d'axes de
référence.
Dans mes premiers essais pour résoudre ce problème, j'établis
un critère statistique pour déterminer de façon unique la po
sition des axes de référence. Ayant obtenu une matrice de
facteurs, par l'une des diverses méthodes d'analyse des corréla
tions, je décidai de placer les axes de référence dans une posi
tion telle que la somme des carrés des projections des vecteurs-
tests sur le premier axe soit maxima. Le second axe devait être
placé orthogonal au premier, et dans une position telle que la
somme des carrés des projections des corrélations résiduelles
soit maxima. Les axes orthogonaux pouvaient être placés de
cette façon et la solution fournit alors les axes principaux de
la configuration de vecteurs-tests. Je me rappelle une conversa
tion avec le professeur Bartky, du Département d'Astronomie
de l'Université de Chicago, au sujet de ce problème. Il attira
mon attention sur le fait que cette solution est semblable à celle
d'un vieux problème de mécanique céleste. La solution des axes
principaux est satisfaisante en ce que c'est une unique,
pour n'importe quelle matrice de corrélations et batterie de tests
donnée. J'ai décrit cette solution, en 1932, à une réunion de
l'American Association for the Advancement of Science, à Syra
cuse, New-York, et je pensais que j'avais finalement résolu le
problème. Une année plus tard, l'article bien connu du profes
seur Hotelling sur ce sujet était publié. Il décrivait une ingé
nieuse méthode itérative, par laquelle nous pouvions obtenir les
axes principaux directement à partir des coefficients de corréla
tion, sans l'étape intermédiaire que j'avais auparavant utilisée. 67" L. THURSTONE. l' ANALYSE FACTORIELLEL.
Le procédé ingénieux de Hotelling nous donne l'assurance que,
si nous décrivons une matrice de corrélations donnée à l'aide
d'un nombre déterminé de facteurs, les résidus sont alors les
plus petits possible, pour chaque nombre donné de facteurs. La
méthode itérative de Hotelling serait utilisée universellement,
si le travail de computation n'était prohibitif, spécialement pour
les grandes matrices de corrélations. Dès que des machines à cal
culer perfectionnées, électroniques ou autres, pourront être uti
lisées plus généralement, il semble très probable que sa méthode
sera employée. Plusieurs de mes propres procédés d'approximat
ion deviendront alors inutiles.
Il restait encore plusieurs obstacles majeurs au développe
ment de l'analyse factorielle comme méthode scientifique. L'un>
des problèmes les plus embarrassants concerne les valeurs à« pla
cer dans la diagonale de la matrice de corrélations. Nous avons
dit au début que les notes de chaque test étaient réduites à une
variance unité. Ceci est réalisé simplement à l'aide drun facteur
de réduction, qui ramène la distribution de chaque test à un;
écart-type égal à un. Il semble alors naturel que chaque valeur
diagonale de la matrice de corrélations soit égale à un. Considé^-
rons un groupe de tests psychologiques, dix par exemple, et leurs
intercorrélations dans une matrice carrée, d'ordre dix sur dix.
Si le but de la recherche est scientifique, plutôt que statistique,,
on s'attend alors à ce que les facteurs nous renseignent sur
l'ordre sous-jacent à ces tests. Du point de vue mathématique
ou statistique, un groupe quelconque de dix vecteurs-tests peut
être défini au maximum par dix axes de coordonnées ou facteurs.
Si nous voulons que l'analyse contribue de quelque façon à notre
compréhension psychologique des facteurs qui interviennent pour
produire les notes et les intercorrélations, nous devons alors
reconnaître que pratiquement n'importe quel groupe de dix tests,
qui peut être réuni inclut dans sa variance totale beaucoup plus
de dix facteurs. Nous savons par exemple que chaque test a
une part de sa variance attribuable à des erreurs fortuites et
variables. Le coefficient de fidélité ordinaire d'un test (relia
bility coefî.) essaye d'évaluer l'ordre de grandeur de ces facteurs
uniques et variables. De plus, il est presque certain que chacun
des tests a un ou plusieurs facteurs qui interviennent dans ce
test particulier, sans agir dans aucun des autres tests. Dans le
cas le plus simple, nous pourrions avoir un facteur qui est com
mun à tous les tests de la batterie et, d'autre part, quelque unique
variance dans chacun des tests. Même dans ce cas extrêmement 68 PROBLÈMES GÉNÉRAUX ET METHODOLOGIE
simple, nous aurions au moins onze facteurs à décrire à l'aide
de dix tests seulement. Accroître la batterie ne nous aide pas,
car il y a quelque unique variance dans chaque test, par consé
quent le nombre de facteurs, du point de vue scientifique, sera
toujours supérieur au nombre de tests dans la batterie. Et s'il
y a des facteurs comme la facilité verbale ou numérique, l'apt
itude à concevoir les relations spatiales, et ainsi de suite, ce sont
ces facteurs qui constituent l'objectif de l'analyse factorielle.
Quand ce fait fut reconnu, il sembla à nouveau que le problème
des facteurs multiples était par nature indéterminé.
A ce point, reconnaissons qu'une analyse factorielle peut être
faite pour deux types de motifs entièrement différents. Notre
façon de procéder doit être déterminée par le but à atteindre.
Nous allons considérer deux types distincts de problèmes fai
sant intervenir l'analyse factorielle, et nous pourrons comparer
ces deux problèmes par rapport à un ensemble de données pou
vant être analysées pour deux motifs distincts, avec des résultats
entièrement différents.
Le plus simple de ces deux problèmes peut être appelé conden
sation statistique. Considérons une matrice de notes, dans laquelle
nous avons enregistré, par exemple, vingt mesures pour chaque
individu du groupe statistique. A partir de cette table de notes
brutes, nous pouvons, bien sûr, construire une d'inter-
corrélations pour les vingt mesures. Nous pouvons maintenant
nous proposer l'un des deux objectifs suivants : nous pouvons
demander que la résolution en facteurs reproduise les notes
originelles; ou nous pouvons demander que la résolution en fac
teurs reproduise les coefficients de corrélation. Ces deux pro
blèmes ne sont pas les mêmes. Supposons, par exemple, que la
matrice de notes représente des mesures anthropométriques
pour une population d'hommes adultes. Un groupe de maisons
de confection pourrait être intéressé à savoir quel est le plus
petit nombre de tailles et de proportions dont la production est
nécessaire, pour les habits d'hommes. Le problème est alors de
réduire au minimum le nombre de tailles et de proportions diff
érentes que le détaillant doit posséderen stock, pour répondre aux
besoins de la population statistique mesurée. Dans un problème
de cette sorte, le but est, bien sûr, de reproduire la matrice réelle
de mesures anthropométriques. Dans ce cas, la résolution fac
torielle doit rendre compte de la variance totale, et l'on devrait
inscrire l'unité dans les entrées diagonales de la table. Une solu
tion par les axes principaux est alors indiquée, ou par quelque L. THURSTONE. l'a.\ALYSE FACTORIELLE 69 L.
proche variante de cette méthode, de façon à minimiser les dif
férences entre les mesures réelles et les mesures théoriques four
nies par un certain nombre, donné, de facteurs. Ce problème est
analogue à celui de l'ajustement d'une équation de régression.
L'objet est alors de déterminer le nombre voulu de coefficients
de régression. Le motif est simplement de minimiser la somme
des carrés des erreurs résiduelles. L'interprétation physique ou
scientifique des coefficients de régression, en tant que tels, est
sans importance.
Le problème scientifique, plus général, ne concerne pas la
reproduction précise des notes individuelles. L'objet est plutôt
de reproduire les intercorrélations. L'interprétation des éléments
dans la diagonale de la matrice de corrélations montre la diffé
rence entre les deux problèmes. C'est une heureuse circonstance
que les variances uniques n'interviennent pas dans les entrées
latérales de la matrice de corrélations. Les variances uniques
n'influent que sur les corrélations des tests avec eux-mêmes,
dans la diagonale. La corrélation entre deux tests différents est
déterminée par les facteurs qui sont communs à ces deux tests.
Toute variance unique que le test peut posséder est comprise
dans son terme diagonal. Ce problème, apparemment insoluble,
d'avoir plus de facteurs que de tests, peut être résolu en profi
tant du fait que les variances uniques sont toutes dans les termes
de la diagonale. Nous regardons, par conséquent, les valeurs
dans la diagonale comme des inconnues à déterminer de façon
à correspondre aux autres valeurs dans la matrice de corréla
tions. Le rang est alors déterminé entièrement par les termes
latéraux, et non par les valeurs de la diagonale qui sont augment
ées de la variance unique. Les valeurs diagonales choisies
de façon à être en accord avec les autres termes. Chaque valeur
diagonale est la communauté, c'est-à-dire représente la variance
du test qui est commune à d'autres variables dans la matrice
de corrélations. Cette table est appelée la matrice de corréla
tions réduite. Son rang est égal au nombre de facteurs qui sont
communs à au moins deux tests dans la batterie. Nous avons
maintenant un problème déterminé, et que l'on peut résoudre,
au moins en principe. Il arrive fréquemment que le nombre de
facteurs qui sont communs à deux, ou plus, des tests de la batter
ie est considérablement inférieur au nombre total des tests,
et le problème est alors déterminé. Il n'est pas sûr d'avance
qu'une analyse factorielle doive être déterminée. Le problème
ne peut être résolu à l'aide d'un procédé arithmétique, ou autre,

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.