Comparaison de six logiciels pour l

Comparaison de six logiciels pour l'analyse de la variance d'un plan S(A2*B2> déséquilibré - article ; n°2 ; vol.103, pg 277-312

-

Français
38 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

L'année psychologique - Année 2003 - Volume 103 - Numéro 2 - Pages 277-312
Résumé
Nous comparons six logiciels statistiques (EyeLID-2, PAC, SPSS, Statistica, Statview, Var3) pour l'analyse de données relevant de l'ANOVA (plan S déséquilibré) sur les aspects descriptif et inductif et de plusieurs points de vue : 1/ accès à diverses options de comparaisons (équipondérer ou non, spécifique ou non) ; 2/ intégration de procédures liées à des avancées méthodologiques récentes définies en particulier sous l'égide de l'APA (évaluation de la taille des effets, inférence bayésienne) ; 3/ mode d'accès aux procédures. Nous constatons que toutes les options ou procédures souhaitables ne sont pas toujours disponibles. Il apparaît donc nécessaire de recourir à plusieurs logiciels. Pour certains logiciels, on constate parfois un manque d'explicitation des choix offerts, un déficit d'information dans l'affichage, voire des incohérences entre divers résultats produits, ceci risquant de conduire le chercheur à des conclusions erronées.
Mots-clés : logiciels statistiques, EyeLID-2, PAC, SPSS, Statistica, Statview, Var3, analyse de la variance, données déséquilibrées, taille des effets, effets calibrés, intervalles de confiance, méthodes bayésiennes.
Summary : Comparison of six software packages for the analysis of variance of an unbalanced design S.
We compare six statistical software packages (EyeLID-2, PAC, SPSS, Statistica, Statview, Var3) for the analysis of variance of a relatively simple data set (unbalanced design S). The comparison involves both descriptive and inductive aspects and focuses on the following points : 1/ which of the various options for comparisons (weighted vs unweighted comparisons, specific vs general comparisons) are available ; 2/ do the programs integrate new procedures and indices that are now recommended by the APA due to recent methodological advances (effect size measures, Bayesian inference) ; 3/ how are the graphical and statistical procedures accessed ? It appears that the various desirable options or procedures are not always available. For instance, calibrated effects or Bayesian procedures are rarely found, and most software packages do not compute the more classical confidence intervals, which are necessary for the study of the effect sire in the absence of Bayesian procedures. To have access to all desirable procedures, the joint use of several software programs appears necessary.
For some of the software programs studied, we noticed a lack of explanation of the proposed choices (e.g. the choice between unweighted and weighted comparisons), a shortage of information in the output, the use of expressions that express inadequately the relevant statistical concepts and methodological choices (e.g. the various « types » of analysis, simply labelled I/II/III/IV), and even some incoherencies between the various displayed results. In some cases, these problems might lead the researcher to state invalid conclusions.
Key words : statistical software, EyeLID-2, PAC, SPSS, Statistica, Statview, Var3, ANOVA, unbalanced design, effect size, calibrated effects, confidence intervals, Bayesian methods.
36 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Sujets

Informations

Publié par
Publié le 01 janvier 2003
Nombre de lectures 64
Langue Français
Poids de l'ouvrage 2 Mo
Signaler un problème

D. Corroyer
E. Devouche
J.-M. Bernard
P. Bonnet
Y. Savina
Comparaison de six logiciels pour l'analyse de la variance d'un
plan S(A2*B2> déséquilibré
In: L'année psychologique. 2003 vol. 103, n°2. pp. 277-312.
Citer ce document / Cite this document :
Corroyer D., Devouche E., Bernard J.-M., Bonnet P., Savina Y. Comparaison de six logiciels pour l'analyse de la variance d'un
plan S(A2*B2> déséquilibré. In: L'année psychologique. 2003 vol. 103, n°2. pp. 277-312.
doi : 10.3406/psy.2003.29638
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_2003_num_103_2_29638Résumé
Résumé
Nous comparons six logiciels statistiques (EyeLID-2, PAC, SPSS, Statistica, Statview, Var3) pour
l'analyse de données relevant de l'ANOVA (plan S<A2*B2> déséquilibré) sur les aspects descriptif et
inductif et de plusieurs points de vue : 1/ accès à diverses options de comparaisons (équipondérer ou
non, spécifique ou non) ; 2/ intégration de procédures liées à des avancées méthodologiques récentes
définies en particulier sous l'égide de l'APA (évaluation de la taille des effets, inférence bayésienne) ; 3/
mode d'accès aux procédures. Nous constatons que toutes les options ou procédures souhaitables ne
sont pas toujours disponibles. Il apparaît donc nécessaire de recourir à plusieurs logiciels. Pour certains
logiciels, on constate parfois un manque d'explicitation des choix offerts, un déficit d'information dans
l'affichage, voire des incohérences entre divers résultats produits, ceci risquant de conduire le
chercheur à des conclusions erronées.
Mots-clés : logiciels statistiques, EyeLID-2, PAC, SPSS, Statistica, Statview, Var3, analyse de la
variance, données déséquilibrées, taille des effets, effets calibrés, intervalles de confiance, méthodes
bayésiennes.
Abstract
Summary : Comparison of six software packages for the analysis of variance of an unbalanced design
S<A2*B2>.
We compare six statistical software packages (EyeLID-2, PAC, SPSS, Statistica, Statview, Var3) for the
analysis of variance of a relatively simple data set (unbalanced design S<A2*B2>). The comparison
involves both descriptive and inductive aspects and focuses on the following points : 1/ which of the
various options for comparisons (weighted vs unweighted comparisons, specific vs general
comparisons) are available ; 2/ do the programs integrate new procedures and indices that are now
recommended by the APA due to recent methodological advances (effect size measures, Bayesian
inference) ; 3/ how are the graphical and statistical procedures accessed ? It appears that the various
desirable options or procedures are not always available. For instance, calibrated effects or Bayesian
procedures are rarely found, and most software packages do not compute the more classical
confidence intervals, which are necessary for the study of the effect sire in the absence of Bayesian
procedures. To have access to all desirable procedures, the joint use of several software programs
appears necessary.
For some of the software programs studied, we noticed a lack of explanation of the proposed choices
(e.g. the choice between unweighted and weighted comparisons), a shortage of information in the
output, the use of expressions that express inadequately the relevant statistical concepts and
methodological choices (e.g. the various « types » of analysis, simply labelled I/II/III/IV), and even some
incoherencies between the various displayed results. In some cases, these problems might lead the
researcher to state invalid conclusions.
Key words : statistical software, EyeLID-2, PAC, SPSS, Statistica, Statview, Var3, ANOVA, unbalanced
design, effect size, calibrated effects, confidence intervals, Bayesian methods.L'Année psychologique, 2003, 103, 277-312
NOTE MÉTHODOLOGIQUE
Laboratoire de Psychologie Environnementale*
Université Paris 5
CNRS UMR 8069'
Laboratoire Cognition et Développement**
Université Paris 5
CNRS UMR 8605
COMPARAISON DE SIX LOGICIELS
POUR L'ANALYSE DE LA VARIANCE
D'UN PLAN S<A2*B2> DÉSÉQUILIBRÉ
Denis CORROYER2*, Emmanuel DEVOUCHE**,
Jean-Marc BERNARD*,
Philippe BONNET** et Yannick SaviNA*
REMERCIEMENTS
Nous remercions l'ensemble des auteurs et éditeurs des logiciels qui ont bien
voulu relire une première version de cet article et nous faire part de leurs remarques,
ainsi que les experts de la revue pour leurs nombreuses suggestions et critiques cons-
tructives qui ont contribué à l'amélioration de cet article.
SUMMARY : Comparison of six software packages for the analysis of
variance of an unbalanced design S<A2*B2>.
We compare six statistical software packages (EyeLID-2, PAC, SPSS,
Statislica, Statview, Var3) for the analysis of variance of a relatively simple
data set (unbalanced design S<A2*B2>). The comparison involves both
descriptive and inductive aspects and focuses on the following points :
1 I which of the various options for comparisons (weighted vs unweighted
comparisons, specific vs general comparisons) are available ; 2 I do the
programs integrate new procedures and indices that are now recommended by
the APA due to recent methodological advances (effect size measures, Bayesian
inference) ; 3 I how are the graphical and statistical procedures accessed ?
1. 71, avenue Edouard-Vaillant, 92774 Boulogne-Billancourt Cedex.
2. E-mail : corroyer@psycho.univ-paris5.fr. 278 D. Corroyer et al.
It appears that the various desirable options or procedures are not always
available. For instance, calibrated effects or Bayesian are rarely
found, and most software packages do not compute the more classical
confidence intervals, which are necessary for the study of the effect sire in the
absence of Bayesian procedures. To have access to all desirable procedures, the
joint use of several software programs appears necessary.
For some of the software programs studied, we noticed a lack of
explanation of the proposed choices (e.g. the choice between unweighted and
weighted comparisons), a shortage of information in the output, the use
of expressions that express inadequately the relevant statistical concepts
and methodological choices (e.g. the various « types » of analysis, simply
labelled IIIIIIIII1V), and even some incoherencies between the various
displayed results. In some cases, these problems might lead the researcher to
state invalid conclusions.
Key words : statistical software, EyeLID-2, PAC, SPSS, Statistica,
Statview, Var3, A NO VA, unbalanced design, effect size, calibrated effects,
confidence intervals, Bayesian methods.
INTRODUCTION
L'analyse statistique des données implique désormais syst
ématiquement l'utilisation d'un ou plusieurs logiciels statisti
ques. Si l'utilisateur peut se réjouir de pouvoir accéder à ces
outils, ils ne sont pas sans lui poser des problèmes. Celui-ci peut
s'interroger sur les procédures accessibles (statistiques et graphi
ques) avec tel ou tel logiciel. Concernant l'analyse de la variance
par exemple, celle-ci suppose de faire des choix entre plusieurs
options (e.g. équipondérer ou non, procéder à des comparaisons
spécifiques ou non spécifiques). Dans quelle mesure ces logiciels
offrent-ils les différentes options à l'utilisateur ? Par ailleurs, la
méthodologie d'analyse des données en psychologie est actuell
ement l'objet d'une redéfinition assez radicale : de nouvelles sta
tistiques sont mises en avant et de nouvelles procédures sont
définies. Ces logiciels permettent-ils la mise en œuvre de cette
nouvelle méthodologie ?
Il s'agit donc, ici, essentiellement de se prononcer sur le
contenu des logiciels (statistiques et graphiques disponibles).
Cependant, on sera nécessairement amené à évoquer certains
aspects ergonomiques, en particulier les modes d'accès à ces procé
dures. En effet, même si les interfaces ont beaucoup évolué, la Comparaison de six logiciels pour l'analyse de la variance 279
question de la mise en œuvre des procédures n'est pas simple :
comment obtenir telle statistique, tel graphique ? On s'attachera,
en particulier, à repérer dans quelle mesure un éventuel déficit
dans les informations fournies à l'utilisateur (même expert) risque
de conduire celui-ci à utiliser des résultats inadéquats.
Les travaux qui ont visé à comparer les logiciels d'analyse de
la variance ont principalement porté sur les de grande
diffusion (BMDP, GENSTAT, MINITAB, S-PLUS, SAS, SPSS,
SYSTAT) et se sont surtout attachés à comparer les divers F
fournis pour l'analyse d'un même effet. Ainsi Drton et Azaïs
(1999) ne dénombrent pas moins de huit tests F offerts à
l'utilisateur dans certains cas, pour une même question alors
que, selon ces auteurs, seuls trois tests F testent des hypothèses
intéressantes, et l'utilité de plusieurs autres tests F est qualifiée,
par les auteurs, d'impénétrable.
En matière de comparaison de logiciels, il est impossible
d'être exhaustif compte tenu du nombre élevé de logiciels exis
tants. Nous nous intéresserons ici à trois logiciels généralistes
parmi les plus utilisés, nous semble-t-il, pour FANOVA dans le
champ de la psychologie : SPSS (version 10), Statistica (ver
sion 97) et Statview (version 5 . 0) ; et à trois logiciels ayant la
particularité commune d'avoir été développés pour l'analyse de
données expérimentales en psychologie par des chercheurs de
l'ancien laboratoire de H. Rouanet : Var3 (version micro),
EyeLID-2 (version 2.04), PAC (version 1.5).
Ces logiciels sont très différents les uns des autres : Var3 et utilisent un langage de commandes, tandis que les
autres logiciels ont recours à des interfaces graphiques tels que
menus, boîtes de dialogues, et système de pointage de type sour
is. SPSS et PAC ont la particularité d'utiliser à la fois un lan
gage de commandes et certaines facilités des interfaces graphi
ques. Ces six logiciels sont présentés un peu plus en détail en
annexe.
Nous allons nous intéresser ici, à titre d'exemple, à l'analyse
d'un type de données, simple et classique, qui relève tradition
nellement de l'analyse de la variance (ANOVA) : une variable
numérique est observée sur des unités statistiques (en psychol
ogie, il s'agira le plus souvent de sujets) réparties dans
quatre groupes indépendants issus du croisement de deux fac- 280 D. Corroyer et al.
teurs (notés A et B) à deux modalités chacun, avec des effectifs
non nécessairement égaux par groupe (plan non équilibré). Le
plan de recueil des données peut donc être explicité par la fo
rmule suivante : S<A2*B2> — » X (où X représente le score
numérique)1.
Nous considérerons des données non équilibrées. Il s'agit
d'une situation à laquelle les utilisateurs sont régulièrement con
frontés. En effet, même si l'on recherche l'équilibre lors du
recueil des données, il arrive fréquemment que les données
recueillies soient déséquilibrées (groupes d'effectifs différents,
croisements déséquilibrés). Différentes options se présentent
alors selon que l'utilisateur s'intéresse à des statistiques équi-
pondérées ou non (Bernard, 1994 6).
La structure de données étudiée ici ne peut pas rendre compte
à elle seule de tous les problèmes soulevés par l'analyse de
données relevant de l'analyse de la variance. Cependant, comme
nous allons le voir, dès cette structure relativement simple
(S<A2*B2>), se posent déjà de sérieux problèmes. Azaïs (1994)
montre que, pour ce même plan simple, le nombre d'options diffé
rentes, disponibles dans plusieurs logiciels, conduit déjà souvent
à la perplexité.
Avant de procéder à cette comparaison, il est d'abord néces
saire de :
— rappeler quelques problèmes posés par l'analyse de données
non équilibrées ;
— préciser l'ensemble des procédures (statistiques et graphi
ques) nécessaires à une ANOVA, en tenant compte des déve
loppements récents en matière de méthodologie d'analyse
statistique des données.
LE PROBLÈME DU DÉSÉQUILIBRE
Lorsque les données ne sont pas équilibrées, le problème se
pose du poids à donner à chacun des groupes dans l'analyse. Ce
choix, entre équipondérer ou non et, dans ce second cas, le choix
de la pondération à appliquer, relève de la décision du cher-
1. Dans l'ensemble de cet article, nous utiliserons systématiquement la
notation introduite par H. Rouanet et D. Lépine (1976, 1977) pour désigner les
structures de données. Comparaison de six logiciels pour l'analyse de la variance 281
cheur. Cette décision dépend avant tout de la question posée sur
les données, mais aussi de la nature des facteurs, manipulés (ou
contrôlés, ou provoqués) ou non manipulés (facteurs de classif
ication naturels, ou invoqués, ou étiquettes) et, dans ce dernier
cas, du caractère plus ou moins « naturel » du déséquilibre.
Pour illustrer cette question considérons tout d'abord une
situation élémentaire, de type S<G2> — » X, impliquant un fac
teur de classification naturel (le sexe, noté G, par exemple), mais
où l'on s'intéresse, non pas à la comparaison des deux groupes gl
et g2, mais au score moyen sur la variable numérique de
l'ensemble des sujets.
Si l'on vise l'étude de la population générale, et si l'on a
observé un nombre inégal de garçons et de filles, le score moyen
sera mieux estimé si l'on équipondère les deux groupes (car le
nombre de filles et de garçons est approximativement le même
dans la population générale).
Supposons maintenant que l'on s'intéresse, non pas à la
population générale, mais à celle des étudiants en psychologie
qui comprend environ 90 % de femmes et 10 % d'hommes. La
meilleure estimation du score moyen de cette population sera
obtenue en recueillant des données sur un échantillon composé
de 90 % de femmes et de 10 % d'hommes et en appliquant cette
pondération lors des analyses1.
Enfin, si les facteurs ne sont pas des facteurs de classification
naturels comme dans les exemples précédents, mais deux condi
tions expérimentales ou deux ordres de passation, alors le choix
équipondère s'impose, quand bien même les effectifs observés
seraient déséquilibrés.
Illustrons maintenant cette question avec un exemple de
structure S<A2*B2>. Les données, qui serviront également à
1. Dans la suite de cet article, nous ne considérerons que la pondération par
les effectifs des groupes. Aussi, pour simplifier, « pondérer » signifiera toujours
« pondérer par les effectifs des groupes ». Mais notons cependant que la pondér
ation la plus pertinente peut ne pas correspondre aux effectifs observés. A titre
d'exemple, supposons que l'on ait procédé à une enquête auprès de 80 étudiant
es et 20 étudiants en psychologie. Pour estimer l'opinion moyenne de la popul
ation des en psychologie, il faut pondérer les données moyennes de
chaque groupe, non par les effectifs observés, mais par les fréquences de ces
deux catégories dans cette population.
2. Les données sous différents formats (DS3, Excel, EyeLID, PAC, SPSS,
Statistica) peuvent être téléchargées depuis le site Web : http://piaget. psy
cho. univ-paris5.fr/statistiques/ (Dossier A2B2Pond). 282 D. Corroyer et al.
TABLEAU I. — Moyennes par groupe et moyennes marginales selon
la pondération choisie (effectifs entre parenthèses)
Means per group and marginal means depending on the option
for weights (frequencies appear inside parentheses)
Moyennes Moyennes
de A de A
pondérées équipondérées
bl b2 sur B surB
al 7 .0 sec 9.0 sec 7.67 sec 8.0 sec ß) (9) (6)
a2 4 .0 sec 11.0 sec 8.85 sec 7.5 sec (4) (9) (13)
(10) (12) (22)
Moy. de B
m = 8.36 sec pondérées .8 sec 5 10.5 sec
sur A
Moy. de B
10.0 sec équipondérées 5 .5 sec
sur A
illustrer la suite de l'article, sont présentées en annexe'. .Le
tableau I présente les moyennes par groupe et les moyennes
associées aux effets principaux de A ou de B (moyennes margin
ales) selon que l'on choisit d'équipondérer ou non.
Prenons l'exemple de l'effet du facteur B. Pour calculer les
deux moyennes correspondant à bl et b2 on peut décider de
tenir compte, ou non, du déséquilibre sur A, c'est-à-dire de cal
culer ces moyennes de façon pondérée ou équipondérée sur A.
Dans le premier cas, la moyenne de bl, par exemple, sera
égale à :
m" = ((6 x 7.0) + (4 x 4.0)) / (6 + 4) = 5.8.
Dans le second cas, elle sera égale à :
mbI = (7.0 + 4.0) / 2 = 5.5.
Le tableau I mentionne également la moyenne des 24 valeurs
individuelles (m = 8.36). Notons que cette peut être
également obtenue en calculant la moyenne pondérée, sur A et
sur B, des moyennes des 4 groupes1.
1. Dans la perspective où l'on vise à estimer une moyenne générale, au-delà
de cet échantillon, on peut en fait définir 4 moyennes différentes, selon que l'on
décide d'équipondérer ou non sur chacun des facteurs. Comparaison de six logiciels pour l'analyse de la variance 283
Si l'on s'intéresse maintenant à l'effet de A, la lecture de ce
tableau montre (cf. moyennes de al et a2, pondérées ou non
sur B) que ce n'est pas seulement l'ampleur des différences,
mais le sens de ces différences qui peut s'en trouver modifié
selon que l'on choisit l'option équipondérée (8.0 contre 7.5) ou
non (7.67 contre 8.85) sur l'autre facteur. C'est un phénomène
bien connu, et désigné sous le nom ft effet de structure (Simpson,
1951). Ceci se comprendra plus facilement grâce au diagramme
suivant (cf. fig. 1).
VD
a2
Fig. 1. — Représentation graphique des 4 moyennes sur A*B
(la taille des points est proportionnelle aux effectifs du groupe)
et des moyennes de al et a2, équipondérées (E)
ou pondérées (P) sur B
Graphical representation of the four means of A *B
(size of markers is proportional to group frequencies)
and of means on al and a2, either equally weighted (E)
or weighted (P) with respect to B
Les effets se lisent comme les pentes des segments qui relient
les points. Les moyennes de al et a2, équipondérées (E) sur B, se
trouvent à égale distance des points moyennes. Le segment qui
relie ces moyennes a une pente descendante car la moyenne
de al est supérieure à celle de a2. Les moyennes de al et a2, pon
dérées (P) sur B, sont attirées par les points de poids élevés et de
ce fait le sens de l'effet s'en trouve ici inversé. La pente du segment
qui relie ces deux moyennes est ascendante, car la moyenne de
al est maintenant inférieure à celle de a2.
Dans la mesure où les tests F s'appuient sur la comparaison
des moyennes, le choix entre l'option équipondérée ou l'option
pondérée a des conséquences sur le choix du terme d'effet D. Corroyer et al. 284
(numérateur du F) et peut conduire à des valeurs de F très diff
érentes et, éventuellement, modifier radicalement les conclusions
tirées de l'analyse. Nous chercherons donc à savoir dans quelle
mesure les logiciels considérés proposent clairement ces différen
tes options, d'autant plus que le problème ne se pose pas que
pour les moyennes et les F, mais également pour plusieurs autres
statistiques telles que les indicateurs d'importance de l'effet.
QUELLE MÉTHODOLOGIE
POUR FAIRE UNE ANOVA AUJOURD'HUI ?
L'analyse de la variance est, d'un certain point de vue,
l'aboutissement de l'analyse de ce type de données. Il s'agit, au
sens étroit, d'une procédure inférentielle qui vise à généraliser un
effet observé lors de l'étape descriptive (sur l'échantillon) à une
population plus vaste (la population parente), ceci à l'aide d'un
test statistique, le F de Fisher-Snedecor.
On peut opposer deux conceptions de l'analyse de la
variance.
Une première conception, traditionnelle, veut que l'on pose
un modèle a priori, avant le recueil des données, et que l'on pro
cède ensuite à l'analyse des données sous ce modèle. Par exemple
pour des données présentant comme ici deux facteurs A et B, le
modèle peut postuler la présence des deux effets principaux avec
également un effet d'interaction ou, au contraire, exclure l'effet
d'interaction. Il peut également postuler l'absence d'effet princi
pal d'un des facteurs.
Dans une autre conception, le modèle posé a priori est le
modèle saturé (i.e. celui qui comprend tous les effets, soit ici les
effets principaux et l'effet d'interaction). C'est l'analyse des don
nées qui permettra éventuellement de construire un modèle simp
lifié, a posteriori, en concluant qu'un des effets est négligeable.
Cette conception, pratiquement la seule utilisée en psychologie,
est celle que nous adopterons dans l'article.
Cette seconde conception conduit notamment à accorder
davantage de place à l'analyse descriptive des données, avant de
se focaliser sur les tests F. Il s'agit d'abord d'examiner la distr
ibution de la variable dépendante, globalement ou par groupe,
afin notamment de détecter d'éventuelles valeurs aberrantes.
Ensuite, pour l'analyse d'un effet lié aux facteurs (i.e. effet prin-