Sur l'importance des effets et ses indicateurs dans l'analyse statistique des données - article ; n°4 ; vol.94, pg 607-623

De
Publié par

L'année psychologique - Année 1994 - Volume 94 - Numéro 4 - Pages 607-623
Summary : On the importance of effect size and indicators of effect size in the statistical analysis ofdata.
We emphasize, as do many other authors, the necessity of questioning the importance of the observed effects in all data-analysis situations. After presenting various ways for evaluating effect size, we develop indicators based on internai data references le. «psychometric indicators». Various elementary situations ofdata analysis are examined. For each one, relevant indicators are defined and three conventional values for describing an effect as « small », « medium » or « large » are presented. We emphasize that these values are indicative and not to be applied mechanically.
The proposed methodology is to reach systematically a decision on effect size as early as the descriptive phase. This recommendation should help to avoid interpretation errors within the inferential phase.
Key words : statistics, data analysis, effect size, benchmark values, large effect small effect, descriptif conclusion and inference.
Résumé
On souligne avec de nombreux auteurs la nécessité de poser la question de l'importance de l'effet observé dans toute situation d'analyse de données. Après avoir rappelé différents moyens d'évaluer cette importance on développe la présentation d'indicateurs qui s'appuient sur une référence interne aux données ou « indicateurs psychométriques ». Les différentes situations élémentaires d'analyse de données sont examinées. Pour chacune d'elles des indicateurs pertinents sont définis ainsi que trois valeurs conventionnelles permettant de qualifier un effet de «faible », «moyen», ou «important ». On insiste sur le fait qu'il s'agit de valeurs-repères permettant de situer l'effet, et ne devant pas être appliquées mécaniquement.
La méthodologie proposée suggère de se prononcer systématiquement, et ceci dès l'étape descriptive, sur l'importance de l'effet. Ceci devrait en particulier contribuer à éviter des erreurs d'interprétation lors de l'étape inférentielle.
Mots-clés : statistique, analyse des données, importance des effets, valeurs-repères, effet notable, effet négligeable, conclusion descriptive et inférence.
17 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : samedi 1 janvier 1994
Lecture(s) : 21
Nombre de pages : 18
Voir plus Voir moins

D. Corroyer
H. Rouanet
Sur l'importance des effets et ses indicateurs dans l'analyse
statistique des données
In: L'année psychologique. 1994 vol. 94, n°4. pp. 607-623.
Abstract
Summary : On the importance of effect size and indicators of effect size in the statistical analysis ofdata.
We emphasize, as do many other authors, the necessity of questioning the importance of the observed effects in all data-analysis
situations. After presenting various ways for evaluating effect size, we develop indicators based on internai data references le.
«psychometric indicators». Various elementary situations ofdata analysis are examined. For each one, relevant indicators are
defined and three conventional values for describing an effect as « small », « medium » or « large » are presented. We
emphasize that these values are indicative and not to be applied mechanically.
The proposed methodology is to reach systematically a decision on effect size as early as the descriptive phase. This
recommendation should help to avoid interpretation errors within the inferential phase.
Key words : statistics, data analysis, effect size, benchmark values, large effect small effect, descriptif conclusion and inference.
Résumé
On souligne avec de nombreux auteurs la nécessité de poser la question de l'importance de l'effet observé dans toute situation
d'analyse de données. Après avoir rappelé différents moyens d'évaluer cette importance on développe la présentation
d'indicateurs qui s'appuient sur une référence interne aux données ou « indicateurs psychométriques ». Les différentes situations
élémentaires d'analyse de données sont examinées. Pour chacune d'elles des indicateurs pertinents sont définis ainsi que trois
valeurs conventionnelles permettant de qualifier un effet de «faible », «moyen», ou «important ». On insiste sur le fait qu'il s'agit
de valeurs-repères permettant de situer l'effet, et ne devant pas être appliquées mécaniquement.
La méthodologie proposée suggère de se prononcer systématiquement, et ceci dès l'étape descriptive, sur l'importance de l'effet.
Ceci devrait en particulier contribuer à éviter des erreurs d'interprétation lors de l'étape inférentielle.
Mots-clés : statistique, analyse des données, importance des effets, valeurs-repères, effet notable, effet négligeable, conclusion
descriptive et inférence.
Citer ce document / Cite this document :
Corroyer D., Rouanet H. Sur l'importance des effets et ses indicateurs dans l'analyse statistique des données. In: L'année
psychologique. 1994 vol. 94, n°4. pp. 607-623.
doi : 10.3406/psy.1994.28794
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1994_num_94_4_28794L'Année psychologique, 1994, 94, 607-624
NOTE MÉTHODOLOGIQUE
LaPsyDEE, CNRS URA 1353^*
UFR de Mathématiques et Informatique
CNRS, URA 120 12**
Université Paris V
SUR L'IMPORTANCE DES EFFETS ET SES INDICATEURS
DANS L'ANALYSE STATISTIQUE DES DONNÉES
par Denis Corroyer* et Henry Rouanet**3
SUMMARY : On the importance of effect size and indicators of effect
size in the statistical analysis of data.
We emphasize, as do many other authors, the necessity of questioning
the importance of the observed effects in all data-analysis situations. After
presenting various ways for evaluating effect size, we develop indicators
based on internal data references i.e. «psychometric indicators ». Various
elementary situations of data analysis are examined. For each one, relevant
indicators are defined and three conventional values for describing an effect
as « small », « medium » or « large » are presented. We emphasize that
these values are indicative and not to be applied mechanically.
The proposed methodology is to reach systematically a decision on
effect size as early as the descriptive phase. This recommendation should
help to avoid interpretation errors within the inferential phase.
Key words : statistics, data analysis, effect size, benchmark values,
large effect small effect, descriptif conclusion and inference.
INTRODUCTION
Lors de l'analyse des données il est rare que la seule ques
tion pertinente soit celle de l'existence d'un effet (ou d'une liai-
1. 46, rue Saint-Jacques, 75005 Paris.
2. 12, rue Cujas, 75005 Paris.
3. Nous remercions Jean-Marc Bernard et Robert Saules pour leur lecture
attentive d'une première version de cet article et pour leurs suggestions. 608 Denis Corroyer et Henry Rouanet
son, d'un écart...)- La question de l'importance de cet effet est
souvent au centre des préoccupations du chercheur, même si elle
est rarement explicitée comme telle. Mais l'on se trouve immé
diatement confronté au problème suivant : à partir de quelle(s)
valeur(s) une différence entre deux moyennes, une corrélation,
un écart à l'indépendance... sont-ils suffisamment grands pour
être considérés comme notables ou au contraire suffisamment
petits pour être considérés comme négligeables ?
La question de l'évaluation de l'importance des effets n'est
pas nouvelle (cf. en particulier, Rouanet, Lépine, Pelnard-Con-
sidère, 1976 ; Reuchlin, 1977 ; Lépine et Holender,
1978), mais elle semble, enfin, devenir une question à l'ordre
du jour dans les revues internationales les plus officielles, ceci
non seulement pour interpréter les résultats d'une recherche
particulière, mais aussi pour aider à la synthèse d'un ensemb
le de recherches portant sur un même thème (meta- analyse)
(Chow, 1988 ; Cohen, 1990, 1992 ; Folger, 1989 ; Harris et Ro
senthal, 1985 ; McGraw et Wong, 1992 ; Rosnow et Rosenthal,
1989 ; Tatsuoka,1993).
Ce problème y est souvent discuté parallèlement à une re
mise en cause des tests statistiques traditionnels. La référence
à l'importance des effets y est alors souvent envisagée comme
un complément à ces tests. La méthodologie que nous propo
sons ici est sensiblement différente : elle situe la question de
l'importance de l'effet dès l'étape descriptive, quelle que soit
la procédure inférentielle utilisée ultérieurement (« la descrip
tion d'abord, l'inférence ensuite ») et elle est applicable même
si les données ne nécessitent pas le recours aux procédures
inférentielles.
Rappelons tout d'abord qu'aucune procédure inférentielle
ne permet de déterminer ce que peut être un effet important
ou un effet négligeable.
Les procédures traditionnelles de tests d'hypothèse permett
ent seulement de se prononcer sur l'existence d'un effet.
Constater à la suite d'un test qu'un effet observé est significatif,
voire très significatif, permet seulement d'inférer avec une bonne
garantie, voire une très bonne garantie, que l'effet parent n'est
pas nul (il peut être grand mais il peut aussi être très petit).
Constater qu'un effet observé est non significatif conduit sim
plement à un constat d'ignorance (n'autorise pas à conclure
que l'effet parent est inexistant, ni qu'il est petit). La question
de l'importance des effets est tellement au centre des préoccu- L'importance des effets en statistique 609
pations des chercheurs que toutes ces mises en garde n'y fe
ront rien tant qu'elles ne seront pas assorties de propositions
constructives pour répondre à cette question.
Les procédures d'inférence fîducio-bayésienne, quant à elles,
visent à répondre à ces insuffisances des procédures inférentiel-
les traditionnelles : elles permettent bien d'établir dans quelle
mesure un effet parent est important ou négligeable (voir
Rouanet, Lépine et Pelnard-Considère, 1976 ; Rouanet, Lecou-
tre M. P., Bert, Lecoutre B. et Bernard, 1991 ; en particulier
tre, 1991, p. 118-120 ; Rouanet, soumis). Mais, pour appliquer
ces procédures, encore faut-il avoir défini préalablement à partir
de quelle(s) valeur(s) un effet pourra être considéré comme
important ou négligeable, ce qui renvoie à la mesure de l'impor
tance dès l'étape descriptive.
Pour mesurer l'importance d'un effet on utilisera nécessai
rement des statistiques purement descriptives, en bref dans ce
qui suit des descriptives (au sens opérationnel de
Rouanet, Le Roux et Bert, 1987, p. 27, et Rouanet, Bernard, Le
Roux, 1990, p. 3, où est formulée la distinction fondamentale
entre statistique descriptive et statistique inférentielle), c'est-
à-dire que leur valeur doit être indépendante de l'effectif du
(des) groupe(s) observé(s). Une descriptive ne dé
pend que de la distribution de fréquences. Un effet doit être
déclaré important ou au contraire faible, indépendamment du
fait qu'il a été observé sur 30 ou 2 000 individus. Les statist
iques inférentielles telles que le y}, le T de Student ou encore le F
de Snedecor, ne sauraient être des indicateurs de l'importance
d'un effet, vu qu'elles sont fonction de deux choses : l'i
mportance de l'effet, mais aussi de la taille du groupe observé.
Nous distinguerons deux manières différentes de quantifier
l'importance d'un effet selon que l'on choisit de prendre en
compte des informations externes aux données (« référence
externe ») ou non (« référence interne »). Dans ce dernier cas
nous distinguerons à nouveau deux manières de procéder.
RÉFÉRENCE EXTERNE OU INTERNE AUX DONNÉES ?
Lorsqu'il s'agit de se prononcer sur l'importance d'un effet,
une première alternative réside dans le choix d'une référence
externe ou interne aux données. Pour présenter ce choix on
peut dire qu'il s'apparente au dilemme du parent qui ne sait 610 Denis Corroyer et Henry Rouanet
s'il doit se désoler d'une note de 8 /20 obtenue par sa progénit
ure, note nettement en dessous de la « moyenne légale » (10/20,
référence externe aux données), ou s'il doit s'en réjouir sa
chant que les autres élèves de sa classe ont tous entre 2 /20 et
7/20 (référence interne aux données).
1. Référence externe aux données
On parlera de référence externe chaque fois que l'on établit
une conclusion à partir de la connaissance du domaine (ex
terne aux données), à partir de ce que Reuchlin (1977) désigne
par « la sémantique du domaine ». Ainsi considérons le « vé
nérable (ou « inévitable ») exemple de Student » ; c'est bien la
sémantique du domaine qui nous conduit à considérer comme
négligeable l'effet d'un somnifère qui ferait gagner seulement
1/4 d'heure de sommeil à ses utilisateurs, ou comme important
l'effet d'un autre somnifère allongeant la durée de sommeil de
1 heure. De même imaginons maintenant que l'on cherche à
évaluer l'effet d'une nouvelle pédagogie sur les performances
scolaires ; constater une augmentation de performance de
1/2 point sur une échelle en 20 points conduira à conclure à un
effet négligeable ; observer une amélioration de 3 points permett
ra sans doute de conclure à un effet important.
La prise en compte de ces connaissances externes aux don
nées peut conduire à qualifier une différence d'un point entre
deux moyennes de « faible » dans un contexte, « importante »
dans un autre contexte. Chaque situation est spécifique et il ne
peut exister de critère ayant valeur générale.
2. Référence interne aux données
On parlera de référence interne chaque fois que l'on établit
une conclusion à partir du seul examen des données, sans faire
intervenir de connaissance externe aux données ; soit par imposs
ibilité lorsque le domaine est peu connu, soit par souci « d'object
ivité ». Il existe alors plusieurs manières d'évaluer l'importance
des effets. Leur caractéristique commune est de calibrer l'effet :
— Une première manière consiste à calibrer un effet en le
rapportant à un autre effet. Par exemple, on évaluera l'i
mportance d'un effet d'interaction en le comparant aux effets
principaux des facteurs élémentaires qui composent cette
interaction ; L'importance des effets en statistique 611
— Une seconde manière consiste à calibrer un effet moyen
(performance moyenne, différence entre 2 moyennes, varian
ce des moyennes ou « variance inter »...) en le rapportant à
une dispersion intra-groupe (écart-type, variance intra...) :
c'est le principe des « indicateurs psychométriques ». On pri
vilégiera ici les sans dimension, notamment
ceux qui sont définis comme des rapports. C'est par exemp
le le cas du coefficient de corrélation linéaire de Bravais-
Pearson dont la valeur reste la même si l'on multiplie toutes
les valeurs par une constante ; par contre ce n'est pas le cas
de la covariance. De même la différence entre les moyenn
es de deux groupes n'est pas la même selon que l'on note
la performance de 0 à 20 ou de 0 à 40 ; pour que les
valeurs obtenues soient indépendantes de l'échelle, les indica
teurs doivent être calibrés. Les indicateurs sans dimension
permettent de proposer des valeurs-repères pour qualifier
l'importance des effets par delà les différents domaines.
Dans la suite de cet article il sera exclusivement question
des indicateurs qui utilisent une référence interne aux don
nées. Nous présenterons, pour les situations habituelles d'ana
lyse des données, les différents indicateurs psychométriques et
les valeurs-repères que nous proposons. Nous terminerons par
une présentation de certains aspects techniques, en particulj
des procédures de calcul des indicateurs présentés ici.
LES INDICATEURS PSYCHOMÉTRIQUES
Pour présenter ces indicateurs nous reprendrons pour
sentiel la typologie des situations utilisée dans un article pré
cédent (Corroyer et Bert, 1990) :
— Comparaison d'une moyenne à une norme ;
—des moyennes de deux groupes appariés (struc
ture S*T2) ;
—des de deux groupes indépendants
(structure S < G2 >) ;
— Comparaison des moyennes de k groupes S < Gk >) ;
— Corrélation linéaire ;
— Écart à l'indépendance dans un tableau de contingence.
On y trouvera également des exemples illustrant chacune
de ces situations. 612 Denis Corroyer et Henry Rouanet
1. Comparaison d'une moyenne à une norme
Soit une variable numérique observée sur un groupe. On s'i
ntéresse à l'écart entre la moyenne M et une moyenne
théorique (la « norme ») notée |j.o. Pour mesurer cet écart on
peut considérer simplement la différence M - |io. Mais cet écart
n'a pas la même signification selon la dispersion des valeurs au
tour de la moyenne M : l'écart entre M et jio apparaît d'autant
plus important que la dispersion autour de M est faible. C'est
la raison pour laquelle on construit l'indicateur « écart-ré
duit » que l'on notera ER, avec ER = — , et qui rapporte
l'écart M - no à l'écart-type observé S 4. Cet indice permet
d'exprimer la distance entre M et |j,o en nombre d'écarts-types.
Considérons par exemple que M = 4.5 et u.o = 1.5. Si l'écart-
type S est égal à 0.5, on obtient ER = 6 soit une distance de
6 écarts-types entre M et p.o. Avec une valeur plus élevée de S,
S = 3 par exemple, on obtient ER = 1, soit une distance égale
cette fois à 1 écart-type entre M et \io.
L'écart-réduit est invariant pour toute transformation linéaire
de la variable : ainsi en multipliant toutes les valeurs obser
vées par une constante, M, \io et S s'en trouvent modifiés, mais
£7? reste constant.
2. Comparaison des moyennes de 2 groupes appariés (struc
ture S*T2)
Toute situation de ce type peut se ramener au cas précédent
(« comparaison d'une moyenne à une norme »). En effet le proto
cole pertinent pour l'analyse de cette structure de données est le
protocole des effets individuels obtenus par différence entre les
valeurs observées en tl et en t2. Dans ce cas l'indicateur retenu
est l'écart-calibré : EC = — , où D est la moyenne des différences
individuelles et Sd l'écart-type de ces différences individuelles. La
moyenne des différences individuelles D, est égale à la différence
des moyennes des 2 groupes appariés. EC permet d'exprimer cette
différence en nombre d'écarts-types.
4. Nous désignerons dorénavant par S et S2 les écarts-types et variances
non corrigés. Une autre option (que nous ne développons pas ici) consisterait
à définir des indicateurs à l'aide des écarts-types ou variances corrigés. L'importance des effets en statistique 613
3. Comparaison des moyennes de 2 groupes indépendants (struc
ture S < G2 >)
Là encore il est possible de considérer, non pas la diff
érence entre les deux moyennes Mx - M2 mais l'écart-calibré EC
où cette différence est rapportée à l'écart-type intra (noté
S., ) : EC = MliAk. Ainsi EC = 1.5 signifie que M, et M,, sont
àjntm
distantes de 1.5 écarts-type.
Comme pour les situations précédentes, l'écart entre les
moyennes s'exprime maintenant dans une unité indépendante
de l'unité de mesure de la variable et est ainsi invariant pour
toute transformation linéaire de cette variable.
4. Comparaison des moyennes de k groupes indépendants (struc
ture S < Gk >)
La mesure la plus immédiate de l'écart entre les k moyen
nes est la variance des moyennes, nommée variance inter et
notée S2[nter. Pour calibrer cette mesure il existe deux indica
teurs notés f2 (notation proposée par Cohen5) et r\2 (rapport de
corrélation classique « Eta2 » de K. Pearson) selon que l'on
rapporte S2/n(er, soit à S2Inlra (la variance intra, moyenne pondérée
des variances des k groupes), soit à S2Totale (la variance totale,
variance des k groupes réunis) :
j2_ Sbte- e{ 2_ Sjntr
— L'intérêt de l'indicateur f2 est de généraliser l'écart-calibré
EC (cf. « Comparaison des moyennes de 2 groupes indépen
dants ») dans le cas où il existe plus de deux groupes à
comparer. En effet dans le cas de deux groupes {k = 2) on a
S2lnter = f1 f2 (M1 - M2)2 {f1 et /2 étant les fréquences respect
ives des deux groupes, avec f1+f2= 1) d'où f2 - ft f2 EC2.
Dans le cas équilibré ( / = / = 1 ) on trouve f2 = - EC2.
2 4
— L'intérêt de l'indicateur r|2 est de varier de 0 à 1 et de pou
voir s'interpréter comme « la proportion de variance prise
en compte par le facteur ».
5. La statistique / (minuscule) est une statistique descriptive, c'est-à-
dire indépendante de la taille de l'échantillon. Elle ne doit pas être confon
due avec la classique F (majuscule) de Snedecor qui est une sta
tistique inférentielle. 614 Denis Corroyer et Henry Rouanet
5. Corrélation linéaire
On prendra dans ce cas le coefficient de corrélation linéaire R
de Bravais-Pearson. Il est invariant pour toute transformation
linéaire des variables, contrairement à la covariance. R est
bien un indicateur calibré : il est égal à la covariance calibrée
par le produit des deux écarts-types : R = — — . Son carré R2
SxSy
correspond à la proportion de variance prise en compte par la
régression d'une variable sur l'autre.
6. Écart à l'indépendance dans un tableau de contingence
L'indicateur classique d'écart à l'indépendance est le carré
moyen de contingence O = —, soit d>2= Y .k v *'_$*> , formule voi-
sine de celle du y} mais où l'on trouve les fréquences obser
vées fk et théoriques fk à la place des effectifs observés et
théoriques. Contrairement au %2 , le O2 est une statistique des
criptive, indépendante de l'effectif total du tableau.
Dans le cas d'un tableau où l'une au moins des dimensions
(nombre de lignes et nombre de colonnes) est égale à 2, le O2
est compris entre 0 et 1. Dans le cas où les deux
sont supérieures à 2, le <E>2 peut être supérieur à 1. Il varie de
0 à /, où / est égal à la plus petite dimension du tableau, moins
1 (soit 1 dans un tableau 2x5,4 dans un tableau 6x5...). Une
même valeur du O2 peut donc avoir des significations diff
érentes selon les dimensions du tableau.
Aussi paraît-il préférable d'utiliser un autre coefficient
dérivé du O2, le coefficient de contingence de Cramer que l'on
notera rc, défini par r} = Q- . En divisant <D2 par / on obtient un
indicateur toujours compris entre 0 et 1. Pour un tableau où
1=1 (une au moins des dimensions est égale à 2), donc en par
ticulier pour un tableau 2 x 2, on retrouve r2 = <l>2.
QUELLES VALEURS-REPÈRES RETENIR ?
On notera tout d'abord que, pour chacun de ces différents
indicateurs il est possible de calibrer un effet par un autre
effet : pour un même domaine et toutes choses étant égales L'importance des effets en statistique 615
par ailleurs, il est possible de comparer les <X>2, les coefficients
de corrélation, ou les rapports de corrélation dans différentes
situations. On en trouvera un exemple, à propos du O2, dans
Corroyer et Bert (1990).
Nous nous placerons maintenant dans la situation où, à dé
faut de point de comparaison, on souhaite définir des valeurs-
repères permettant de qualifier la valeur de l'un de ces indica
teurs de « faible » ou « importante ». Pour chacun des présentés ci-dessus, Cohen (1977) a proposé (dans un
contexte sensiblement différent : l'évaluation de la puissance
des tests), non pas une, mais trois valeurs-repères correspon
dant à un effet faible (« small »), un effet moyen (« medium »),
un effet important (« large »). Le tableau I présente à la fois
les valeurs proposées par Cohen et celles que nous proposons.
Nous allons revenir sur ces différences. Pour proposer ces va
leurs, Cohen s'est appuyé sur différentes données connues.
Ainsi dans le cas de la comparaison de deux groupes, un effet
faible (EC = 0.20) correspond à la différence de QI observée
entre jumeaux et non jumeaux, toutes choses égales par ail
leurs, ou encore à la différence de tailles entre les filles de 15
et 16 ans. Un effet important (EC = 0.80) correspond à la diff
érence entre le QI des titulaires du PhD et ceux qui arrivent au
collège, ou encore entre la taille des filles de 13 et 18 ans. En
ce qui concerne les corrélations, une corrélation « impor
tante » (.50) est celle que l'on trouve entre le QI et le niveau
scolaire, et on trouve par exemple un grand nombre de corré
lations « moyennes » (.30) entre les 9 échelles du test de Per
sonnalité MMPI prises 2 à 2.
Il faut préciser immédiatement qu'en définissant de telles
valeurs-repères il n'est possible de proposer que des convent
ions. Il n'existe aucun élément théorique pour définir dans
l'absolu si un effet peut être qualifié de faible, moyen ou im
portant. De ce fait on se gardera de toute application mécani
que de ces critères. Ces valeurs doivent être considérées com
me des valeurs indicatives. On trouvera une discussion de cet
te question dans Reuchlin (1977, 1992).
Nous expliquerons maintenant les différences entre les pro
positions de Cohen et les nôtres en discutant les propositions
de Cohen du point de vue de leur cohérence.
Dans plusieurs situations d'analyse des données, il existe
plusieurs moyens d'évaluer l'effet. Il est souhaitable que l'on

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.