De l'ère des tables à l'ère informatique : faire de Vinférence sans x2, sans T et sans F ? - article ; n°3 ; vol.90, pg 381-401

De
Publié par

L'année psychologique - Année 1990 - Volume 90 - Numéro 3 - Pages 381-401
Résumé
On propose, dans l'étape inférentielle de l'analyse des données, de prendre comme statistique de test, plutôt que les statistiques inférentielles traditionnelles (χ², T, F), des statistiques utilisées à l'étape descriptive (Φ², écart réduit, η²). Le résultat du test (valeur du seuil) est le même. Mais cette approche apparaît plus naturelle et plus intuitive. Elle rétablit un lien souvent perdu entre la description et l'inférence, et peut ainsi permettre au chercheur un contrôle plus intuitif et plus sûr de sa démarche d'analyse et d'interprétation. On présente brièvement, illustré par une série d'exemples, le logiciel DS3 qui rend cette procédure opérationnelle.
Mots clés : analyse inférentielle des données, informatique, procédures naturelles.
Summary : Front statistical tables to computers : Making ingerences without χ², without T and without F ?
Instead of traditional statistics (χ², T, F) there are distinct advantages in using descriptive statistics (Φ², M/S, η² ) during inferential data analysis. The results (the significant level) are identical. The new inferential procedure presented here however is shown to be more natural and intuitive. In particular, it reinstates what is often a « missing link » between descriptive and inferential steps. As such, it provides a better grasp of the tools used during statistical analysis and data interpretation. A computer program (DS3) and a series of examples are discussed.
Key-words : inferential data analysis, computers, natural procedures.
21 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : lundi 1 janvier 1990
Lecture(s) : 31
Nombre de pages : 22
Voir plus Voir moins

D. Corroyer
Marie-Claude Bert
De l'ère des tables à l'ère informatique : faire de Vinférence sans
x2, sans T et sans F ?
In: L'année psychologique. 1990 vol. 90, n°3. pp. 381-401.
Résumé
On propose, dans l'étape inférentielle de l'analyse des données, de prendre comme statistique de test, plutôt que les statistiques
inférentielles traditionnelles (χ², T, F), des statistiques utilisées à l'étape descriptive (Φ², écart réduit, η²). Le résultat du test
(valeur du seuil) est le même. Mais cette approche apparaît plus naturelle et plus intuitive. Elle rétablit un lien souvent perdu
entre la description et l'inférence, et peut ainsi permettre au chercheur un contrôle plus intuitif et plus sûr de sa démarche
d'analyse et d'interprétation. On présente brièvement, illustré par une série d'exemples, le logiciel DS3 qui rend cette procédure
opérationnelle.
Mots clés : analyse inférentielle des données, informatique, procédures naturelles.
Abstract
Summary : Front statistical tables to computers : Making ingerences without χ², without T and without F ?
Instead of traditional statistics (χ², T, F) there are distinct advantages in using descriptive statistics (Φ², M/S, η² ) during inferential
data analysis. The results (the significant level) are identical. The new inferential procedure presented here however is shown to
be more natural and intuitive. In particular, it reinstates what is often a « missing link » between descriptive and inferential steps.
As such, it provides a better grasp of the tools used during statistical analysis and data interpretation. A computer program (DS3)
and a series of examples are discussed.
Key-words : inferential data analysis, computers, natural procedures.
Citer ce document / Cite this document :
Corroyer D., Bert Marie-Claude. De l'ère des tables à l'ère informatique : faire de Vinférence sans x2, sans T et sans F ?. In:
L'année psychologique. 1990 vol. 90, n°3. pp. 381-401.
doi : 10.3406/psy.1990.29413
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1990_num_90_3_29413L'Année Psychologique, 1990, 90, 381-401
NOTE
Laboratoire de Psychologie du Développement
et de l'Education de l'Enfant (LaPsyDEE)
Unité associée au CNRS URA1353
Université Paris V1*
Groupe Mathématiques et Psychologie
Unité associée au CNRS URA1201
Université Paris Vs* *
DE L'ÈRE DES TABLES
A L'ÈRE INFORMATIQUE :
FAIRE DE L'INFÉRENCE SANS X2
SANS T ET SANS F?
par Denis Corroyer* et Marie-Claude Bert**
SUMMARY : From statistical tables to computers : Making inferences
without x2» without T and without F ?
Instead of traditional statistics (%2, T, F) there are distinct advantages
in using descriptive (<&2, M/S, tf) during inferential data
analysis. The results (the significant level) are identical. The new infe
rential procedure presented here however is shown to be more natural and
intuitive. In particular, it reinstates what is often a « missing link »
between descriptive and inferential steps. As such, it provides a better
grasp of the tools used during statistical analysis and data interpretation.
A computer program (DS3) and a series of examples are discussed.
Key-words : inferential data analysis, computers, natural procedures.
INTRODUCTION
L'objectif de cet article est de montrer comment la diffusion
de l'outil informatique permet de revenir, dans la démarche
inférentielle, à des procédures plus proches de l'intuition et
1. 46, rue Saint-Jacques, 75005 Paris.
2. 12, rue Cujas, 75005 Paris. 382 Denis Corroyer et Marie-Claude Bert
d'accéder à une représentation unifiée de la statistique, de la
description à l'inférence. Le principe de la démarche proposée
consiste à prendre comme statistiques de test, plutôt que les
statistiques inférentielles traditionnelles (T de Student, y?,
F de Snedecor. ..), dont l'interprétation exige un raisonnement
formel complexe, les statistiques descriptives usuelles (Ecart
réduit, <ï>2, Rapport de corrélation...), dont le lien avec la question
soumise au test apparaît plus naturel.
Après avoir précisé ce que l'on entend par statistique descrip
tive et statistique inférentielle, nous rappellerons sur un exemple
le principe de la démarche inférentielle, et la forme traditionnelle
de sa mise en œuvre. Nous exposerons ensuite cette autre
démarche en examinant dans quelle mesure elle peut être appli
quée à diverses situations inférentielles. Nous en analyserons les
avantages pour le chercheur dans sa pratique d'analyse et d'inter
prétation des données. Enfin, les outils informatiques qui rendent
dès à présent cette démarche opérationnelle seront présentés.
STATISTIQUES DESCRIPTIVES
ET INFÉRENTIELLES
Une recherche a une visée descriptive lorsque les conclusions
renvoient exclusivement aux données recueillies (recensement,
monographie...) ; elle a une visée inductive lorsque les conclu
sions recherchées vont au-delà de ces données, concernent une
population plus vaste (typiquement le sondage). Au niveau des
procédures, on opposera de même les procédures descriptives,
qui répondent à la visée descriptive, et les d'inférence
statistique conçues pour répondre à la visée inductive.
Les statistiques produites au cours de ces deux étapes, des
criptives et inférentielles, peuvent être distinguées selon un
critère opérationnel clair (Rouanet, Le Roux et Bert, 1987) :
— une statistique descriptive est caractérisée par le fait
qu'elle peut être obtenue à partir de la seule distribution des
fréquences. Sa valeur ne dépend donc pas des effectifs à partir
desquels ont été calculées ces fréquences ; en particulier, elle ne
dépend pas de l'effectif total, donc de la taille des données. Ainsi
pour le calcul de la moyenne, seule la connaissance de la distr
ibution de fréquences est nécessaire. Si les notes observées sont Statistiques descriptives et inférenlielles 383
8, 10, 11, 13, il suffît de savoir que 1/4 des sujets ont eu 8, 1/2
ont eu 10, 1/8 ont eu 11, 1/8 ont eu 13, quels que soient les
effectifs à partir desquels ont été calculées ces fréquences (l'ef
fectif total pouvant être aussi bien 8, 16 ou 400...). Il en est de
même pour l'écart type, par exemple ;
— une statistique inférentielle, par contre, dépend expressé
ment de la taille des données (ainsi les statistiques de test clas
siques, T de Student, ^2, F de Snedecor...).
L'EXEMPLE DE STUDENT
Considérons le protocole suivant (cf. tableau I) adapté du
« vénérable exemple de Student » (Student, 1908).
Tableau I. — Gains en temps de sommeil (exprimés en
heures et dixièmes d'heures) de 10 sujets soumis à un
traitement
Increase in sleep duration (expressed in hours and tenths
of hours) for 10 subjects given a treatment
TEMPS
501 1.2
502 2.4
503 1.3
1.3 504
505 0.0
506 1.0
507 1.8
0.8 508
509 4.6
510 1.4
ANALYSE DESCRIPTIVE
Pour décrire ce groupe d'observations, il est possible de
calculer la valeur de différentes statistiques :
— la moyenne des gains de sommeil (m = 1,58) est légèr
ement supérieure à une heure et trente minutes. Si l'on considère
l'écart à la valeur de référence fj. (ici y. = 0, correspondant à
l'absence de gain de sommeil) cet écart m — [i = m — 0 = 1,58
constitue un premier indicateur de l'effet du traitement ; 384 Denis Corroyer et Marie-Claude Berl
— l'écart type (s = 1,17) mesure la dispersion8 de ces gains ;
7"**
— l'écart réduit, ER = (er = ~-= = -f qui
1,35J
prend en compte cette dispersion en exprimant l'écart de M à
la valeur de référence \i, non plus dans l'unité d'origine mais en
nombre d'écarts types : le gain moyen de sommeil se situe à
1,35 écart type au-dessus de la valeur de référence, ce qui peut
être considéré comme important.
D'un point de vue descriptif (pour ces 10 sujets) on conclut
à un effet du traitement important4.
ANALYSE INFÉRENTIELLE : PROCÉDURE TRADITIONNELLE
Peut-on induire de ces résultats qu'il existe un effet du tra
itement au niveau de la population parente, ensemble des indi
vidus susceptibles de recevoir le traitement, ou plus précisément
que la moyenne des gains au niveau de cette population a une
valeur (i ^ 0 ?
Pour répondre à cette question la procédure inférentielle
traditionnelle est la suivante :
— on calcule la valeur observée de la statistique « T de
M — (x . 1,58
Student », T = — ; — . : on trouve ici t = -. ; — ^rr = 4,06 ;
S/V^7! (U7/V9)
—— la on consultation détermine le d'une « degré table de liberté indique » que (ici ddl la valeur = n — observée 1 = 9) ;
de la statistique T dépasse la valeur critique correspondant au
seuil .01 (en fait le seuil est plus précisément égal à .0014) ;
— le résultat du test est alors déclaré significatif à ce seuil ;
— on conclut à un effet du traitement au niveau de la popul
ation parente ([l ^ 0).
PRINCIPE DE LA DÉMARCHE INFÉRENTIELLE
Au-delà des aspects techniques qui viennent d'être rappelés
sur cet exemple, quel est le principe de la démarche inférentielle ?
3. Tout au long de cet article, on désignera par S l'écart type non corrigé,
que l'on appellera écart type.
4. Sur l'appréciation de l'importance de l'effet, voir Rouanet, Le Roux
et Bert, 1987, p. 140 et 183. Statistiques descriptives et inférentielles 385
Elle consiste à situer la valeur observée de la statistique de test
dans une distribution d'échantillonnage de cette statistique.
Cette est la distribution des valeurs
de la statistique de test pour tous les échantillons de même taille
que le groupe d'observations, issus d'une distribution de
moyenne [X. Le seuil observé est la proportion des échantillons
pour lesquels la statistique de test a une valeur plus extrême
que la valeur observée.
UNE AUTRE PROCÉDURE INFÉRENTIELLE
Que se passe-t-il si l'on procède au test de signification en
prenant comme statistique de test, non plus le T de Student,
M — u.
mais la statistique descriptive Ecart réduit ER = — - —
présentée ci-dessus ?
Si l'on construit la distribution d'échantillonnage de la
statistique ER (avec (x = 0) pour des échantillons de taille n,
et que l'on situe la valeur observée (er = + 1,35) dans cette
distribution, la proportion des valeurs de ER supérieures à er
(dans la distribution d'échantillonnage de ER) est égale à la
proportion des valeurs de T supérieures à / (dans la distribution
d'échantillonnage du T). Les statistiques T et ER sont en effet
liées par la relation T = -\/n — 1 ER ; pour un même espace
d'échantillons, la distribution d'échantillonnage de T est donc
simplement plus dilatée que celle de ER : les échantillons pour
lesquels on a la propriété (ER > er) sont ceux pour lesquels
on a la propriété (T > t), d'où l'égalité des proportions P(ER
> er) = P(T > /). La valeur du seuil observé est donc la même
que celle obtenue à partir du T (soit .0014) : les deux statistiques
sont équivalentes.
On pourra donc tout aussi bien procéder au test de signifi
cation en prenant comme statistique de test la statistique ER
qui nous a servi à apprécier l'importance de l'effet du traitement
au niveau descriptif.
De manière générale deux statistiques sont équivalentes si
l'une peut s'exprimer comme une fonction monotone de l'autre.
AP — 13 386 Denis Corroyer et Marie-Claude Bert
GÉNÉRALISATION
Examinons de la même façon quelques autres situations
classiques rencontrées lors de l'analyse inférentielle des données :
— liaison entre deux variables catégorisées (à partir d'un
tableau de contingence) ;
— comparaison de deux groupes appariés d'observations
numériques ;
—de deux groupes indépendants ;
— comparaison de k (k > 2) groupes indépendants d'obser
vations numériques ;
■ — ■ liaison linéaire entre deux variables numériques.
Pour chacune de ces situations, voyons s'il est possible de
trouver, comme statistique de test, une statistique descriptive
équivalente à la inférentielle classique.
liaison entre deux variables catégorisées
(a partir d'un tableau de contingence)
Un tableau de contingence (résultat d'un « tri croisé ») est
une distribution (d'effectifs ou de fréquences) sur le croisement
de deux variables catégorisées. Pour étudier la liaison entre les
deux variables, on cherche à évaluer l'écart entre la distribution
observée et une distribution de référence (dite « théorique »)
correspondant, avec les mêmes marges, à l'absence de liaison
entre les deux variables.
D'un point de vue descriptif (c'est-à-dire pour les données
recueillies), divers indicateurs fondés sur cet écart, permettent
d'évaluer l'importance de la liaison. Le plus classique est le carré
moyen de contingence O2 (cf. Rouanet et al., 1987). La procédure
inférentielle — visant à répondre à la question de la liaison
entre les deux variables dans la population parente — est class
iquement fondée sur le calcul de la statistique %2, liée à la statis
tique <ï>2 par la relation y? = nO2. D'où l'équivalence des
tiques O2 et yj comme statistiques de test. On pourra donc
procéder au test de signification à partir de la statistique descrip
tive <I>2. Là encore on pourra calculer le seuil observé en situant <p2,
valeur observée de la statistique O2, dans la distribution d'échan- Statistiques descriptives et inférentielles 387
tillonnage de cette statistique, aussi bien que xa, valeur observée
de la statistique y?, dans la distribution d'échantillonnage de
cette statistique. Le calcul du <I>2 n'est pas plus simple, mais il a
l'avantage d'être un indice descriptif de liaison clairement inter
prétable : plus la valeur de O2 est élevée, plus la liaison entre les
variables est importante pour les données recueillies. Il n'en est
pas de même de la statistique /2 dont la valeur, fonction crois
sante de l'effectif n, ne permet pas d'évaluer l'importance de la
liaison entre les variables, ni pour les données recueillies, ni pour
la population parente.
Considérons les données suivantes (cf. tableaux II et II bis).
L'analyse inférentielle de ces tableaux conduit dans les deux
cas à rejeter l'hypothèse d'une liaison nulle entre les
variables dans la population parente (^2 = 6,67 ddl = 2, signi
ficatif au même seuil de .04).
Bien entendu cela ne signifie pas que la liaison entre ces deux
variables est la même d'un tableau à l'autre. L'analyse descrip-
Tableau II. — Liaison entre sexe et intention d'orientation
chez un groupe de 50 lycéens
Association between gender and career choice in 50 high
school students
G F Total
14 16 30 Litt
13 2 15 Scient
5 Techn 3 2
50 Total 30 20
Tableau II bis. — Liaison entre sexe et intention d'orien
tation chez un groupe de 200 lycéens
Association between gender and career choice in 200 high
school students
G F Total
Litt 64 56 120
Scient 44 16 60
Techn 12 8 20
Total 120 80 200 Denis Corroyer el Marie-Claude Bert 388
tive de ces deux tableaux montre que la liaison entre sexe et
intention d'orientation est nettement plus élevée pour les données
du tableau II que pour celles du tableau II bis : le calcul du <E>2
donne .13 pour le premier tableau et .03 pour le deuxième
tableau. L'égalité des x2, qui s'explique par l'effectif quatre fois
plus important dans le deuxième tableau, autorise seulement le
rejet, au même seuil pour chacun des deux tableaux, de l'hypo
thèse d'une liaison nulle entre les deux variables. Elle ne permet
en aucun cas de se prononcer sur l'importance de la liaison.
L'utilisation du O2 comme statistique de test, en rendant
nécessaire l'étape descriptive, peut ainsi contribuer à éviter des
erreurs d'interprétation.
COMPARAISON DE DEUX GROUPES
APPARIÉS D'OBSERVATIONS NUMÉRIQUES
On est ramené dans cette situation (citée pour mémoire) à
la comparaison d'une moyenne à une norme à partir du protocole
des différences. La statistique descriptive pertinente est donc ici
l'écart réduit calculé sur le protocole des différences individuelles.
Le tableau III présente les données de Student (1908) qui
concernaient la comparaison de deux groupes appariés. Le
protocle des différences correspond aux données présentées dans
le tableau I.
Tableau III. — Gains en temps de sommeil (exprimés en
heures et dixièmes d'heures) de 10 sujets soumis à deux
traitements différents
Increase in sleep duration (expressed in hours and tenths
of hours) for 10 subjects with two different treatments
n T2 D
501 +0.7 +1.9 +1.2
502 -1.6 +0.8 +2.4
503 -0.2 +1.1 +1.3
504 -1.2 +0.1 +1.3
505 -1.0 -1.0 +0.0
506 +3.4 +4.4 +1.0
507 +3.7 +5.5 +1.8
508 +0.8 +1.6 +0.8
509 +0.0 +4.6 +4.6
510 +2.0 +3.4 +1.4 Statistiques descriptives et inférenlielles 389
comparaison de deux groupes independants
d'observations numériques
Considérons l'exemple suivant où l'on étudie l'effet d'une
innovation pédagogique sur le développement intellectuel. Le
tableau IV rapporte les notes à une épreuve de combinatoire de
deux groupes de 10 élèves chacun ayant suivi soit une pédagogie
moderne (grp = 1), soit une pédagogie traditionnelle (grp = 2).
Tableau IV. — Résultats à une épreuve de combinatoire
de deux groupes de 10 élèves
Findings on a combinatory task in two groups of 10 students
NOTE GRP
501 4.0 1
502 5.5 1
503 4.5 1
504 6.5 1
4.5 1 505
506 5.5 1
1.0 1 507
508 2.0 1
509 4.5 1
510 4.5 1
5.0 511 2
512 4.0 2
1.5 2 513
514 6.0 2
515 3.0 2
516 3.5 2
517 3.0 2
518 2.5 2
1.5 519 2
520 2.5 2
D'un point de vue descriptif quelles sont les statistiques per
tinentes pour évaluer l'effet de la pédagogie ? La plus immédiate
est la statistique D = Ml — M2, écart entre les moyennes
des deux groupes d'observations, dont la valeur observée
d = m\ — m2 est ici égale à + 1. Les notes sont en moyenne
supérieures dans le groupe ayant suivi une pédagogie moderne.
Une autre statistique, comparable à la statistique Ecart réduit
D
présentée avec l'exemple de Student, est la statistique ~
"intra
(où le carré de Slntra est la variance intra, moyenne des variances

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.