Psychologie générale STATISTIQUEJean Paschoudl’âge. Ici, la variable dépendanteRôle de laSommaire est donc le QI.statistique La variable expérimentale dont onRôle de la statistiqueLa statistique est avant tout un outil postule qu’elle influence lespermettant de communiquer, de résultats de la variable dépendanteVariablessynthétiser, de résumer, de est appelée variablecomparer ou de mettre en relation indépendante. Sans qu’il y aitÉchelles de mesuredes données multiples. nécessairement de liaison causaleSans recours à la statistique, le directe entre elles, c’est cetteRésumer, décrirechercheur et le praticien sont variable qui est senséecontraints à un discours conditionner les variations deComparerapproximatif qui prête à caution et réponse des sujets.à confusion. La statistique permetd’instrumenter l’analyse ou la Dans l’exemple qui précède, lecommunication des résultats en sexe et l’âge sont supposésdépassant le sens commun. influencer la mesure del’intelligence. Les variables âge etComment situer et exprimer les sexe sont dites indépendantes.résultats d’un individu par rapport àun groupe ; peut on vraiment D’une manière générale, uneaffirmer la supériorité d’un groupe ; variable peut être continue, si elleexiste-t-il une relation entre les peut prendre n’importe quelledifférents tests utilisés ; mesurent- valeur entre deux autres. C’est leils la même chose ; le progrès cas de la taille, de l’âge, deaprès apprentissage est-il effectif ? ...
Sommaire Rôle de la statistique Variables Échelles de mesure Résumer, décrire Comparer
STATISTIQUE
Rôle de la statisti ue La statistique est avant tout un outil permettant de communiquer, de synthétiser, de résumer, de com arerou de mettre en relation des données multiles. Sans recours à la statisti ue, le chercheur et leraticien sont c o n t r a i n t sà un di s c o u r s a roximatifui rêteà caution et à confusion. La statistique permet dinstrumenter lanalse ou la communication des résultats en dé assantle sens commun.
Comment situer et exprimer les résultats dun individuar raort à un roue ;eut on vraiment affirmer la supériorité dunroupe ; existe-t-il une relation entre les différents tests utilisés ; mesurent-ils la même chose ; lero rès après apprentissage est-il effectif ?
Variables Les donnéesui sont suscetibles de rendredes valeurs différentes d a n su n er e c h e r c h e ,u n e ex érienceou une enuête constituent desvariables.
Chacune des valeurs dune variable en est unem o d a l i t é particulière.
Si lon enreistre le QI en fonction de lâ e et du sexe, 3 variables sont enprésence : Lâ eui eutrendre lusieurs valeurs 7ans,huit ans et 3 mois, …; Le sexe qui possède deux modalités : masculin ou féminin ; et les scores du test de QI33 oints, 72oints, … .
La variable qui constitue la réponse des suets est aeléevariable dé endante. Cestcette variable que lon cherche à expliquer par les conditions de lexpérience.
Dans lexem le ci-dessus, on va chercher à expliquer les variations du QI en fonction du sexe ou de
lâ e. Ici, la variable dé endante est donc le QI.
La variable exérimentale dont on postule quelle influence les résultats de la variable dépendante e s ta p p e l é ev a r i a b l e i n d ée n d a n t e. Sansuil ait nécessairement de liaison causale directe entre elles, cest cette v a r i a b l eu ie s ts e n s é e conditionner les variations de ré onsedes su ets.
Dans lexem leui récède,le sexe et lâe sont supposés i n f l u e n c e rl am e s u r ed e lintelli ence.Les variables âe et sexe sont dites indépendantes.
Dune manièreénérale, une variable peut êtrecontinue, si elle peut prendre nimporte quelle valeur entre deux autres. Cest le cas de la taille, de lâe, de lintelli ence,du temps, de lanxiété, … Elle eutêtrediscontinue, si elle présente des sauts, des ruptures dans ses modalitésclasses de salaires dans la fonctionubli ue. Elle eutêtrediscrète, si toutes ses modalitéssont des éléments sé aréssexe, oriine sociale, profession, …)..
Échelles de mesure Pour traiter statisti uement des données, il est indispensable de connaître lesro riétésde léchelle de mesure sur laquelle les valeurs ont été enreistrées. Le te déchelle conditionne en effet le traitement ultérieur des données. Certaines oérations ne sont ossibles ue ourdes échelles de mesure articulières.
On neeut calculer une mo enne sur desrofessions, on neeut évaluer le lien entre le sexe et les choix politiques de la même manière uentreles notes en fran aiset en math.
STATISTIQUE
réaction, … relèvent de cette Échelle nominale caté orie. Léchelle de mesure est dite Dans les échelles utilisées en n o m i n a l e sichacune de ses démo ra hie, oneut en outre m o d a l i t é se s tu n es i m p l e noter que lunité a une réelle étiuette »ermettant deualifier si nificationar exem le dans le une modalité de la situation dénombrement des âmes » dune expérimentale ou une réponse du population.. su et.On constate larésence ou labsence duneualité, ceui permet de catégoriser la variable Modalité F.abs. F.cum. en deux, trois, … classes. 1 44 2 711 Le sexe, le fait de consommer ou 3 516Résumer, décrire non de lalcool, la religion sont des 4 319 mesuresui sinscrivent sur uneRe résenter 5 120 échellenominale. Lesdonnées brutes dune variable Tableau de fréuence eu v e n tê t r er é s u m é e se t présentées sous la forme dun Échelle ordinale tableau defré uence, cest-à-dire Léchelle de mesure est dite Histogrammeun tableau indiuant combien » ordinaleses modalités peuvent si de sujets sont concernés par 20être hiérarchisées, cest-à-dire si chacune des modalités de la elles résentententre elles une 15 variable. relation dordre. La fré uenceeut êtrea b s o l u e 10 nombre ourelative % . 5 Cette affirmation décrit très 0Pour les échelles ordinales, la bien/bien/mal/très mal » mon 1 2 3 4 5 fré uenceeut êtrecumulée. Elle comportement habituel ; grades indi ue alors combien dindividus militaires ; de ré de scolarité ;, Histogramme sonten dessous du score évaluation EVM, … sont des mentionné. mesures uisinscrivent sur une échelle ordinale. Les loiciels courants offrent Courbe plusieurs représentations des 20Échelle dintervalle données : Léchelle de mesure est dite histo ramme,dia rammeen 15 dintervalleles écarts entre les si 10bâtons, courbe, secteur ou modalités sont comparables, cest- pies ». 5 à-dire si les distances qui les Le choix de la rerésentation sé arentsont réulières. Léchelle 0 dé enddu te de données, mais 1 2 3 4 5 résente alors une certaine aussi de la lisibilité duraphique. homogénéité, chaque valeur étant Courbe à distance fixe ouro ortionnelle Selon la nature des données, il des autres. Secteurspeut être utile de préciser létendue des scores, cest-à-dire le minimum 5 1Les résultats dun test sinscrivent 5%et le maximum réalisés. 4 15% 15% 1 énéralement dans une telle 2le ci-dessus, lesDans lexem échelle de mesure.Cest 3 scores se répartissent entre 1 » 4 également le cas de la température 3 2 40%et 5 ». 25% 5 ex riméeen deré Celsius ou Com tetenu de leffectif total, il n Fahrenheit. a pas de légitimité à calculer la Secteurs fréquence relative (%). Échelle de rapport Léchelle der ao r t ossède toutes les propriétés des échelles dintervalle àuoi saoute lexistence si nifiante dun zéro absolu. Ce te déchelle est t o u t e f o i sr a r ee ns c i e n c e s humaines. De lus,lunité eut,ou non, avoir une signification.
La mesure de la température en degré Kelvin, le temps de
2
Tendance centrale Les données brutes se réartissent sur les différentes modalités. Il est utile de définir un indice traduisant la tendanceénérale de la distribution. Cet indice va être fonction de léchelle de mesure utilisée.
Échelle nominale Mode: modalité la plus fréquente.
Échelle ordinale Médiane: modalité qui partage au mieux lao ulationen deux rou es de 50%. La moitié de la o ulationse situe donc en dessous de cette valeur. Le modeeut éalement être défini.
Échelle dintervalle M oe n n e arithmétique: La mo ennecorres ondau centre de ravité de la distribution. Elle est obtenue en pondérant la somme des scoresar le nombre de scores. Le mode et la médianeeuvent é alementêtre définis.
Dispersion Lindice de tendance centrale définit le comportement général des données. Mais les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un indiceui traduise la dispersion des données. Cet indice est également fonction de léchelle de mesure utilisée.
Échelle nominale Entro ie: Enh si ue, lentro ie est une mesure de la richesse dune information, elle évalue le hasard et le désordre dun s stème. En statisti ue, cet indice indi uesi la réartition des modalités est équiprobable ou si au contraire une catéorie est fortement rerésentée. U nd én o r m a ld e v r a i ts e caractériser arune entroie maximale. Sil esti é et tombe systématiquement sur la même face, son entropie sera nulle. Cet indice est rarement utilisé.
Échelle ordinale Quartiles: modalités de la variable ui artaent leffectif de la distribution respectivement en 25% et 75%. Un quart de la population
se situe en dessous du premier uartile. La moitié se situe en e dessous du 2uartile médiane et troisuarts de lao ulationse e situe en dessous du 3quartile.
Échelle dintervalle Écart-type : Lécart-type évalue la tendance énéraledes écarts à la mo enne.Comme la moenne arithméti ue des écarts neeut être calculée directementles écarts positifs compensant les écarts né atifs, on calcule cet indice sur la base des carrés des écarts uisont touours ositifs, puis on prend la racine carrée de cet indice. La variance est la mo enne des carrés des écarts à la moenne. Lécart-type est la racine carrée de la variance.
Autres Dautres indices peuvent être c a l c u l é so u rl e sé c h e l l e s dintervalle. Ils évaluent notamment la dissmétrie de la distribution. Ils e e font appel aux puissance 3et 4 des écarts à la moenne Kurtosis, Skewness . On utilise parfois les moyennes éométri ueou harmoniue.
L e s p a c esemi-inter-quartile représente la moitié de la distance e entre leremier et le 3uartile.
Ces deux courbes re résentent des distributions qui ont la même mo enneet des écarts-tes différents.
STATISTIQUE
Com arer Principe général Si deux échantillons ont été tirés au hasard dune mêmeo ulation d o r ii n e ,l e u r sa r a m è t r e s descriptifs devraient présenter des différences minimes ex licables ar les seuls effets du hasard.
Si les deuxroupes présentent des diver ences im ortantes, oneut raisonnablement enser uilsne sont pas issus dune seule et même oulation dori ine et on doit admettreue les différences sont, arconsé uent,attribuables à une cause extérieure (sexe, âge, effet dun médicament,… .
Pour prendre scientifiquement cette décisionhasard ou effet ? , il est possible de calculer un indice statisti uesur les distributions. Le t edindice dé end notamment d un o m b r ed é c h a n t i l l o n s com aréset de léchelle de mesure des variables un roue à uneo ulation de référence lesdonnées observées sont-elles conformes à cellesui ont étéubliées au niveau international ?; deux roues indé endantsles résultats desar onssont-ils différents de ceux des filles ? ; un roupecomparé à lui-même, m a i sd a n sd e sc o n d i t i o n s différentes lessu etsfont-ils de meilleurs résultats après avoir reçu u n ei n f o r m a t i o no uu n médicament ?; des groupes qui différent selon un seul critèreles résultats dun test sont-ils différents dans 3rou es constitués àartir du niveau socio-économique ?); des roues ui différentselon d e u xc r i t è r e sc r o i s é se n considérant conjointement le sexe et le niveau socio-économique, les résultats à un examen sont-ils com arablesdun roue à lautre ou peut-on affirmer leffet dune des variables, voire même linteraction des deux variables ? .
Le te dindice dé end en outre de léchelle de mesure utilisée pour la variable déendante : les tests peuvent être paramétriquesou non- aramétri ues.
4
Dans tous les cas qui précèdent, lindice calculé sur les données em iri ues est com aré à une valeur criti ue obtenue dans une table ou calculée par le logiciel statisti ue utilisé. Ceciermet de décider si la valeur observée est trop importante pour être imputée au hasard.
Généralement, si la valeur de lindice calculé aaraît moins de 5 fois sur cent dans un tirae aléatoire, on considèreuil est tro imortant ourêtre attribué au hasard. En dautres termes, la différence entre lesroupes est tro imortante our uele seul hasard uisseêtre invo uéour expliquer les différences entre les groupes.
Dans ce cas, on reette alors lidée dune oriine commune des rou eset on affirme donc un effet de la variable indéendante sur les résultats observés.
Les critèreseuvent, dans certains cas, êtrelus ou moins sévères 1%, 2.5%,… .
La lecture des tables indi ue la valeur critique en fonction des ris uesacce tésar le chercheur 2.5%, 5%,…et des de rés de liberté du système, cest-à-dire des contraintes imposées par le nombre de groupes en présence.
STATISTIQUE
Résumé des différents tests de statistique inférentielle
Échelle de mesure de la variableTest dépendante Nominale Fréquences observées/fréquences théoriquesChi carré Fréquences observées/fréquences théoriques pour uneBinomial variable à 2 modalités 2 groupes indépendants pour une variable à deuxWald-Wolfowitz, Runs test » (Z) modalités
Plusieurs données appariées pour des variables à 2 modalités