Disponibilité et fréquence du vocabulaire : les adjectifs qualificatifs - article ; n°2 ; vol.69, pg 407-419

De
Publié par

L'année psychologique - Année 1969 - Volume 69 - Numéro 2 - Pages 407-419
Résumé
On compare, à propos du vocabulaire des adjectifs qualificatifs, des estimations subjectives d'utilité à des relevés objectifs de fréquence. Les échantillons sont constitués de 100 enfants et d'autant d'adultes. A partir des corrélations entre l'un et l'autre type de données, se dégagent deux grappes correspondant, l'une à la variable interne de disponibilité, l'autre à la variable externe de fréquence objective. On émet l'hypothèse selon laquelle la capacité d'estimation subjective de la fréquence des mots joue un rôle, au niveau des contraintes paradigmatiques, sinon syntagmatiques, dans le processus de génération et de compréhension de la phrase.
Summary
Subjective word availability measures are compared to objective frequency-counts as for the adjectival class. Samples are made up of 100 children and so many adults. From the correlation matrix thus obtained between both kinds of data, two clusters emerge : the one corresponds to the internal variable of word availability, the other to the external variable of objective frequency. It is hypothesized that the ability underlying subjective word availability is part of the process of creating and understanding sentences, as far as paradigmatic and, possibly, syntagmatic constraints are concerned.
13 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1969
Lecture(s) : 12
Nombre de pages : 14
Voir plus Voir moins

R. Hogenraad
Disponibilité et fréquence du vocabulaire : les adjectifs
qualificatifs
In: L'année psychologique. 1969 vol. 69, n°2. pp. 407-419.
Résumé
On compare, à propos du vocabulaire des adjectifs qualificatifs, des estimations subjectives d'utilité à des relevés objectifs de
fréquence. Les échantillons sont constitués de 100 enfants et d'autant d'adultes. A partir des corrélations entre l'un et l'autre type
de données, se dégagent deux grappes correspondant, l'une à la variable interne de disponibilité, l'autre à la variable externe de
fréquence objective. On émet l'hypothèse selon laquelle la capacité d'estimation subjective de la fréquence des mots joue un
rôle, au niveau des contraintes paradigmatiques, sinon syntagmatiques, dans le processus de génération et de compréhension
de la phrase.
Abstract
Summary
Subjective word availability measures are compared to objective frequency-counts as for the adjectival class. Samples are made
up of 100 children and so many adults. From the correlation matrix thus obtained between both kinds of data, two clusters
emerge : the one corresponds to the internal variable of word availability, the other to the external variable of objective frequency.
It is hypothesized that the ability underlying subjective word availability is part of the process of creating and understanding
sentences, as far as paradigmatic and, possibly, syntagmatic constraints are concerned.
Citer ce document / Cite this document :
Hogenraad R. Disponibilité et fréquence du vocabulaire : les adjectifs qualificatifs. In: L'année psychologique. 1969 vol. 69, n°2.
pp. 407-419.
doi : 10.3406/psy.1969.27673
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1969_num_69_2_27673Centre d'Etudes psycho-médico-sociales
Université de Louvain
DISPONIBILITÉ ET FRÉQUENCE DU VOCABULAIRE :
LES ADJECTIFS QUALIFICATIFS
par Robert Hogenraad1
SUMMARY
Subjective word availability measures are compared to objective
frequency-counts as for the adjectival class. Samples are made up of 100 chil
dren and so many adults. From the correlation matrix thus obtained
between both kinds of data, two clusters emerge : the one corresponds to
the internal variable of word availability, the other to the external variable
of objective frequency. It is hypothesized that the ability underlying subj
ective word availability is part of the process of creating and understanding
sentences, as far as paradigmatic and, possibly, syntagmatic constraints
are concerned.
L'attention est actuellement tournée, en psycholinguistique,
vers l'organisation syntaxique du discours ; Chomsky (1965) et
ses collaborateurs proposent et défendent à ce sujet un modèle
transformationnaliste. Naturellement, l'activité scientifique de
ceux qui s'intéressent au langage est attirée par ces nouvelles
théories : chacun tente de voir ce qui, dans sa discipline, est
mutuellement et partiellement acceptable par l'autre. Ainsi,
l'apparition de la notion de compétence linguistique (Chomsky,
1957) a ranimé en psychologie des querelles anciennes à propos
de l'apprentissage et de la performance, du caractère inné et
acquis du langage, des mesures objectives et subjectives. La
recherche des corrélats psychologiques des règles linguistiques
trouve une de ses expressions fortes dans les mots d'Osgood
(1963) : l'ordre séquentiel de la phrase est en partie optionnel
(selon le modèle de Chomsky) et donc probabiliste (selon le
1. Ce travail, réalisé avec l'aide du Fonds national belge de la recherche
scientifique, s'inscrit dans un programme de recherche général sur la culture
subjective, dans ce cas, la culture subjective de la fréquence des mots. MÉMOIRES ORIGINAUX 408
modèle de Markov). C'est énoncer, en des termes similaires, la
problématique probabiliste des variations continues, faite d'hypo
thèses mathématiques riches, et celle des quanta, des variations
non continues, faite d'hypothèses mathématiques moins riches,
appelant par exemple une algèbre structurale. Aussi, il n'est pas
impossible que, pour le psychologue au moins, la problématique
née autour de la grammaire transformationnelle de Chomsky
émerge en définitive autour d'un problème de mesure plus
qu'autour d'un problème de contenus et de postulats théoriques
à propos de la nature et du fonctionnement du langage.
Optionnel ou probabiliste, il y a dans le fonctionnement du
langage une relation intéressante à étudier entre ce qui, en
psychologie, correspondrait à la compétence linguistique — la
mesure subjective — et ce qui, en psychologie toujours, corres
pondrait à la performance linguistique — la mesure objective.
A la limite, on aurait donc à étudier une relation entre, d'une
part un modèle déterministe, celui de la compétence linguistique,
où le sujet a en lui une « échelle » qu'il n'a qu'à lire, et où il fait
la lecture lui-même (Plateau, 1872 ; Stevens, 1957), et d'autre
part un modèle probabiliste, celui de la performance linguistique,
fondé sur la variabilité aléatoire (Knops, in Faverge et al., 1962).
L'objet de ce travail est de comparer, à propos d'un type
particulier de vocabulaire que sont les adjectifs qualificatifs,
des relevés objectifs de fréquence à des estimations subjectives
de disponibilité : plus spécifiquement, on veut vérifier si des
estimations subjectives de disponibilité du vocabulaire forment
une entité distincte de diverses listes de fréquence de mots
ordonnées par fréquence ; distincte, c'est-à-dire accordant au
caractère disponible du vocabulaire la valeur d'une réalité
psychologique d'opération mentale, différente de son caractère
de fréquence, celle-ci étant variable distale par rapport à la
variable proximale qu'est la disponibilité. Fondamentalement,
nos expériences sur la disponibilité du vocabulaire, faisant à
première vue appel à un comportement discriminatif, sont donc
basées sur l'hypothèse que les sujets peuvent faire une estimation
valable de la fréquence relative de ce vocabulaire.
Relevés de fréquence
disponibilité et estimations subjectives
Plusieurs relevés de fréquence du vocabulaire existent pour
la langue française ; Gougenheim, auquel on doit le relevé le HOGENRAAD 409 R.
plus récent, les a revus dans son ouvrage de 1964, paru dans une
première édition en 1956. Les relevés utilisés dans le présent
travail sont ceux de Vander Beke (1930), Aristizabal (1939),
et Gougenheim (1964).
On s'attache ici au caractère disponible des mots, c'est-à-dire
à ce caractère peu stable et peu fréquent de mots cependant
utiles et utilisés, différemment selon les situations, certes, mais
toujours « à notre disposition ». On tentera ici de cerner la notion
de disponibilité à propos des adjectifs qualificatifs qui en fait
ne sont pas si instables ni si peu fréquents, bien que moins
stables et moins fréquents que les mots grammaticaux et les
verbes.
Les mesures d'estimation subjective, seules, semble-t-il, per
mettent d'apercevoir le caractère proprement disponible des
mots. Quelques-unes de ces mesures ont été revues, il y a peu,
par Carroll (1966) : elles sont intéressantes car on est amené à
penser que les évaluations subjectives sont des indicateurs
beaucoup plus valables de la probabilité des mots que les calculs
statistiques (Carroll, 1966, p. 583).
La mesure d'estimation utilisée ici est inspirée de l'enquête
de Gougenheim (1954) dans Vie et langage, où les sujets sont
priés de dresser la liste des « n » mots (verbes par exemple)
les plus utilisés, sans indication de l'ordre de fréquence.
PROCÉDURE
L'échantillon est composé de 200 sujets partitionnés en
deux groupes : l'échantillon I est composé de 100 étudiants et
étudiantes de première licence de l'Institut de Psychologie de
l'Université de Louvain, répartis en deux sous-groupes de
50 étudiants (âge moyen = 23,6 ; écart-type — 5,6) et 50 étu
diantes (âge moyen = 22,1 ; écart-type = 7,0), tous de natio
nalité belge et d'expression française ; l'échantillon II est
composé de 100 enfants de 5e et 6e année primaire, répartis
en deux sous-groupes de 50 garçons (âge moyen = 11,0 ;
écart-type = 0,56) et 50 filles (âge moyen — 10,7 ; écart-
type = 0,90), tous de nationalité belge et d'expression française,
provenant de deux collèges de Bruxelles et habitant la région
bruxelloise.
Les instructions présentaient la tâche comme une enquête
visant à étudier une catégorie particulière de vocabulaire, à
savoir les adjectifs qualificatifs. Les sujets étaient invités à 410 MÉMOIRES ORIGINAUX
dresser la liste des 31 1 adjectifs qualificatifs dont la connaissance
leur semblait le plus nécessaire pour des personnes désireuses
d'apprendre le français. Il était précisé qu'aucun ordre d'utilité
ou d'importance des adjectifs ne devait être respecté, que les
ratures étaient permises et les fautes d'orthographe sans consé
quence. Les instructions ainsi que le recueil du matériel verbal
se faisaient par écrit. Les sujets de l'échantillon I emportaient
les feuillets avec eux pour les remettre, complétés, la semaine
suivante, le même jour à la même heure. Les sujets de l'échant
illon II effectuaient l'épreuve en classe : cette situation de
recueil du matériel verbal chez les enfants — en classe — crée
sans doute une situation de facilitation sociale, sinon de compét
ition, qui ne semble cependant pas devoir être déterminante.
Dans l'échantillon I, la tabulation des réponses a été effectuée
de la façon suivante : chaque type d'adjectif était transcrit sur
fiche, à raison d'une fiche par type, sur laquelle était porté le
nombre d'occurrences de cet adjectif dans l'échantillon. Ce
nombre, indice du degré de disponibilité de chaque adjectif,
variait de 1 à 100 selon qu'un adjectif était cité par 1 sujet
sur 100 ou par 100 sujets sur 100.
Dans l'échantillon II, les réponses ont été traitées en pr
ogramme PL/12, avec un résultat similaire, le nombre d'occurrences
de chaque type d'adjectif dans l'échantillon II.
RÉSULTATS
Dans l'échantillon I comme dans l'échantillon II, le résultat
brut est un certain nombre de types d'adjectifs ayant chacun
une fréquence d'occurrence propre.
La première démarche a été de s'enquérir de la signification
1. Le nombre de 31 adjectifs répond à une double motivation : celle
d'abord de proposer une tâche simple, rapide et facile aussi bien pour des
enfants que pour des adultes ; celle ensuite de l'orientation ultérieure de
ce programme de recherche vers une technique des comparaisons pairées
par blocs incomplets balancés (Gulliksen et Tucker, 1961) à laquelle une
fréquence comme celle de 31 se prête aisément, parmi d'autres.
2. Le PL/1 (Programming Language One, ancienne dénomination
« NPL », New Programming Language) est un langage qui enveloppe
l'ALGOL, le COBOL, et le FORTRAN. Voir à ce propos : G. Radin et
H. P. Rogoway, Highlights on a new programming language, in Saul
Rosen, Programming systems and language, 1967, pp. 160-179. Les pré
sentes données ont été programmées en PL/1 au Centre de Calcul de l'Uni
versité de Louvain par M. J. Raucq que nous tenons à remercier à cette
occasion. R. HOGENRAAD 411
statistique des indices de disponibilité observés : à partir de quel
moment un indice « i » est-il ou n'est-il plus le résultat du hasard ?
Disposant d'une part des catégories d'occurrence de chaque
type d'adjectif — l'indice de disponibilité — et d'autre part
du nombre d'adjectifs répartis dans chaque catégorie d'oc
currence, on a transformé ce dernier nombre en son pourcentage,
dont on calcule la probabilité d'apparition : on réalise ainsi une
analyse en termes d'erreurs de mesure, où les indices de dispo
nibilité sont le résultat de sujets qui auraient désigné au hasard
un certain nombre d'adjectifs. Des limites de probabilité, il
ressort que dans l'échantillon I, un indice de disponibilité égal
ou supérieur à 30 a moins de 5 chances sur 100 d'apparaître
par chance, sinon comme résultant d'erreurs de mesure ou d'est
imation dues au hasard : 26 adjectifs sur 537 sont dans ce cas ;
dans l'échantillon II, la limite de probabilité correspondante
p — .05 se situe au niveau de l'indice de disponibilité 24 : 27 adject
ifs sur 554 sont dans ce cas.
La suite de ce travail porte sur ces 26 et 27 adjectifs les plus
fréquemment cités dans chacun des échantillons I et II respec
tivement, en deçà de la limite de probabilité de p = .05. Par
ailleurs, le propos de cette étude est de cerner la différence qui
séparerait un vocabulaire d'adjectifs fondé sur des estimations
subjectives d'utilité d'un vocabulaire d'adjectifs fondé sur des
relevés objectifs de fréquence.
Le tableau I A présente, pour l'échantillon I, les indices de
disponibilité des 26 adjectifs (colonne 2), et ces adjectifs eux-
mêmes (colonne 1), avec les valeurs de fréquence correspondantes
dans les relevés de Gougenheim (1964) (colonne 3, //G), de
Vander Beke (1930) (colonne 4, //V), et d'Aristizabal (1939)
(colonne 5, //A), ainsi que les valeurs d'entropie cumulées
apportées successivement par chaque adjectif (colonne 6, Hx (eu)
et fig. 1) : ces dernières valeurs ont été calculées selon la formule
(pi log2pi) — pour laquelle ( — Spi log2pi = H(I)), incertitude
absolue, l'incertitude maximum étant égale à Hmax — log2
n = 4,70044 pour n = 26 — en transformant le score de dispon
ibilité de chaque adjectif en sa probabilité. Le tableau I B donne
les mêmes indices et valeurs pour l'échantillon II ; l'incertitude
maximum Hmax est égale à log2 27 = 4,75489*.
1. Répartissanl la variance en ses composantes, la statistique H de la
théorie de l'information réalise pour cette échelle nominale ou catégorielle
ce qu'une analyse de la réalise pour une variable-critère métrique
(Garner et MgGill, 1956, p. 224). I TABLEAU
Indices de disponibilité, valeurs de fréquence et valeurs d'entropie cumulée
pour les adjectifs en deçà de la limite de probabilité de p = .05
B) Echantillon II (enfants) A) Echantillon I (adultes)
Disponib2 3 4 5 6 Disponib2 3 4 5 6 1 1 //G //v //A //G //v //A Hj(cu) Hi(cu) ilité ilité
686 ** 3923 .1444 86 863 1. Beau 91 229 2154 .1481 1. Petit 654 813** 813** 2436 .2888 .2962 2. Grand 86 428 2. Grand 90 428 2436 483** 229 654 2154 .4295 .4331 3. Beau 85 3. Bon 80 384 2292 686** .5661 4. Gentil 82 74 240 .5664 863 3923 4. Petit 77 19* 61 .6747 5. Méchant . . . 51 107 .6916 5. Chaud 58 61 101 236 70 .8002 213 .7746 6. Gros 60 165 266 420 6. Mauvais . . . 53 88 312 533 .8957 7. Gentil 52 61 74 .8745 7. Joli 49 61 194 240 45 697 .9912 8. Agréable . . . 51 41 57 202 .9700 8. Blanc 49 268
41 97 617 1.0727 9. Froid 49 70 111 335 1.0655 9. Long 348 483** 1.1517 10. Bon 41 384 2292 1.1542 10. Difficile 45 76 127 95
91 71 1.2379 11. Noir 41 248 471 1.2357 11. Facile 44 47 19* 19* 38 1.3172 12. Laid 32 34 1.3241 12. Vilain 39 21 70 19* 43 1.3938 13. Utile 43 62 163 1.4103 13. Intelligent . 37 27 39 172 260 1.4704 14. Rapide .... 40 75 69 1.4918 14. Rouge 37 36 19* 15. Malin 35 23 1.5420 15. Clair 40 30 143 155 1.5433 22
1.6499 16. Bleu 33 30 174 329 1.6136 16. Long 37 97 348 617 19* 103 563 437 1.7265 17. Sale 32 38 46 1.6800 17. Jeune 36 19* 386 1.7464 18. Cher 35 130 311 1662 1.7981 18. Joyeux 31 51 19* 132 1.8128 19. Large 33 116 163 1.8697 19. Propre 30 50 19* 21 19* 20. Maigre 30 31 45 1.8792 20. Lent 33 44 30 1.9413 19* 21. Doux 2.0077 21. Large 30 21 116 163 1.9456 32 175 423 2.0068 22. Gai 55 161 2.0741 22. Jeune 29 21 46 100 32 2.0680 23. Haut 31 58 138 347 2.1405 23. Mauvais . . . 28 88 213 312 19* 591 2.1292 24. Propre 31 50 132 2.2069 24. Fort 27 412 58 19* 25. Fort 2.2733 25. Mince 27 61 18 2.1904 30 58 412 591
26. Vieux 2.3397 26. Vert 26 29 82 272 2.2461 30 192 467 537
27. Bête 24 28 37 185 2.3018
Les adjectifs dont la fréquence est marquée d'un astérisque ne sont pas présents dans la liste de Gougenheim (1964) : on leur a donné
arbitrairement la fréquence minimum de cette liste, soit 19. Les adjectifs dont la fréquence est marquée de deux astérisques ne sont pas présents
dans la liste de Vander Beke (1930) : très fréquents, ces adjectifs n'ont pas été repris par Vander Beke qui s'en est rapporté aux fréquences données
par Henmon (1924). R. HOGENRAAD 413
CD 3.00
z
W 1.00-
0 1 2 3 U 5 6 7 8 9 10 11 12 13 U 15 16 17 18 19 20 21 22 23 2t 25 26 27
ORDRE DE DISPONIBILITÉ DES ADJECTIFS
Fig. 1. — Courbes des valeurs d'entropie cumulées apportées succes
sivement par chacun des 26 adjectifs de l'échantillon I et des 27 adjectifs
de l'échantillon II. Le rang 1 est donné à l'adjectif le plus disponible dans
chaque échantillon.
Les corrélations Bravais-Pearson entre indices de disponibilité
(colonne 2) et valeurs de fréquence (colonnes 3, 4, 5) figurent
au tableau II respectivement pour les échantillons I et IL La
TABLEAU II
Corrélations entre indices de disponibilité (D)
et valeurs de fréquences respectivement
dans l'échantillon I (n = 26) et l'échantillon II (n = 27)
Echantillon I
D riv
D .687 .601 .740
.635 .761 .939 1 /'/G
.647 .802 .819 1 nv
.663 .957 .896
liberté, r = .388 est significatif à a = .05 et r — .496 Pour 24 degrés de
est significatif à a = .01.
Pour 25 degrés de liberté, r = .381 est à a = .05 et r = .487
est à a = .01. MÉMOIRES ORIGINAUX 414
corrélation entre indices de disponibilité des échantillons I et II
est de .359, significative entre les niveaux de a = .05 et a = .01,
calculée sur 43 adjectifs (10 adjectifs communs aux deux échant
illons, 16 propres à l'échantillon I, et 17 adjectifs
propres à l'échantillon II).
TABLEAU III
Coefficients d'appartenance « B »
des variables introduites successivement
dans l'analyse des grappes
B) Echantillon II (enfants) A) Echantillon I (adultes) «B » «B »
Grappe 1 : fjG ; f/A 1,249 Grappe 1 : f/G ; f/A 1,284
/•/G ; /"/A ; /"/V . 1,243 /■/G ; f/A ; f/V . 1,371
Grappe 2:D 0 Grappe 2:D 0
Une analyse des grappes, opérée sur les corrélations du
tableau II, selon la méthode modifiée de Tryon du coefficient «B »
d'appartenance de Holzinger et Harmon (Fruchter, 1954), révèle,
pour l'échantillon I, une première grappe composée des variables
de fréquence de Gougenheim (//G), Aristizabal (//A), et Vander
Beke (//V) ; la variable de disponibilité (D) est isolée et constitue
en quelque sorte une seconde grappe à elle seule. On retrouve
une configuration absolument identique dans l'échantillon IL
Ces coefficients d'appartenance sont présentés au tableau III.
I I
I II
UJ 9-
• 9 M) 11 12 « M « « 17 M 19 20 21 22 23 2«
SCORES DE COMMUNAUTÉ
Fig. 2. — Histogrammes de répartition des scores de communauté
dans l'échantillon I (adultes), et dans l'échantillon II (enfants). R. HOGENRAAD 415
La dernière démarche de ce travail a trait à la banalité ou à la
communauté des réponses des sujets. On a calculé, pour chaque
sujet, et par échantillon, un score de communauté qui est le
nombre d'adjectifs cités par chaque sujet, qui font partie des
26 ou 27 adjectifs les plus fréquemment cités dans chacun des
échantillons I (X = 13,48 ;ct = 3,99) et II (X = 11,75 ;<r = 2,88)
respectivement, en deçà de la limite de probabilité de p ~ .05.
Si, par exemple, parmi les 31 adjectifs que cite un sujet, 13 parmi
les 26 adjectifs mentionnés sont cités, le score de communauté
du sujet est de 13. La figure 2 décrit le taux de banalité des
réponses des sujets dans chaque échantillon.
DISCUSSION
Au plan du nombre de mots envisagés, ce travail est somme
toute limité, bien que le vocabulaire de disponibilité décrit
appartienne à toutes les classes de fréquence des vocabulaires
objectifs ; même, des adjectifs tels que laid, utile, rapide, lent,
doux, gai, propre, méchant, vilain, malin, sale, joyeux, maigre
et mince, présents dans la liste des adjectifs disponibles chez les
adultes ou les enfants, ne figurent pas dans la liste des 1 063 mots
de Gougenheim, qui ne compte après tout que 107 adjectifs.
L'intention présente n'est cependant pas tant de faire des infe
rences valides sur la classe des adjectifs qualificatifs ou sur l'e
nsemble du vocabulaire de la langue française, que de fonder la
réalité psycholinguistique de la variable de disponibilité.
La courbe d'entropie cumulée en fonction de l'ordre de dis
ponibilité (fig. 1) traduit une diminution progressive de l'info
rmation marginale transmise par chaque nouvel adjectif jusqu'à
ce que tout degré de différenciation sensible1 disparaisse.
Les corrélations et grappes des tableaux II et III indiquent
que, tant chez les adultes que chez les enfants, et plus peut-être
chez ceux-ci que chez ceux-là, les variables de disponibilité et
de fréquence présentent des configurations distinctes et appar
tiennent sans doute à des réalités différentes tout en étant
corrélées : la réalité psycholinguistique de la disponibilité du
1. L'analyse de l'incertitude est appropriée lorsque la variable-critère
est une variable ne permettant qu'une échelle nominale (Garner et McGill,
1956, p. 224) comme dans les expériences de Garner et Hake (1951) sur
les jugements absolus, ce que sont d'ailleurs nos expériences sur la disponibilité
puisqu'elles font appel à des comportements discriminatifs où les estimations
ont valeur d'échelle nominale.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.