NOVLEX : une base de données lexicales pour les élèves de primaire - article ; n°2 ; vol.101, pg 277-288

De
Publié par

L'année psychologique - Année 2001 - Volume 101 - Numéro 2 - Pages 277-288
Summary : NOVLEX : A lexical database for elementary school students
This paper presents the lexical database NOVLEX. NOVLEX is a tool that provides an estimate of the scope and lexical frequency of the written vocabulary intended for children in the elementary grades. NOVLEX was built based on the analysis of textbooks and others books intended for third grade students.
Key words : frequency, lexical database, child vocabulary.
Résumé
Cet article présente la base de données lexicales NOVLEX. Cette base est un outil permettant d'estimer l'étendue et la fréquence lexicale du vocabulaire écrit adressé à des élèves francophones de l'enseignement primaire. Elle a été constituée grâce à l'analyse de livres scolaires et extra-scolaires destinés à des élèves de CE2.
Mots-clés : fréquence, base de données lexicales, vocabulaire enfant.
12 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : lundi 1 janvier 2001
Lecture(s) : 1 101
Nombre de pages : 13
Voir plus Voir moins

Éric Lambert
David Chesnet
NOVLEX : une base de données lexicales pour les élèves de
primaire
In: L'année psychologique. 2001 vol. 101, n°2. pp. 277-288.
Abstract
Summary : NOVLEX : A lexical database for elementary school students
This paper presents the lexical database NOVLEX. NOVLEX is a tool that provides an estimate of the scope and lexical
frequency of the written vocabulary intended for children in the elementary grades. NOVLEX was built based on the analysis of
textbooks and others books intended for third grade students.
Key words : frequency, lexical database, child vocabulary.
Résumé
Cet article présente la base de données lexicales NOVLEX. Cette base est un outil permettant d'estimer l'étendue et la fréquence
lexicale du vocabulaire écrit adressé à des élèves francophones de l'enseignement primaire. Elle a été constituée grâce à
l'analyse de livres scolaires et extra-scolaires destinés à des élèves de CE2.
Mots-clés : fréquence, base de données lexicales, vocabulaire enfant.
Citer ce document / Cite this document :
Lambert Éric, Chesnet David. NOVLEX : une base de données lexicales pour les élèves de primaire. In: L'année psychologique.
2001 vol. 101, n°2. pp. 277-288.
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_2001_num_101_2_29557L'Année psychologique, 2001, 101, 277-288
NOTE MÉTHODOLOGIQUE
Laboratoire Langage et Cognition, CNRS-EP 1594
Université de Poitiers1*
Institut de Transgénose, Génétique- Neurogénétique-
Comportement - CNRS-UPR 90742**
NOVLEX :
UNE BASE DE DONNÉES LEXICALES
POUR LES ÉLÈVES DE PRIMAIRE
par Éric LAMBERT** et David CHESNET3*
SUMMARY : NOVLEX : A lexical database for elementary school students
This paper presents the lexical NOVLEX. NOVLEX is a tool that
provides an estimate of the scope and lexical frequency of the written vocabulary
intended for children in the elementary grades. NOVLEX was built based on the
analysis of textbooks and others books intended for third grade students.
Key words : frequency, lexical database, child vocabulary.
Les mots sont perçus ou produits plus ou moins souvent dans
une langue donnée. Cette répétition peut être évaluée selon un
aspect descriptif : la fréquence lexicale, qui représente le nombre
de fois où un mot revient au sein d'un corpus, et se définit géné
ralement en terme d'occurrences. Plus un mot apparaît dans un
corpus, plus il est dit fréquent.
1. Laboratoire Langage et Cognition — CNRS EP-1594, MSHS, 99, avenue du
recteur Pineau, 86022 Poitiers Cedex.
2. 3 B, rue de la Férollerie, 45071 Orléans Cedex 2.
3. La demande de tirés à part doit être adressée à Eric Lambert, Institut de
Transgénose, Génétique-Neurogénétique-Comportement — CNRS-UPR 9074,
3 B, rue de la Férollerie, 45071 Orléans Cedex 2 (E-mail : lambert@cnrs-
orleans.fr). Novlex est fourni gracieusement sur simple demande par courrier
électronique : david.chesnet@mshs.univ-poitiers.fr. Novlex is available upon
request to : 278 Éric Lambert et David Chesnet
La fréquence se révèle être une variable très importante
pour l'étude des processus lexicaux. Ainsi Whaley (1978) a
montré une relation logarithmique entre la fréquence d'un mot
et sa durée d'identification visuelle. Ce lien entre la fréquence
d'un mot et sa vitesse de traitement proviendrait du fait qu'une
répétition accrue des mêmes traitements lexicaux les rendrait
plus rapides et plus précis. Ce phénomène est très largement
attesté et a été mis en évidence chez des sujets adultes avec des
tâches de dénomination (Forster et Chambers, 1973), de déci
sion lexicale (Segui, Mehler, Frauenfelder et Morton, 1982), ou
avec la technique d'analyse des mouvements oculaires (Inhoff,
1984). Cet effet de fréquence a d'ailleurs conditionné l'a
rchitecture de la plupart des modèles d'accès au lexique visant à
rendre compte des processus de traitement des mots. Ainsi,
dans le modèle de Forster (1976), le master file (fichier rassem
blant l'ensemble des informations syntaxique, sémantique et
morphologique sur chaque mot) est organisé sur la base de la
fréquence, et dans le modèle de Morton (1982), le seuil
d'activation d'un logogène dépend de la fréquence du mot
auquel il est associé.
La fréquence lexicale influence d'autres activités langagières.
Elle joue un rôle déterminant pour la production orale ;
l'activation des processus articulatoires serait en relation directe
avec la fréquence des mots (Bolata et Chumbley, 1985 ; McRae,
Jared et Seidenberg, 1990 ; Bachoud-Lévi, Dupoux, Cohen et
Mehler, 1998). La fréquence influencerait aussi la production
écrite ; par exemple, la vitesse de frappe en écriture dactylogra
phique dépend, entre autres, de la fréquence des mots (Inhoff,
1991).
En langue française, la fréquence lexicale est le plus souvent
estimée à l'aide de la base de données Brulex (Content, Mousty
et Radeau, 1990). Cette base informatisée comprend les entrées
du dictionnaire Le Micro-Robert et a été constituée à partir des
données du Trésor de la Langue française (Imbs, 1971) ; le TLF
est élaboré à partir de textes littéraires (romans, essais, recueils
de poèmes...). Brulex fournit 35 746 entrées lexicales dont la fr
équence est donnée en occurrence pour 100 millions et contient
un certain nombre d'indicateurs supplémentaires comme le
nombre de lettres, le nombre de phonèmes ou la classe grammat
icale des mots. De par le grand nombre d'entrées lexicales et la
richesse des informations, cette base de données est un instru- lexicales pour le primaire 279 Données
ment essentiel pour les études psycholinguistiques en langue
française.
Depuis plusieurs années, un intérêt grandissant émerge pour
l'étude développementale des traitements lexicaux. Un des
enjeux est de comprendre comment s'élabore, avec l'apprent
issage, la lecture ou l'écriture, et de réussir à mettre au point un
modèle développemental du langage écrit (Frith, 1985). Pour
atteindre un tel objectif, certaines recherches ont essayé de
déterminer quelles caractéristiques lexicales pouvaient influen
cer les processus impliqués. Par exemple, des variables comme le
nombre de syllabes des mots (Marouby-Terriou et Denhière,
1994), la structure syllabique (Cassar et Treiman, 1997 ; Spren-
ger-Charolles et Siegel, 1997), la régularité phono-graphémique
(Alegria et Mousty, 1994), ou la fréquence de la rime (Nation,
1997) semblent jouer un rôle important. Dans ce cadre, il
devient nécessaire de pouvoir tester l'influence de la fréquence
lexicale sur les différents processus qui sont en cours d'élabo
ration. Par exemple, Leybaert et Content (1995) évaluent l'effet
de deux méthodes d'enseignement de la lecture en manipulant
différentes caractéristiques des mots. Ils montrent que la fr
équence (estimée par le TLF) ne joue pas de rôle significatif pour
les enfants les plus jeunes (CEI). Récemment, une étude de
Sprenger-Charolles, Siegel et Bonnet (1998) analyse l'effet de la
fréquence chez des élèves de CP en utilisant la base : Listes ortho
graphiques de base (LOB). La fréquence des mots ne semble pas
influencer le traitement lexical au début du CP. Cependant, dès
le mois de juin, l'effet devient significatif, suggérant ainsi la
construction rapide du lexique orthographique.
En langue anglaise, une base de données lexicales établie
selon différents niveaux de scolarité existe déjà : The educat
or's WFG (Zeno et coll., 1995). En français, un tel outil de
recherche n'a pas encore été développé. Si, grâce à la base de
données informatisée Brulex, nous pouvons estimer la fréquence
d'un mot pour un sujet adulte lettré, cette base ne semble pas
directement adaptée à une recherche portant sur des enfants en
cours de scolarité. Il devient donc très difficile de concevoir une
expérience s'appuyant sur le rôle de la fréquence lexicale et por
tant sur ces sujets novices.
Pour essayer de résoudre ce problème et donc de créer un
outil susceptible d'estimer la fréquence lexicale pour les enfants,
nous avons mis au point NOVLEX. 280 Éric Lambert et David Chesnet
LA BASE DE DONNEES : NOVLEX
NOVLEX se présente sous la forme d'une base de données
informatisée regroupant plusieurs champs comme la forme gra
phique de mots associée à leur fréquence d'occurrence. La cons
truction de cette base est fondée sur l'analyse de livres destinés
aux élèves de CE2 (8-9 ans). Nous avons choisi ce niveau scolaire
car il se situe au milieu du cursus de l'école primaire (première
année du cycle des approfondissements). NOVLEX permet donc
des analyses de fréquences utiles à la préparation d'une liste de
mots pour des expériences en CE2, mais en plus, la base peut être
aussi exploitée pour des études avec des élèves de classes adja
centes. En outre, NOVLEX pourrait s'avérer utile comme outil de
référence pour des objectifs pédagogiques, par exemple, dans le
cadre de l'apprentissage de l'orthographe.
SÉLECTION DES LIVRES
Pour la constitution de la base de données, nous avons
sélectionné 38 livres destinés à des élèves de CE2. Cette liste était
composée de 19 livres scolaires et 19 livres extra-scolaires
(cf. Annexe, pour la liste des références des livres exploités).
L'ensemble des ouvrages a été sélectionné avec l'aide de docu
mentalistes du CRDP de Poitou-Charentes et des instituteurs de
classe de CE2. La représentativité du corpus a été établie comme
suit.
Les livres scolaires sont des manuels de lecture utilisés en
classe au cours des 5 dernières années scolaires. Nous n'avons
donc pas analysé des livres provenant d'autres disciplines
comme les mathématiques ou la géographie. Toutefois, certaines
parties des livres de lecture sont constituées de la description
d'un pays étranger ou de l'explication d'une invention.
Les livres extra-scolaires ont été sélectionnés en fonction de
leur représentativité du vocabulaire d'élèves de CE2. Celle-ci a
été établie avec des instituteurs qui nous ont fourni la liste des
livres les plus lus en dehors de l'école. Comme pour les livres sco
laires, ils sont orientés vers une activité de lecture (romans,
contes...), et non vers l'apprentissage de domaines extérieurs. Données lexicales pour le primaire 281
Ces ouvrages ont tous une date d'édition inférieure à dix ans.
Nous avons choisi d'introduire des livres extra-scolaires en sup
plément des manuels de lecture car l'apprentissage de la lecture
se réalise aussi grâce à ce type d'ouvrage.
ANALYSE DES LIVRES
Le traitement s'est déroulé en trois étapes : une première
étape d'acquisition du corpus, une deuxième étape de traitement
du corpus et une troisième étape de retraitement de la base
obtenue.
L'acquisition du corpus a été réalisée grâce à une procédure
de numérisation des pages des livres à l'aide d'un scanner, puis
d'un traitement des images par reconnaissance optique des
caractères (OCR). Étant donné la difficulté de traitement par le
logiciel d'OCR pour les textes non dactylographiés ou imprimés
sur un fond d'image, seules les pages de texte sur fond clair ont
été traitées, soit 40 à 85 % des pages des livres (70 % en
moyenne). Le résultat a ensuite été vérifié et corrigé manuelle
ment. Les noms propres, les chiffres, les noms de pays ainsi que
les onomatopées ont également été retirés du corpus.
Lors de la deuxième étape, le corpus a été analysé en termes
de fréquence grâce à un logiciel, développé au sein de notre labo
ratoire, qui repère les mots (en se basant sur des séparateurs
comme les espaces, la ponctuation, les parenthèses, les guill
emets ou les apostrophes). On ajoute ces mots à la base ou, quand
ils sont déjà présents, on augmente d'une unité leur nombre
d'occurrences. Tous les caractères d'un mot sont ramenés en
minuscules, entraînant une non-différenciation des mots selon
leur casse (e.g. Un et un considérés comme une seule et même
entrée). Toutes les formes orthographiques sont considérées
comme des entrées séparées (e.g. cheveu et cheveux sont deux
entrées distinctes).
Nous avons analysé l'apport en mots nouveaux de chaque
livre (introduit dans l'ordre alphabétique) en calculant le pour
centage de ce type de mots par rapport au nombre total de
mots. Des livres ont été ajoutés au corpus jusqu'à ce que
l'apport en nouveaux mots saisis se stabilise (les cinq derniers
livres introduits n'apportent que 7 % de mots nouveaux ;
% I)- 282 Éric Lambert et David Chesnet
numéro des livres
Fig. 1. — Pourcentage de mots nouveaux
apportés par l'ensemble des livres
Percent new words brought by the set of books
L'analyse différenciée entre livres scolaires et extra-scolaires
(selon la même technique) permet de montrer que la stabilisation
du vocabulaire est plus rapide pour les livres scolaires que les
livres non scolaires. En effet, les trois derniers livres scolaires
introduits fournissent 14 % de mots nouveaux alors que les trois
derniers livres extra-scolaires en fournissent 23 % (ces pourcen
tages supérieurs aux 7 % de l'ensemble des livres sont dus à la dif
férence du nombre d'ouvrages entre l'analyse totale et l'analyse
différenciée). Ce résultat proviendrait du fait d'une plus grande
homogénéité du vocabulaire utilisé dans les livres scolaires.
La troisième étape a consisté à supprimer manuellement les
dernières erreurs subsistant dans la base, comme des prénoms ou
des noms propres.
PRÉSENTATION DE NOVLEX
Au total, pour la constitution de NOVLEX, à peu près
417 000 mots ont été analysés. L'ensemble de ces mots repré
sente 20 600 entrées différentes et 9 600 racines lexicales dis
tinctes. Selon les instituteurs de classe de CE2, un vocabulaire de
plus de 9 000 mots est considéré comme très étendu pour un
élève de cet âge. NOVLEX permet donc une analyse lexicale assez
complète du vocabulaire de l'école primaire. Données lexicales pour le primaire 283
NOVLEX se présente sous la forme de deux bases de données
informatiques (cf. fig. 2). La première base (Base d'occurrences)
contient un premier champ qui recense la forme graphique de
l'ensemble des mots analysés. Ces mots sont présentés avec la
même forme orthographique que celle des livres (e.g. le pluriel et
le singulier d'un nom ou toutes les dérivations grammaticales
d'un verbe sont associés à leur fréquence respective). Le
deuxième champ contient la fréquence d'occurrences des mots
rapportée à un total de 100 millions.
La seconde base de données (Base lexicale) contient aussi
deux champs : le premier est la forme graphique où toutes les
dérivations d'un mot sont ramenées à sa racine (e.g. singulier
pour les noms ou infinitif pour les verbes). De la même manière,
le deuxième champ contient la fréquence lexicale de ces mots
rapportée à un total de 100 millions. Cette fréquence est donc la
somme de toutes les fréquences d'occurrences du mot (e.g. bougie
(3 094) et bougies (952) donnent bougie : 4 046). Dans cette
deuxième base, nous avons dû rajouter certaines formes qui
étaient inexistantes dans la première. Par exemple, le mot ciseau
n'apparaît jamais au singulier dans notre échantillon de livres,
ou bien, le verbe maltraiter n'apparaît jamais à l'infinitif. Sous
cette forme, la base de données peut être facilement intégrable à
Brulex, permettant des comparaisons avec les fréquences obte-
Base
d'occurrences
3570 jouquet 4522 bouquet
bouquets 952 bourdonnement 1666
bourdonnaient 238 îourdonner 2380
bourdon 714 bourdonne 1190
bourdonnement 1666
bourdonnent 238
bourdonner 476
bourdonnèrent 238
bourdons 714
Fig. 2. — Extrait de la base NOVLEX
Excerpt from the database NO VLEX 284 Éric Lambert et David Chesnet
nues chez les adultes. Afin de rendre encore plus facilement
exploitable NOVLEX, différents champs ont été ajoutés (par
mot : Nombre de lettres ; Ecriture phonologique ; Nombre de
phonèmes ; Découpage en syllabe ; Nombre de syllabes ; Struc
ture syllabique ; Classe grammaticale ; Genre ; Présence d'un E
muet : Présence d'une consonne doublée). Ces champs permet
tront une sélection et un traitement plus approfondi d'une liste
expérimentale de mots.
Il nous a semblé important de conserver une base d'occur
rences où toutes les différentes dérivations d'un mot étaient pré
sentes. Cela permet une analyse lexicale plus fine (comme pour
les fréquences de toutes les conjugaisons d'un verbe) et cela met
en évidence certaines disparités selon les différentes dérivations
auxquelles les enfants pourraient être sensibles (e.g. cheveu :
1 190 et cheveux : 24 276).
UN PREMIER RESULTAT
Afin de réaliser un premier test de NOVLEX, nous avons ana
lysé les résultats d'une tâche de dictée de mots isolés, effectuée
par 79 élèves de CE2 (d'âge moyen 8 ; 10 ans dont 35 filles et
44 garçons) et 80 élèves de CM2 (d'âge moyen 10 ; 9 ans dont
33 filles et 47 garçons). Dans cet exercice, les enfants devaient
écrire sous dictée une liste de 200 mots (cet exercice était réalisé
en classe et en 4 passations de 50 chacune ; l'ordre de pas
sation des listes était contrebalancé).
Les items retenus étaient tous composés de 2 syllabes, ils
avaient une fréquence (adulte) moyenne de 6 987 (d'après Bru-
lex ; min : 21, max : 124 451) et une fréquence (enfant) moyenne
de 13 117 (d'après NOVLEX ; min : 238, max : 148 036).
Par élève, nous avons calculé pour chaque mot la
du nombre d'erreurs orthographiques. Le nombre d'erreurs par
mot correspondait au nombre de lettres mal orthographiées par
rapport au mot cible. Nous avons donc ensuite calculé la
moyenne de ces erreurs par mot selon l'ensemble des élèves
d'une classe ( CE2 et CM2).
Les résultats montrent une corrélation significative entre le
nombre moyen d'erreurs par mot en dictée et la fréquence lexi
cale de NOVLEX pour les élèves de CE2 (r = - .26, p < .02) et pour Données lexicales pour le primaire 285
les élèves de CM2 (r — — .25, p < .03). A l'inverse, la corrélation
entre le nombre moyen d'erreurs et la fréquence présentée par
Brulex n'est pas significative ( CE2 : r — — .06, n.s. ; CM2 :
r = — .11, n.s.).
Il semble donc que NOVLEX soit mieux adapté à l'expé
rimentation avec des élèves de l'enseignement de primaire
(même pour les CM2) que Brulex (qui n'était, de toute façon, pas
destiné à cette population).
CONCLUSION
La base de données NOLVEX a été créée dans le but d'offrir à
toutes les personnes susceptibles d'être intéressées par l'étude du
langage chez des élèves de primaire, un outil d'analyse non
encore disponible. En donnant une estimation de l'étendue du
vocabulaire ainsi que de la fréquence lexicale, grâce à l'analyse
des livres scolaires et extra-scolaires de classe de CE2,
NOVLEX peut donc permettre la mise au point de listes de mots.
Ces listes autoriseront le contrôle ou la manipulation de la
variable « fréquence » pour des expériences en psycholinguis
tique avec des sujets novices. Dans une visée pédagogique,
NOVLEX est aussi susceptible d'offrir des informations précieuses
quant à la mise au point de programmes relatifs au langage
écrit.
En relation avec la fréquence lexicale des mots du vocabul
aire enfantin, certaines études ont montré que l'âge d'acquis
ition joue un rôle important dans l'accès lexical chez l'adulte
(Morisson et Ellis, 1995 ; Tainturier, Tremblay et Roch Lecours,
1992). Par exemple, l'âge d'acquisition d'un mot influence sa
vitesse de prononciation, même lorsque la fréquence est con
trôlée (Morisson et Ellis, 1995). Dans ce cadre, NOVLEX peut
apporter de nouveaux éléments d'information en offrant une
estimation de la fréquence lexicale pour des enfants de 8-9 ans.
Enfin, il sera possible, dans le futur, de faire évoluer NOVLEX.
Une des perspectives envisagée est de compléter la base de don
nées avec des analyses de livres destinés à d'autres classes de
l'école primaire. Ce type d'analyse pourrait alors fournir une
vision plus complète du vocabulaire utilisé par les enfants de 6 à
12 ans.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.