13
pages
Français
Documents
2001
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
13
pages
Français
Ebook
2001
Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres
Éric Lambert
David Chesnet
NOVLEX : une base de données lexicales pour les élèves de
primaire
In: L'année psychologique. 2001 vol. 101, n°2. pp. 277-288.
Abstract
Summary : NOVLEX : A lexical database for elementary school students
This paper presents the lexical database NOVLEX. NOVLEX is a tool that provides an estimate of the scope and lexical
frequency of the written vocabulary intended for children in the elementary grades. NOVLEX was built based on the analysis of
textbooks and others books intended for third grade students.
Key words : frequency, lexical database, child vocabulary.
Résumé
Cet article présente la base de données lexicales NOVLEX. Cette base est un outil permettant d'estimer l'étendue et la fréquence
lexicale du vocabulaire écrit adressé à des élèves francophones de l'enseignement primaire. Elle a été constituée grâce à
l'analyse de livres scolaires et extra-scolaires destinés à des élèves de CE2.
Mots-clés : fréquence, base de données lexicales, vocabulaire enfant.
Citer ce document / Cite this document :
Lambert Éric, Chesnet David. NOVLEX : une base de données lexicales pour les élèves de primaire. In: L'année psychologique.
2001 vol. 101, n°2. pp. 277-288.
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_2001_num_101_2_29557L'Année psychologique, 2001, 101, 277-288
NOTE MÉTHODOLOGIQUE
Laboratoire Langage et Cognition, CNRS-EP 1594
Université de Poitiers1*
Institut de Transgénose, Génétique- Neurogénétique-
Comportement - CNRS-UPR 90742**
NOVLEX :
UNE BASE DE DONNÉES LEXICALES
POUR LES ÉLÈVES DE PRIMAIRE
par Éric LAMBERT** et David CHESNET3*
SUMMARY : NOVLEX : A lexical database for elementary school students
This paper presents the lexical NOVLEX. NOVLEX is a tool that
provides an estimate of the scope and lexical frequency of the written vocabulary
intended for children in the elementary grades. NOVLEX was built based on the
analysis of textbooks and others books intended for third grade students.
Key words : frequency, lexical database, child vocabulary.
Les mots sont perçus ou produits plus ou moins souvent dans
une langue donnée. Cette répétition peut être évaluée selon un
aspect descriptif : la fréquence lexicale, qui représente le nombre
de fois où un mot revient au sein d'un corpus, et se définit géné
ralement en terme d'occurrences. Plus un mot apparaît dans un
corpus, plus il est dit fréquent.
1. Laboratoire Langage et Cognition — CNRS EP-1594, MSHS, 99, avenue du
recteur Pineau, 86022 Poitiers Cedex.
2. 3 B, rue de la Férollerie, 45071 Orléans Cedex 2.
3. La demande de tirés à part doit être adressée à Eric Lambert, Institut de
Transgénose, Génétique-Neurogénétique-Comportement — CNRS-UPR 9074,
3 B, rue de la Férollerie, 45071 Orléans Cedex 2 (E-mail : lambert@cnrs-
orleans.fr). Novlex est fourni gracieusement sur simple demande par courrier
électronique : david.chesnet@mshs.univ-poitiers.fr. Novlex is available upon
request to : 278 Éric Lambert et David Chesnet
La fréquence se révèle être une variable très importante
pour l'étude des processus lexicaux. Ainsi Whaley (1978) a
montré une relation logarithmique entre la fréquence d'un mot
et sa durée d'identification visuelle. Ce lien entre la fréquence
d'un mot et sa vitesse de traitement proviendrait du fait qu'une
répétition accrue des mêmes traitements lexicaux les rendrait
plus rapides et plus précis. Ce phénomène est très largement
attesté et a été mis en évidence chez des sujets adultes avec des
tâches de dénomination (Forster et Chambers, 1973), de déci
sion lexicale (Segui, Mehler, Frauenfelder et Morton, 1982), ou
avec la technique d'analyse des mouvements oculaires (Inhoff,
1984). Cet effet de fréquence a d'ailleurs conditionné l'a
rchitecture de la plupart des modèles d'accès au lexique visant à
rendre compte des processus de traitement des mots. Ainsi,
dans le modèle de Forster (1976), le master file (fichier rassem
blant l'ensemble des informations syntaxique, sémantique et
morphologique sur chaque mot) est organisé sur la base de la
fréquence, et dans le modèle de Morton (1982), le seuil
d'activation d'un logogène dépend de la fréquence du mot
auquel il est associé.
La fréquence lexicale influence d'autres activités langagières.
Elle joue un rôle déterminant pour la production orale ;
l'activation des processus articulatoires serait en relation directe
avec la fréquence des mots (Bolata et Chumbley, 1985 ; McRae,
Jared et Seidenberg, 1990 ; Bachoud-Lévi, Dupoux, Cohen et
Mehler, 1998). La fréquence influencerait aussi la production
écrite ; par exemple, la vitesse de frappe en écriture dactylogra
phique dépend, entre autres, de la fréquence des mots (Inhoff,
1991).
En langue française, la fréquence lexicale est le plus souvent
estimée à l'aide de la base de données Brulex (Content, Mousty
et Radeau, 1990). Cette base informatisée comprend les entrées
du dictionnaire Le Micro-Robert et a été constituée à partir des
données du Trésor de la Langue française (Imbs, 1971) ; le TLF
est élaboré à partir de textes littéraires (romans, essais, recueils
de poèmes...). Brulex fournit 35 746 entrées lexicales dont la fr
équence est donnée en occurrence pour 100 millions et contient
un certain nombre d'indicateurs supplémentaires comme le
nombre de lettres, le nombre de phonèmes ou la classe grammat
icale des mots. De par le grand nombre d'entrées lexicales et la
richesse des informations, cette base de données est un instru- lexicales pour le primaire 279 Données
ment essentiel pour les études psycholinguistiques en langue
française.
Depuis plusieurs années, un intérêt grandissant émerge pour
l'étude développementale des traitements lexicaux. Un des
enjeux est de comprendre comment s'élabore, avec l'apprent
issage, la lecture ou l'écriture, et de réussir à mettre au point un
modèle développemental du langage écrit (Frith, 1985). Pour
atteindre un tel objectif, certaines recherches ont essayé de
déterminer quelles caractéristiques lexicales pouvaient influen
cer les processus impliqués. Par exemple, des variables comme le
nombre de syllabes des mots (Marouby-Terriou et Denhière,
1994), la structure syllabique (Cassar et Treiman, 1997 ; Spren-
ger-Charolles et Siegel, 1997), la régularité phono-graphémique
(Alegria et Mousty, 1994), ou la fréquence de la rime (Nation,
1997) semblent jouer un rôle important. Dans ce cadre, il
devient nécessaire de pouvoir tester l'influence de la fréquence
lexicale sur les différents processus qui sont en cours d'élabo
ration. Par exemple, Leybaert et Content (1995) évaluent l'effet
de deux méthodes d'enseignement de la lecture en manipulant
différentes caractéristiques des mots. Ils montrent que la fr
équence (estimée par le TLF) ne joue pas de rôle significatif pour
les enfants les plus jeunes (CEI). Récemment, une étude de
Sprenger-Charolles, Siegel et Bonnet (1998) analyse l'effet de la
fréquence chez des élèves de CP en utilisant la base : Listes ortho
graphiques de base (LOB). La fréquence des mots ne semble pas
influencer le traitement lexical au début du CP. Cependant, dès
le mois de juin, l'effet devient significatif, suggérant ainsi la
construction rapide du lexique orthographique.
En langue anglaise, une base de données lexicales établie
selon différents niveaux de scolarité existe déjà : The educat
or's WFG (Zeno et coll., 1995). En français, un tel outil de
recherche n'a pas encore été développé. Si, grâce à la base de
données informatisée Brulex, nous pouvons estimer la fréquence
d'un mot pour un sujet adulte lettré, cette base ne semble pas
directement adaptée à une recherche portant sur des enfants en
cours de scolarité. Il devient donc très difficile de concevoir une
expérience s'appuyant sur le rôle de la fréquence lexicale et por
tant sur ces sujets novices.
Pour essayer de résoudre ce problème et donc de créer un
outil susceptible d'estimer la fréquence lexicale pour les enfants,
nous avons mis au point NOVLEX. 280 Éric Lambert