Dictionnaires hiérarchiques du français. Principes et méthode d extraction - article ; n°1 ; vol.96, pg 88-100
14 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Dictionnaires hiérarchiques du français. Principes et méthode d'extraction - article ; n°1 ; vol.96, pg 88-100

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
14 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Langue française - Année 1992 - Volume 96 - Numéro 1 - Pages 88-100
13 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 1992
Nombre de lectures 16
Langue Français
Poids de l'ouvrage 1 Mo

Extrait

Mylène Garrigues
Dictionnaires hiérarchiques du français. Principes et méthode
d'extraction
In: Langue française. N°96, 1992. pp. 88-100.
Citer ce document / Cite this document :
Garrigues Mylène. Dictionnaires hiérarchiques du français. Principes et méthode d'extraction. In: Langue française. N°96, 1992.
pp. 88-100.
doi : 10.3406/lfr.1992.5783
http://www.persee.fr/web/revues/home/prescript/article/lfr_0023-8368_1992_num_96_1_5783Mylène Garrigues
Centre International d'Etudes Pédagogiques
Sèvres
DICTIONNAIRES HIÉRARCHIQUES DU FRANÇAIS
Principes et méthode d'extraction
In aile Wissenschaften kehrt die Not ein,
letztlich als Not der Méthode 1 (Husserl).
1. Introduction
II existe dans la langue des mots courants et des mots rares. Tout locuteur en a une conviction
intime. Aussi cherche-t-on depuis longtemps à circonscrire, à différentes fins, le vocabulaire courant.
Partant du fait que les mots les plus courants sont les mots les plus employés, on a donc pensé qu'il serait
facile de les repérer en opérant des décomptes de mots dans des textes. Cette idée a suscité de grands
espoirs. Il faut pourtant se rendre à l'évidence. L'examen des différentes expériences prouve que les
méthodes statistiques sont impuissantes à cerner ce vocabulaire courant, dont on sait pourtant bien
intuitivement qu'il existe. Nous avons réalisé, par une autre démarche, une extraction de trois couches
lexicales des mots simples du français, allant de la plus essentielle à la moins essentielle et comprenant
respectivement 24.000 (Cl), 13.000 (C2) et 40.000 (C3) mots. Nous rendons compte ici de cette expérience.
Les méthodes statistiques sont fondées sur une approche « objective », reposant essentiellement sur
le critère de fréquence, le recours à une démarche intuitive étant a priori jugé rétrograde et a-scientifïque.
Nous ferons deux remarques à ce propos :
— Si, dans les méthodes reposant sur les statistiques, les relevés de mots des listes fréquentielles sont
bien objectifs, on oublie souvent que la subjectivité n'est pas éliminée pour autant. Elle se trouve
déplacée en amont de ce calcul, c'est-à-dire au moment du choix du corpus de textes.
— Il est aujourd'hui possible d'étayer des intuitions de choix de mots, par des expérimentations
permettant d'évaluer le taux de couverture d'une sélection, sur des corpus de textes. De nouveaux outils
linguistiques et informatiques — dictionnaires électroniques (Bl. Courtois, 1989), outils logiciels de
navigation dans les textes (M. Silberztein, 1989) — permettent désormais de s'y livrer, à une très grande
échelle, et avec une facilité impensable il y a seulement quelques années.
En ce qui concerne le critère de fréquence, deux principales caractéristiques des dictionnaires de
fréquences suffiront à montrer pourquoi il est impossible de s'y référer, pour une sélection hiérarchique.
Il s'agit de :
a — l'incohérence de regroupements de mots
Le Dictionnaire des fréquences (1971), siglé DF, réalisé en vue de l'élaboration du Dictionnaire du Trésor
de la langue française a porté sur un corpus de deux siècles de littérature française (XIXe et XXe siècles)
ayant fourni 71 millions d'occurrences. Or, si l'on examine la table des fréquences décroissantes (DF, t. 2)
qui va de la fréquence 3940365 à la fréquence 1 (ou hapax), on est frappé par le caractère disparate, pour
ne pas dire aléatoire des groupements de mots.
1. «Dans toutes les sciences s'insinue la détresse, en dernière analyse comme détresse méthodologique» (La crise de
l'humanité européenne et la philosophie ; Husserl, traduction de P. Ricoeur). Aubier Montaigne. 1977, 1987.
88 se retrouvent à la même fréquence 3 par exemple, des mots aussi hétérogènes que ceux que Ainsi
nous avons triés dans les ensembles ci-dessous :
Table de Fréquence 3 (DF) :
adurent amphictyonique amyle anagnoste anhélant aospessade
archiver bagarreur basculement achetable habillement chambouler
balanite balancine batture condyloïde contrebatterie coqueron
colmater chiader démarreur brouillasse dépanner exonérer
lupercal manrèse
malvenu motard etc.
On comparera à présent le sous-ensemble ci-dessus en italique, à un autre ensemble regroupant des
exemples pris parmi les 5.000 mots les plus fréquents, soit ceux qui, sur les 71.415 mots que compte le DF,
ont une fréquence égale ou supérieure à 800 (le chiffre entre parenthèses indique la fréquence exacte) :
marquis (4942), tour (20719), ho (21740), chevalier (4180), épée (3656), sabot (1151), vallon (1162),
auguste (1170), écurie (1184), altesse (1191), épine (1202), poignard (1250), clocher (1299), fiacre
(1261), major (1281), sergent (1313), pasteur (1348), charbon (1401), sabre (1433), louis (1468),
prussien (1569) etc.
On conviendra qu'il est difficile d'admettre un tel écart entre les deux ensembles en question. De même
qu'il est difficile d'admettre que soient considérés comme mots rares ces mots figurant dans la liste des
hapax :
agresser, agacé, amaigrissant, archicomble, bigleux, banalisation, bidonnant, bloquage, bronzage,
cafeter, cafouillis, capsule, chatouillis, chronométrage, collimateur, coauteur etc.
ou ces mots figurant dans la table de fréquence 2 :
bafouillis, barbiturique , copiable, copinage, commotionné, conasse, couillonner, cramer, déstabili
sation, décontraction, décoder, increvable, laxiste, nouvelle, yaourt, marginaliser, transférable,
muscler, parking, pantoufler, shopping, ulcérant, etc.
La même hétérogénéité se retrouve dans la liste des fréquences décroissantes du dictionnaire de J.
Baudot (1990, T. 2) 2. On comparera à titre d'exemple les deux ensembles ci-dessous dont tous les mots
sont tirés de la fréquence 1 :
Lettre b, 1 (J. Baudot, T. 2 pp. 141-144)
balistocardiographie baronnial batayole baryum basicité bifilaire
badigeonner bagarrer bague bagnole balade banaliser
biostrome bouvillon blandice brai brimborion
banditisme baratin bécoter bibliothécaire bicoque biscotte
butylmagnésium bromatologue brosserie bruitisme brimante bryone
bronzer bizarrerie blagueur bougeotte bougrement boulot
brabançon bradycardiaque blastocyte bijectif
boulanger bourde bredouille bricole etc.
Il apparaît clairement, à l'examen de ces deux dictionnaires qui comptent parmi les références les plus
sérieuses dans le domaine, qu'en allant des mots les plus fréquents aux mots les moins fréquents, on ne
va pas des mots les plus essentiels aux mots les plus rares.
2. Le dictionnaire de J. Baudot a pourtant l'avantage d'être lemmatisé et certaine mots ambigus ont été décomptée
séparément, ce qui n'est pas le cas du DF.
89 — la disparité des différentes listes b
D'autre part, les listes présentées par les différents dictionnaires ne se recouvrent pas. Il ressort par
exemple d'une étude comparative (J.C. Rolland, 1991) que sur les mille premiers mots de 3 dictionnaires
de fréquences du français (Français Fondamental (F.F.) 1967, D.F. 1971, J. Baudot 1990), seuls les 500
premiers sont communs aux trois listes. En outre, sur ces 500 mots, 150 sont des mots grammaticaux (le,
sur, dans etc.). Les 500 autres présentent une disparité dont on trouvera quelques exemples dans le
tableau ci-dessous :
FF Baudot DF
absolument
abbé
abandonner
billet
bouche
adieu
style
peau
vertu
montagne
colère
etc.
Cette disparité pose un problème de fond : si aucune liste n'est superposable à une autre, peut-on en
considérer une comme la liste-étalon ? Les tenants des listes de fréquences n'ont toujours pas soulevé la
question. L'une des raisons est que les méthodes statistiques opèrent toujours dans les sens d'une
constitution de listes de mots à partir de textes, jamais dans le sens de la validation de la couverture de
ces listes sur des textes. Nous présentons une telle approche.
2. Approche intuitive et problèmes théoriques
Contrairement aux méthodes fondées sur l'exploitation de listes de fréquences, et compte tenu des
insuffisances constatées, nous avons donc décidé d'adopter une démarche résolument opposée, consistant
à partir d'un lexique de la langue française contemporaine le plus complet possible, en l'occurre

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents