Un système de dictionnaires électroniques pour les mots simples du français - article ; n°1 ; vol.87, pg 11-22
13 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Un système de dictionnaires électroniques pour les mots simples du français - article ; n°1 ; vol.87, pg 11-22

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
13 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Langue française - Année 1990 - Volume 87 - Numéro 1 - Pages 11-22
12 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 1990
Nombre de lectures 44
Langue Français

Extrait

B. Courtois
Un système de dictionnaires électroniques pour les mots
simples du français
In: Langue française. N°87, 1990. pp. 11-22.
Citer ce document / Cite this document :
Courtois B. Un système de dictionnaires électroniques pour les mots simples du français. In: Langue française. N°87, 1990. pp.
11-22.
doi : 10.3406/lfr.1990.6323
http://www.persee.fr/web/revues/home/prescript/article/lfr_0023-8368_1990_num_87_1_6323Blandine COURTOIS
Laboratoire d'Automatique Documentaire et Linguistique
UA 819 CNRS
UN SYSTÈME DE DICTIONNAIRES ÉLECTRONIQUES
POUR LES MOTS SIMPLES DU FRANÇAIS
implique La représentation entre autres la des description phrases, des en vue unités de élémentaires l'analyse et de constitutives la génération des automatiques phrases, c'est-à-dire des textes, des
mots eux-mêmes. Un objectif des dictionnaires électroniques est de construire des structures où sont
répertoriées les unités de la langue, avec un certain nombre de propriétés nécessaires au traitement
automatique.
Le dictionnaire DELAS est le Dictionnaire électronique du LADL pour les mots simples du
français. Le système des dictionnaires électroniques de mots simples comporte le DELAS, des
programmes de traitements associés, un ensemble de formes fléchies DELAF, et des lexiques dérivés.
Ce système s'intègre dans un ensemble de travaux du LADL, dirigés par le Professeur Maurice Gross,
et comprenant d'autres structures qui sont en relation avec le DELAS, notamment : l'ensemble des
mots composés DELAC, les tables d'expressions âgées, et les tables syntaxiques du lexique-
grammaire.
La présentation d'un système de mots simples suppose d'abord la définition du concept de mot
eimple. Nous l'envisagerons dans l'optique des dictionnaires électroniques. Puis nous décrirons le
dictionnaire DELAS, qui constitue la principale base de données des mots simples. Nous donnerons
ensuite une vue d'ensemble des produits dérivés du DELAS, notamment du dictionnaire de formes
fléchies DELAF. Enfin nous indiquerons quelques problèmes de maintenance et de cohérence,
d'abord à l'intérieur de la structure du DELAS, puis en relation avec les autres structures.
I. Base des mots simples
1. Unités formelles
Les entrées du DELAS sont les mots simples du français. Par mots simples, nous entendons des
unités de texte définies sur l'alphabet des codes ASCII ou EBCDIC à 256 caractères, et ne
comportant aucun séparateur, en particulier pas de trait d'union, ni apostrophe, ni espace blanc.
Une telle définition est purement formelle. Elle a l'avantage d'être dépourvue d'ambiguïté. Elle
mène à introduire comme mots simples des éléments qui ne sont pas considérés comme tels par les
grammairiens ou les lexicographes :
a) tous les mots formés par juxtaposition de termes ou par composition avec des préfixes (e.g.
autoradio, désoxyribonucléique, électromyographie, ...) ;
b) tous les constituants de locutions ou mots composés, isolés par des séparateurs. Ces
constituants sont aussi des mots formels simples, tels : parce, afin, tohu, bohu, ex, aequo.
Traditionnellement, les dictionnaires ne présentent pas des unités graphiques comme parce ou
tohu isolément des expressions globales parce que ou tohu-bohu. La convention de ne pas dissocier les
mots composés est normale dans un dictionnaire rassemblant à la fois mots simples, mots composés,
locutions figées, et dont l'objectif est de représenter des unités sémantiques. Une telle convention
n'est pas nécessaire à l'ordinateur : pour celui-ci, tout élément graphique constitutif d'une expression
équivaut à un mot formel ordinaire, et peut servir de clé d'accès à l'information stockée dans des
articles de dictionnaire.
Un intérêt de constituer des dictionnaires d'entrées formelles, est que ces entrées correspondent
exactement aux éléments du découpage des phrases en vue de l'analyse par ordinateur. En effet, si
dans un exemple comme :
Luc partage une pomme avec sa sœur
11 constituants délimités par les séparateurs sont tous des mots admis comme autonomes, ce n'est les
pas le cas général. Par exemple, dans la phrase :
Luc joue au ping-pong parce que ça l'amuse
les éléments ping, pong, parce, l, ne sont pas autonomes, toutefois ce sont des objets formels bien
définis.
Étant donné cet aspect des entrées du DELAS, il serait peut-être plus strict de parler de
graphies simples du français. Cependant, si l'on considère l'ensemble des graphies existantes, elles
forment deux ensembles non exclusifs, A et В :
A = ensemble des graphies représentant des mots autonomes,
В = des constituantes de mots composés, locutions, expressions figées.
Les éléments de A sont les entrées normales simples des dictionnaires usuels. Les éléments de
В comportent deux types d'unités :
a) celles qui font partie de A sont la majorité, car la plupart des mots composés sont construits
à l'aide de mots simples ordinaires, tels après-midi, pied-de-biche, ...
b) celles qui n'appartiennent pas à l'ensemble A, issues de mots comme aujourd'hui, ex-voto, ...
sont de l'ordre de quelques centaines de graphies, par rapport au total des 80 000 entrées du DELAS.
Cette faible proportion justifie que, globalement, les entrées du DELAS soient désignées comme des
mots simples.
Les graphies de l'ensemble В qui ne correspondent pas à des mots isolés autonomes, se
rencontrent dans les cas suivants :
a) parties de mots composés tels que tohu-bohu, ci-devant, ping-pong, cap-hornier, porc-épic,
prud'homme, aujourd'hui, jusqu'au-boutisme. Un grand nombre de ces mots sont des importations
d'origine anglaise : pick-up, check-list, week-end, ...
b) constituants de conjonctions, ou prépositions comme : parce que, jusqu'à, tandis que, afin
de,...
c) éléments de locutions figées, par exemple : en catimini, cahin caha, ipso facto, ad hoc, пес plus
ultra, ...
d) préfixes issus de mots composés comme dans néo-impressionnisme, anti-inflammatoire,
cardio-pulmonaire, y compris certains préfixes dérivés de noms propres, entrant dans la composition
de mots tels que anglo-normand, ou euro-obligation,
e) mots élidés : c', ď, j', V, m', n', s', ť, qu', jusqu', lorsqu', puisqu', quoiqu', quelqu', presqu',
entr'. Ce sont aussi des graphies simples, et qui doivent être mises à ce titre dans le DELAS, sans
apostrophe puisque celle-ci est un séparateur.
2. Délimitation du champ des entrées
Dans les entrées d'un dictionnaire classique, la séparation globale entre noms propres et mots
communs est souvent l'usage. Dans le DELAS, nous avons adopté ce principe de façon encore plus
rigoureuse : uniquement les graphies en minuscules sont acceptées. La principale raison de cette
limitation est que nous n'avons défini aucun critère restrictif de sélection des noms propres, or
ceux-ci forment à priori une liste sans fin, c'est pourquoi tout mot avec une majuscule au moins est
écarté des entrées du DELAS. Néanmoins aucun système de dictionnaire ne peut être envisagé sans
termes avec des majuscules, qu'il s'agisse de noms propres, d'abréviations, ou de sigles du langage
courant. Ainsi le Petit Larousse Illustré 1989 donne en entrées de mots communs des termes comme :
ABC, C.Q.F.D., Doppler, H.L.M., S.A.M.U. (norme AFNOR sans point). Bien que de telles unités
ne soient pas des graphies formellement valides pour le DELAS, elles doivent être répertoriées. Il en
va de même pour les noms propres qui font partie de mots composés communs : des termes comme
constante de Planck ou effet Doppler ne peuvent être écartés du lexique. L'acquisition de ces noms
propres est possible grâce au programme de vérification orthographique de M. Silberztein (1989). Ce
programme mémorise automatiquement toutes les graphies non trouvées dans le dictionnaire, au fur
et à mesure de leur rencontre dans des textes. Son application à des lexiques de mots composés, et
à des textes en grand nombre, devrait ainsi mener à l'enrichissement progressif du lexique de mots
communs, d'une base de noms propres, et d'une liste de sigles admis dans la langue.
3. Niveaux de langue
La confrontation des entrées du DELAS avec le lexique-grammaire permet de distinguer deux
types de mots français :

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents