« Dictionnaires électroniques et traduction automatique » - article ; n°116 ; vol.28, pg 48-58

LANGAGES - Maurice Gross

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

12 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Langages - Année 1994 - Volume 28 - Numéro 116 - Pages 48-58
11 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par	LANGAGES
Publié le	01 janvier 1994
Nombre de lectures	37
Langue	Français

Extrait

M. Maurice Gross
« Dictionnaires électroniques et traduction automatique »
In: Langages, 28e année, n°116, 1994. pp. 48-58.
Abstract
Maurice Gross : « Dictionnaires électroniques et traduction automatique »
Fourty years after the Georgetown historical experiment in Mechanical Translation, we review the trend and progress of the field.
We discuss in particular the lack of a programme of construction of dictionaries and grammars. We show how this situation has
hampered progress and we give samples of electronic dictionaries of French as they are currently used in a system of analysis of
texts.
Citer ce document / Cite this document :
Gross Maurice. « Dictionnaires électroniques et traduction automatique ». In: Langages, 28e année, n°116, 1994. pp. 48-58.
doi : 10.3406/lgge.1994.1693
http://www.persee.fr/web/revues/home/prescript/article/lgge_0458-726X_1994_num_28_116_1693Maurice GROSS
Université Paris 7
Laboratoire d'Automatique Documentaire et Linguistique
DICTIONNAIRES ÉLECTRONIQUES ET
TRADUCTION AUTOMATIQUE
Le domaine de la traduction automatique (TA), si domaine il y a, fête en cette
année 1994 son quarantième anniversaire. C'est l'occasion d'en examiner les
progrès.
L'expérience historique de 1954 à l'Université de Georgetown consistait en une
traduction mot à mot de russe en anglais. Cette procédure est en apparence rudi-
mentaire, en tout cas la plus simple qu'il soit possible de mettre en œuvre. Nous nous
arrêterons sur cette activité pour mettre en valeur les difficultés majeures de
l'entreprise.
Une traduction automatique mot à mot part d'un texte sur support informatique
et par consultation d'un dictionnaire fournit une traduction pour chacun de ses
mots.
Rappelons que les textes ne sont disponibles sur support informatique que
depuis que les micro-ordinateurs ont remplacé les machines à écrire, c'est donc une
situation entièrement neuve et peu stable, dont les conséquences techniques, juridi
ques, commerciales et culturelles sont encore mal cernées. Auparavant, l'introduc
tion de textes en machine constituait une étape coûteuse du processus de traitement.
C'est encore souvent le cas aujourd'hui, lors de la récupération de textes sur support
papier.
Mais nous nous intéresserons surtout à la consultation des dictionnaires. L'exer
cice scolaire du thème ou de la version nous a tous placés dans une situation
embarrassante : ayant recherché dans un dictionnaire un mot inconnu, le diction
naire propose plusieurs solutions. Laquelle choisir ? C'est bien sûr la compréhens
ion des autres éléments du texte qui permet le choix, encore faut-il que ces autres
mots aient déjà reçu une traduction correcte. C'est là qu'un difficile jeu de devinett
es intervient, au cours duquel même une grande ingéniosité ne peut éviter faux-sens
et contre-sens. Qu'en est-il de la machine qui par nature ne dispose pas des
mécanismes que met en jeu le traducteur humain : sa souplesse de raisonnement par
tâtonnements multiples et son évaluation de la plausibilité des interprétations ?
Un ordinateur peut explorer les contextes à droite et à gauche d'un mot en vue de
résoudre les ambiguïtés, mais pour ce faire, il doit disposer d'informations strict
ement codifiées qui auront été introduites au préalable dans son dictionnaire et dans
sa grammaire. Ces deux composants sont donc cruciaux dans le traitement automat
ique de textes et pas seulement pour la traduction mot à mot.
48 le courant majoritaire des recherches en traitement automatique des Toutefois,
langues y compris en traduction automatique assistée (TAO) ou non, ne prend jamais
en compte le composant du dictionnaire. Ce n'est que dans les produits commerciaux
qui vont de SYSTRAN à EUROLANG que des dictionnaires ont été intégrés aux
systèmes de TAO. Il en va de même pour les grammaires. C'est donc un paradoxe de
constater que pendant quarante ans, les recherches sur l'analyse automatique du
texte et la traduction se sont poursuivies sans dictionnaires ni grammaires et sans
aucun programme scientifique de construction de ces composants. Les approches
dites de recherches ont pris une orientation différente, elles font intervenir d'autres
activités et procédures que la mise en œuvre des données linguistiques fondamental
es. Examinons les principales de ces activités.
L'étiquetage
Les travaux sur l'étiquetage de textes (en anglais « tagging ») ont pour but
d'attacher aux mots d'un texte leurs attributs grammaticaux. Les procédures
mettent en jeu des analyses morphologiques et des tests sur les contextes : par
exemple la détection en français du suffixe ations permet d'affirmer qu'il appartient
à un substantif féminin pluriel. L'exemple de cations substantif masculin pluriel est
une exception, celui de rations est plus complexe et plus général : le mot est ambigu,
c'est le verbe rater ou bien le pluriel du nom ration. Le verbe rations est à la
première personne du pluriel, on a alors la quasi certitude que le pronom sujet nous
apparaîtra dans son voisinage immédiat. Un test formel simple lèvera donc cette
ambiguïté. On notera bien que l'étiquetage n'est pas une simulation par ordinateur
de l'exercice scolaire d'analyse grammaticale, l'élève est dans une situation diffé
rente, puisqu'il comprend le texte (en partie grâce à son dictionnaire interne).
La finalité de ces travaux n'est pas claire, car même si les résultats de l'étiquetage
étaient de bonne qualité, ce qui reste à démontrer, l'information attachée aux mots
d'un texte sera limitée aux seules valeurs grammaticales. Or de nombreuses autres
informations sont indispensables à l'analyse utile des textes. Il a bien été proposé que
des textes étiquetés pourraient faire l'objet de statistiques sur des séquences de
catégories grammaticales, ce qui permettrait éventuellement de dégager des régular
ités qui faciliteraient l'analyse automatique. L'étiquetage a récemment fait l'objet
d'une généralisation spectaculaire : en étiquetant des textes bilingues les statistiques
pourraient dégager des régularités de traduction et donc intervenir en TA ou TAO.
Les résultats obtenus aujourd'hui par l'étiquetage d'une seule langue sont bien
maigres, on ne peut guère s'attendre à des améliorations dans le cadre de deux
langues couplées par une traduction.
La modélisation
Les recherches sur les modèles linguistiques adéquats au traitement automatique
des langues sont nombreuses et anciennes. Elles n'ont jamais mis en jeu de diction-
49 naires ni de grammaires x, maie pour des raisons autres que dans le cas de l'étique
tage. Les modèles ont fait l'objet d'une élaboration logique raffinée et il en existe un
grand nombre, chacun avec un grand nombre de variantes, aucun ne met en jeu plus
de quelques dizaines ou centaines d'éléments lexicaux et plus de quelques dizaines de
règles les combinant. Tout l'effort porte donc sur des définitions de formalisme sans
préoccupation de leur adéquation empirique. On suppose qu'un modèle élaboré
pourra être chargé d'un bon dictionnaire du commerce et qu'il fonctionnera alors en
toute généralité. Bien sûr, le du commerce n'est pas adapté à la
machine, il devra donc subir un formatage. Un pont sera établi entre les deux types
de dictionnaires, grâce à des travaux qui, s'ils aboutissent, permettront une récu
pération automatique d'informations à partir des bandes de photocomposition des
dictionnaires .
En apparence, ces deux approches présentent une certaine logique, elles ont
d'ailleurs suscité des financements importants de la recherche européenne, mais on
va voir qu'un simple examen des besoins en dictionnaires pour ordinateurs (cf.
annexe) montre l'absence de pertinence de ces tentatives les problèmes et
explique ainsi totale de résultats.
Premières observations sur les besoins en dictionnaires
Mots simples
Des expériences faites au LADL sur des corpus variés donnent une première
indication sur la couverture des dictionnaires du commerce dont les entrées sont des
mots simples (e.g. Lexis de Larousse, Petit Robert, Dictionnaire de Notre Temps,
Hachette). Ces dictionnaires comportent de l'ordre de 80 000 entrées simples 2.
L'équivalent électronique, le DELA construit au LADL, contient un peu plus