Une méthode de désambiguïsation locale Nom/Adjectif pour l analyse automatique de textes - article ; n°126 ; vol.31, pg 60-78
20 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Une méthode de désambiguïsation locale Nom/Adjectif pour l'analyse automatique de textes - article ; n°126 ; vol.31, pg 60-78

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
20 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Langages - Année 1997 - Volume 31 - Numéro 126 - Pages 60-78
Looking up a French dictionary for many words such as ~~rouge~~ (red) provides two solutions : ~~Noun~~ and ~~Adjective~~. We analyse sequences limited to two words which are ambiguous and which are potentially of one of the two forms : ~~Noun Adjective~~ or ~~Adjective Noun~~. We reduce the ambiguity of such sequences by means of the positional properties of the French adjective. Adjectives in French can occupy either the prenominal position (~~gros livre, *livre gros~~), or the postnominal position (~~gant rouge, *rouge gant~~), or both (~~nouveau livre, livre nouveau~~). As a first approximation, this property is a lexical feature of the adjective. We indexed an electronic lexicon of more than 6,000 adjectives and marked them according to the three situations presented. The marks can then be applied automatically to a large corpus in order to reduce the ambiguities arising in a parsing procedure. We discuss various linguistic limitations of our marking method and further extensions of the study.
19 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 1997
Nombre de lectures 24
Langue Français
Poids de l'ouvrage 1 Mo

Extrait

Mylène Garrigues
Une méthode de désambiguïsation locale Nom/Adjectif pour
l'analyse automatique de textes
In: Langages, 31e année, n°126, 1997. pp. 60-78.
Abstract
Looking up a French dictionary for many words such as rouge (red) provides two solutions : Noun and Adjective. We analyse
sequences limited to two words which are ambiguous and which are potentially of one of the two forms : Noun Adjective or
Adjective Noun. We reduce the ambiguity of such sequences by means of the positional properties of the French adjective.
Adjectives in French can occupy either the prenominal position (gros livre, *livre gros), or the postnominal position (gant rouge,
*rouge gant), or both (nouveau livre, livre nouveau). As a first approximation, this property is a lexical feature of the adjective.
We indexed an electronic lexicon of more than 6,000 adjectives and marked them according to the three situations presented.
The marks can then be applied automatically to a large corpus in order to reduce the ambiguities arising in a parsing procedure.
We discuss various linguistic limitations of our marking method and further extensions of the study.
Citer ce document / Cite this document :
Garrigues Mylène. Une méthode de désambiguïsation locale Nom/Adjectif pour l'analyse automatique de textes. In: Langages,
31e année, n°126, 1997. pp. 60-78.
doi : 10.3406/lgge.1997.1777
http://www.persee.fr/web/revues/home/prescript/article/lgge_0458-726X_1997_num_31_126_1777Mylène Garrigues
institut Gaspard Monge, Université de Marne-la-Vallée
UNE METHODE DE DESAMBIGUISATION LOCALE
NOM/ADJECTIF POUR L'ANALYSE AUTOMATIQUE
DE TEXTES
On sait que de nombreux adjectifs peuvent être employés comme substantifs.
Exemples :
Ce type est (un + E) (imbécile + idiot + aliéné).
Ce médecin est (un + E) (spécialiste + généraliste + accoucheur).
Du fait de ce passage possible d'une catégorie grammaticale à une autre,
lorsqu'une suite NA ou AN contient au moins un terme susceptible d'appartenir
aux deux catégories, elles génèrent des solutions parasites, sources d'ambiguïté
dans l'analyse automatique de textes.
1. La méthode —
Nous présentons un moyen de réduire automatiquement ces ambiguïtés lors
de l'analyse syntaxique. Nous traitons le problème localement, c'est-à-dire
comme une « fenêtre » de deux mots consécutifs découpée dans le texte. Le
processus d'élimination des solutions parasites tel que nous l'avons envisagé est
donc indépendant du contexte syntaxique ou stylistique de la suite NA ou AN. Il
s'agit d'un processus strictement combinatoire reposant sur la place de l'adject
if. Il ne résout pas toutes les ambiguïtés.
Soit la suite critique vache. Un processus naturel et inconscient de désambi-
guïsation nous permet d'arriver au résultat correct : nous calculons et nous
déduisons inconsciemment que critique est un nom et vache un adjectif bien que
ces deux mots puissent séparément et dans d'autres contextes changer de nature
comme dans les phrases suivantes :
Cette situation est critique vache est française .
Comment arriver, lors du traitement automatique de textes, à un tel résultat de
façon strictement formelle ? Et, question corollaire : les outils traditionnels
(dictionnaires et grammaires) fournissent -ils les moyens de mettre en œuvre une
telle formalisation ?
60 La consultation des mots critique et vache dans un dictionnaire (Lexis,
Larousse de la langue française) donne pour chaque mot deux catégories et
plusieurs sens à l'intérieur de chacune d'elles, soit :
critique : 6 Adjectifs, 7 Noms
vache : 8 Noms, 3 Adjectifs
Ce qui donne :
6 X 8 = 48 suites AN
7 X 3 = 21 NA
soit 69 solutions, dont une seule est la bonne.
Comme l'adjectif est défini par sa position par rapport au substantif, il est
possible de se servir des marques de places pour éliminer un certain nombre de
solutions parasites. Ainsi, dans le cas de critique on essaie les combinaisons
suivantes :
*une (critique)A (situation)^
une (situation)^ (critique)A
On en déduit que critique adjectif ne pouvant être placé qu'à droite du second
terme de la suite, il ne peut s'agir que du substantif lorsqu'il est placé à gauche.
Cette observation nous permet donc d'attacher la marque d (droite) à l'adjectif
critique et, ce faisant, de tuer 48 solutions parasites correspondant dans notre
exemple aux 48 suites AN :
*une (critique)A (vache)N
une (critique)lS (vache)A
Toutefois, l'adjectif étant susceptible de se situer à gauche ou à droite du nom, et
l'ambiguïté pouvant être sécrétée par l'un des éléments ou par les deux éléments
du binôme, d'autres configurations NA ou NA sont candidates à une désambi-
guïsation. Il est donc nécessaire de recenser l'ensemble des configurations
Nom-Adjectif ou Adjectif -Nom susceptibles de comporter un ou deux éléments
ambigus. Hormis donc les cas où ni l'adjectif ni le nom ne sont ambigus, les
différents cas de figure possibles sont les suivants :
(A + N) N un pauvre individu
(A + N) A un avare heureux
A (A + N) un énorme animal
N (A + N) un discours fasciste
(A + N) (A + IV) une brève nouvelle
La question qui se pose donc est : comment déterminer des indications fiables
pour le marquage de la place de l'adjectif ?
61 2. Les outils traditionnels : insuffisance des données
Outre un certain flottement dans l'attribution de la catégorie adjectif dont
témoigne le manque de cohérence entre les différents dictionnaires du com
merce, on n'y trouve pas ces indispensables marques de place, sauf de façon
occasionnelle. Ainsi dans l'excellent dictionnaire Lexis (Larousse de la langue
française), on trouve par exemple des indications pour les adjectifs suivants :
bas 1.1. (après le nom), 1.2. (avant le nom), 2. [Avant ou après le nom]
bon 2.1. le 2.2. le nom)
petit [Normalement av. le nom], 3. (apr. ou, plus souvent, av. le nom) 5. (av.
un nom désignant le rang social, la catégorie professionnelle).
gros [Av. le nom]. 7. (postposé au nom dans des tours figés)
long 1. [plus souv. av. le nom],...
mais aucune indication de place n'est donnée pour un très grand nombre
d'adjectifs tels que :
étranger, large, violent, capricieux, vilain etc.
On ne trouve pas davantage d'indications pouvant être systématisées dans les
grammaires. Quelques paragraphes sont consacrés à la place de l'adjectif dans
certaines grammaires (générales ou orientées français langue étrangère) . Mais le
contenu est inutilisable pour une quelconque formalisation. Deux extraits tirés
de grammaires représentatives donneront vite une idée du problème, dès lors
que l'on essaie de donner des règles générales.
Ainsi peut-on Иге que : « En prose, la place de l'adjectif épithète n'est pas
déterminée par des règles » mais que « Toutefois, deux principes généraux
commandent la place de l'adjectif en fonction d'épithète ».
Or, tandis que selon le premier principe, « Théoriquement, tout adjectif
épithète, en français, peut se placer avant ou après le substantif auquel il se
rapporte » selon le deuxième, « D'une manière générale, un adjectif épithète
tend à se placer après le substantif auquel il se rapporte » (Wagner- Pinchon
p. 152).
Cette autre variante donnera également une idée de l'inutilité de tels maté
riaux pour une quelconque formalisation : « On peut même dire que la place
normale de l'adjectif est aujourd'hui après le nom si bien que la plupart des
adjectifs (donc pas tous), notamment ceux qui ne sont que des participes passés
nese mettent jamais ailleurs, et qu'il en est peu (lesquels ?)parmiles autres (qui
donc se à gauche ? ou à gauche et à droite ?) qui ne puissent s'y mettre
assez (c'est-à-dire ?) facilement » (Ph. Martinon, pp. 71-72).
62 Par ailleurs, les études de linguistes ayant tenté de théoriser ou de formaliser
cette double position ne permettent pas non plus d'en tirer des critères formels :
« Théoriciens et positivistes se relançant la balle, les uns cherchent au travers
des emplois un principe unificateur, les autres affinent la description et multi
plient les angles d'attaque » (M. Wilmet, 1986).
3. Une démarche empirique
Après examen des meilleurs outils traditionnels et études linguistiques, une
conclusion s'impose très vite : pour arr

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents