Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Réalisation de surface : ambiguïté et déterminisme, Surface realisation : ambiguity and determinism

De
244 pages
Sous la direction de Claire Gardent
Thèse soutenue le 14 novembre 2007: Nancy 1
La réalisation de surface est une partie du processus global de génération de langue naturelle. Étant donné une grammaire et une représentation du sens, le réalisateur de surface produit une chaîne en langue naturelle que la grammaire associe au sens donné en entrée. Cette thèse présente trois extension de GenI, un réalisateur de surface pour une grammaire de type FB-LTAG. La première extension augmente l'efficacité du réalisateur pour le traitement de l'ambiguïté lexicale. C'est une adaptation de l'optimisation par «étiquetage électrostatique » qui existe déjà pour l'analyse. La deuxième extension concerne le nombre de sorties retournées par le réalisateur. En temps normal, l'algorithme GenI retourne toutes les phrases associées à une même forme logique. Alors qu'on peut considérer que ces entrées ont le même sens, elles présentent souvent de subtiles nuances. Ici, nous montrons comment la spécification de l'entrée peut être augmentée d'annotations qui permettent un contrôle de ces facteurs supplémentaires. L'extension est permise par le fait que la grammaire FB-LTAG utilisée par le générateur a été construite à partir d'une « métagrammaire », mettant explicitement en oeuvre les généralisations qu'elle code. La dernière extension donne la possibilité au réalisateur de servir d'environnement de débuggage de la métagrammaire. Les erreurs dans la métagrammaire peuvent avoir des conséquences importantes pour la grammaire. Comme le réalisateur donne en sortie toutes les chaînes associées à une sémantique d'entrée, il peut être utilisé pour trouver ces erreurs et les localiser dans la métagrammaire.
-Metagrammaires
Surface realisation is a subtask of natural language generation. It may be viewed as the inverse of parsing, that is, given a grammar and a representation of meaning, the surface realiser produces a natural language string that is associated by the grammar to the input meaning. This thesis presents three extensions to GenI, a realisation algorithm for Feature-Based Tree Adjoining Grammar (FB-LTAG). The first extension improves the efficiency of the realiser with respect to lexical ambiguity. It is an adaptation from parsing of the “electrostatic tagging” optimisation, in which lexical items are associated with a set of polarities, and combinations of those items with non-neutral polarities are filtered out. The second extension deals with the number of outputs returned by the realiser. Normally, the GenI algorithm returns all of the sentences associated with the input logical form. Whilst these inputs can be seen as having the same core meaning, they often convey subtle distinctions in emphasis or style. It is important for generation systems to be able to control these extra factors. Here, we show how the input specification can be augmented with annotations that provide for the fine-grained control that is required. The extension builds off the fact that the FB-LTAG grammar used by the generator was constructed from a “metagrammar”, explicitly putting to use the linguistic generalisations that are encoded within. The final extension provides a means for the realiser to act as a metagrammar-debugging environment. Mistakes in the metagrammar can have widespread consequences for the grammar. Since the realiser can output all strings associated with a semantic input, it can be used to find out what these mistakes are, and crucially, their precise location in the metagrammar.
Source: http://www.theses.fr/2007NAN10080/document
Voir plus Voir moins




AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.


➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm ´D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
R´ealisation de surface :
ambigu¨ıt´eetd´eterminisme
Surface realisation:
ambiguity and determinism
`THESE
version 1.0.1
pr´esent´ee et soutenue publiquement le 14 novembre 2007
pour l’obtention du
Doctorat de l’universit´eHenriPoincar´e–Nancy1
(sp´ecialit´einformatique)
par
Eric Kow
Composition du jury
Rapporteurs : John Carroll Professeur, Universit´e de Sussex, Brighton
Patrick Saint-Dizier Directeur de Recherche CNRS, IRIT Toulouse
Examinateurs : Dominique M´ery Professeur, Universit´e Henri Poincar´e, LORIA Nancy
Eric De La Clergerie Charg´e de Recherche, INRIA Rocquencourt
Claire Gardent Directrice de Recherche CNRS, LORIA Nancy
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503Remerciements
Let’s not get sentimental here. This thesis is the result of six years hanging
out in Nancy, with the good people of LORIA. I want you to meet the people
that made it happen.
Claire Gardent
Four years working with Claire and I still don’t how she does it: how she gets
right to the heart of the matter, or how she keeps everything so simple. I
just hope some of it has rubbed off, and that her time coaxing this computer
geek out into the research world will have been worth her while. Thanks for
everything, Claire.
Patrick Blackburn
Patrick gave this thesis a heaping dose of extra polish. He is the man that
welcomed me at the train station when I first arrived in Nancy, and he is one
of the people that encouraged me to stick around, when I was still aning´enieur
trying to figure out what to do with myself. Patrick is a fun person to watch
and to learn from, particularly because of the freedom he enjoys from dogma
or preconceived notions. And thanks, Patrick, for reminding me to stay alive.
H´ el`ene Manuelian
Without H´el`ene, the French summary of this thesis would not have been possi-
ble. Trust me, you don’t learn to write like that by watching Loft Story.This
an big help on the administrative front, but to be honest, my real reason to say
thanks is for being somebody to look up to. H´el`ene has taught me a lot about
working with people. She is my favourite example of thoughtful consideration.
What I admire particularly is that the consideration does not just come from
some knee-jerk niceness reflex, but from an acute and mindful awareness of her
surroundings. “Make it easy for others.” I’ll try.
iii REMERCIEMENTS
Thanks also to...
Laurent Romary for bringing me to Nancy and growing me out of my first
phases of stupid.
Joseph Le Roux for help on polarity filtering, enlightening discussions and
just being a good example.
Bertrand Gaiffe for patiently teaching me about chart parsing and hashing
ideas out with me.
Carlos Areces for giving me a model of clear and unpretentious writing to
aspire to.
B224 for good chats, times and fights; the things that friends are made of.
Benoˆıt Crabb´eandDjam´e Seddah for many nuggets of advice and gen-
eral wisdom from the era of Langue et Dialogue th´esards.
The Proofreading Brigade for catching the many clumsinessessesses of
my writing. S´ebastien Hinderer, Ania Kupsc, Jackie Lai, Michael Leiseca and
Yannick Parmentier, I salute you!
The inevitable forgotten for the many ways they have helped me. Sorry,
and thanks.
That’s all
So, merci, merci de tout coeur.
Eric
2007-11-27Contents
Remerciements (Acknowledgements) i
Contents iii
Ambigu¨ıt´eetd´et´erminisme iv
Introduction 2
I Background 5
1 Realisation algorithms 7
1.1 Syntactictretraversal....................... 8
1.2 Search................................ 16
1.3 Sharingintermediateresults.................... 17
1.4 Summaryofthemainisues.................... 38
2 Flat semantics with holes 41
2.1 Flatsemantics ........................... 41
2.2 Logical-formequivalence...................... 43
2.3 Thecaseforaflatsemantics.................... 49
2.4 Intersectivemodifiers........................ 51
2.5 Summaryofflatsemantics..................... 57
3 Tree Adjoining Grammar 59
3.1 FromTAGtoFB-LTAG...................... 59
3.2 TAGDerivations.......................... 64
3.3 FB-LTAG augmented with L flatsemantics.......... 65U
3.4 GenerationwithTAG....................... 73
4 GenI and SemFraG 77
4.1 GenI................................. 77
4.2 SemFraG.............................. 84
4.3 RelatedNLGsystemsforTAG.................. 86
II Contributions 89
5 Polarity filtering 91
5.1 Polarisedintuitions......................... 91
iiiiv CONTENTS
5.2 Buildingpolarityautomata.................... 96
5.3 Chartgenerationwithpolarityautomata ............ 108
5.4 Extensions.............................. 108
5.5 Evaluation.............................. 118
5.6 Related work in lexical disambiguation . . . . . . . . . . . . . . 121
6 Paraphrase selection 127
6.1 Contextualappropriateness.................... 128
6.2 Selectionmechanism........................ 129
6.3 Evaluation.............................. 132
6.4 Posibleextensions......................... 135
6.5 Relatedworkinparaphraseselection............... 138
7 Reducing overgeneration 147
7.1 Overgeneration........................... 147
7.2 Grammardebugging........................ 148
7.3 Anincrementalapproach ..................... 149
7.4 Evaluationandresults....................... 155
7.5 Posibleextensions......................... 157
7.6 Relatedwork............................ 159
8 Conclusion 165
8.1 Summary.............................. 165
8.2 Futurework............................. 166
8.3 Putting GenItowork....................... 167
A SemFraG families 172
B Tree properties from SemFRaG 175
C Deductive realisation and unification 181
C.1 Kay1996 with unification . . . . . . . . . . . . . . . . . . . . . 181
C.2GenIwithunification........................ 182
D GenI pseudocode 183
D.1Lexicalselection .......................... 183
D.2Realisationproper......................... 184
D.3Helperfunctions.......................... 185
Bibliography 187Ambiguıt´eetd´eterminisme¨
This chapter presents a summary of the thesis, in French.
Ce chapitre pr´esente un r´esum´efran¸cais de la th`ese.
La g´en´eration de langue naturelle (GLN) consiste a` traduire un but com-
municatif de nature abstraite en langue naturelle. Le module de r´ealisation de
surface est une petite partie du g´en´erateur de langue naturelle et sa tacˆ he est
relativement clairement d´ efinie : ´etant donn´e une grammaire et une repr´esen-
tation du sens (la plupart du temps une forme logique), il doit produire les
chaˆınes que la grammaire associe al` as´emantique. La r´ealisation de surface
est une des tˆaches les plus concr`etes de la g´en´eration et donc une des plus
faciles. C’est d’ailleurs la raison pour laquelle la plus grande partie de la re-
cherche en g´en´eration de textes porte sur la r´ealisation de surface et qu’il existe
un certain nombre de r´ealisateurs de surface de bonne qualit´eetr´eutilisables
comme RealPro, fuf et kpml.Cesr´ealisateurs ont tous ´et´eint´egr´es pour la
construction de syst`emes de g´en´eration de langue naturelle.
Bien que la r´ealisation de surface soit facile, elle ne peut pas ˆetre consid´er´ee
comme un probl`eme totalement r´esolu. En particulier, le traitement de la para-
phrase pose encore des probl`emes. Nous entendons par paraphrase le fait qu’il
existe souvent plus d’une fa¸con d’exprimer la mˆeme chose. Cette caract´eristique
des langues a pour cons´equence la tr`es grande vari´et´ed’´enonc´es possibles, et
constitue la raison pour laquelle nous sommes capables d’exprimer des nuances
de sens subtiles. Malheureusement, c’est aussi un cauchemar combinatoire. La
th`ese qui est r´esum´ee ici traite de la faco¸ n dont un module de r´ealisation de
surface doit g´erer la paraphrase, que nous appellerons abusivement ambiguıt´e¨
pour conserver le parall`ele avec l’analyse (le parsing).
La th`ese, comme le r´esum´e que nous en faisons ici, se structure de fa¸con
standard autour de deux grandes parties. Nous pr´esentons tout d’abord l’´etat
de l’art (Chapitres 1–4) puis notre contribution au domaine (Chapitres 5–7).
Cette deuxi`emeparties’articuleautourdetroisth`emes qui sont les suivants :
1. L’utilisation de techniques de « filtrage par polarit´e » pour r´eduire l’es-
pace de recherche du module de r´ealisation.
2. Un m´ecanismedes´election de la paraphrase, permettant au r´ealisateur
de renvoyer le meilleur r´esultat par rapport aux crit`eres (descriptions
linguistiques) donn´es par l’utilisateur.
3. Un processus semi-automatis´eded´ebuggage de la grammaire, utilisant
les mˆemes descriptions linguistiques pour localiser les causes de surg´en´e-
ration dans la grammaire.
v¨ ´ ´vi AMBIGUITEETDETERMINISME
F-1 Algorithmes de r´ealisation de surface
La g´en´eration de langue naturelle est g´en´eralement vue comme un enchaˆı-
nement de tˆaches (on parle traditionnellement de structure en pipeline) tel que
l’illustre la figure ci-dessous. Ces tˆaches sont regroup´ees dans deux modules
distincts : le premier est le module strat´egique, qui d´etermine « quoi dire? »
sur la base de connaissances du domaine, le deuxi`eme est le module tactique,
r´epondant a` « comment le dire? ». Ce dernier fonctionne graˆce aux connais-
sances linguistiques. En r´ealit´e, on doit faire des distinctions plus fines. A la
fin des ann´ees 90, il est devenu clair que certaines tˆaches devaient utiliser al` a
fois les connaissances du domaine (donc extralinguistiques) et les connaissances
linguistiques. On a alors duˆ utiliser un composant interm´ediaire, qu’on a appel´e
module de microplanification. Dans notre th`ese, nous allons postuler que la r´ea-
lisation de surface a lieu `a la fin du processus (comme c’est la plupart du temps
le cas), et qu’elle utilise en entr´ee la sortie du module de microplanification.
strategic generation tactical generation
[domain knowledge] [linguistic knowledge]
communicative document document text surface
microplanner sentence
goal planner plan specification realiser
syntactic uninflected morphological
realiser string generator
Les diff´erents algorithmes de r´ealisation de surface peuvent se diff´erencier
sur trois aspects : le parcours de l’arbre syntaxique, l’exploration des espaces
de recherche, et le stockage des r´esultats interm´ediaires. Ce sont ces diff´erents
aspects de la r´ealisation que nous pr´esentons maintenant.
F-1.1 Parcours de l’arbre
On peut consid´erer la r´ealisation de surface comme un processus de d´ecou-
[verte d’un arbre syntaxique correspondant a` une s´emantique d’entr´ee Shieber
]et al., 1990 . Ce processus peut ˆetre abord´e par une strat´egie descendante,
ascendante ou mixte. Chacune de ces strat´egies pose des probl`emes pratiques
sp´ecifiques. L’utilisation d’algorithmes descendants nous exposeal` ar´ecursivit´e
a` gauche; les algorithmes ascendants demandent trop de restrictions du forma-
lisme grammatical pour ˆetre complets et sont trop non-d´eterministes pour ˆetre
utiles en pratique. Les strat´egies mixtes comme la g´en´eration dirig´ee par la tˆete
[ ]s´emantique (semantic head driven generation ou shdga) Shieber et al., 1990
sont de loin les meilleures, et c’est pourquoi nous allons nous centrer sur cette
facon¸ de faire.
shdga peut ˆetre vu comme une adaptation du parsing coin gauche (left-
corner parsing) dans laquelle au lieu de chercher le coin gauche de la phrase,
on cherche sa tˆete s´emantique. La tˆete s´emantique d’une r`egle est le nœud fils
qui a la mˆeme s´emantique que le nœud p`ere. Pr´ecisions toutefois que toutes´
F-1. ALGORITHMES DE REALISATION DE SURFACE vii
S
s(t(j))
NP VP
jλj.s(t())
John VP Adv
λj.t(j) λt(j).s(t(j))
Vslowy
λj.t(j)
talks
Fig. 1: parcoursshdga
les r`egles n’ont pas forc´ement une tˆete s´emantique. Certaines r`egles ont mˆeme
parfois plusieurs nœuds fils qui partagent la s´emantique du nœud p`ere, mais
nous allons mettre ces cas de cˆot´e pour l’instant. Dans shdga, la grammaire
est pr´e-trait´ee et divis´ee entre les r`egles enchaˆın´ees (celles qui ont une tˆete
s´emantique) et les r`egles non-enchaˆın´ees (celles qui n’en ont pas).
Le traitement commence au symbole de d´epart de la grammaire. Ensuite, il
trouve un nœud pivot et traite r´ecursivement ses fils. Le pivot est le nœud p`ere
d’une r`egle non enchaˆın´ee dont la partie gauche correspond au but courant. La
s´election du pivot remplit le mˆeme rˆole que la phase de scan dans un analyseur
coin-gauche : elle d´ecide de l’endroit `a partir duquel on commencear` emonter
l’arbre d’analyse. Ce processus de remont´ee (ou de connexion) est lui aussi
r´ecursif : on s´electionne une r`egle enchaˆın´ee, on unifie sa tˆete s´emantique avec le
nœud courant, on traite ses autres fils et ensuite on remonte encore jusqu’` a une
autre r`egle enchaˆın´ee; on ne s’arrˆete que lorsque le but et le nœud courant se
correspondent. Ce parcours est illustr´e dans la figure 1, qui montre la r´ealisation
de slowly(talk(john)) par la grammaire ci-dessous :
c1. S(S) → NP(X)VP(λX.S)
c2. VP(λX.S) → V(λX.S)
c3. VP(λX.S) → VP(λX.V)Adv( λV.S)
c4. V(λX.talk(X)) → talks
c5. NP(john) → John
c6. Adv(λV.slowly(V )) → slowly
F-1.2 Recherche
En un sens, le choix d’une bonne strat´egie de parcours de l’arbre aide les
algorithmes de r´ealisation de surface `a´ eviter les choix non d´eterministes. Par

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin