La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Informations
Publié par | Thesee |
Nombre de lectures | 10 |
Langue | English |
Poids de l'ouvrage | 1 Mo |
Extrait
AVERTISSEMENT
Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.
Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.
Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.
➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr
LIENS
Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm ´D´ epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
R´ealisation de surface :
ambigu¨ıt´eetd´eterminisme
Surface realisation:
ambiguity and determinism
`THESE
version 1.0.1
pr´esent´ee et soutenue publiquement le 14 novembre 2007
pour l’obtention du
Doctorat de l’universit´eHenriPoincar´e–Nancy1
(sp´ecialit´einformatique)
par
Eric Kow
Composition du jury
Rapporteurs : John Carroll Professeur, Universit´e de Sussex, Brighton
Patrick Saint-Dizier Directeur de Recherche CNRS, IRIT Toulouse
Examinateurs : Dominique M´ery Professeur, Universit´e Henri Poincar´e, LORIA Nancy
Eric De La Clergerie Charg´e de Recherche, INRIA Rocquencourt
Claire Gardent Directrice de Recherche CNRS, LORIA Nancy
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503Remerciements
Let’s not get sentimental here. This thesis is the result of six years hanging
out in Nancy, with the good people of LORIA. I want you to meet the people
that made it happen.
Claire Gardent
Four years working with Claire and I still don’t how she does it: how she gets
right to the heart of the matter, or how she keeps everything so simple. I
just hope some of it has rubbed off, and that her time coaxing this computer
geek out into the research world will have been worth her while. Thanks for
everything, Claire.
Patrick Blackburn
Patrick gave this thesis a heaping dose of extra polish. He is the man that
welcomed me at the train station when I first arrived in Nancy, and he is one
of the people that encouraged me to stick around, when I was still aning´enieur
trying to figure out what to do with myself. Patrick is a fun person to watch
and to learn from, particularly because of the freedom he enjoys from dogma
or preconceived notions. And thanks, Patrick, for reminding me to stay alive.
H´ el`ene Manuelian
Without H´el`ene, the French summary of this thesis would not have been possi-
ble. Trust me, you don’t learn to write like that by watching Loft Story.This
an big help on the administrative front, but to be honest, my real reason to say
thanks is for being somebody to look up to. H´el`ene has taught me a lot about
working with people. She is my favourite example of thoughtful consideration.
What I admire particularly is that the consideration does not just come from
some knee-jerk niceness reflex, but from an acute and mindful awareness of her
surroundings. “Make it easy for others.” I’ll try.
iii REMERCIEMENTS
Thanks also to...
Laurent Romary for bringing me to Nancy and growing me out of my first
phases of stupid.
Joseph Le Roux for help on polarity filtering, enlightening discussions and
just being a good example.
Bertrand Gaiffe for patiently teaching me about chart parsing and hashing
ideas out with me.
Carlos Areces for giving me a model of clear and unpretentious writing to
aspire to.
B224 for good chats, times and fights; the things that friends are made of.
Benoˆıt Crabb´eandDjam´e Seddah for many nuggets of advice and gen-
eral wisdom from the era of Langue et Dialogue th´esards.
The Proofreading Brigade for catching the many clumsinessessesses of
my writing. S´ebastien Hinderer, Ania Kupsc, Jackie Lai, Michael Leiseca and
Yannick Parmentier, I salute you!
The inevitable forgotten for the many ways they have helped me. Sorry,
and thanks.
That’s all
So, merci, merci de tout coeur.
Eric
2007-11-27Contents
Remerciements (Acknowledgements) i
Contents iii
Ambigu¨ıt´eetd´et´erminisme iv
Introduction 2
I Background 5
1 Realisation algorithms 7
1.1 Syntactictretraversal....................... 8
1.2 Search................................ 16
1.3 Sharingintermediateresults.................... 17
1.4 Summaryofthemainisues.................... 38
2 Flat semantics with holes 41
2.1 Flatsemantics ........................... 41
2.2 Logical-formequivalence...................... 43
2.3 Thecaseforaflatsemantics.................... 49
2.4 Intersectivemodifiers........................ 51
2.5 Summaryofflatsemantics..................... 57
3 Tree Adjoining Grammar 59
3.1 FromTAGtoFB-LTAG...................... 59
3.2 TAGDerivations.......................... 64
3.3 FB-LTAG augmented with L flatsemantics.......... 65U
3.4 GenerationwithTAG....................... 73
4 GenI and SemFraG 77
4.1 GenI................................. 77
4.2 SemFraG.............................. 84
4.3 RelatedNLGsystemsforTAG.................. 86
II Contributions 89
5 Polarity filtering 91
5.1 Polarisedintuitions......................... 91
iiiiv CONTENTS
5.2 Buildingpolarityautomata.................... 96
5.3 Chartgenerationwithpolarityautomata ............ 108
5.4 Extensions.............................. 108
5.5 Evaluation.............................. 118
5.6 Related work in lexical disambiguation . . . . . . . . . . . . . . 121
6 Paraphrase selection 127
6.1 Contextualappropriateness.................... 128
6.2 Selectionmechanism........................ 129
6.3 Evaluation.............................. 132
6.4 Posibleextensions......................... 135
6.5 Relatedworkinparaphraseselection............... 138
7 Reducing overgeneration 147
7.1 Overgeneration........................... 147
7.2 Grammardebugging........................ 148
7.3 Anincrementalapproach ..................... 149
7.4 Evaluationandresults....................... 155
7.5 Posibleextensions......................... 157
7.6 Relatedwork............................ 159
8 Conclusion 165
8.1 Summary.............................. 165
8.2 Futurework............................. 166
8.3 Putting GenItowork....................... 167
A SemFraG families 172
B Tree properties from SemFRaG 175
C Deductive realisation and unification 181
C.1 Kay1996 with unification . . . . . . . . . . . . . . . . . . . . . 181
C.2GenIwithunification........................ 182
D GenI pseudocode 183
D.1Lexicalselection .......................... 183
D.2Realisationproper......................... 184
D.3Helperfunctions.......................... 185
Bibliography 187Ambiguıt´eetd´eterminisme¨
This chapter presents a summary of the thesis, in French.
Ce chapitre pr´esente un r´esum´efran¸cais de la th`ese.
La g´en´eration de langue naturelle (GLN) consiste a` traduire un but com-
municatif de nature abstraite en langue naturelle. Le module de r´ealisation de
surface est une petite partie du g´en´erateur de langue naturelle et sa tacˆ he est
relativement clairement d´ efinie : ´etant donn´e une grammaire et une repr´esen-
tation du sens (la plupart du temps une forme logique), il doit produire les
chaˆınes que la grammaire associe al` as´emantique. La r´ealisation de surface
est une des tˆaches les plus concr`etes de la g´en´eration et donc une des plus
faciles. C’est d’ailleurs la raison pour laquelle la plus grande partie de la re-
cherche en g´en´eration de textes porte sur la r´ealisation de surface et qu’il existe
un certain nombre de r´ealisateurs de surface de bonne qualit´eetr´eutilisables
comme RealPro, fuf et kpml.Cesr´ealisateurs ont tous ´et´eint´egr´es pour la
construction de syst`emes de g´en´eration de langue naturelle.
Bien que la r´ealisation de surface soit facile, elle ne peut pas ˆetre consid´er´ee
comme un probl`eme totalement r´esolu. En particulier, le traitement de la para-
phrase pose encore des probl`emes. Nous entendons par paraphrase le fait qu’il
existe souvent plus d’une fa¸con d’exprimer la mˆeme chose. Cette caract´eristique
des langues a pour cons´equence la tr`es grande vari´et´ed’´enonc´es possibles, et
constitue la raison pour laquelle nous sommes capables d’exprimer des nuances
de sens subtiles. Malheureusement, c’est aussi un cauchemar combinatoire. La
th`ese qui est r´esum´ee ici traite de la faco¸ n dont un module de r´ealisation de
surface doit g´erer la paraphrase, que nous appellerons abusivement ambiguıt´e¨
pour conserver le parall`ele avec l’analyse (le parsing).
La th`e