Génération de phrases multilingues par apprentissage automatique de modèles de phrases, Multilingual Natural Language Generation using sentence models learned from corpora

De
Publié par

Sous la direction de Juan Manuel Torres Moreno
Thèse soutenue le 12 novembre 2010: Avignon
La Génération Automatique de Texte (GAT) est le champ de recherche de la linguistique informatique qui étudie la possibilité d’attribuer à une machine la faculté de produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de système de GAT reposant exclusivement sur des méthodes statistiques. Son originalité est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méthode offre plusieurs avantages : elle simplifie l’implémentation d’un système de GAT en plusieurs langues et améliore les capacités d’adaptations d’un système de génération à un domaine sémantique particulier. La production, d’après un corpus d’apprentissage, des modèles de phrases finement étiquetées requises par notre générateur de texte nous a conduit à mener des recherches approfondies dans le domaine de l’extraction d’information et de la classification. Nous décrivons le système d’étiquetage et de classification de contenus encyclopédique mis au point à cette fin. Dans les étapes finales du processus de génération, les modèles de phrases sont exploités par un module de génération de texte multilingue. Ce module exploite des algorithmes de recherche d’information pour extraire du modèle une phrase pré-existante, utilisable en tant que support sémantique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées pour générer une phrase, choisies en fonction de la complexité du contenu sémantique à exprimer. Nous présentons notamment parmi ces méthodes une proposition originale de génération de phrases complexes par agrégation de proto-phrases de type Sujet, Verbe, Objet. Nous envisageons dans nos conclusions que cette méthode particulière de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du processus de formation de phrases
-Génération automatique de texte
-Génération de phrases
-Apprentissage automatique
-Syntaxe
-Extraction d’information
-Agrégation
Natural Language Generation (NLG) is the natural language processing task of generating natural language from a machine representation system. In this thesis report, we present an architecture of NLG system relying on statistical methods. The originality of our proposition is its ability to use a corpus as a learning resource for sentences production. This method offers several advantages : it simplifies the implementation and design of a multilingual NLG system, capable of sentence production of the same meaning in several languages. Our method also improves the adaptability of a NLG system to a particular semantic field. In our proposal, sentence generation is achieved trough the use of sentence models, obtained from a training corpus. Extracted sentences are abstracted by a labelling step obtained from various information extraction and text mining methods like named entity recognition, co-reference resolution, semantic labelling and part of speech tagging. The sentence generation process is achieved by a sentence realisation module. This module provide an adapted sentence model to fit a communicative intent, and then transform this model to generate a new sentence. Two methods are proposed to transform a sentence model into a generated sentence, according to the semantic content to express. In this document, we describe the complete labelling system applied to encyclopaedic content to obtain the sentence models. Then we present two models of sentence generation. The first generation model substitute the semantic content to an original sentence content. The second model is used to find numerous proto-sentences, structured as Subject, Verb, Object, able to fit by part a whole communicative intent, and then aggregate all the selected proto-sentences into a more complex one. Our experiments of sentence generation with various configurations of our system have shown that this new approach of NLG have an interesting potential
-Natural language generation
-Sentence generation
-Statistical learning
-Syntax
-Information extraction
-Aggregation
Source: http://www.theses.fr/2010AVIG0175/document
Publié le : jeudi 27 octobre 2011
Lecture(s) : 41
Nombre de pages : 193
Voir plus Voir moins

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlegradedeDocteur
SPÉCIALITÉ: SciencesInformatiques
ÉcoleDoctoraleI2S«InformationStructureSystèmes»
Laboratoired’Informatique(EA931)
Générationdephrasesmultilinguespar
apprentissageautomatiquedemodèlesdephrases
par
EricCharton
Soutenuepubliquementàl’Universitéd’Avignonle12Novembre2010devantunjury
composéde:
meM LaurenceDanlos Professeur, Université Paris 7 (ALPAGE), Rapporteur
Paris
M. GuyLapalme Professeur, Université de Montréal (RALI),
Montréal
M. LaurentBesacier Professeur, Université Joseph Fourier Examinateur
(IMAG),Grenoble
M. Jean-françoisBonastre Professeur, Université d’Avignon (LIA), Avi-
gnon
M. MichelGagnon Professeur, École Polytechnique de Montréal Examinateur
(GIGL),Montréal
M. Juan-ManuelTorres-Moreno MdC (HDR), Université d’Avignon et des Directeur
PaysdeVaucluse(LIA),Avignon
Laboratoired’Informatiqued’Avignon
tel-00622561, version 1 - 12 Sep 20112
tel-00622561, version 1 - 12 Sep 2011Remerciements
Mes plus chaleureux remerciements vont en premier lieu à Jean-François Bonastre.
Sans ses encouragements et sa bienveillance, lors de toutes les étapes de cette aven-
ture,c’estcertain,rienn’auraitétépossible.IlsvontensuiteauDrJuan-ManuelTorres-
Moreno qui a bien voulu m’accompagner dans la démarche complexe et prenante que
constituecetravailderecherche.
Je suis particulièrement reconnaissant à tous ceux, membres ou non de la commu-
nauté académique qui m’ont aidé sans autre revendication que celle de me rendre ser-
vice. Merci à Georges Linares de m’avoir fourni tout le matériel dont j’avais besoin
pour mes expériences et d’avoir pris en charge certains aspects logistiques, à Patricia
Velazquez-Morales d’avoir contribué à la mise au point de mes expériences et active-
ment aidé pour la finition d’aspects importants de ce travail, à Frédéric Béchet pour
sacuriositéactiveenversmestravaux.UnremerciementtrèsspécialvaauDrNimaan
Abdillahiquim’ainvitéàmettreunpeud’Afriquedanscetravail(c’étaitunrêve).
Jenevoudraispasoublierdetémoignerdemasympathieenverstouslesmembres
du Laboratoire Informatique d’Avignon et du CERI que j’ai côtoyé au cours de ces
quelquesannées.Jen’enciteaucunpourn’enoublieraucun;ilshabitentmaintenantun
peupartoutsurlaplanètedansdesmaisonsetmêmedansdescubicles(enparticulierà
Singapour, San Fransisco, Brisbane, Mexico, Montréal, Djibouti, Sao Polo, mais aussi à
Marseille,ausuddeMarseille,àToulouse,AixenProvence,auMans,àChateaurenard,
à Caumont, Orange et en Avignon, évidemment) certain(e)s sont devenus des ami(e)s
etilssereconnaîtront.
Et je n’oublie surtout pas la patience et l’affection de Antoine, Charles et surtout
Marie-Jean,éminentsmembresdematribudegensduvoyagedésormaisdevenuecos-
mopolite!
3
tel-00622561, version 1 - 12 Sep 20114
tel-00622561, version 1 - 12 Sep 2011Résumé
La Génération Automatique de Texte (GAT) est le champ de recherche de la lin-
guistiqueinformatiquequiétudielapossibilitéd’attribueràunemachinelafacultéde
produire du texte intelligible. Dans ce mémoire, nous présentons une proposition de
systèmedeGATreposantexclusivementsurdesméthodesstatistiques.Sonoriginalité
est d’exploiter un corpus en tant que ressource de formation de phrases. Cette méth-
odeoffreplusieursavantages:ellesimplifiel’implémentationd’unsystèmedeGATen
plusieurslanguesetaméliorelescapacitésd’adaptationsd’unsystèmedegénérationà
undomainesémantiqueparticulier.Laproduction,d’aprèsuncorpusd’apprentissage,
desmodèlesdephrasesfinementétiquetéesrequisesparnotregénérateurdetextenous
aconduitàmenerdesrecherchesapprofondiesdansledomainedel’extractiond’infor-
mationetdelaclassification.Nousdécrivonslesystèmed’étiquetageetdeclassification
decontenusencyclopédiquemisaupointàcettefin.Danslesétapesfinalesduproces-
sus de génération, les modèles de phrases sont exploités par un module de génération
de texte multilingue. Ce module exploite des algorithmes de recherche d’information
pourextrairedumodèleunephrasepré-existante,utilisableentantquesupportséman-
tique et syntaxique de l’intention à communiquer. Plusieurs méthodes sont proposées
pourgénérerunephrase,choisiesenfonctiondelacomplexitéducontenusémantique
à exprimer. Nous présentons notamment parmi ces méthodes une proposition origi-
nale de génération de phrases complexes par agrégation de proto-phrases de type Su-
jet,Verbe,Objet. Nous envisageons dans nos conclusions que cette méthode particulière
de génération puisse ouvrir des voies d’investigations prometteuses sur la nature du
processusdeformationdephrases.
Les travaux de recherche présentés dans ce mémoire ont été menés au Laboratoire Informa-
tique d’Avignon jusqu’en octobre 2009. Ils ont été complétés et mis en application à l’École
Polytechnique de Montréal à partir du 1er décembre 2009, dans le cadre des travaux du projet
Gitan, dirigé par les Professeurs Michel Gagnon et BenoitOzell. L’ensemble de cette thèse à été
menéesousladirectionscientifiqueduDrJuan-ManuelTorres-Moreno(MdCHDR).
Motsclés
Génération Automatique de Texte, Génération de phrases, Apprentissage automa-
tique,Syntaxe,Extractiond’information,Agrégation
5
tel-00622561, version 1 - 12 Sep 20116
tel-00622561, version 1 - 12 Sep 2011Abstract
MultilingualNaturalLanguageGenerationusingsentencemod-
elslearnedfromcorpora
NaturalLanguageGeneration(NLG)isthenaturallanguageprocessingtaskofgen-
erating natural language from a machine representation system. In this thesis report,
wepresentanarchitectureofNLGsystemrelyingonstatisticalmethods.Theoriginal-
ity of our proposition is its ability to use a corpus as a learning resource for sentences
production. This method offers several advantages : it simplifies the implementation
and design of a multilingual NLG system, capable of sentence production of the same
meaning in several languages. Our method also improves the adaptability of a NLG
system to a particular semantic field. In our proposal, sentence generation is achieved
troughtheuseofsentencemodels,obtainedfromatrainingcorpus.Extractedsentences
areabstractedbyalabellingstepfromvariousinformationextractionandtext
mining methods like named entity recognition, co-reference resolution, semantic la-
belling and part of speech tagging. The sentence generation process is achieved by a
sentence realisation module. This module provide an adapted sentence model to fit a
communicativeintent,andthentransformthismodeltogenerateanewsentence.Two
methods are proposed to transform a sentence model into a generated sentence, ac-
cordingtothesemanticcontenttoexpress.Inthisdocument,wedescribethecomplete
labellingsystemappliedtoencyclopaediccontenttoobtainthesentencemodels.Then
we present two models of sentence generation. The first generation model substitute
the semantic content to an original sentence content. The second model is used to find
numerousproto-sentences,structuredasSubject,Verb,Object,abletofitbypartawhole
communicative intent, and then aggregate all the slected proto-sentences into a more
complex one. Our experiments of sentence generation with various configurations of
oursystemhaveshownthatthisnewapproachofNLGhaveaninterestingpotential.
This research have been mainly conducted in the Computer Laboratory of Avignon Uni-
versity, until October 2009. It was supplemented and applied at the École Polytechnique de
MontrealstartingfromDecember1st,2009,withintheframeworkoftheGitanproject,directed
byProfessorsMichelGagnonandBenoitOzell.Thewholeworkdescribedinthisthesishasbeen
conductedunderthescientificsupervisionofDr.Juan-ManuelTorres-Moreno(MdCHDR).
Keywords
NaturalLanguageGeneration,Sentencegeneration,Statisticallearning,Syntax,In-
formationextraction,Aggregation
7
tel-00622561, version 1 - 12 Sep 20118
tel-00622561, version 1 - 12 Sep 2011Tabledesmatières
I Théorieetgénération 19
1 StructuresetméthodesdessystèmesdeGénérationAutomatiquedeTexte 21
1.1 Formalisationdel’IntentiondeCommunication . . . . . . . . . . . . . . . . 23
1.2 L’architecturepipelinedessystèmesdegénération . . . . . . . . . . . . . 25
1.3 Composantsstratégiquesdeproductiondephrasedel’architecturepipeline 27
1.3.1 Lesgénérateursàbasedepatrons . . . . . . . . . . . . . . . . . . 27
1.3.2 Lesàcomposantsàbasederèglesdeproduction . . 29
1.3.3 Les à statistiques et apprentissage sur
corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.3.4 Représentativitédesdifférentesapproches . . . . . . . . . . . . . 30
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2 Générateursàbasederèglesetdegrammaires 33
2.1 Théorieslinguistiquesimpliquées. . . . . . . . . . . . . . . . . . . . . . . 33
2.1.1 Grammairesgénérativesettransformationnelles . . . . . . . . . . 34
2.1.2 ImplémentationdanslessystèmesdeGAT . . . . . . . . . . . . . 34
2.1.3 ThéorieSens-texte . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Composantsautonomesdegénérationdesurface . . . . . . . . . . . . . 37
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Méthodesstatistiquesappliquéesàlagénérationautomatiquedetexte 41
3.1 Principesthéoriquesdebasedesapprochesstatistiques . . . . . . . . . . 43
3.1.1 Lesmodèlesdelangage n-grammes . . . . . . . . . . . . . . . . . 44
3.1.2 Implicationsdesmodèles ndansdessystèmesproches
delaGAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2 Élémentsstatistiquesdegénérateursdetextes . . . . . . . . . . . . . . . 46
3.3 Utilisationdecorpusdanslagénérationdetexte . . . . . . . . . . . . . . 50
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4 Propositiond’architectureàbasedephrasesmodèles 53
4.1 Avantagesetinconvénientsdesdifférentesapproches . . . . . . . . . . . 54
4.2 Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.1 FormalismeàbasedeDRT . . . . . . . . . . . . . . . . . . . . . . 55
4.2.2 Représentationsémantiquedesphrasesmodèles . . . . . . . . . . . 56
4.2.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9
tel-00622561, version 1 - 12 Sep 20114.3 SystèmedeGénérationAutomatiquedeTexteàbasedeCorpusdePhrases
Modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Descriptiondusystèmedegénérationdetexteproposé . . . . . . 61
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
II Extractiondeconnaissances 65
5 Composantsd’apprentissageautomatiqued’unsystèmedeGATàbasedecor-
pus 67
5.1 L’étiquetagemorphosyntaxique . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.1 Maturitédestechnologies . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Étiquetageparentitésnommées . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 ApprochesàbasedeCRF . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.2 Maturitédestechnologies . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Détectiondesco-références . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.1 Maturitédes . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Analysesémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.4.1 Maturitédestechnologies . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 Constructiondemétadonnéesd’aprèsuncontenuencyclopédique 77
6.1 Constructionded’aprèsWikipédia . . . . . . . . . . . . . . 78
6.1.1 StructuredelaressourceencyclopédiqueWikipédia . . . . . . . . 78
6.1.2 Lesmetadonnéesproduitesd’aprèslaressourceencyclopédique . 79
6.1.3 Transformationd’unarticleenmetadonnées . . . 80
6.1.4 Exempledetransformationd’unarticleen . . . . . . 81
6.2 Classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.1 Classificationnumérique . . . . . . . . . . . . . . . . . . . . . . . 83
6.2.2d’aprèsdesInfobox . . . . . . . . . . . . . . . . . . . 84
6.2.3descatégories . . . . . . . . . . . . . . . . . 84
6.2.4 Expériencesetrésultats . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7 Étiquetageparentitésnommées 89
7.1 Systèmebaseline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.1.1 Méthodes hybrides génératives et discriminantes pour l’extrac-
tiond’EN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.1.2 Mise à jour du modèle d’étiquetage avec un corpus non étiqueté
degrandetaille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.1.3 Introductiondemétadonnées . . . . . . . . . . . . . . . . . . . . . 94
7.1.4 Expériencesetrésultats . . . . . . . . . . . . . . . . . . . . . . . . 94
7.2 Systèmed’étiquetagemultilingue . . . . . . . . . . . . . . . . . . . . . . . 95
7.2.1 Générationautomatiquedecorpusd’apprentissagemultilingue . 96
7.2.2 EntraînementduCRF . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10
tel-00622561, version 1 - 12 Sep 2011

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

Diffusez cette publication

Vous aimerez aussi