7 jours d'essai offerts
Cet ouvrage et des milliers d'autres sont disponibles en abonnement pour 8,99€/mois

ACADEMIED’AIX-MARSEILLE
UNIVERSITED’AVIGNONETDESPAYSDEVAUCLUSE
THESE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlediplômedeDOCTORAT
SPECIALITE: Informatique
ÉcoleDoctorale536«SciencesetAgrosciences»
Laboratoired’Informatique(EA931)
Compositionsémantiquepourlalangueorale
par
FrédéricDuvert
sousladirectionde
MessieurslesProfesseursRénatodeMori&FrédéricBéchet
Soutenuepubliquementle10novembre2010devantunjurycomposéde:
Mr. StefanoA.Cerri Professeur,LIRMM,Montpellier Rapporteur
Mr. DenisJouvet Pr,LORIA,Nancy Rapp
Mme GéraldineDamnati Docteur,OrangeLabs,Lannion Examinateur
Mr. MarcEl-Bèze Professeur,LIA,Avignon Présidentdujury
Mr. FrédéricBéchet Pr,LIF,Marseille Directeurdethèse
Mr. RenatodeMori Professeur,LIA,Avignon Directeurdethèse
Laboratoired’Informatiqued’Avignon ÉcoleDoctorale536
«SciencesetAgrosciences»
tel-00609520, version 1 - 19 Jul 2011tel-00609520, version 1 - 19 Jul 2011Remerciements
A Messieurs et Madame, les Membres du jury pour l’honneur qu’ils me font en
acceptantdejugercetravail,avecl’expressiondetousmesrespectueuxremerciements.
A Monsieur le Professeur Rénato De Mori, à qui je tiens à dire ici toute ma pro-
fondereconnaissancepouravoirguidémesrecherches,desesconseilséclairés,poursa
constantegentillesse,aussietsurtoutpoursonsoutienmoraletsacompréhensionlors
desproblèmespersonnelsquisontsurvenuspendantlapréparationdecedoctorat.
AMonsieurLeProfesseurFrédéricBéchet,qu’ilsoitassurédemasincèregratitude
pourm’avoirprodiguésesprécieuxconseils.
AmeschersamisdulaboratoireduLIA,quiontétéprésentsdansles’coupsdurs’,
quim’ontconstammententourédeleurprésenceetdelachaleurdeleuramitié.Puissent-
ilstrouverlàl’expressiondemesplussincèresetprofondsremerciements.
A Mesdames les Secrétaires et toutes les personnes du labo, pour leur gentillesse,
pour leur accueil , pour leur sourire, pour leurs mots de réconfort. Sans oublier Eric,
poursonpetitcaféquiaideàtenir.
A mes parents et grands-parents et Audrey, qui m’ont soutenu et m’ont permis de
m’amenerjusqu’àcedoctoratetquej’aimetrèsfort.
A vous tous qui avez partagé, ces années à mes côtés. Toute ma reconnaissance et
messincèresremerciements...
3
tel-00609520, version 1 - 19 Jul 20114
tel-00609520, version 1 - 19 Jul 2011Résumé
La thèse présentée ici à pour but de proposer des systèmes de détection, de com-
position de constituants sémantiques et d’interprétation dans la compréhension de la
languenaturelleparlée.Cettecompréhensionsebasesurunsystèmedereconnaissance
automatiquedelaparolequitraduitlessignauxorauxenénoncésutilisablesparlama-
chine.
Le signal de la parole, ainsi transcrit, comporte un ensemble d’erreurs liées aux er-
reurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L’interprétation
de cet énoncé est d’autant plus difficile qu’il est issu d’un discours parlé, soumis à la
disfluence du discours, aux auto-corrections... L’énoncé est de plus agrammatical, car
lediscoursparlélui-mêmeestagrammatical.
L’application de méthodes d’analyses grammaticales ne produit pas de bons résul-
tats d’interprétation, sur des textes issus de transcriptions de la parole. L’utilisation de
méthodes d’analyses syntaxiques profondes est à éviter. De ce fait, une analyse super-
ficielleestenvisagée.
Un des premiers objectifs est de proposer une représentation du sens. Il s’agit de
considérer des ontologies afin de conceptualiser le monde que l’on décrit. On peut
exprimer les composants sémantiques en logique du premier ordre avec des prédi-
cats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des
frames(FrameNet).Lesstructuresdeframessonthiérarchisées,etsontdesfragments
de connaissances auxquels on peut insérer, fusionner ou inférer d’autres fragments de
connaissances.Lesstructuresdeframessontdérivablesenformuleslogiques.
Nous proposons un système de compréhension de la parole à partir de règles lo-
giquesaveclesupportd’uneontologie,afindepouvoircréerdesliensàpartirdecom-
posantssémantiques.Puis,nousavonsmenéuneétudesurladécouvertedessupports
syntaxiquesdesrelationssémantiques.Nousproposonsuneexpériencedecomposition
sémantiqueafind’enrichirlescomposantssémantiquesdebase.Enfin,nousprésentons
un système de détection de lambda-expression pour mettre en hypothèse les relations
àtrouveràtraverslediscours.
5
tel-00609520, version 1 - 19 Jul 2011Résumé
6
tel-00609520, version 1 - 19 Jul 2011Abstract
The thesis presented here is intended to provide detection systems, composition
of components and semantic interpretation in the natural spoken language unders-
tanding. This understanding is based on an automatic speech recognition system that
translatesthesignalsintooralstatementsusedbythemachine.
The transcribed speech signal, contains a series of errors related to recognition er-
rors (noise, poor pronunciation...). The interpretation of this statement is difficult be-
cause it is derived from a spoken discourse, subject to the disfluency of speech, for
self-correction... The statement is more ungrammatical, because the spoken discourse
itselfisungrammatical.
The application of grammatical analysis methods do not produce good results in-
terpretation,ontheoutcomeofspeechtranscription.Theuseofdeepsyntacticanalysis
methodsshouldbeavoided.Thus,asuperficialanalysisisconsidered.
A primary objective is to provide a representation of meaning. It is considered on-
tologies to conceptualize the world we describe. We can express the semantic compo-
nents in first order logic with predicates. In the work described here, we represent the
semantic elements by frames (FrameNet ). The frames are hierarchical structures, and
are fragments of knowledge which can be inserted, merge or infer other fragments of
knowledge.Theframesaredifferentiablestructuresinlogicalformulas.
Weproposeasystemfor speechunderstandingfromlogicalruleswiththesupport
ofanontologyinordertocreatelinksfromsemanticcomponents.Then,weconducted
astudyonthediscoverysupportssyntacticrelationships.Weproposeacom-
positional semantics experience to enrich the basic semantic components. Finally, we
present a detection system for lambda-expression hypothesis to find the relationship
throughdiscourse.
7
tel-00609520, version 1 - 19 Jul 2011Abstract
8
tel-00609520, version 1 - 19 Jul 2011Tabledesmatières
Résumé 5
Abstract 7
Introduction 13
I Motivationetcontexte 17
1 ReprésentationdusensdanslaCompréhensionduLangageNaturel 19
1.1 Premièrestentativesd’utilisationdesméthodesd’interprétationdetextes
pourlaCompréhensionduLangageParlé . . . . . . . . . . . . . . . . . 20
1.2 Représentationdusens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Extractiondusensdanslesphrases . . . . . . . . . . . . . . . . . . . . . . 25
2 Interprétationbaséesurl’analysesyntaxiquecomplète 31
2.1 Grammairesàréseauxdetransition . . . . . . . . . . . . . . . . . . . . . 32
2.2es et analyseurs utilisés pour la Compréhension du Langage
ParlédansleprojetAirTravelInformationSystem . . . . . . . . . . . . . 35
2.2.1 LesystèmeDELPHI . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.2 Le Gemini et les système basés sur la “concordance de
modèles”(TemplateMatcher) . . . . . . . . . . . . . . . . . . . . . 37
2.3 GrammairesLexicalisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4esstochastiquespourl’interprétation . . . . . . . . . . . . . . 49
2.4.1 LesystèmeTINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.2 LeHUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Lemodèleàvecteursd’étatscachésdeCambridge . . . . . . . . . . . . . 52
2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Interprétationbaséesurl’analysesyntaxiquepartielle 55
3.1 Lesanalyseurspartiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Lesmodèlesgénératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.1 Lesmodèlesàétatsfinis . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.2 Interprétationavecdestransducteursàétatsfinisstochastiques . 60
3.2.3 LesRéseauxBayésiensDynamiques . . . . . . . . . . . . . . . . . 65
9
tel-00609520, version 1 - 19 Jul 2011Tabledesmatières
3.3 Lesmodèlesbaséssurunapprentissagediscriminant . . . . . . . . . . . 68
3.3.1 Lesarbresdeclassificationsémantique . . . . . . . . . . . . . . . 68
3.3.2 LesMachinesàVecteursdeSupport . . . . . . . . . . . . . . . . . 71
3.3.3 Utilisationdelaconnaissancepréalable . . . . . . . . . . . . . . . 72
3.4 Modélisationlog-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.4.1 Fonctionscaractéristiques . . . . . . . . . . . . . . . . . . . . . . . 75
3.4.2 Les“ConditionalRandomFields(C.R.F. )”. . . . . . . . . . . . . 76
3.4.3 Normalisationduniveaudeposition . . . . . . . . . . . . . . . . 77
3.4.4 L’entraînement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.5 Processusdedécision . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.5 UtilisationdesConditionalRandomFields,pourl’analysesuperficielle 78
3.5.1 SegmentationaveclesConditionalRandomFields . . . . . . . . 80
3.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4 Systèmesavancés 83
4.1 Méthodesrécentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.1 Approchedetraductionautomatique . . . . . . . . . . . . . . . . 84
4.1.2 Quelquesapplicationsrécentes . . . . . . . . . . . . . . . . . . . . 87
4.2 Architecturesavancées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.2.1 LesystèmedeMicrosoft . . . . . . . . . . . . . . . . . . . . . . . . 90
4.2.2 Led’AT&T . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.3 Lesystèmed’IBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2.4 LeprojetEuropéenLUNA . . . . . . . . . . . . . . . . . . . . . . . 100
II Compréhensiondelaparoleetcompositionssémantiques 103
5 Compositionsémantique 105
5.1 Connaissancefragmentéeetcompositionsémantique . . . . . . . . . . . 106
5.1.1 Etiquettes“concepts”etconnaissancefragmentée . . . . . . . . . 106
5.1.2 Compositionparfusiondefragments . . . . . . . . . . . . . . . . 110
5.1.3parattachements . . . . . . . . . . . . . . . . . . . . 111
5.1.4paretinférences . . . . . . . . . . . . 112
5.1.5 Probabilitésdeframes . . . . . . . . . . . . . . . . . . . . . . . . . 113
6 Contributionàlacompréhensionautomatiquedelaparole 115
6.1 Compositionparrègles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.1.1 LecorpusMEDIAetlagénérationdesconstituantsdebase . . . . 117
6.1.2 Composerdesrelationssémantiquesdanslesstructures . . . . . 118
6.1.3 Annotationprogressiveducorpuspardesstructuressémantiques 119
6.1.4 Résultatspréliminaires . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.1.5 L’outild’annotationetdecomposition . . . . . . . . . . . . . . . . 122
6.1.6 Utilisationdefragmentsdeframesetinférences . . . . . . . . . . 125
6.2 Acquisition progressive des caractéristiques syntaxiques supportant les
relationssémantiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2.1 Annotationdesrelationsbinaires . . . . . . . . . . . . . . . . . . . 129
10
tel-00609520, version 1 - 19 Jul 2011