Composition sémantique pour la langue orale, Semantic composition for spoken language understanding
201 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Composition sémantique pour la langue orale, Semantic composition for spoken language understanding

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
201 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Sous la direction de Renato De Mori, Frédéric Béchet
Thèse soutenue le 10 novembre 2010: Avignon
La thèse présentée ici a pour but de proposer des systèmes de détection, de composition de constituants sémantiques et d’interprétation dans la compréhension de la langue naturelle parlée. Cette compréhension se base sur un système de reconnaissance automatique de la parole qui traduit les signaux oraux en énoncés utilisables par la machine. Le signal de la parole, ainsi transcrit, comporte un ensemble d’erreurs liées aux erreurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L’interprétation de cet énoncé est d’autant plus difficile qu’il est issu d’un discours parlé, soumis à la disfluence du discours, aux auto-corrections... L’énoncé est de plus agrammatical, car le discours parlé lui-même est agrammatical. L’application de méthodes d’analyses grammaticales ne produit pas de bons résultats d’interprétation, sur des textes issus de transcriptions de la parole. L’utilisation de méthodes d’analyses syntaxiques profondes est à éviter. De ce fait, une analyse superficielle est envisagée. Un des premiers objectifs est de proposer une représentation du sens. Il s’agit de considérer des ontologies afin de conceptualiser le monde que l’on décrit. On peut exprimer les composants sémantiques en logique du premier ordre avec des prédicats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des frames (FrameNet ). Les structures de frames sont hiérarchisées, et sont des fragments de connaissances auxquels on peut insérer, fusionner ou inférer d’autres fragments de connaissances. Les structures de frames sont dérivables en formules logiques. Nous proposons un système de compréhension de la parole à partir de règles logiques avec le support d’une ontologie, afin de pouvoir créer des liens à partir de composants sémantiques. Puis, nous avons mené une étude sur la découverte des supports syntaxiques des relations sémantiques. Nous proposons une expérience de composition sémantique afin d’enrichir les composants sémantiques de base. Enfin, nous présentons un système de détection de lambda-expression pour mettre en hypothèse les relations à trouver à travers le discours
-Composition sémantique
-Ontologie
-Compréhension orale
-Interprétation syntaxique partielle
-Connaissances partielles
-Représentation sémantique
-MEDIA
-LUNA
-FrameNet
-Lambda-expressions
The thesis presented here is intended to provide detection systems, composition of components and semantic interpretation in the natural spoken language understanding. This understanding is based on an automatic speech recognition system that translates the signals into oral statements used by the machine. The transcribed speech signal, contains a series of errors related to recognition errors (noise, poor pronunciation...). The interpretation of this statement is difficult because it is derived from a spoken discourse, subject to the disfluency of speech, forself-correction... The statement is more ungrammatical, because the spoken discourse itself is ungrammatical. The application of grammatical analysis methods do not produce good results interpretation, on the outcome of speech transcription. The use of deep syntactic analysis methods should be avoided. Thus, a superficial analysis is considered. A primary objective is to provide a representation of meaning. It is considered ontologies to conceptualize the world we describe. We can express the semantic components in first order logic with predicates. In the work described here, we represent the semantic elements by frames (FrameNet ). The frames are hierarchical structures, and are fragments of knowledge which can be inserted, merge or infer other fragments of knowledge. The frames are differentiable structures in logical formulas. We propose a system for speech understanding from logical rules with the support of an ontology in order to create links from semantic components. Then, we conducted a study on the discovery supports syntactic semantic relationships. We propose a compositional semantics experience to enrich the basic semantic components. Finally, we present a detection system for lambda-expression hypothesis to find the relationship through discourse
-Semantic composition
-Ontology
-Spoken language understanding
-Speech processing
-Shallow parsing
-Chunked knowledge
-MEDIA
-LUNA
-FrameNet
-Lambda-expression
Source: http://www.theses.fr/2010AVIG0174/document

Sujets

Informations

Publié par
Nombre de lectures 33
Langue Français
Poids de l'ouvrage 2 Mo

Extrait

ACADEMIED’AIX-MARSEILLE
UNIVERSITED’AVIGNONETDESPAYSDEVAUCLUSE
THESE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlediplômedeDOCTORAT
SPECIALITE: Informatique
ÉcoleDoctorale536«SciencesetAgrosciences»
Laboratoired’Informatique(EA931)
Compositionsémantiquepourlalangueorale
par
FrédéricDuvert
sousladirectionde
MessieurslesProfesseursRénatodeMori&FrédéricBéchet
Soutenuepubliquementle10novembre2010devantunjurycomposéde:
Mr. StefanoA.Cerri Professeur,LIRMM,Montpellier Rapporteur
Mr. DenisJouvet Pr,LORIA,Nancy Rapp
Mme GéraldineDamnati Docteur,OrangeLabs,Lannion Examinateur
Mr. MarcEl-Bèze Professeur,LIA,Avignon Présidentdujury
Mr. FrédéricBéchet Pr,LIF,Marseille Directeurdethèse
Mr. RenatodeMori Professeur,LIA,Avignon Directeurdethèse
Laboratoired’Informatiqued’Avignon ÉcoleDoctorale536
«SciencesetAgrosciences»
tel-00609520, version 1 - 19 Jul 2011tel-00609520, version 1 - 19 Jul 2011Remerciements
A Messieurs et Madame, les Membres du jury pour l’honneur qu’ils me font en
acceptantdejugercetravail,avecl’expressiondetousmesrespectueuxremerciements.
A Monsieur le Professeur Rénato De Mori, à qui je tiens à dire ici toute ma pro-
fondereconnaissancepouravoirguidémesrecherches,desesconseilséclairés,poursa
constantegentillesse,aussietsurtoutpoursonsoutienmoraletsacompréhensionlors
desproblèmespersonnelsquisontsurvenuspendantlapréparationdecedoctorat.
AMonsieurLeProfesseurFrédéricBéchet,qu’ilsoitassurédemasincèregratitude
pourm’avoirprodiguésesprécieuxconseils.
AmeschersamisdulaboratoireduLIA,quiontétéprésentsdansles’coupsdurs’,
quim’ontconstammententourédeleurprésenceetdelachaleurdeleuramitié.Puissent-
ilstrouverlàl’expressiondemesplussincèresetprofondsremerciements.
A Mesdames les Secrétaires et toutes les personnes du labo, pour leur gentillesse,
pour leur accueil , pour leur sourire, pour leurs mots de réconfort. Sans oublier Eric,
poursonpetitcaféquiaideàtenir.
A mes parents et grands-parents et Audrey, qui m’ont soutenu et m’ont permis de
m’amenerjusqu’àcedoctoratetquej’aimetrèsfort.
A vous tous qui avez partagé, ces années à mes côtés. Toute ma reconnaissance et
messincèresremerciements...
3
tel-00609520, version 1 - 19 Jul 20114
tel-00609520, version 1 - 19 Jul 2011Résumé
La thèse présentée ici à pour but de proposer des systèmes de détection, de com-
position de constituants sémantiques et d’interprétation dans la compréhension de la
languenaturelleparlée.Cettecompréhensionsebasesurunsystèmedereconnaissance
automatiquedelaparolequitraduitlessignauxorauxenénoncésutilisablesparlama-
chine.
Le signal de la parole, ainsi transcrit, comporte un ensemble d’erreurs liées aux er-
reurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L’interprétation
de cet énoncé est d’autant plus difficile qu’il est issu d’un discours parlé, soumis à la
disfluence du discours, aux auto-corrections... L’énoncé est de plus agrammatical, car
lediscoursparlélui-mêmeestagrammatical.
L’application de méthodes d’analyses grammaticales ne produit pas de bons résul-
tats d’interprétation, sur des textes issus de transcriptions de la parole. L’utilisation de
méthodes d’analyses syntaxiques profondes est à éviter. De ce fait, une analyse super-
ficielleestenvisagée.
Un des premiers objectifs est de proposer une représentation du sens. Il s’agit de
considérer des ontologies afin de conceptualiser le monde que l’on décrit. On peut
exprimer les composants sémantiques en logique du premier ordre avec des prédi-
cats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des
frames(FrameNet).Lesstructuresdeframessonthiérarchisées,etsontdesfragments
de connaissances auxquels on peut insérer, fusionner ou inférer d’autres fragments de
connaissances.Lesstructuresdeframessontdérivablesenformuleslogiques.
Nous proposons un système de compréhension de la parole à partir de règles lo-
giquesaveclesupportd’uneontologie,afindepouvoircréerdesliensàpartirdecom-
posantssémantiques.Puis,nousavonsmenéuneétudesurladécouvertedessupports
syntaxiquesdesrelationssémantiques.Nousproposonsuneexpériencedecomposition
sémantiqueafind’enrichirlescomposantssémantiquesdebase.Enfin,nousprésentons
un système de détection de lambda-expression pour mettre en hypothèse les relations
àtrouveràtraverslediscours.
5
tel-00609520, version 1 - 19 Jul 2011Résumé
6
tel-00609520, version 1 - 19 Jul 2011Abstract
The thesis presented here is intended to provide detection systems, composition
of components and semantic interpretation in the natural spoken language unders-
tanding. This understanding is based on an automatic speech recognition system that
translatesthesignalsintooralstatementsusedbythemachine.
The transcribed speech signal, contains a series of errors related to recognition er-
rors (noise, poor pronunciation...). The interpretation of this statement is difficult be-
cause it is derived from a spoken discourse, subject to the disfluency of speech, for
self-correction... The statement is more ungrammatical, because the spoken discourse
itselfisungrammatical.
The application of grammatical analysis methods do not produce good results in-
terpretation,ontheoutcomeofspeechtranscription.Theuseofdeepsyntacticanalysis
methodsshouldbeavoided.Thus,asuperficialanalysisisconsidered.
A primary objective is to provide a representation of meaning. It is considered on-
tologies to conceptualize the world we describe. We can express the semantic compo-
nents in first order logic with predicates. In the work described here, we represent the
semantic elements by frames (FrameNet ). The frames are hierarchical structures, and
are fragments of knowledge which can be inserted, merge or infer other fragments of
knowledge.Theframesaredifferentiablestructuresinlogicalformulas.
Weproposeasystemfor speechunderstandingfromlogicalruleswiththesupport
ofanontologyinordertocreatelinksfromsemanticcomponents.Then,weconducted
astudyonthediscoverysupportssyntacticrelationships.Weproposeacom-
positional semantics experience to enrich the basic semantic components. Finally, we
present a detection system for lambda-expression hypothesis to find the relationship
throughdiscourse.
7
tel-00609520, version 1 - 19 Jul 2011Abstract
8
tel-00609520, version 1 - 19 Jul 2011Tabledesmatières
Résumé 5
Abstract 7
Introduction 13
I Motivationetcontexte 17
1 ReprésentationdusensdanslaCompréhensionduLangageNaturel 19
1.1 Premièrestentativesd’utilisationdesméthodesd’interprétationdetextes
pourlaCompréhensionduLangageParlé . . . . . . . . . . . . . . . . . 20
1.2 Représentationdusens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Extractiondusensdanslesphrases . . . . . . . . . . . . . . . . . . . . . . 25
2 Interprétationbaséesurl’analysesyntaxiquecomplète 31
2.1 Grammairesàréseauxdetransition . . . . . . . . . . . . . . . . . . . . . 32
2.2es et analyseurs utilisés pour la Compréhension du Langage
ParlédansleprojetAirTravelInformationSystem . . . . . . . . . . . . . 35
2.2.1 LesystèmeDELPHI . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.2 Le Gemini et les système basés sur la “concordance de
modèles”(TemplateMatcher) . . . . . . . . . . . . . . . . . . . . . 37
2.3 GrammairesLexicalisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.4esstochastiquespourl’interprétation . . . . . . . . . . . . . . 49
2.4.1 LesystèmeTINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.2 LeHUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Lemodèleàvecteursd’étatscachésdeCambridge . . . . . . . . . . . . . 52
2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Interprétationbaséesurl’analysesyntaxiquepartielle 55
3.1 Lesanalyseurspartiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Lesmodèlesgénératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.1 Lesmodèlesàétatsfinis . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.2 Interprétationavecdestransducteursàétatsfinisstochastiques . 60
3.2.3 LesRéseauxBayésiensDynamiques . . . . . . . . . . . . . . . . . 65
9
tel-00609520, version 1 - 19 Jul 2011Tabledesmatières
3.3 Lesmodèlesbaséssurunapprentissagediscriminant . . . . . . . . . . . 68
3.3.1 Lesarbresdeclassificationsémantique . . . . . . . . . . . . . . . 68
3.3.2 LesMachinesàVecteursdeSupport . . . . . . . . . . . . . . . . . 71
3.3.3 Utilisationdelaconnaissancepréalable . . . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents