7 jours d'essai offerts
Cet ouvrage et des milliers d'autres sont disponibles en abonnement pour 8,99€/mois

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlediplômedeDOCTORAT
SPÉCIALITÉ: Informatique
ÉcoleDoctorale166«InformationStructuresSystèmes-I2S»
LaboratoireInformatiqued’Avignon(EA4128)
Apprentissage Automatique et Compréhension
dans le cadre d’un Dialogue Homme-Machine
Téléphonique à Initiative Mixte
par
ChristopheServan
Soutenuepubliquementle10décembre2008devantunjurycomposéde:
M. MarcEl-Bèze Professeur,LIA,Avignon PrésidentduJury
M. KamelSmaïli Pr,LORIA,Nancy Rapporteur
meM SophieRosset ChargéedeRecherche,LIMSI-CNRS,Paris-Orsay Rapporteur
meM GéraldineDamnati Docteur,OrangeLabs,Lannion Examinateur
M. YannickEstève MaîtredeConférence,LIUM,LeMans
M. RenatoDeMori Professeur,LIA,Avignon Directeurdethèse
M. FrédéricBéchet MaîtredeConférences,LIA,Avignon Co-Directeurdethèse
LaboratoireInformatiqued’Avignon
ConseilGénéraldeVaucluse
tel-00591997, version 1 - 10 May 2011ii
tel-00591997, version 1 - 10 May 2011Remerciements
Toutd’abord,ungrandmerciàRenatoDeMorietFrédéricBéchetquiontaccepté
d’être mes directeurs de thèse. Je les remercie de m’avoir fait confiance et de m’avoir
faitprofiterdeleurexpériencerespective.
Je me permets de remercier tout particulièrement Frédéric Béchet, mon encadrant
direct, de ces quelques mots qui ne sont pas à la mesure de la reconnaissance qu’il
méritenidel’investissementdontilafaitpreuvedanscettethèse;notammentpoursa
patience,sesremarquesetsesencouragements(Alors... ça marche?!)
MerciàRenatoDeMori:jemesouviendraislongtemps,avecplaisir,denosdiscus-
sionsetdenosdébats.Merciencorepourtouslesprécieuxconseilsprodiguéspendant
cettethèse.
Je tiens à remercier Kamel Smaïli et Sophie Rosset qui m’ont fait l’honneur d’être
mes rapporteurs ainsi que tous les membres de mon jury de thèse, à savoir Marc El-
Bèze, Géraldine Damnati et Yannick Estève. Merci de vos remarques qui ont permis
d’améliorerlaclartédecedocument.
JeremercieleConseilGénéraldeVauclused’avoirsubventionnécettethèsepermet-
tantlaréalisationdel’ensembledestravauxprésentésdanscemanuscrit.
Merci encore à tous ceux qui m’ont permis de près ou de loin à réaliser ce travail
de thèse et plus particulièrement mes parents, Jeaninne et Gérard, Mon frère Thierry
et sa compagne Mélina et, enfin, ma fiancée Nathalie, pour leur patience et leur bien-
veillance.Sanseuxrienn’auraitpuêtrepossible.
Ungrandmerciàtousmesamis,plusparticulièrementNoémieetOlivier.
UnremerciementparticulieràLudovicavecquilesdiscussionsm’ontsouventap-
portéunéclairagedifférentsurmontravailderechercheetsouventbeaucoupmotivé.
Merci encore à l’ensemble du LIA de m’avoir accueilli et formé au monde de la
recherche.
Ungrandmerciàl’ensembledupersonnelduCERI:Laurianne,Nanou,Lolo,Chris-
tian, Krusty, Bob, Christophe, Antho, Gilles, Thierry P., Titi, Zak, Ralph, Jens, Mimi,
Audrey,Ti’Fred,MJ,EricC.,Mathieu,Ben,NicoS.,NicoF.,AlexL.,AlexP.,Alain,Flo-
rian B., Florian V., Florian P., Didi, Fred, Georges, Jeff, Patrice, Philou, Corinne, Juan,
iii
tel-00591997, version 1 - 10 May 2011Driss, JP, Yézé, Rachid, Renato, Henry, Marc, Abder, Joceline, Simone, Mireille, Lau-
rence,Dom,Cathy,ValetGisèle(enespérantn’avoiroubliépersonne...)pourleurjoie,
leurbonnehumeurettouscesbonsmomentspassésenleurcompagnie.
iv
tel-00591997, version 1 - 10 May 2011Résumé
LessystèmesdedialoguesorauxHomme-Machinesontdesinterfacesentreunuti-
lisateuretdesservices.Cesservicessontprésentssousplusieursformes:servicesban-
caires,systèmesderéservations(debilletsdetrain,d’avion),etc.Lessystèmesdedia-
logues intègrent de nombreux modules notamment ceux de reconnaissance de la pa-
role,decompréhension,degestiondudialogueetdesynthèsedelaparole.Lemodule
quiconcernelaproblématiquedecettethèseestceluidecompréhensiondelaparole.
La compréhension de la Parole : l’approche intégrée
Leprocessusdecompréhensiondelaparoleestgénéralementséparéduprocessus
detranscription.Ils’agit,d’abord,detrouverlameilleurehypothèsedereconnaissance
puisd’appliquerunprocessusdecompréhension.L’approcheproposéedanscettethèse
estdeconserverl’espacederechercheprobabilistetoutaulongduprocessusdecom-
préhensionenl’enrichissantàchaqueétape.Cetteapprocheaétéappliquéelorsdela
campagned’évaluationMEDIA.Nousmontronsl’intérêtdenotreapprocheparrapport
àl’approcheclassique.
En utilisant différentes sorties du module de RAP sous forme de graphe de mots,
nous montrons que les performances du décodage conceptuel se dégradent linéaire-
ment en fonction du taux d’erreurs sur les mots (WER). Cependant nous montrons
qu’uneapproche intégrée,cherchantconjointementlameilleureséquencedemotsetde
concepts,donnedemeilleursrésultatsqu’uneapproche séquentielle.
Danslesoucidevalidernotreapproche,nousmenonsdesexpériencessurlecorpus
MEDIAdanslesmêmesconditionsd’évaluationquelorsdelacampagneMEDIA.Ils’agit
deproduiredesinterprétationssémantiquesàpartirdestranscriptionssanserreur.Les
résultatsmontrentquelesperformancesatteintesparnotremodèlesontauniveaudes
performancesdessystèmesayantparticipéàlacampagned’évaluation.
L’étudedétailléedesrésultatsobtenuslorsdelacampagneMEDIAnouspermetde
montrer la corrélation entre, d’une part, le taux d’erreur d’interprétation et, d’autre
part, le taux d’erreur mots de la reconnaissance de la parole, la taille du corpus d’ap-
prentissage,ainsiquel’ajoutdeconnaissance a prioriauxmodèlesdecompréhension.
Une analyse d’erreurs montre l’intérêt de modifier les probabilités des treillis de
v
tel-00591997, version 1 - 10 May 2011motsavecdes triggers,unmodèlecacheoud’utiliserdesrèglesarbitrairesobligeantle
passagedansunepartiedugrapheets’appliquantsurlaprésenced’élémentsdéclen-
cheurs(motsouconcepts)enfonctiondel’historique.
L’apprentissage Automatique : la diminution de la taille de l’ap-
prentissage
Onprésentelesméthodesàbaseded’apprentissageautomatiquecommenécessai-
rementplusgourmandesentermedecorpusd’apprentissage.Enmodifiantlatailledu
corpus d’apprentissage, on peut mesurer le nombre minimal ainsi que le nombre op-
timaldedialoguesnécessairesàl’apprentissagedesmodèlesdelangagesconceptuels
dusystèmedecompréhension.Destravauxderecherchemenésdanscettethèsevisent
àdéterminerquelestlaquantitédecorpusnécessaireàl’apprentissagedesmodèlesde
langagesconceptuelsàpartirdelaquellelesscoresd’évaluationsémantiquesstagnent.
Une corrélation est établie entre la taille de corpus nécessaire pour l’apprentissage et
latailledecorpusafindevaliderleguided’annotations.Eneffet,ilsemble,dansnotre
casdel’évaluationMEDIA,qu’ilaitfallusensiblementlemêmenombred’exemplepour,
d’unepart,validerl’annotationsémantiqueet,d’autrepart,obtenirunmodèlestochas-
tique«dequalité»apprissurcorpus.
Deplus,enajoutantdesdonnées a prioriànosmodèlesstochastiques,nousrédui-
sons de manière significative la taille du corpus d’apprentissage nécessaire pour at-
teindrelesmêmescoresdusystèmeentièrementstochastique(prèsdedeuxfoismoins
de corpus à score égal). Cela nous permet de confirmer que l’ajout de règles élémen-
taires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très
encourageants.Ceconstatamenéàlaréalisationd’unsystèmehybridemêlantdesmo-
dèlesàbasedecorpusetdesmodèlesàbasedeconnaissance.
Application à une tâche de routage d’appel : intégration de la
compréhensionetréductiondescoûtsd’apprentissage
Dans un second temps, nous nous appliquons à adapter notre système de com-
préhensionàuneapplicationdedialoguesimple:unsystèmederoutaged’appel.La
problématiquedecettetâcheestlemanquededonnéesd’apprentissagespécifiquesau
domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposi-
tion.Lorsdeceprocessus,nousconservonslesdonnéesgénériquesacquiseslorsdela
campagneMEDIAetnousyintégronslesdonnéesspécifiquesaudomaine.
Nousmontronsl’intérêtd’intégrerunetâchedeclassificationd’appeldansunpro-
cessus de compréhension de la parole spontanée. Malheureusement, nous disposons
detrèspeudedonnéesd’apprentissagerelativesaudomainedelatâche.Enutilisant
notreapprocheintégréededécodageconceptuel,conjointementàunprocessusdefil-
trage,nousproposonsuneapprochesousformede sac de mots et de concepts.Cetteap-
vi
tel-00591997, version 1 - 10 May 2011procheexploitéeparunclassifieurpermetd’obtenirdestauxdeclassificationd’appels
encourageantssurlecorpusdetest,alorsqueleWERestassezélevé.L’applicationdes
méthodesdéveloppéeslorsdelacampagneMEDIAnouspermetd’améliorerlarobus-
tesseduprocessusderoutaged’appels.
vii
tel-00591997, version 1 - 10 May 2011viii
tel-00591997, version 1 - 10 May 2011Abstract
Spokendialoguessystemsareinterfacesbetweenusersandservices.Simpleexamples
of serivces for which thesesdialogue systems can be used include : banking, booking
(hotels, trains, flights), etc. Dialogue are composed of a number of modules.
The main modules include Automatic Speech Recognition (ASR), Spoken Language
Understanding(SLU),DialogueManagementandSpeechGeneration.Inthisthesis,we
concentrateontheSpokenLanguageUnderstandingcomponentofdialoguesystems.
Spokenlanguageunderstanding:theintegratedapproach
In the past, it has usual to separate the Spoken Language Understanding process
from that of Automatic Speech Recognition. First, the Automatic Speech Recognition
process finds the best word hypothesis. Given this hypothesis, we then find the best
semanticinterpretation.Thisthesispresentsamethodfortherobustextractionofbasic
conceptualconstituents(orconcepts)fromanaudiomessage.
Theconceptualdecodingmodelproposedfollowsastochasticparadigmandisdi-
rectlyintegratedintotheAutomaticSpeechRecognitionprocess.Thisapproachallows
us to keep the probabilistic search space on sequences of words produced by the Au-
tomaticSpeechRecognitionmodule,andtoprojectittoaprobabilisticsearchspaceof
sequencesofconcepts.TheexperimentscarriedoutontheFrenchspokendialoguecor-
pusMEDIA,availablethroughELDA,showthattheperformancereachedbyournew
approachisbetterthanthetraditionalsequentialapproach.
As a starting point for evaluation, the effect that deterioration of word error rate
(WER)hasonSLUsystemsisexaminedthoughuseofdifferentASRoutputs.TheSLU
performanceappearstodecreaselinearyasafunctionofASRworderrorrate.Weshow,
however,thattheproposedintegratedmethodofsearchingforbothwordsandconcets,
givesbetterresultstothatofatraditionnanlsequentialapproach.
In order to validate our approach, we conduct experiments on the MEDIA corpus
in the same assessment conditions used during the MEDIA campaign. The goal is to
produceerror-freesemanticinterpretationsfromtranscripts.Theresultsshowthatthe
performanceachievedbyourmodelisasgoodasthesystemsinvolvedintheevalua-
tioncampaign.
ix
tel-00591997, version 1 - 10 May 2011Studies made on the MEDIA corpus show the concept error rate is related to the
worderrorrate,thesizeofthetrainingcorpusand a prioriknwoledgeaddedtoconcep-
tualmodellanguages.
Erroranalysesshowtheinterestofmodifyingtheprobabilitiesofwordlatticewith
triggers,atemplatecacheorbyusingarbitraryrulesrequiringpassagethroughapor-
tion of the graph and applying the presence of triggers (words or concepts) based on
history.
Machinelearning:reducingthesizeofthetrainingcorpus
Methods based on machine learning are generally quite demanding in terms of
amountoftrainingdatarequired.Bychangingthesizeofthetrainingcorpus,themi-
nimumandtheoptimalnumberofdialoguesneededfortrainingconceptuallanguage
modelscanbemeasured.
Research conducted in this thesis aims to determine the size of corpus necessary
for training conceptual language models from which the semantic evaluation scores
stagnated.Acorrelationisestablishedbetweenthenecessarycorpussizeforlearning
and the corpus size necessary to validate the manual annotations. In the case of the
MEDIA evaluation campaign, it took roughly the same number of examples, first to
validate the semantic annotations and, secondly, to obtain a "quality" corpus-trained
stochasticmodel.
Theadditionof a prioriknowledgetoourstochasticmodelsreducesignificantlythe
sizeofthetrainingcorpusneededtoachievethesamescoresasafullystochasticsystem
(nearlyhalfthesizeforthesamescore).Itallowsustoconfirmthattheadditionofbasic
intuitiverules(numbers,zipcodes,dates)givesveryencouragingresults.Itleedsusto
createahybridsystemcombiningcorpus-basedandknowledge-basedmodels.
Applicationtothecallroutingtask:SLUintegrationintoasimple
taskandreductionoftrainingcosts
The second part of the thesis examines the application of the understanding mo-
duletoanothersimpledialoguesystemtask,acallroutingsystem.Aproblemwiththis
specifictaskisalackofdataavailablefortrainingtherequieredlanguagemodels.We
attempt to resolve this issue by supplementing he in-domain data with various other
genericcorporaalreadyavailable,anddatafromtheMEDIAcampaing.
WeshowthebenefitsofintegratingacallclassificationtaskinaSLUprocess.Unfor-
tunately,wehaveverylittletrainingcorpusinthefieldunderconsideration.Byusing
our integrated approach to decode concepts, along with an integrated process, we pro-
posea bag of words and conceptsapproach.Thisapproachusedbyaclassifierachieved
encouraging call classification rates on the test corpus, while the WER was relatively
x
tel-00591997, version 1 - 10 May 2011