125
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
125
pages
Français
Ebook
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlediplômedeDOCTORAT
SPÉCIALITÉ: Informatique
ÉcoleDoctorale166«InformationStructuresSystèmes-I2S»
LaboratoireInformatiqued’Avignon(EA4128)
Apprentissage Automatique et Compréhension
dans le cadre d’un Dialogue Homme-Machine
Téléphonique à Initiative Mixte
par
ChristopheServan
Soutenuepubliquementle10décembre2008devantunjurycomposéde:
M. MarcEl-Bèze Professeur,LIA,Avignon PrésidentduJury
M. KamelSmaïli Pr,LORIA,Nancy Rapporteur
meM SophieRosset ChargéedeRecherche,LIMSI-CNRS,Paris-Orsay Rapporteur
meM GéraldineDamnati Docteur,OrangeLabs,Lannion Examinateur
M. YannickEstève MaîtredeConférence,LIUM,LeMans
M. RenatoDeMori Professeur,LIA,Avignon Directeurdethèse
M. FrédéricBéchet MaîtredeConférences,LIA,Avignon Co-Directeurdethèse
LaboratoireInformatiqued’Avignon
ConseilGénéraldeVaucluse
tel-00591997, version 1 - 10 May 2011ii
tel-00591997, version 1 - 10 May 2011Remerciements
Toutd’abord,ungrandmerciàRenatoDeMorietFrédéricBéchetquiontaccepté
d’être mes directeurs de thèse. Je les remercie de m’avoir fait confiance et de m’avoir
faitprofiterdeleurexpériencerespective.
Je me permets de remercier tout particulièrement Frédéric Béchet, mon encadrant
direct, de ces quelques mots qui ne sont pas à la mesure de la reconnaissance qu’il
méritenidel’investissementdontilafaitpreuvedanscettethèse;notammentpoursa
patience,sesremarquesetsesencouragements(Alors... ça marche?!)
MerciàRenatoDeMori:jemesouviendraislongtemps,avecplaisir,denosdiscus-
sionsetdenosdébats.Merciencorepourtouslesprécieuxconseilsprodiguéspendant
cettethèse.
Je tiens à remercier Kamel Smaïli et Sophie Rosset qui m’ont fait l’honneur d’être
mes rapporteurs ainsi que tous les membres de mon jury de thèse, à savoir Marc El-
Bèze, Géraldine Damnati et Yannick Estève. Merci de vos remarques qui ont permis
d’améliorerlaclartédecedocument.
JeremercieleConseilGénéraldeVauclused’avoirsubventionnécettethèsepermet-
tantlaréalisationdel’ensembledestravauxprésentésdanscemanuscrit.
Merci encore à tous ceux qui m’ont permis de près ou de loin à réaliser ce travail
de thèse et plus particulièrement mes parents, Jeaninne et Gérard, Mon frère Thierry
et sa compagne Mélina et, enfin, ma fiancée Nathalie, pour leur patience et leur bien-
veillance.Sanseuxrienn’auraitpuêtrepossible.
Ungrandmerciàtousmesamis,plusparticulièrementNoémieetOlivier.
UnremerciementparticulieràLudovicavecquilesdiscussionsm’ontsouventap-
portéunéclairagedifférentsurmontravailderechercheetsouventbeaucoupmotivé.
Merci encore à l’ensemble du LIA de m’avoir accueilli et formé au monde de la
recherche.
Ungrandmerciàl’ensembledupersonnelduCERI:Laurianne,Nanou,Lolo,Chris-
tian, Krusty, Bob, Christophe, Antho, Gilles, Thierry P., Titi, Zak, Ralph, Jens, Mimi,
Audrey,Ti’Fred,MJ,EricC.,Mathieu,Ben,NicoS.,NicoF.,AlexL.,AlexP.,Alain,Flo-
rian B., Florian V., Florian P., Didi, Fred, Georges, Jeff, Patrice, Philou, Corinne, Juan,
iii
tel-00591997, version 1 - 10 May 2011Driss, JP, Yézé, Rachid, Renato, Henry, Marc, Abder, Joceline, Simone, Mireille, Lau-
rence,Dom,Cathy,ValetGisèle(enespérantn’avoiroubliépersonne...)pourleurjoie,
leurbonnehumeurettouscesbonsmomentspassésenleurcompagnie.
iv
tel-00591997, version 1 - 10 May 2011Résumé
LessystèmesdedialoguesorauxHomme-Machinesontdesinterfacesentreunuti-
lisateuretdesservices.Cesservicessontprésentssousplusieursformes:servicesban-
caires,systèmesderéservations(debilletsdetrain,d’avion),etc.Lessystèmesdedia-
logues intègrent de nombreux modules notamment ceux de reconnaissance de la pa-
role,decompréhension,degestiondudialogueetdesynthèsedelaparole.Lemodule
quiconcernelaproblématiquedecettethèseestceluidecompréhensiondelaparole.
La compréhension de la Parole : l’approche intégrée
Leprocessusdecompréhensiondelaparoleestgénéralementséparéduprocessus
detranscription.Ils’agit,d’abord,detrouverlameilleurehypothèsedereconnaissance
puisd’appliquerunprocessusdecompréhension.L’approcheproposéedanscettethèse
estdeconserverl’espacederechercheprobabilistetoutaulongduprocessusdecom-
préhensionenl’enrichissantàchaqueétape.Cetteapprocheaétéappliquéelorsdela
campagned’évaluationMEDIA.Nousmontronsl’intérêtdenotreapprocheparrapport
àl’approcheclassique.
En utilisant différentes sorties du module de RAP sous forme de graphe de mots,
nous montrons que les performances du décodage conceptuel se dégradent linéaire-
ment en fonction du taux d’erreurs sur les mots (WER). Cependant nous montrons
qu’uneapproche intégrée,cherchantconjointementlameilleureséquencedemotsetde
concepts,donnedemeilleursrésultatsqu’uneapproche séquentielle.
Danslesoucidevalidernotreapproche,nousmenonsdesexpériencessurlecorpus
MEDIAdanslesmêmesconditionsd’évaluationquelorsdelacampagneMEDIA.Ils’agit
deproduiredesinterprétationssémantiquesàpartirdestranscriptionssanserreur.Les
résultatsmontrentquelesperformancesatteintesparnotremodèlesontauniveaudes
performancesdessystèmesayantparticipéàlacampagned’évaluation.
L’étudedétailléedesrésultatsobtenuslorsdelacampagneMEDIAnouspermetde
montrer la corrélation entre, d’une part, le taux d’erreur d’interprétation et, d’autre
part, le taux d’erreur mots de la reconnaissance de la parole, la taille du corpus d’ap-
prentissage,ainsiquel’ajoutdeconnaissance a prioriauxmodèlesdecompréhension.
Une analyse d’erreurs montre l’intérêt de modifier les probabilités des treillis de
v
tel-00591997, version 1 - 10 May 2011motsavecdes triggers,unmodèlecacheoud’utiliserdesrèglesarbitrairesobligeantle
passagedansunepartiedugrapheets’appliquantsurlaprésenced’élémentsdéclen-
cheurs(motsouconcepts)enfonctiondel’historique.
L’apprentissage Automatique : la diminution de la taille de l’ap-
prentissage
Onprésentelesméthodesàbaseded’apprentissageautomatiquecommenécessai-
rementplusgourmandesentermedecorpusd’apprentissage.Enmodifiantlatailledu
corpus d’apprentissage, on peut mesurer le nombre minimal ainsi que le nombre op-
timaldedialoguesnécessairesàl’apprentissagedesmodèlesdelangagesconceptuels
dusystèmedecompréhension.Destravauxderecherchemenésdanscettethèsevisent
àdéterminerquelestlaquantitédecorpusnécessaireàl’apprentissagedesmodèlesde
langagesconceptuelsàpartirdelaquellelesscoresd’évaluationsémantiquesstagnent.
Une corrélation est établie entre la taille de corpus nécessaire pour l’apprentissage et
latailledecorpusafindevaliderleguided’annotations.Eneffet,ilsemble,dansnotre
casdel’évaluationMEDIA,qu’ilaitfallusensiblementlemêmenombred’exemplepour,
d’unepart,validerl’annotationsémantiqueet,d’autrepart,obtenirunmodèlestochas-
tique«dequalité»apprissurcorpus.
Deplus,enajoutantdesdonnées a prioriànosmodèlesstochastiques,nousrédui-
sons de manière significative la taille du corpus d’apprentissage nécessaire pour at-
teindrelesmêmescoresdusystèmeentièrementstochastique(prèsdedeuxfoismoins
de corpus à score égal). Cela nous permet de confirmer que l’ajout de règles élémen-
taires et intuitives (chiffres, nombres, codes postaux, dates) donne des résultats très
encourageants.Ceconstatamenéàlaréalisationd’unsystèmehybridemêlantdesmo-
dèlesàbasedecorpusetdesmodèlesàbasedeconnaissance.
Application à une tâche de routage d’appel : intégration de la
compréhensionetréductiondescoûtsd’apprentissage
Dans un second temps, nous nous appliquons à adapter notre système de com-
préhensionàuneapplicationdedialoguesimple:unsystèmederoutaged’appel.La
problématiquedecettetâcheestlemanquededonnéesd’apprentissagespécifiquesau
domaine. Nous la résolvons en partie en utilisant divers corpus déjà à notre disposi-
tion.Lorsdeceprocessus,nousconservonslesdonnéesgénériquesacquiseslorsdela
campagneMEDIAetnousyintégronslesdonnéesspécifiquesaudomaine.
Nousmontronsl’intérêtd’intégrerunetâchedeclassificationd’appeldansunpro-
cessus de compréhension de la parole spontanée. Malheureusement, nous disposons
detrèspeudedonnéesd’apprentissagerelativesaudomainedelatâche.Enutilisant
notreapprocheintégréededécodageconceptuel,conjointementàunprocessusdefil-
trage,nousproposonsuneapprochesous