La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Informations
Publié par | Thesee |
Nombre de lectures | 38 |
Langue | Français |
Poids de l'ouvrage | 2 Mo |
Extrait
ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire d’Informatique (EA 931)
Construction et stratégie d’exploitation des réseaux
de confusion en lien avec le contexte applicatif de la
compréhension de la parole
par
Bogdan MINESCU
Soutenue publiquement le 11 Décembre 2008 devant un jury composé de :
M. Paul Deléglise Professeur, LIUM, Le Mans Rapporteur
M. Kamel Smaïli Pr, LORIA, Nancy Rapporteur
M. Frédéric Bechet Maître de conférence, LIA, Avignon Examinateur
M. Jean-François Bonastree deence, LIA, Aeur
M. Géraldine Damnati Ingénieur, France Télécom R&D, Lannion Examinateur
M. Yannick Esteve Maître de conférence, LIUM, Le Mans Examinateur
M. Renato De Mori Professeur, LIA, Avignon Directeur de thèse
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon
tel-00629195, version 1 - 5 Oct 20112
tel-00629195, version 1 - 5 Oct 2011Résumé
Cette thèse s’intéresse aux réseaux de confusion comme représentation compacte et
structurée des hypothèses multiples produites par un moteur de reconnaissance de pa-
role et transmises à un module de post-traitement applicatif. Les réseaux de confusion
(CN pour Confusion Networks) sont générés à partir des graphes de mots et struc-
turent l’information sous la forme d’une séquence de classes contenant des hypothèses
de mots en concurrence. Le cas d’usage étudié dans ces travaux est celui des
de reconnaissance transmises à un module de compréhension de la parole dans le cadre
d’une application de dialogue déployée par France Telecom. Deux problématiques in-
hérentes à ce contexte applicatif sont soulevées.
De façon générale, un système de dialogue doit non seulement reconnaître un énoncé
prononcé par un utilisateur, mais aussi l’interpréter afin de déduire sons sens. Du point
de vue de l’utilisateur, les performances perçues sont plus proches de celles de la chaîne
complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont
ces performances que nous cherchons à optimiser. Le cas plus particulier d’une appli-
cation déployée implique de pouvoir traiter des données réelles et donc très variées.
Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert
par le modèle sémantique de l’application ou non, etc. Étant donnée cette grande va-
riabilité, nous posons la question de savoir si le fait d’appliquer les mêmes traitements
sur l’ensemble des données, comme c’est le cas dans les approches classiques, est une
solution adaptée. Avec cette double perspective, cette thèse s’attache à la fois à enrichir
l’algorithme de construction des CNs dans le but d’optimiser globalement le proces-
sus de compréhension et à proposer une stratégie adéquate d’utilisation des réseaux de
confusion dans le contexte d’une application réelle.
Après une analyse des propriétés de deux approches de construction des CNs sur un
corpus de données réelles, l’algorithme retenu est celui du "pivot". Nous en proposons
une version modifiée et adaptée au contexte applicatif en introduisant notamment un
traitement différencié des mots du graphe qui privilégie les mots porteurs de sens.
En réponse à la grande variabilité des énoncés à traiter dans une application déployée,
nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre
en compte les spécificités des différents types d’énoncés. Nous montrons notamment
qu’il est préférable de n’exploiter la richesse des sorties multiples que sur les énoncés
réellement porteurs de sens. Cette stratégie permet à la fois d’optimiser les temps de
calcul et d’améliorer globalement les performances du système.
3
tel-00629195, version 1 - 5 Oct 20114
tel-00629195, version 1 - 5 Oct 2011Abstract
The work presented in this PhD deals with the confusion networks as a compact and
structured representation of multiple aligned recognition hypotheses produced by a
speech recognition system and used by different applications. The confusion networks
(CN) are constructed from word graphs and structure information as a sequence of
classes containing several competing word hypothesis. In this work we focus on the
problem of robust understanding from spontaneous speech input in a dialogue appli-
cation, using CNs as structured representation of recognition hypotheses for the spoken
language understanding module. We use France Telecom spoken dialogue system for
customer care. Two issues inherent to this context are tackled.
A dialogue system does not only have to recognize what a user says but also to unders-
tand the meaning of his request and to act upon it. From the user’s point of view, system
performance is more accurately represented by the performance of the understanding
process than by speech recognition performance only. Our work aims at improving the of the understanding process. Using a real application implies being able
to process real heterogeneous data. An utterance can be more or less noisy, in the do-
main or out of the domain of the application, covered or not by the semantic model of
the application, etc. A question raised by the variability of the data is whether applying
the same processes to the entire data set, as done in classical approaches, is a suitable
solution. This work follows a double perspective : to improve the CN construction al-
gorithm with the intention of optimizing the understanding process and to propose an
adequate strategy for the use of CN in a real application.
Following a detailed analysis of two CN construction algorithms on a test set collected
using the France Telecom customer care service, we decided to use the "pivot" algo-
rithm for our work. We present a modified and adapted version of this algorithm. The
new algorithm introduces different processing techniques for the words which are im-
portant for the understanding process.
As for the variability of the real data the application has to process, we present a new
multiple level decision strategy aiming at applying different processing techniques for
different utterance categories. We show that it is preferable to process multiple recog-
nition hypotheses only on utterances having a valid interpretation. This strategy opti-
mises computation time and yields better global performance.
5
tel-00629195, version 1 - 5 Oct 20116
tel-00629195, version 1 - 5 Oct 2011Table des matières
Résumé 2
Abstract 4
Abréviations utilisées 10
Introduction 12
I Contexte général - la reconnaissance de la parole continue spontanée 19
1 Reconnaissance de la parole 21
1.1 Analyse acoustique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2 Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 statistique du langage . . . . . . . . . . . . . . . . . . . . . 26
1.3.1 Approximation par modèle n-gramme . . . . . . . . . . . . . . . . 27
1.3.2 Modèle à base de classes . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.3 Imbrication des modèles . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.4 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4 Combinaison des modèles acoustiques et des modèles de langage . . . . 29
1.5 Espace de recherche et sorties de reconnaissance . . . . . . . . . . . . . . 29
1.5.1 Liste de N meilleures solutions . . . . . . . . . . . . . . . . . . . . 30
1.5.2 Graphes de mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.3 Réseaux de confusion . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6 Évaluation des systèmes de reconnaissance de la parole . . . . . . . . . . 33
1.6.1 Taux d’erreur mot et word accuracy . . . . . . . . . . . . . . . . . . 33
1.6.2 Précision et rappel . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6.3 Taux d’erreur mot Oracle . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2 Mesures de confiance 37
2.1 Evaluation des mesures de confiance . . . . . . . . . . . . . . . . . . . . . 39
2.1.1 Detection Error Tradeoff . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.2 Confidence Accuracy et Confidence Error Rate . . . . . . . . . . . 40
2.1.3 Entropie croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7
tel-00629195, version 1 - 5 Oct 20112.2 Paramètres prédictifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1 Param