Construction et stratégie d’exploitation des réseaux de confusion en lien avec le contexte applicatif de la compréhension de la parole, Confusion networks : construction algorithms and Spoken Language Understanding decision strategies in real applications

Thesee - Bogdan Minescu

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

186 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sous la direction de Renato De Mori
Thèse soutenue le 11 décembre 2008: Avignon
Cette thèse s’intéresse aux réseaux de confusion comme représentation compacte et structurée des hypothèses multiples produites par un moteur de reconnaissance de parole et transmises à un module de post-traitement applicatif. Les réseaux de confusion (CN pour Confusion Networks) sont générés à partir des graphes de mots et structurent l’information sous la forme d’une séquence de classes contenant des hypothèses de mots en concurrence. Le cas d’usage étudié dans ces travaux est celui des hypothèses de reconnaissance transmises à un module de compréhension de la parole dans le cadre d’une application de dialogue déployée par France Telecom. Deux problématiques inhérentes à ce contexte applicatif sont soulevées. De façon générale, un système de dialogue doit non seulement reconnaître un énoncé prononcé par un utilisateur, mais aussi l’interpréter afin de déduire sons sens. Du point de vue de l’utilisateur, les performances perçues sont plus proches de celles de la chaîne complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont ces performances que nous cherchons à optimiser. Le cas plus particulier d’une application déployée implique de pouvoir traiter des données réelles et donc très variées. Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert par le modèle sémantique de l’application ou non, etc. Étant donnée cette grande variabilité, nous posons la question de savoir si le fait d’appliquer les mêmes traitements sur l’ensemble des données, comme c’est le cas dans les approches classiques, est une solution adaptée. Avec cette double perspective, cette thèse s’attache à la fois à enrichir l’algorithme de construction des CNs dans le but d’optimiser globalement le processus de compréhension et à proposer une stratégie adéquate d’utilisation des réseaux de confusion dans le contexte d’une application réelle. Après une analyse des propriétés de deux approches de construction des CNs sur un corpus de données réelles, l’algorithme retenu est celui du pivot. Nous en proposons une version modifiée et adaptée au contexte applicatif en introduisant notamment un traitement différencié des mots du graphe qui privilégie les mots porteurs de sens. En réponse à la grande variabilité des énoncés à traiter dans une application déployée, nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre en compte les spécificités des différents types d’énoncés. Nous montrons notamment qu’il est préférable de n’exploiter la richesse des sorties multiples que sur les énoncés réellement porteurs de sens. Cette stratégie permet à la fois d’optimiser les temps de calcul et d’améliorer globalement les performances du système
-Réseaux de confusion
-Compréhension de la parole
-Stratégie de décision
-Graphes de mots
-Approche intégrée
The work presented in this PhD deals with the confusion networks as a compact and structured representation of multiple aligned recognition hypotheses produced by a speech recognition system and used by different applications. The confusion networks (CN) are constructed from word graphs and structure information as a sequence of classes containing several competing word hypothesis. In this work we focus on the problem of robust understanding from spontaneous speech input in a dialogue application, using CNs as structured representation of recognition hypotheses for the spoken language understanding module. We use France Telecom spoken dialogue system for customer care. Two issues inherent to this context are tackled. A dialogue system does not only have to recognize what a user says but also to understand the meaning of his request and to act upon it. From the user’s point of view, system performance is more accurately represented by the performance of the understanding process than by speech recognition performance only. Our work aims at improving the performance of the understanding process. Using a real application implies being able to process real heterogeneous data. An utterance can be more or less noisy, in the domain or out of the domain of the application, covered or not by the semantic model of the application, etc. A question raised by the variability of the data is whether applying the same processes to the entire data set, as done in classical approaches, is a suitable solution. This work follows a double perspective : to improve the CN construction algorithm with the intention of optimizing the understanding process and to propose an adequate strategy for the use of CN in a real application. Following a detailed analysis of two CN construction algorithms on a test set collected using the France Telecom customer care service, we decided to use the pivot algorithm for our work. We present a modified and adapted version of this algorithm. The new algorithm introduces different processing techniques for the words which are important for the understanding process. As for the variability of the real data the application has to process, we present a new multiple level decision strategy aiming at applying different processing techniques for different utterance categories. We show that it is preferable to process multiple recognition hypotheses only on utterances having a valid interpretation. This strategy optimises computation time and yields better global performance
-Confusion networks
-Spoken language understanding
-Decision strategy
-Lattice decoding
-Integrated approach
-Sequential interpretation strategy
Source: http://www.theses.fr/2008AVIG0176/document

Informations

Publié par	Thesee
Nombre de lectures	38
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire d’Informatique (EA 931)
Construction et stratégie d’exploitation des réseaux
de confusion en lien avec le contexte applicatif de la
compréhension de la parole
par
Bogdan MINESCU
Soutenue publiquement le 11 Décembre 2008 devant un jury composé de :
M. Paul Deléglise Professeur, LIUM, Le Mans Rapporteur
M. Kamel Smaïli Pr, LORIA, Nancy Rapporteur
M. Frédéric Bechet Maître de conférence, LIA, Avignon Examinateur
M. Jean-François Bonastree deence, LIA, Aeur
M. Géraldine Damnati Ingénieur, France Télécom R&D, Lannion Examinateur
M. Yannick Esteve Maître de conférence, LIUM, Le Mans Examinateur
M. Renato De Mori Professeur, LIA, Avignon Directeur de thèse
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon
tel-00629195, version 1 - 5 Oct 20112
tel-00629195, version 1 - 5 Oct 2011Résumé
Cette thèse s’intéresse aux réseaux de confusion comme représentation compacte et
structurée des hypothèses multiples produites par un moteur de reconnaissance de pa-
role et transmises à un module de post-traitement applicatif. Les réseaux de confusion
(CN pour Confusion Networks) sont générés à partir des graphes de mots et struc-
turent l’information sous la forme d’une séquence de classes contenant des hypothèses
de mots en concurrence. Le cas d’usage étudié dans ces travaux est celui des
de reconnaissance transmises à un module de compréhension de la parole dans le cadre
d’une application de dialogue déployée par France Telecom. Deux problématiques in-
hérentes à ce contexte applicatif sont soulevées.
De façon générale, un système de dialogue doit non seulement reconnaître un énoncé
prononcé par un utilisateur, mais aussi l’interpréter aﬁn de déduire sons sens. Du point
de vue de l’utilisateur, les performances perçues sont plus proches de celles de la chaîne
complète de compréhension que de celles de la reconnaissance vocale seule. Ce sont
ces performances que nous cherchons à optimiser. Le cas plus particulier d’une appli-
cation déployée implique de pouvoir traiter des données réelles et donc très variées.
Un énoncé peut être plus ou moins bruité, dans le domaine ou hors-domaine, couvert
par le modèle sémantique de l’application ou non, etc. Étant donnée cette grande va-
riabilité, nous posons la question de savoir si le fait d’appliquer les mêmes traitements
sur l’ensemble des données, comme c’est le cas dans les approches classiques, est une
solution adaptée. Avec cette double perspective, cette thèse s’attache à la fois à enrichir
l’algorithme de construction des CNs dans le but d’optimiser globalement le proces-
sus de compréhension et à proposer une stratégie adéquate d’utilisation des réseaux de
confusion dans le contexte d’une application réelle.
Après une analyse des propriétés de deux approches de construction des CNs sur un
corpus de données réelles, l’algorithme retenu est celui du "pivot". Nous en proposons
une version modiﬁée et adaptée au contexte applicatif en introduisant notamment un
traitement différencié des mots du graphe qui privilégie les mots porteurs de sens.
En réponse à la grande variabilité des énoncés à traiter dans une application déployée,
nous proposons une stratégie de décision à plusieurs niveaux qui vise à mieux prendre
en compte les spéciﬁcités des différents types d’énoncés. Nous montrons notamment
qu’il est préférable de n’exploiter la richesse des sorties multiples que sur les énoncés
réellement porteurs de sens. Cette stratégie permet à la fois d’optimiser les temps de
calcul et d’améliorer globalement les performances du système.
3
tel-00629195, version 1 - 5 Oct 20114
tel-00629195, version 1 - 5 Oct 2011Abstract
The work presented in this PhD deals with the confusion networks as a compact and
structured representation of multiple aligned recognition hypotheses produced by a
speech recognition system and used by different applications. The confusion networks
(CN) are constructed from word graphs and structure information as a sequence of
classes containing several competing word hypothesis. In this work we focus on the
problem of robust understanding from spontaneous speech input in a dialogue appli-
cation, using CNs as structured representation of recognition hypotheses for the spoken
language understanding module. We use France Telecom spoken dialogue system for
customer care. Two issues inherent to this context are tackled.
A dialogue system does not only have to recognize what a user says but also to unders-
tand the meaning of his request and to act upon it. From the user’s point of view, system
performance is more accurately represented by the performance of the understanding
process than by speech recognition performance only. Our work aims at improving the of the understanding process. Using a real application implies being able
to process real heterogeneous data. An utterance can be more or less noisy, in the do-
main or out of the domain of the application, covered or not by the semantic model of
the application, etc. A question raised by the variability of the data is whether applying
the same processes to the entire data set, as done in classical approaches, is a suitable
solution. This work follows a double perspective : to improve the CN construction al-
gorithm with the intention of optimizing the understanding process and to propose an
adequate strategy for the use of CN in a real application.
Following a detailed analysis of two CN construction algorithms on a test set collected
using the France Telecom customer care service, we decided to use the "pivot" algo-
rithm for our work. We present a modiﬁed and adapted version of this algorithm. The
new algorithm introduces different processing techniques for the words which are im-
portant for the understanding process.
As for the variability of the real data the application has to process, we present a new
multiple level decision strategy aiming at applying different processing techniques for
different utterance categories. We show that it is preferable to process multiple recog-
nition hypotheses only on utterances having a valid interpretation. This strategy opti-
mises computation time and yields better global performance.
5
tel-00629195, version 1 - 5 Oct 20116
tel-00629195, version 1 - 5 Oct 2011Table des matières
Résumé 2
Abstract 4
Abréviations utilisées 10
Introduction 12
I Contexte général - la reconnaissance de la parole continue spontanée 19
1 Reconnaissance de la parole 21
1.1 Analyse acoustique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2 Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 statistique du langage . . . . . . . . . . . . . . . . . . . . . 26
1.3.1 Approximation par modèle n-gramme . . . . . . . . . . . . . . . . 27
1.3.2 Modèle à base de classes . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.3 Imbrication des modèles . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.4 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4 Combinaison des modèles acoustiques et des modèles de langage . . . . 29
1.5 Espace de recherche et sorties de reconnaissance . . . . . . . . . . . . . . 29
1.5.1 Liste de N meilleures solutions . . . . . . . . . . . . . . . . . . . . 30
1.5.2 Graphes de mots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.5.3 Réseaux de confusion . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.6 Évaluation des systèmes de reconnaissance de la parole . . . . . . . . . . 33
1.6.1 Taux d’erreur mot et word accuracy . . . . . . . . . . . . . . . . . . 33
1.6.2 Précision et rappel . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.6.3 Taux d’erreur mot Oracle . . . . . . . . . . . . . . . . . . . . . . . 34
1.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2 Mesures de conﬁance 37
2.1 Evaluation des mesures de conﬁance . . . . . . . . . . . . . . . . . . . . . 39
2.1.1 Detection Error Tradeoff . . . . . . . . . . . . . . . . . . . . . . . . 39
2.1.2 Conﬁdence Accuracy et Conﬁdence Error Rate . . . . . . . . . . . 40
2.1.3 Entropie croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7
tel-00629195, version 1 - 5 Oct 20112.2 Paramètres prédictifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1 Param