//img.uscri.be/pth/80411ab2e83d974636ec0c68aad895ac38b7ab0f
Cette publication ne fait pas partie de la bibliothèque YouScribe
Elle est disponible uniquement à l'achat (la librairie de YouScribe)
Achetez pour : 12,60 € Lire un extrait

Lecture en ligne (cet ouvrage ne se télécharge pas)

COMPRÉHENSION AUTOMATIQUE DE LA PAROLE SPONTANÉE

De
224 pages
Ce livre présente une méthode stochastique pour la compréhension automatique de la parole spontanée, et évalue ses avantages par rapport aux méthodes traditionnelles par règles. " Parole spontanée " signifie ici que l'on cherche à établir une conversation relativement libre entre l'Homme et la machine. La méthode stochastique décrite dans cet ouvrage permet d'automatiser cette opération tout en apportant au système une certaine robustesse face aux énoncés imprévus.
Voir plus Voir moins

Compréhension automatique de la parole spontanée

@

L'Hannattan,

1999

ISBN: 2-7384-7745-3

Wolfgang MINKER

Compréhension automatique de la parole spontanée

L'Harmattan 5-7, rue de l'École Polytechnique 75005 Paris - FRANCE

L'Harmattan Inc. 55. rue Saint-Jacques Montréal (Qc) - CANADA H2Y lK9

Remerciements
Je tiens à remercier en premier lieu Joseph Mariani, mon directeur de thèse. Son soutien a été précieux lors de mon séjour au LIMSI-CNRS qui a ainsi pu se dérouler dans de bonnes conditions. Je remercie de la même manière Lori Lamel et Jean-Luc Gauvain. Les discussions avec eux m'ont fait partager leurs compétences, notamment dans le domaine de la modélisation stochastique. Mes remerciements vont aussi à Samir Bennacef pour la mise à disposition de ses outils permettant l'étude de portabilité de l'analyseur par règles, ainsi qu'à AggeIiki Fotopoulou, Yannick de Kercadio et Sophie Rosset d'avoir contribué à la définition des représentations sémantiques de référence. Je suis de même reconnaissant à Gilles Adda, Christel Beaujard, Jean-Baptiste Berthelin et Sophie Pageau-Maurice d'avoir consacré du temps à une lecture approfondie du manuscrit. J'ai apprécié la bienveillance de Renato De Mori, Gérard Ligozat, Guy Perennou et Roberto Pieraccini qui ont eu la gentillesse de relire en détail mon manuscrit et de faire partie de mon jury. Mon contact avec le LIMSI-CNRS fut marqué par son accueil chaleureux et par sa générosité.

Résumé
Cette thèse traite du problème de la compréhension automatique de la parole spontanée. L'objectif est de concevoir et d'étudier une méthode stochastique pour l'analyse sémantique et de la comparer avec une méthode conventionnelle d'analyse par règles. Les technologies pour le traitement du langage parlé permettent de médiatiser la communication homme-machine ou de fournir un accès vocal à des sources d'information. Les systèmes, favorisant une interface naturelle, doivent combiner plusieurs traitements pour extraire le contenu sémantique d'un énoncé oral et accomplir une tâche définie: la reconnaissance de la parole, la compréhension du langage naturel, la gestion du dialogue, ainsi que la synthèse vocale. Dans une application bien définie et dans une langue spécifique, les implémentations conventionnelles d'inférence de règles fournissent de bonnes performances. Néanmoins, le développement manuel d'un tel analyseur sémantique explicite est coûteux, car toute application et toute langue nécessitent soit une adaptation, soit, dans le cas le plus extrême, une nouvelle implémentation. Les techniques de modélisation stochastique générales et adaptables à d'autres applications et langues peuvent se substituer aux méthodes par règles (catégorielles), afin de produire une représentation sémantique à partir des phrases transcrites par le module de reconnaissance. Les modèles stochastiques résultent de l'analyse automatique d'un grand nombre de phrases provenant d'utilisateurs pseudo réels. Ainsi, pour porter l'analyseur sémantique vers d'autres applications et langues, il suffit d'établir un corpus de représentations sémantiques propre à l'application et à la langue et d'entraîner le module stochastique sur ces données. Au contraire, dans le cas d'une grammaire par règles, une traduction et une adaptation sont nécessaires. Une méthode stochastique a été développée puis validée dans différentes applications et langues, dont ATIS (Air Travel Information Services) en anglais, MASK (MultimodalMultimedia Automated Service Kiosk) et ARISE (Automatic Railway System for Europe) en français. Les applications se situent dans le domaine de la communication homme-machine et concernent la demande d'informations sur les transports aériens et ferroviaires. Pour ATIS, un système initial, en français, utilisant une méthode par règles a été réalisé au Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (France) et porté en langue anglaise, dans le cadre de cette thèse. Ce dernier système a permis d'étiqueter sémantiquement un corpus de phrases transcrites qui ensuite a été utilisé pour entraîner le module stochastique. Pour les applications MASK et ARISE, les corpus sémantiques ont été établis à l'aide de l'analyseur stochastique en utilisant une méthode d'étiquetage

iv

itérative avec correction manuelle. L'apport essentiel du travail présenté dans celle thèse est de montrer que, pour des applications limitées, une méthode stochastique pour la compréhension de la parole spontanée est plus robuste. Lors d'une comparaison directe, cette méthode fournit de meilleurs résultats qu'une méthode d'analyse par règles qui utilise une description catégorielle de la sémantique. De plus, l'analyseur stochastique est réutilisable et peut être porté facilement vers d'autres applications et/ou langues. L'avantage réside dans le fait que l'effort humain se limite à la définition de la représentation sémantique et à l'étiquetage des données qui sont ensuite utilisées lors de l'apprentissage des paramètres du modèle stochastique. Ceci est plus aisé que la conception, la maintenance et l'extension des règles de grammaire.

Table des matières
1 Introduction 1.1 Système d'interaction vocale. . . . . . . . . . 1.2 Compréhension du langage naturel. . . . . . 1.3 Grammaires et méthodes d'analyse sémantique. 1.4 Objectifs de la thèse . . . . . . . . . . 1.5 Plan.; . . . . . . . . . . 2 État de l'art 2.1 Introduction................................ 2.2 Projets et Applications de Recherche. . . 2.3 Analyseurs par règles. . . . . . . . . . . 2.4 Analyseurs stochastiques. . . . . . . . . . 2.5 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 3 8 11 13 13 14 15 21 23 25 25 25 29 30 32 33 34 38 38 41 41 41 42 43 46 51 52

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Applications et corpus 3.1 Introduction...................... 3.2 Air Travel Information Services. . . . . . . . . . . 3.3 Multimodal-Multimedia Automated Service Kiosk. 3.4 Automatic Railway Information Systems for Europe. 3.5 Caractéristiques qualitatives des applications. . . . 3.6 Évaluation des systèmes d'interaction vocale 3.6.1 Évaluation objective. . . . . . . . . . . . . 3.6.2 Évaluation par l'utilisateur. . . . . . . . . . 3.7 Discussion................................. 4 Portabilité et flexibilité d'une méthode par règles 4.1 Introduction........................... 4.2 Formalisme de la grammaire de cas 4.3 Tour d'horizon. . . . . . . . . . .. ........ 4.3.1 CMU-PHOENtX.......................... 4.3.2 LIMSI-L'ATIS............ 4.3.3 LIMSI-MASK........................... 4.3.4 LIMSI-ARISE............

. . . . . . . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . . . . . . .

. . . . . . . . . . . .

VI

TABLE DES MATIÈRES

4.4 4.5 4.6

Adapter l'analyseur sémantique de L'AnS en anglais. Évaluation de la méthode par règles Résumé.............................

. . . . . .

53 55 57 59 59 59 60 64 65 66 68 71 71 72 72 75 77 78 81 81 83 86 94 98 102 104 llO 113 ll3 ll3 115 116 120 123 125 126 130 132 132 141

5 Modèles de Markov cachés au niveau symbolique 5.1 Introduction................................ 5.2 Modèles de Markov en traitement du langage. . . . . 5.2.1 Principes de base. . . . . . . . . . . . . . . 5.2.2 Estimation des paramètres du modèle. . . . . 5.2.3 Décodage de Viterbi . . . . . . . . . . 5.3 Application à la conversion graphème-phonème. . . . 5.4 Résumé.....................

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 Méthode stochastique pour la compréhension de la parole 6.1 Introduction 6.2 Tour d'horizon. . . . . . . . . . . . . . . . . . . . . 6.2.1 AT&T-CHRONUS . . . . . . . . . . 6.2.2 BBN-HuM 6.2.3 IBM-HIDDENCLUMPINGS . . . . . . . . . . . . . . . 6.2.4 Système de Philips pour les renseignements ferroviaires 6.3 Méthode stochastique pourl'analyse sémantique. . . . . . . . 6.3.1 Aperçu global. . . . . . . . . . . . . . . . . . . . . . 6.3.2 États dans le modèle. . . . . . 6.3.3 Observations dans le modèle. . . . . . . . . . . . . . . 6.3.4 Topologie du modèle. . . . . . . . . . . . . . . . . . 6.3.5 Préparation du corpus. . . . . . . . . 6.3.6 Étape de l'apprentissage. . . . . . . . . . . . . 6.3.7 Étape du décodage et évaluation. . . . . . . . . . . . . 6.4 Résumé

. . . .. . . . .. . . . " . . . .. . . . " . . . . "

7 Application au domaine des renseignements ferroviaires 7.1 Introduction . . . . . . . . . . . . 7.2 Analyse stochastique dans MASK. . . . . . . . . . . . . . . 7.2.1 Étiquetage semi-automatique . . . . . . . . . . . . 7.2.2 États dans le modèle. . . . . . . . . . . 7.2.3 Observations dans le modèle. 7.2.4 Recherche du modèle optimal. . . . . . . . . . . . 7.2.5 Caractéristiques du corpus d'apprentissage. . . . . . . . . . 7.2.6 Évaluation 7.2.7 Discussion 7.3 Analyse stochastique dans ARISE. . . . . . . . . . . . . . . . . . . 7.3.1 Représentation sémantique. . . . . . . . . . . . . . . 7.3.2 Corpus de référence et adaptation pour l'analyse stochastique.

.. .. " .. "

" "

TABLE DES MATIÈRES

vii

7.3.3 Techniquesdu prétraitement. . . . . . 7.3.4 Topologiedu modèle. . . . . . . . . 7.3.5 Caractéristiques données. . . . . des 7.3.6 Évaluation . . . 7.3.7 Discussion................... 7.4 Résumé. . . . . . . . . . . . . . . .
8 Résumé des résultats 8.1 Résultats d'expérimentations. . 8.2 Comparaison avec l'état de l'an.

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . . ..

. . . .

144 147 150 ISI ISS IS6 159 160 164 167

. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . ..

9 Conclusion A Grapheme-to-phoneme AI Introduction...
A.2 Introduction

conversion . . . . . .

. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. .. .. .. .. .. .. ..

173 173

to GRAPHON

. . . . . .. . . . . . . . . . .

173
174 176 177 177 178 179 180 180 183 186 187 189 191 195 197 199

A3 Stochastic model topology. . . . . . . . . A.4 Viterbi decoding. . . . . . . . . . . . . . A.S Corpus. . . . . . . . . . . . . . . A5.1 Data preprocessing. . . . . . . . AS.2 Qualitative data analysis. . A.5.3 Data segmentation. . . . . . . . . A6 Conversion results and discussion. . A.6.1 Grapheme-to-phoneme conversion. A.6.2 Reversibility: phoneme-to-grapheme A7 Summary. . . . . . . . . . . . . . A.8 French and German Phone Sets . . B Cas pour ATIS et MASK C Attributs-valeurs pour ARISE

. . . . . . . . . . . conversion . . . . . . . . . . . . . .

D Interface à la base de données pour L'Ans E Références des requêtes Bibliographie

Table des figures
1.1 1.2 3.1 3.2
3.3

Architecture d'un système d'interaction vocale. . . . . . . . . . Aperçu de la recherche menée dans le cadre de la thèse. . . . . EJlemple d'un dialogue entre l'utilisateur et le système ARISE. . . . . . Évaluation objective d'un système d'interaction vocale. . . . . . . . . .
EJlemples des réponses du système et références correspondantes

3.4 3.5 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11

Évaluation des réponses dans MASK. . . . . . . . . . . . . . . . . . . . Évaluation subjective des utilisateurs dans MASK. . . . . . . . Formalisme de la grammaire sémantique de cas . . . . . . . . . Analyse sémantique et génération des réponses dans le système PHOENIX Requête traitée par PHOENIX. . . . , . . . . . . . . . . . . . . . . . . Architecture du système d'interaction vocale L'ATIS . . . . . . . . . . . Structure déclarative pour l'analyseur sémantique de L'ATIS . . . . . . . Représentations internes générées par le système L'ATIS . . . . . . . . . Requête traitée par l'analyseur sémantique de MASK. . . . . . . . . . . Évolution temporelle et structures du langage. . . . . . . . . . . Classification en traitement du langage. . . . . . . . . . . . . . Modèle de Markov du premier ordre. . . . . . . . . . . . . . . . Modèle de Markov représenté sous forme d'un automate à états finis. . . Questions principales traitées par les HMM . . . . . . . . . . . . . . . . Progression temporelle des observations et des états. . . . . . . . Décodage de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conversion graphème-phonème. . . . . . . . . . . . . . . . . . Schéma fonctionnel de CHRONUS . . . . . . . . . . . . . . . . . Requête traitée par CHRONUS . . . . . . . . . . . . . . . . . . . Requête traitée par HUMà plusieurs niveauJl ........... Arbre et schéma sémantique associé dans HUM. . . . . . . . . . Représentations du langage utilisées par le système de IBM . . . . Analyse sémantique dans le système de Philips. . . . . . . . . . . . . . Grammaire stochastique attribuée. . . . . . . . . . . . . . . . . . . . . Analyseur sémantique fondé sur une méthode stochastique Apprentissage et décodage/test de l'analyseur sémantique. Représentations utilisées par la méthode stochastique dans ATIS Représentations générées par les méthodes stochastique et par règles. . .

2 10 31 35 37 37 38 42 44 45 46 48 51 52 60 61 62 63 64 65 66 68 72 73 75 76 78 79 80 82 83 84 85

x

TABLE DES FIGURES

6.12 Stratégies d'analyse. . . . . . . . . . . . . . . . . . . . . . . . 6.13 Modèle sémantique de Markov ergodique . . . . . . . . . . . . . . . .. 6.14 Analyse des exemples avec le décodeur stochastique. . . . . . . . . .. 6.15 Analyse sémantique utilisant des observations contextuelles. . . . 6.16 Taux d'erreurs sémantiques en fonction des observations contextuelles.. 6.17 Production des séquences sémantiques à l'aide de L'Ans. . . . . . . .. 6.18 Correction de la base de données. . . . . . . . . . . . . . . . . . . .. 6.19 Requête prétraitée et séquence sémantique correspondante 6.20 Procédure récursive du back off pour l'estimation des paramètres. 6.21 Back off pourIes bigrammes. . . . . . . . . . . . . . . . . . . . . . .. 6.22 Évaluation de l'analyseur sémantique à plusieurs niveaux. . . . . . . .. 6.23 Analyse d'erreurs dans ATIS: avantages de la méthode stochastique. .. 6.24 Analyse d'erreurs dans ATIS: inconvénients de la méthode stochastique. 7.1 Représentations utilisées par l'analyseur stochastique dans MASK. . .. 7.2 Procédure semi-automatique pour établir le corpus sémantique de MASK. 7.3 Correspondances entre observations et états dans le corpus MASK 7.4 Définition problématique des concepts dans MASK. . . . . . . . . . .. 7.5 Représentations sémantiques séquentielles simples et augmentées. 7.6 Progression dans le modèle de Markov. . . . . . . . . . . . . . . . .. 7.7 Taux d'erreurs en fonction des observations contextuelles. . . . . . . .. 7.8 Hypothèses erronées fournies par l'analyseur par règles dans MASK. .. 7.9 Hypothèses erronées fournies par l'analyseur stochastique dans MASK.. 7.10 Exemple d'un schéma sémantique de référence dans ARISE. . . 7.11 Correspondance entre observations et états dans ARISE. . . . . . . . .. 7.12 États orientés gauche-droit dans ARISE. . . . . . . . . . . . . . . . .. 7.13 Taux d'erreurs en fonction des observations contextuelles. . . . . . . .. 8.1 Analyse stochastique parrapport à l'analyse parrègles . . . . . . . . .. 8.2 Rappel des stratégies de l'analyse. . . . . . . . . . . . . . . . . . . .. 8.3 Dépendances lors de la conception d'un analyseur stochastique. . . . .. Al Processing the orthographic example sequence with GRAPHON . . . . .. A2 Model topologies for grapheme-to-phoneme conversion. . . . . . . . .. A3 Path through the state machine for an example. . . . . . . . . . . . . .. A.4 Viterbi decoding in grapheme-to-phoneme conversion. . . . . . . A5 Number of observations in function of the observation stream size. . .. A6 Development and training in grapheme-to-phoneme conversion. . A 7 Phoneme error rates for different model topologies. . . . . . . A8 Imbalance between data amount and parameter expanse. . A9 Accuracies for weighted an unweighted Markov Models

88 95 96 97 98 99 100 101 104 105 105 108 109 114 115 116 118 119 124 125 129 130 135 148 149 150 159 161 161
174

175 175 176 179 180 181 181 182

Liste des tableaux
3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 4.5 4.6 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 Valeurs de base des données pour ARPA-ATIS Catégorisation des requêtes ATIS conformément aux standards ARPA.. Corpus ARPA-ATIS de développement. . . . . . . . Corpus ARPA-ATIS de test. . . . . . . . . . . . . . Concepts utilisés par l'analyseur sémantique de L'Ans. Types des marqueurs sémantiques utilisés dans L'Ans. . Concepts pour MASK. . . . . . . . . . . . . . . . . Concepts pour ATIS et mots de référence correspondants Résultats du test ARPA-ATIS en décembre 1994 Requêtes problématiques relevées par L'Ans en anglais. . . . . . . Concepts et sous-concepts utilisés par CHRONUS . . . . . . . . Étiquettes sémantiques dans le corpus ATIS . . . . . . . . . . . . Catégorisation des valeurs de la base de données dans ATIS. . . . . . Analyse lexicale dans le corpus ATIS . . . . . . . . . Classes de mots liées sémantiquement dans ATIS . . . . Étiquettes sémantiques et mots correspondants. . . . . . . . . . Caractéristiques du corpus d'apprentissage dans ATIS. . . . . . . . . Évaluation à plusieurs niveaux dans ATIS . . . . . . . . . . Résultats des évaluations ARPA-ATIS en décembre 1994 . . . . . . . Identification des concepts dans MASK. . . . . . . . . . . . . . . . Étiquettes sémantiques dans le corpus MASK. . . . . . . . Catégorisation des valeurs de la base de données dans MASK. Analyse lexicale dans le corpus MASK. . . . . . . . . . . . . . . . Classes de mots liées sémantiquement dans MASK. . . . . . . . . . Caractéristiques du corpus d'apprentissage dans MASK. . . . . . . . Évaluation sémantique dans MASK. . . . . . . . . . . . . . . . . . Taux de substitutions dans les données test dans MASK. . . . . . . . Attributs et valeurs normalisées admissibles dans ARISE. . . . . . . Marqueurs sémantiques dans le corpus ARISE. . . . . . . . . . . . Analyse lexicale dans le corpus ARISE. . . . . . . . . . . . . . . . Catégorisation des valeurs de la base de données dans ARISE. . . . . Classes de mots liées sémantiquement dans ARISE. . . . . . . . . . Caractéristiques du corpus d'apprentissage dans ARISE. . . . . . . . 26 28 28 29 47 50 52 54 55 .. 56 74 87 ., 90 91 93 95 ., 101 ., 106 ., 110 ., 119 ., 121 . . 122 ., 122 ., 123 ., 126 ., 127 . . 128 . . 134

.,
., ., ., .,

141

145 146 147 151

xii

LISTE DES TABLEAUX

7.15 8.1 8.2 A.I A2 A.3 A.4 A.5 A6 A7

Évaluation sémantique dans ARISE. . . . . . . . . . . . . . . . . . Impact de différentes stratégies de modélisation. . . . . . . . Résumé des résultats de décodage sémantique. Overview of the word lists in French and German. . . . . . . . . . . Qualitative data analysis in French and German. . . . . . . . . . . . Frequent errors in grapheme-to-phoneme conversion. . . . . . . . . Post-evaluated results. . . . . . . . . . . . . . . . . . . . . . . . . Data in grapheme-lo-phoneme and phoneme-to-grapheme conversion.. Word- and grapheme accuracies in phoneme-Io-grapheme conversion. Frequent errors in phoneme-Io-grapheme conversion. . . . . . . . .

.. .. .. .. .. .. .. ..

152 162 162 178 178 184 184 184 185 185

1

Introduction

Les technologies en traitement du langage parlé ont pour objectif de faciliter la communication entre l' homme et la machine et, depuis peu, entre les personnes humaines (pour aider à la traduction d'une langue à une autre, par exemple). Les systèmes d'interaction vocale intègrent des techniques de reconnaissance, de compréhension du langage naturel, de gestion du dialogue et de synthèse de la parole. Ils permettent d'extraire le contenu sémantique ou le sens d'une phrase formulée par l'utilisateur, afin d'accomplir la tâche désirée. C'est pourquoi ces systèmes présentent un intérêt primordial pour des applications interactives. En raison de la multiplication récente des serveurs vocaux, notamment dans un contexte international, l'aspect multilingue s'avère nécessaire. Pour l'étape de l'analyse sémantique plusieurs méthodes peuvent être utilisées: par règles ou stochastiques. Nous insisterons dans cette thèse sur une méthode stochastique robuste facilitant la portabilité de l'analyseur sémantique d'une application ou d'une langue à une autre.

1.1

Système d'interaction vocale

Dans un système d'interaction vocale tel que présenté sur la figure 1.1, on ne s'attache pas simplement à transcrire ce qui est dit, comme dans les systèmes de dictée vocale, mais plutôt à permettre à la machine de comprendre le sens de la phrase formulée avec l'objectif de médiatiser la communication homme-homme ou de fournir un accès vocal à des sources d'information. Un tel système intègre différentes étapes, dont certaines,la reconnaissance vocale, l'analyse sémantique et la génération des réponses du système, sont identiques pour le domaine des interactions homme-machine et homme-homme médiatisées. Un système qui fournit un accès vocal à des sources d'information nécessite une étape supplémentaire de gestion du dialogue ainsi qu'une interface pour accéder à la base de données. Dans ce contexte, la modélisation de la parole spontanée devient particulièrement importante et des problèmes apparaissent concernant le développement du module de l'analyse sémantique et l'intégration de la reconnaissance avec d'autres modalités potentielles telles que le toucher, le clavier, la synthèse de la parole, etc. Le module de reconnaissance vocale (une bonne introduction au problème est donnée par [Juang et Rabiner, 1985]) transforme la parole fournie à l'entrée en une suite de mots.

2

1. INTRODUCTION

interaction

homme-homme

médiatisée

utilisateur

utilisateur

interaction

homme-machine

FIG. 1.1 -Architecture d'un système d'imeraction vocale pour la communication hommehomme médiatisée et la communication homme-machine. Les composantes communes aux deux domaines d'application sont la reconnaissance vocale, l'analyse sémantique, la gestion du dialogue et la génération des réponses.

L'analyse sémantique cherche à convertir cette suite en une représentation sémantique appropriée. Dans le domaine de la communication homme-machine, notamment la demande d'informations, la solution est établie de manière incrémentale, et l'utilisateur, ainsi que l'ordinateur jouent des rôles actifs dans la conversation. Si l'information dans la phrase est insuffisante ou ambiguë pour l'accès à la base de données ou si cette base ne contient pas l'information demandée, la gestion de dialogue permet de guider l'utilisateur, afin qu'il fournisse des informations su pplémentaires. quelquefois indispensables à la construction de la réponse du système. L'information sur le discours est mémorisée et les représentations sémantiques successives sont fusionnées pour que les phrases puissent être interprétées dans le contexte du dialogue en cours. La réponse du système est générée par le module de génération des réponses à partir du schéma sémantique et de l'information extraite de la base de données, et elle est présentée sous forme de texte, de parole ou de sortie graphique. Dans les systèmes de traduction de la parole, la représentation sémantique est transformée par le module de génération des réponses dans une langue cible. Cette thèse se focalise sur l'analyseur sémantique d'un système d'interaction vocale pour la communication homme-machine. Un tel module doit être capable de fournir une représentation du sens en dépit des difficultés inhérentes à la parole spontanée, et en même temps, il doit être portable d'une application ou d'une langue à une autre.

1.2. COMPRÉHENSION DU LANGAGE NATUREL

3

1.2 Compréhension du langage naturel
Les technologies en traitement du langage parlé intègrent de multiples disciplines parmi lesquelles on peut citer le traitement du signal, l'informatique, l'intelligence artificielle, les sciences cognitives et la linguistique. L'objectif technologique est de développer des systèmes intelligents guidés par ordinateur. L'objectif cognitif est de modéliser le processus de traitement du langage chez l'homme en utilisant l'intelligence artificielle. Bien que l'état actuel des connaissances sur le traitement du langage naturel et sa modélisation soient assez préliminaires, le but technologique ne peut être atteint qu'en appliquant ces théories sousjacentes. La partie cognitive, d'autre part, fait appel à ces réalisations technologiques, afin de pouvoir valider ses théories. La modélisation du processus de compréhension, dont une grande partie est fondée sur les approches symboliques, est assez souvent motivée par la saisie des processus cognitifs. Par conséquent, les théories sous-jacentes sont celles des linguistes et des psychologues. Une des conséquences est que pendant de nombreuses années, les technologies vocales ont été assez peu intégrées aussi bien en milieu professionnel que dans le grand public. Les modèles cognitifs sont fondés sur des phrases écrites, ce qui implique que les structures syntaxiques doivent être correctes. Le problème des ellipses a été analysé par [Morell, 1988), mais rares sont les implémentations, qui traitent ce type de phénomène en pratique. Jusqu'à présent, peu de travaux se sont consacrés au traitement des représentations sémantiques incomplètes, comme dans non je ne réserve pas, c'est beaucoup trop long où l'utilisateur refuse de réserver soit parce que le trajet est trop long, soit parce que le processus de la réservation lui-même est trop long. Très peu de travaux considèrent également des effets de parole spontanée [Chapanis, 1979), par exemple les hésitations, les répétitions et les réparations, qui sont très communes en langage naturel, comme dans non, euh, j'aimerais partir si possible après avant dix-sept heures entre seize et dix-sept heures. Le traitement de ce type d'effets devient une nécessité absolue pour le développement plications dans un environnement réel. d'un système destiné aux ap-

1.3 Grammaires et méthodes d'analyse sémantique
Élaborer l'analyseur sémantique d'un système d'interaction vocale nous conduit au choix et à l'implémentation d'une grammaire qui soit bien adaptée à l'application donnée.
Formalisme de grammaire Ce formalisme constitue un aspect primordial pour l'élaboration de l'analyseur sémantique. Les grammaires chomskyennes [Chomsky, 1965), la Grammaire Lexicale Fonctionnelle [Bresnan, 1982), la Grammaire d'Arbres Adjoints [Joshi et Shabes, 1992) et la Grammaire Syntagmatique guidée par les Têtes [Pollard et Sag, 1994) analysent la phrase en termes de constituants syntaxiques et sont ainsi bien adaptées aux textes écrits. Leur point commun est qu'elles fournissent une description abstraite du langage. En revanche, elles ne considèrent pas son utilisation pratique dans un système interactif. Or, dans des conditions réelles d'utilisation, on constate un nombre considérable

4

1. INTRODUCTION

de phénomènes et de formulations spontanés qui peuvent difficilement être traités par les théories linguistiques traditionnelles. C'est pourquoi une grammaire utilisable dans des conditions pratiques doit être tolérante dès sa conception. Les Grammaires Sémantiques [Burton, 1976] telles que la Grammaire de Cas [Fillmore, 1968] analysent la structure de la phrase à un niveau informatif plutôt que syntaxique. Elles permettent d'accueillir un plus vaste éventail d'énonciations possibles et sont ainsi robustes et plus adaptées à la langue spontanée utilisée dans l'interaction vocale. Sémantique Le terme et son utilisation seront limités, dans ce qui suit, aux interprétations littérales des phrases ou de leurs éléments en contexte. Les phénomènes comme l'ironie, la métaphore ou les aspects de conversation seront ignorés pour le moment. Une description sémantique d'une langue procède d'un mécanisme ayant recours à un ensemble d'états finis qui permet de caractériser la phrase sur la base de ses constituants: leurs interprétations et la manière dont elles sont regroupées. Traitement de l'information linguistique Un tel traitement concerne l'implémentation ou la réalisation d'un formalisme de grammaire. Si la grammaire est implémentée sous forme de règles qui sont établies manuellement, les structures qui en résultent risquent de devenir assez complexes. Cela peut entraîner des problèmes de maintenance et de compatibilité. Le jeu de règles est en général adapté, afin de donner des performances optimales pour une tâche spécifique. Cela rend ce type d'analyse rigide, ce qui compromet la portabilité vers d'autres domaines et des applications multilingues. Les méthodes statistiques telles que celles fondées sur les modèles de Markov ou Hidden Markov Models (HMM) [Rabiner et Juang, 1986] donnent de bons résultats aux niveaux acoustique et linguistique. Il a alors été envisagé d'utiliser ces méthodes pour l'analyse sémantique. Une plus grande souplesse est obtenue grâce au fait de décoder l'information sémantique dans un corpus au lieu de générer un jeu de règles explicites. Après une analyse automatique des données, l' information sémantique est mémorisée sous forme de paramètres d'un modèle stochastique. Grammaires syntaxiques

Les grammaires chomskyennes forment un vaste éventail des formalismes linguistiques. Elles sont souvent désignées par le terme de grammaires d'unification et contiennent des descriptions formelles et complexes des unités grammaticales (mots, éléments de phrases) représentées par des couples (attributs, valeurs) ou des traits correspondants. Ces grammaires cherchent à intégrer les théories linguistiques formelles au moyen de l'intelligence artificielle. Les phénomènes linguistiques, considérés comme une connaissance d'un expert sont modélisés sous forme d'une grammaire qui analyse la structure de la phrase en termes de sa syntaxe correcte.

Grammaires Formelles: Une grammaire formelle permet de caractériser un langage par un ensemble de règles. En fonction du type de règles syntaxiques, Chomsky [Chomsky, 1965] distingue entre les grammaires non-restrictives, contextuelles, hors-con-

1.3. GRAMMAIRES ET MÉTHODES

D'ANALYSE

SÉMANTIQUE

5

texte et régulières. Les grammaires hors-contexte ou context-free grammars (CFG) sont largement appliquées pour représenter le langage naturel. Malgré l'existence de méthodes puissantes qui pourraient faciliter l'implémentation d'une grammaire horscontexte, un nombre considérable de règles serait nécessaire pour décrire la parole spontanée et le langage naturel dans sa totalité. Il est théoriquement possible de définir des grammaires à une portée suffisante, mais leur développement serait extrêmement coûteux. Actuellement il n'existe aucune méthode efficace pour l'ingénierie de ce type de grammaire. Un exemple d'une CFG sont les Réseaux de Transition Récursifs ou Recursive Transition Networks (RTN) [Allen, 1988]. Ils contiennent des nœuds et des arcs, annotés par des catégories de mots. Un RTN est récursif, car ses étiquettes font référence à d'autres réseaux plutôt qu'à des catégories de mots. Grammaires Arbres Adjoints ou Tree Adjoining Grammmars (TAG), décrites par [Joshi, 1985] : Le formalisme est assez proche d'une grammaire hors-contexte, mais il ajoute des performances supplémentaires pour traiter des phénomènes linguistiques. Aucune règle n'existe dans ce formalisme. Un modèle TAG est entièrement lexicalisé, c' est-àdire il associe systématiquement des descriptions syntaxiques aux mots fournis à J'entrée. Un ensemble de structures qui contiennent des arbres initiaux décrit les phrases et leurs éléments les plus simples de la langue. Ces arbres élémentaires sont ensuite combinés par une opération dite d'adjonction. Grammaires Lexiques Fonctionnelles ou Lexical Functional Grammars (LFG), décrites par [Kaplan et Bresnan, 1982]: Ce sont des grammaires hors-contexte qui accordent une importance primordiale à l'utilisation du lexique. Elles appliquent une analyse fondée principalement sur les caractéristiques syntaxiques et sémantiques des mots. Elles explicitent les articulations entre les niveaux lexical, syntaxique et sémantique et, en général, génèrent des modèles plus riches et d'une plus grande souplesse par rapport aux grammaires génératives. Une LFG produit un arbre avec une structure des éléments des phrases contenant des relations grammaticales sous-jacentes. Grâce à son aspect explicite, une LFG est plus facile à mettre en œuvre qu'une grammaire hors-contexte classique. Une des faiblesses majeures est l'ordre fixe des constituants et le fait que cette grammaire nécessite des lexiques exhaustifs, ce qui devient problématique pour la représentation du langage naturel spontané. Une bonne implémentation d'un analyseur sémantique LFG est l'analyseur et générateur LR (Left-to-Right) généralisé (GLR) [Tomita et al., 1988], qui utilise des grammaires d'analyse et de génération hors-contexte augmentées. Elles sont compilées sous forme d'un tableau LR augmenté puis utilisées par l'algorithme LR généralisé de Tomita [Tomita, 1997]. L'avantage de l'implémentation LFG réside dans la vitesse de compilation et le temps d'exécution. Grammaire Syntagmatique mar (HPSG) [Pollard maire Syntagmatique [Gazdar et al., 1985] guidée par les Têtes ou Head-Driven Phrase Structure Gramet Sag, 1994] : Le modèle HPSG, une généralisation de la GramGénéralisée ou Generalized Phrase Structure Grammar (GPSG) a été conçu pour permettre J'intégration plus explicite de diffé-

6

1. INTRODUCTION

rents niveaux de l'analyse linguistique: la phonétique, la syntaxe et la sémantique. Un des aspects les plus intéressants du modèle HPSG réside dans le fait qu'il encode le lexique, la syntaxe et la sémantique dans une seule structure. Cela permet la description conjointe des phénomènes syntaxiques et sémantiques, ainsi que de leurs interactions. Les descriptions produites par une HPSG sont déclaratives, indépendantes de l'ordre et réversibles. L'aspect commun des grammaires chomskyennes, est qu'elles fournissent une description formelle du langage et ne considèrent en revanche pas leur utilisation dans un système d'interaction vocale. Or, dans des conditions réelles, on constate un nombre considérable de phénomènes spontanés, qui ne sont pas traités par les théories linguistiques. C'est pourquoi une grammaire utilisable dans des conditions réelles doit aller largement au-delà des propos de n'importe quelle théorie, afin de couvrir une portion substantielle du langage observé. Même dans ces conditions, des brèches dans la couverture sont fréquentes, car elles nécessitent une conception laborieuse des règles de grammaire supplémentaires et de nouvelles représentations.

Grammaires sémantiques
Dans le cadre de cette thèse, le langage est considéré comme étant un support de conversation, et l'aspect le plus important d'un analyseur sémantique est d'extraire le sens plutôt que de constater que la phrase contient des structures syntaxiques correctes. L'objectif est de ne pas refuser une phrase agrammaticale, mais d'interpréter ce que le locuteur voulait dire. C'est pourquoi une méthode d'analyse orientée vers les aspects sémantiques se montre plus appropriée face aux effets de la parole spontanée. Dès lors, on constate une utilisation plus fréquente des grammaires qui sont capables d'interpréter la phrase sans exiger que sa structure syntaxique soit entièrement correcte. Comme les catégories sémantiques sont spéci/iques à l'application, elles peuvent être plus robustes face aux déviations grammaticales. Dans un système d'interaction vocale, la sémantique peut être considérée comme une représentation interne de la machine destinée à provoquer un processus ou une réaction du système dans le cadre d'une application spécifique donnée. Grammaires Sémantiques décrites par [Burton, 1976] : Ces grammaires sont similaires aux grammaires chomskyennes, mais elles font intervenir des informations sémantiques. Parmi les inconvénients il convient de citer leur non-portabilité d'un domaine à l'autre. Il s'ajoute à ce fait que, bien que ces grammaires soient dites sémantiques, elles restent assez proches des grammaires formelles et n'offrent donc pas la flexibilité recherchée pour le traitement des énoncés oraux. Grammaire de Cas ou Case Grammar: Le concept linguistique d'origine d'un schéma est celui d'un concept global qui contient un ensemble des cas ou des contraintes. Le formalisme, introduit par [Fillmore, 1968], modélise la phrase en profondeur. Lors de cette modélisation, la sémantique joue un rôle primordial, mais les contraintes syntaxiques locales sont également utilisées. La grammaire de cas est un des rares for-