Statistical methods in natural language understanding and spoken dialogue systems [Elektronische Ressource] / vorgelegt von: Klaus Macherey
171 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Statistical methods in natural language understanding and spoken dialogue systems [Elektronische Ressource] / vorgelegt von: Klaus Macherey

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
171 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Statistical Methods inNatural Language Understandingand Spoken Dialogue SystemsVon der Fakult¨at fur¨ Mathematik, Informatik undNaturwissenschaften der RWTH Aachen Universityzur Erlangung des akademischen Grades einesDoktors der Naturwissenschaften genehmigte Dissertationvorgelegt von:Diplom–Informatiker Klaus Machereyaus Dure¨ n-BirkesdorfBerichter: Universit¨atsprofessor Dr.-Ing. Hermann NeyProfessor Dr.-Dr. Wolfgang MinkerTag der mundlic¨ hen Prufung¨ : 22. September 2009Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfug¨ bar.AbstractModern automatic spoken dialogue systems cover a wide range of applications. Thereare systems for hotel reservations, restaurant guides, systems for travel and timetableinformation, as well as systems for automatic telephone-banking services. Building thedifferent components of a spoken dialogue system and combining them in an optimal waysuch that a reasonable dialogue becomes possible is a complex task because during thecourse of a dialogue, the system has to deal with uncertain information. In this thesis,we use statistical methods to model and combine the system’s components. Statisticalmethods provide a well-founded theory for modeling systems where decisions have to bemade under uncertainty.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 9
Langue English
Poids de l'ouvrage 1 Mo

Extrait

Statistical Methods in
Natural Language Understanding
and Spoken Dialogue Systems
Von der Fakult¨at fur¨ Mathematik, Informatik und
Naturwissenschaften der RWTH Aachen University
zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften genehmigte Dissertation
vorgelegt von:
Diplom–Informatiker Klaus Macherey
aus Dure¨ n-Birkesdorf
Berichter: Universit¨atsprofessor Dr.-Ing. Hermann Ney
Professor Dr.-Dr. Wolfgang Minker
Tag der mundlic¨ hen Prufung¨ : 22. September 2009
Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfug¨ bar.Abstract
Modern automatic spoken dialogue systems cover a wide range of applications. There
are systems for hotel reservations, restaurant guides, systems for travel and timetable
information, as well as systems for automatic telephone-banking services. Building the
different components of a spoken dialogue system and combining them in an optimal way
such that a reasonable dialogue becomes possible is a complex task because during the
course of a dialogue, the system has to deal with uncertain information. In this thesis,
we use statistical methods to model and combine the system’s components. Statistical
methods provide a well-founded theory for modeling systems where decisions have to be
made under uncertainty. Starting from Bayes’ decision rule, we define and evaluate var-
ious statistical models for these components, which comprise speech recognition, natural
language understanding, and dialogue management.
The problem of natural language understanding is described as a special machine
translation problem where a source sentence is translated into a formal language target
sentence consisting of concepts. For this, we define and evaluate two models. The first
model is a generative model based on the source-channel paradigm. Because the word
contextplaysanimportantroleinnaturallanguageunderstandingtasks,weuseaphrase-
based translation system in order to take local context dependencies into account. The
second model is a direct model based on the maximum entropy framework and works
similar to a tagger. For the direct model, we define several feature functions that capture
dependencies between words and concepts. Both methods have the advantage that only
source-target pairs in the form of input-output sentences must be provided for training.
Thus, there is no need to generate grammars manually, which significantly reduces the
costs of building dialogue systems for new domains.
Furthermore, we propose and investigate a framework based on minimum error rate
trainingthatresultsinatightercouplingbetweenspeechrecognitionandlanguageunder-
standing. This framework allows for an easy integration of multiple knowledge sources by
minimizing the overall error criterion. Thus, it is possible to add language understanding
features to the speech recognition framework and thus to minimize the word error rate,
or to add speech recognition features to the language understanding framework and thus
to minimize the slot error rate.
Finally,wedevelopatask-independentdialoguemanagerusingtreesasthefundamental
data structure. Based on a cost function, the dialogue manager chooses the next dialogue
actionwithminimalcosts. Thedesignandthetask-independenceofthedialoguemanager
leads to a strict separation of a given application and the operations performed by the
dialogue manager, which simplifies porting an existing dialogue system to a new domain.
We report results from a field test in which the dialogue manager was able to choose
the optimal dialogue action in 90% of the decisions. We investigate techniques for error
handling based on confidence measures defined for speech recognition and language un-
derstanding. Furthermore, we investigate the overall performance of the dialogue system
when confidence measures from speech recognition and natural language understandingare incorporated into the dialogue strategy. Experiments have been carried out on the
TelDirdatabase,whichisaGermanin-housetelephonedirectoryassistancecorpus, and
on the Taba database, which is a German in-house train time scheduling task.Zusammenfassung
Automatische sprachbasierte Dialogsysteme werden heutzutage in zahlreichen Anwen-
dungen eingesetzt. So gibt es beispielsweise Dialogsysteme fur¨ Hotelreservierungen, Sys-
teme zur Reise- und Fahrplanauskunft, sowie Dialogsysteme fur¨ das sogenannte Telefon-
Banking. Damit ein fur¨ den Benutzer sinnvoller Dialog zustande kommt, muss ein Di-
alogsystem diejenigen Entscheidungen treffen, die zur Beantwortung der Benutzeranfrage
fuhren.¨ Da ein sprachbasiertes Dialogsystem nur ein unvollst¨andiges Modell der Wirk-
lichkeit besitzt und die Dekodierung von Benutzereingaben fehlerhaft sein kann, k¨onnen
die Entscheidungen eines Dialogsystems im allgemeinen nicht auf Basis von Faktenwissen
getroffen werden, sondern mussen¨ aufgrund unvollst¨andigen Wissens erfolgen. Um die
UnsicherheitindenEntscheidungenzubeschreiben,verwendenwirindieserArbeitstatis-
tischeMethodenzurModellierungderKomponenteneinesDialogsystems. Ausgehendvon
der Bayesschen Entscheidungsregel definieren und evaluieren wir verschiedene Modelle,
mit deren Hilfe wir die Spracherkennungskomponente, die Sprachverstehenskomponente
und den Dialog Manager modellieren.
Das Problem des Verstehens natur¨ licher Sprache wird als ein spezielles Problem der
¨maschinellen Ubersetzung beschrieben, wobei ein Satz der Quellsprache in einen Satz der
Zielsprache ub¨ ersetzt wird. Die Zielsprache ist dabei eine formale Sprache bestehend aus
Konzepten. Hierzu untersuchen wir zwei Modelle: das erste Modell ist eine generatives
Modell, welches auf dem Source-Channel Paradigma basiert. Da lokale Kontexte von
W¨ortern eine zentrale Rolle beim Verstehen naturlic¨ her Sprache spielen, verwenden wir
¨ein phrasenbasiertes Ubersetzungssystem, dass W¨orter im Kontext modellieren kann.
Das zweite Modell ist ein direktes Modell, welches auf dem Maximum Entropie Ansatz
basiert und ahnlic¨ h wie ein Tagger eingesetzt wird. Fur¨ das direkte Modell definieren wir
zahlreiche Feature Funktionen, welche die komplexen Abh¨angigkeiten zwischen W¨ortern
und Konzepten erfassen. Beide Ans¨atze haben den Vorteil, dass nur Satzpaare in Form
vonEin-AusgabeS¨atzendemTrainingsalgorithmuszurVerfugung¨ gestelltwerdenmus¨ sen.
Dadurch entf¨allt die manuelle Generierung von Grammatiken, welche h¨aufig im Kontext
von Sprachverstehenssystemen eingesetzt werden.
Desweiteren stellen wir einen auf dem Minimum Error Rate Training basierenden
Ansatzvor,dereinest¨arkereKopplungzwischenSpracherkenungundSprachverstehener-
laubt. DerAnsatzermoglic¨ htaufeinfacheWeisedieIntegrationzahlreicherFeatureFunk-
tionen bei gleichzeitiger Minimierung des Evaluationskriteriums. Dadurch ist es m¨oglich,
dieWissensquellenderSprachverstehenskomponenteindieSpracherkennungskomponente
zuintegrierenundsomitdieWortfehlerratezuminimieren,beziehungsweiseumgekehrtdie
Wissensquellen der Spracherkennungskomponente mit den Wissensquellen der Sprachver-
stehenskomponente zu kombinieren und somit die Konzeptfehlerrate zu minimieren.
Zusa¨tzlich entwickeln wir einen dom¨anenunabh¨angigen Dialog Manager, der auf Ba-
sis einer Kostenfunktion die n¨achstfolgende Dialogaktion bestimmt. Die Dom¨anenun-
abh¨angigkeitdesDialogManagersfuhrt¨ zueinerstriktenTrennungzwischenderkonkreten
Applikation und den Operationen, die der Dialog Manager ausfuhr¨ en kann. Dies ver-einfacht die Portierung eines existierenden Dialog Managers auf eine neue Dom¨ane. Wir
zeigen empirisch, dass der Dialog Manager in einem Feldtest in der Lage war fur¨ ca. 90%
aller Entscheidungen die jeweils optimale Entscheidung zu treffen.
Abschließend untersuchen wir Techniken zur Fehlerbehandlung in sprachbasierten Di-
alogsystemen basierend auf Konfidenzmaßen. Dabei untersuchen wir die Performanz
des Dialogsystems fur¨ den Fall, dass Konfidenzmaße fur¨ die Spracherkennung und das
Sprachverstehen in die Dialogstrategie eingebaut werden. Experimentelle Resultate wer-
den fur¨ die TelDir und die Taba Datensammlung diskutiert. Die TelDir Daten-
sammlung ist ein Korpus aus der Dom¨ane Telefonbuchassistent fur¨ die deutsche Sprache,
die Taba Datensammlung ist ein Korpus aus der Dom¨ane Fahrplanauskunftssystem,
ebenfalls fur¨ die deutsche Sprache.Contents
1 Introduction 1
2 Fundamentals of Spoken Dialogue Systems 5
2.1 Architecture of a Spoken Dialogue System . . . . . . . . . . . . . . . . . . 5
2.2 Decision Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Automatic Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Natural Language Understanding . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Dialogue Management and Strategies . . . . . . . . . . . . . . . . . . . . . 21
2.6 Natural Language Generation . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7 Speech Synthesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Measuring System Performance . . . . . . . . . . . . . . . . . . . . . . . . 26
3 State-of-the-Art 29
3.1 Applications and Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Sp

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents