Efficient integration of hierarchical knowledge sources and the estimation of semantic confidences for automatic speech interpretation [Elektronische Ressource] / Robert Lieb
132 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Efficient integration of hierarchical knowledge sources and the estimation of semantic confidences for automatic speech interpretation [Elektronische Ressource] / Robert Lieb

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
132 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Lehrstuhl fur˜ Mensch-Maschine-KommunikationTechnische Universit˜at Munc˜ henE–cient Integration of Hierarchical KnowledgeSources and the Estimation ofSemantic Confldencesfor Automatic Speech InterpretationRobert LiebVollst˜andiger Abdruck dervon der Fakult˜at fur˜ Elektrotechnik und Informationstechnikder Technischen Universit˜at Munc˜ henzur Erlangung des akademischen Gradeseines Doktor-Ingenieurs genehmigten Dissertation.Vorsitzender: Univ.-Prof. Dr.-Ing. Georg F˜arberPrufer˜ der Dissertation:1. apl. Prof. Dr.-Ing., Dr.-Ing. habil. Gun˜ ther Ruske2. Univ-Prof. Dr.-Ing. Gernot A. Fink (Universit˜at Dortmund)Die Dissertation wurde am 19.06.2006 bei derTechnischen Universit˜at Munc˜ hen eingereicht und durch dieFakult˜at fur˜ Elektrotechnik und Informationstechnikam 03.11.2006 angenommen.AbstractThis thesis presents a system for the interpretation of natural speech which servesas input module for a spoken dialog system. It carries out the task of extractingapplication-speciflc pieces of information from the user utterance in order to passthem to the control module of the dialog system.By following the approach of integrating speech recognition and speech interpre-tation, the system is able to determine the spoken word sequence together with thehierarchical utterance structure that is necessary for the extraction of informationdirectly from the recorded speech signal.

Sujets

Informations

Publié par
Publié le 01 janvier 2006
Nombre de lectures 11
Langue English
Poids de l'ouvrage 1 Mo

Extrait

Lehrstuhl fur˜ Mensch-Maschine-Kommunikation
Technische Universit˜at Munc˜ hen
E–cient Integration of Hierarchical Knowledge
Sources and the Estimation of
Semantic Confldences
for Automatic Speech Interpretation
Robert Lieb
Vollst˜andiger Abdruck der
von der Fakult˜at fur˜ Elektrotechnik und Informationstechnik
der Technischen Universit˜at Munc˜ hen
zur Erlangung des akademischen Grades
eines Doktor-Ingenieurs genehmigten Dissertation.
Vorsitzender: Univ.-Prof. Dr.-Ing. Georg F˜arber
Prufer˜ der Dissertation:
1. apl. Prof. Dr.-Ing., Dr.-Ing. habil. Gun˜ ther Ruske
2. Univ-Prof. Dr.-Ing. Gernot A. Fink (Universit˜at Dortmund)
Die Dissertation wurde am 19.06.2006 bei der
Technischen Universit˜at Munc˜ hen eingereicht und durch die
Fakult˜at fur˜ Elektrotechnik und Informationstechnik
am 03.11.2006 angenommen.Abstract
This thesis presents a system for the interpretation of natural speech which serves
as input module for a spoken dialog system. It carries out the task of extracting
application-speciflc pieces of information from the user utterance in order to pass
them to the control module of the dialog system.
By following the approach of integrating speech recognition and speech interpre-
tation, the system is able to determine the spoken word sequence together with the
hierarchical utterance structure that is necessary for the extraction of information
directly from the recorded speech signal.
The e–cient implementation of the underlying decoder is based on the powerful
tool of weighted flnite state transducers (WFSTs). This tool allows to compile all
involved knowledge sources into an optimized network representation of the search
space which is constructed dynamically during the ongoing decoding process.
In addition to the best-matching result, the integrated decoder architecture
allows to determine grammatical alternatives which are exploited to estimate
semanticconfldencevaluesfortheextractedpiecesofinformation. Thisnewmethod
improves the robustness against interpretation errors without requiring any addi-
tional knowledge source.
iiiZusammenfassung
Diese Arbeit beschreibt ein System zur Interpretation von naturlic˜ her Sprache, das
als Teil eines automatischen Dialogsystems applikations-speziflsche Informationen
aus Benutzer˜au…erungen extrahiert. Durch die Vereinigung von Spracherkennung
und -interpretation gelingt es, die fur˜ die Informationsextraktion erforderliche hier-
˜archische Struktur einer Au…erung direkt aus dem Sprachsignal zu gewinnen.
Die e–ziente Realisierung des Dekoders beruht auf dem m˜achtigen Kalkul˜ der
gewichteten endlichen Transduktoren (engl. WFST), der voranschreitend mit dem
Ablauf des Dekodiervorgangs aus allen involvierten Wissensquellen eine optimale
Netzwerkdarstellung des aktiven Suchraums generiert.
NebendembestenErgebniserlaubtdieintegrierteDekoderarchitekturdieErzeu-
gungvongrammatischenAlternativen, aufderenBasissemantischeKonfldenzenfur˜
die extrahierten Informationen gesch˜atzt werden. Damit wird die Fehlerrobustheit
erh˜oht, ohne dass hierfur˜ eine weitere Wissensquelle erforderlich ist.
ivDanksagungen
Ich m˜ochte mich herzlich bei meinem ehemaligen Kollegen Matthias Thomae fur˜ die
sehr gute Zusammenarbeit w˜ahrend unserer gemeinsamen Forschungst˜atigkeit am
Lehrstuhl fur˜ Mensch-Maschine-Kommunikation bedanken.
Dank gebuhrt˜ naturlic˜ h ebenso Prof. Ruske, welcher mich w˜ahrend dieser Zeit
bestens betreut hat; seine Burot˜ ure˜ stand stets ofien fur˜ Fragen und Diskussio-
nen. Vielen Dank auch an den Zweitgutachter Prof. Fink, an den Lehrstuhlinhaber
Prof. Rigoll, sowie an die BMW AG, welche durch die F˜orderung von Forschungs-
Projekten diese Arbeit flnanziert und somit m˜oglich gemacht hat.
\Last but not least" m˜ochte ich mich bei meiner Frau Ofelia bedanken, die mir
auch in schwierigen Phasen der Doktorarbeit stets den Ruc˜ ken freigehalten hat.
Robert Lieb
Munc˜ hen, Januar 2007
vContents
1 Introduction 1
1.1 Spoken language understanding . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Speech recognition . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Natural language understanding . . . . . . . . . . . . . . . . 5
1.1.3 Coupling speech recognition and interpretation . . . . . . . . 6
1.2 Issue of robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Thesis contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Word-based speech recognition 13
2.1 Decoding problem for speech recognition . . . . . . . . . . . . . . . . 13
2.2 Acoustic modeling by Hidden Markov Models . . . . . . . . . . . . . 14
2.3 HMM parameter estimation . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Isolated word recognition . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Continuous speech recognition. . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 Language model . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.2 Integrated search network . . . . . . . . . . . . . . . . . . . . 18
2.5.3 Time-synchronous Viterbi decoding . . . . . . . . . . . . . . 19
2.5.4 Backtracking . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.5 Representation of probabilities . . . . . . . . . . . . . . . . . 20
2.6 Sub-word modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6.1 Phonemes as sub-word units . . . . . . . . . . . . . . . . . . 21
2.6.2 Context-dependent phoneme models . . . . . . . . . . . . . . 21
3 Modeling approach for one-stage speech interpretation 23
3.1 Representation and processing of formal languages . . . . . . . . . . 23
3.1.1 Context-free and regular grammars . . . . . . . . . . . . . . . 23
3.1.2 Finite-state automata and regular expressions . . . . . . . . . 25
3.1.3 Parsing algorithms . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.4 Recursive transition networks . . . . . . . . . . . . . . . . . . 28
3.1.5 Stochastic weights . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Generalizing vs. application-speciflc semantics . . . . . . . . . . . . . 29
3.2.1 Feature grammars and flrst order logic . . . . . . . . . . . . . 29
3.2.2 Semantic and slot-value pairs . . . . . . . . . . . . 30
3.3 One-stage speech interpretation . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Tight coupling approach . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Weighted transition network hierarchy (WTNH) . . . . . . . 34
3.3.3 Creation of the hierarchical language model (HLM). . . . . . 34
viCONTENTS
4 Integration of speech recognition and interpretation 39
4.1 Static search space organization . . . . . . . . . . . . . . . . . . . . . 39
4.2 Introduction to WFST-based speech recognition . . . . . . . . . . . 42
4.2.1 E–cient integration of knowledge sources in LVSR . . . . . . 42
4.2.2 Deflnition of WFSTs . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3 Automaton representation of knowledge sources . . . . . . . . 44
4.2.4 Composition and Determinization . . . . . . . . . . . . . . . 45
4.2.5 Problem of \determinizability" . . . . . . . . . . . . . . . . . 52
4.2.6 On-demand computation of local automata operations . . . . 52
4.3 WFST-based integration of recognition and parsing . . . . . . . . . . 55
4.3.1 Weighted flnite-state acceptor representing the HLM . . . . . 55
4.3.2 Lexicon transducer . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.3 Acoustic model transducer . . . . . . . . . . . . . . . . . . . 62
4.3.4 Triphone context-dependency transducer. . . . . . . . . . . . 63
4.4 Viterbi decoding of best-matching parse tree . . . . . . . . . . . . . 65
4.4.1 Token passing in on-demand created search space . . . . . . . 65
4.4.2 Estimated rank pruning of improbable tokens . . . . . . . . . 69
4.5 Performance comparison of decoder implementations . . . . . . . . . 70
5 Grammatical alternatives and semantic confldences 73
5.1 Word lattices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Flat lattice and lattice hierarchy representation . . . . . . . . . . . . 74
5.2.1 N-best token-passing for at lattice generation . . . . . . . . 77
5.2.2 Construction of lattice hierarchy on at lattice . . . . . . . . 80
5.2.3 Determination of the N-best parse trees . . . . . . . . . . . . 84
5.3 Estimation of semantic confldences . . . . . . . . . . . . . . . . . . . 84
5.3.1 Word-based confldence measures . . . . . . . . . . . . . . . . 85
5.3.2 Estimation of parse tree node confldences . . . . . . . . . . . 88
5.3.3 Confldence-based pruning of at lattice . . . . . . . . . . . . 89
5.3.4 Slot- and Value confldences . . . . . . . . . . . . . . . . . . . 90
6 Evaluation methods and experimental results 93
6.1 Ofi-line evaluation methods . . . . . . . . . . . . . . . . . . . . . . . 93
6.1.1 Word-based evaluation . . . . . . . . . . . . . . . . . . . . . . 94
6.1.2 Tree-based ev . . . . . . . . . . . . . . . . . . . . . . 95
6.1.3 Performance of information extraction . . . . . . . . . . . . . 97
6.1.4 Evaluation of confldence estimation .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents