Human and automatic speech recognition in the presence of speech-intrinsic variations [Elektronische Ressource] / Bernd T. Meyer
165 pages
English

Human and automatic speech recognition in the presence of speech-intrinsic variations [Elektronische Ressource] / Bernd T. Meyer

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
165 pages
English
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Human and automatic speech recognition inthe presence of speech-intrinsic variationsVon der Fakult¨ at fur¨ Mathematik und Naturwissenschaftender Carl-von-Ossietzky-Universit¨ at Oldenburgzur Erlangung des Grades und Titels einesDoktors der Naturwissenschaften (Dr. rer. nat.)angenommene DissertationDipl.-Phys. Bernd T. Meyergeboren am 9. September 1978in Haselunne¨Gutachter: Prof. Dr. Dr. Birger KollmeierZweitgutachter: PD Dr. Volker HohmannTag der Disputation: 18.12.2009iiAbstractDespite several decades of research, automatic speech recognition (ASR) lacks theperformance achieved by human listeners. One of the major challenges in ASR is tocope with the immense variability of spoken language, which can be categorized intoextrinsic sources (e.g., additive noise) and intrinsic factors (such as speaking rate, style,effort, dialect, and accent). What can we learn from the biological blueprint, and whichcues important in human speech recognition (HSR) should be considered to improveASR performance? The scope of this thesis is to answer these questions by comparingthe HSR and ASR performance and - based on these results - to suggest an alternativeway of feature extraction to improve ASR. The comparison is based on the OldenburgLogatome Corpus, which is a database that contains simple nonsense words consistingof phoneme triplets and which covers the intrinsic variations mentioned above.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 8
Langue English
Poids de l'ouvrage 5 Mo

Extrait

Human and automatic speech recognition in
the presence of speech-intrinsic variations
Von der Fakult¨ at fur¨ Mathematik und Naturwissenschaften
der Carl-von-Ossietzky-Universit¨ at Oldenburg
zur Erlangung des Grades und Titels eines
Doktors der Naturwissenschaften (Dr. rer. nat.)
angenommene Dissertation
Dipl.-Phys. Bernd T. Meyer
geboren am 9. September 1978
in Haselunne¨Gutachter: Prof. Dr. Dr. Birger Kollmeier
Zweitgutachter: PD Dr. Volker Hohmann
Tag der Disputation: 18.12.2009
iiAbstract
Despite several decades of research, automatic speech recognition (ASR) lacks the
performance achieved by human listeners. One of the major challenges in ASR is to
cope with the immense variability of spoken language, which can be categorized into
extrinsic sources (e.g., additive noise) and intrinsic factors (such as speaking rate, style,
effort, dialect, and accent). What can we learn from the biological blueprint, and which
cues important in human speech recognition (HSR) should be considered to improve
ASR performance? The scope of this thesis is to answer these questions by comparing
the HSR and ASR performance and - based on these results - to suggest an alternative
way of feature extraction to improve ASR. The comparison is based on the Oldenburg
Logatome Corpus, which is a database that contains simple nonsense words consisting
of phoneme triplets and which covers the intrinsic variations mentioned above.
The man-machine-gap in terms of the signal-to-noise ratio (SNR) was estimated
to be 15 dB, i.e., the masking level in ASR has to be lowered by 15 dB to achieve
the same performance as human listeners. The contributions to this gap could be
attributed to the individual processing steps of the ASR system: The information loss
caused by the feature extraction resulted in an SNR-equivalent information loss of
10 dB, while suboptimal classification accounted for the remaining 5 dB of the overall
gap. Moreover, the analysis of intrinsic variations showed that human listeners are
superior to ASR systems in exploiting temporal cues. These findings motivated the
use of spectro-temporal Gabor features in ASR, which were found to exhibit increased
robustness against a wide range of noise types. In the presence of intrinisic variations
of speech, Gabor features increase the overall performance regarding several factors
(such as speaking effort and style), which suggests to incorporate both spectro-temporal
and temporal cues in future ASR systems.
iiiKurzfassung
Trotz jahrzehntelanger Forschung erreicht automatische Spracherkennung (engl. auto-
matic speech recognition, ASR) bei weitem nicht die Leistung, die vom Menschen erzielt
wird. Eine der gr¨ oßten Herausforderungen in ASR ist die Beruc¨ ksichtigung der im-
mensen Variabilit¨ at gesprochener Sprache, die durch extrinsische Quellen (wie etwa addi-
¨tive St¨ orger¨ ausche) und intrinsche Faktoren (z.B. Anderungen in Sprachgeschwindigkeit,
-stil, -aufwand, Dialekt und Akzent) hervorgerufen wird. Was k¨ onnen wir vom audi-
torischen System lernen, und welche Merkmale, die bei menschlicher Spracherkennung
(engl. human speech recognition, HSR) eine Rolle spielen, sollten zur Verbesserung von
ASR beruc¨ ksichtigt werden? In dieser Dissertation werden diese Fragen untersucht,
indem zun¨ achst die Leistung von HSR und ASR verglichen wird und – auf Grundlage
der Ergebnisse – eine alternative Vorverarbeitung verwendet wird, um ASR-Systeme
zu verbessern. Der Vergleich basiert auf dem Oldenburg Logatomkorpus, einer Sprach-
datenbank, die aus einfachen, bedeutungslosen Zusammensetzungen von Phonemen
besteht. Die Datenbank enth¨ alt die oben erw¨ ahnten intrinsischen Variabilit¨ aten, und
ist zur Durchfuhrung¨ von HSR- und ASR-Experimenten geeignet.
Zwischen der Spracherkennungsleistung bei Mensch und Maschine besteht eine Luc¨ ke
von 15 dB, wenn diese ub¨ er das Signal-zu-Rausch-Verh¨ altnisses (SNR) ausgedruc¨ kt
wird; das heißt, der Maskiererpegel muss fur¨ ASR um 15 dB gesenkt werden, damit die
gleiche Leistung wie bei HSR erzielt wird. Die Beitr¨age zu dieser Differenz konnten auf
die einzelnen Verarbeitungsschritte in ASR-Systemen zuruc¨ kgefuhrt¨ werden: W¨ ahrend
der Informationsverlust, der durch die Extraktion von Standardmerkmalen zustande
kommt, etwa 10 dB betrug, lag der Beitrag durch maschinelle Klassifikation bei etwa
5 dB. Weiterhin zeigt die Analyse intrinsischer Variabilit¨ at, dass das menschliche audi-
torische System temporale Merkmale weit besser nutzen kann als ASR-Systeme. Dieses
vErgebnis motiverte den Einsatz spektro-temporaler Gabor-Merkmale fur¨ maschinelle
Erkenner, die sich gegenub¨ er einer Vielzahl von St¨ orger¨ auschen als wesentlich ro-
buster als Standardmerkmale herausstellten. Schließlich zeigten Gabormerkmale bei
ver¨ andertem Sprachaufwand und variirender Sprechweise eine bessere Leistung als Stan-
dardmerkmale, was die Nutzlic¨ hkeit spektro-temporaler und temporaler Information
fur¨ ASR verdeutlicht.
viContents
1 General introduction 1
1.1 Difficulties in automatic speech recognition . . . . . . . . . . . . . . . . 2
1.2 Comparing speech recognition of men and machines . . . . . . . . . . . 5
1.3 Top-down vs. bottom-up processing . . . . . . . . . . . . . . . . . . . . 6
1.4 Structure of this work . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 HSR in the presence of intrinsic variabilities 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Description of the database . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Choice of phonemes and speech stimuli . . . . . . . . . . . . . . 15
2.2.2 Variabilities and speakers . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Recording setup . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Postprocessing of recorded material . . . . . . . . . . . . . . . . 20
2.2.5 Phonetic labeling . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.6 Availability of speech material and test results . . . . . . . . . . 22
2.3 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1 Test sets and presented stimuli . . . . . . . . . . . . . . . . . . 22
2.3.2 Measurement setup and listeners . . . . . . . . . . . . . . . . . 24
2.3.3 Noise and SNR calculation . . . . . . . . . . . . . . . . . . . . . 25
2.3.4 Data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4.1 Overall recognition scores . . . . . . . . . . . . . . . . . . . . . 31
2.4.2 Effects of additive noise and intrinsic variabilities . . . . . . . . 33
2.4.3 Influence of spectral differences . . . . . . . . . . . . . . . . . . 35
viiContents
2.4.4 Articulatory features and information transmission . . . . . . . 38
2.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.1 Comparison with past work . . . . . . . . . . . . . . . . . . . . 42
2.5.2 between HSR and ASR . . . . . . . . . . . . . . . . 45
2.6 Summary & conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.7 Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
viiiContents
3 Speech-intrinsic variations in human and automatic speech recognition 51
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 Speech database . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Preparation of speech stimuli . . . . . . . . . . . . . . . . . . . 60
3.2.3 HSR and ASR test and training sets . . . . . . . . . . . . . . . 64
3.2.4 Experimental setup . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.5 Outcome measures . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.1 Overall performance . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3.2 Information transmission . . . . . . . . . . . . . . . . . . . . . . 74
3.3.3 Phoneme duration . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 Human vs. machine performance . . . . . . . . . . . . . . . . . 81
3.4.2 Effect of resynthesis . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.4.3 Effect of intrinsic variations . . . . . . . . . . . . . . . . . . . . 85
3.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.6 Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4 Robustness of spectro-temporal ASR features 93
4.1 Feature types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.1 Spectro-temporal Gabor features . . . . . . . . . . . . . . . . . 97
4.1.2 MFCC features . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.2 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.1 Speech databases, training and test sets . . . . . . . . . . . . . 103
4.2.2 Automatic recognizers . . . . . . . . . . . . . . . . . . . . . . . 107
ixContents
4.2.3 Arti

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents