Quantile based histogram equalization for noise robust speech recognition [Elektronische Ressource] / von Florian Erich Hilger

rheinisch-westfalischen_technischen_hochschule_-rwth-_aachen

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

170 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	rheinisch-westfalischen_technischen_hochschule_-rwth-_aachen
Publié le	01 janvier 2004
Nombre de lectures	10
Langue	English
Poids de l'ouvrage	1 Mo

Extrait

Quantile Based Histogram Equalization
for Noise Robust Speech Recognition
Von der Fakult at fur Mathematik, Informatik
und Naturwissenschaften
der Rheinisch-Westf alischen Technischen Hochschule Aachen
genehmigte Dissertation zur Erlangung des akademischen
Grades eines Doktors der Naturwissenschaften
von
Diplom{Physiker Florian Erich Hilger
aus
Bonn { Bad Godesberg
Berichter: Univ.-Prof. Dr.-Ing. Hermann Ney
Hon.-Prof. Dr. phil. nat. Harald H oge
Tag der mundlic hen Prufung: 6. Dezember 2004
Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfugbar.Acknowledgements
I would like to thank my supervisor Prof. Dr.{Ing. Hermann Ney for his constant support,
his valuable advice, and giving me the opportunity to realize this work at the Lehrstuhl
fur Informatik VI in Aachen.
Prof. Dr. phil. nat. Harald H oge from Siemens AG Munich kindly took over the role
of the second supervisor. I would like to thank him for his interest in this work and his
suggestions.
The joint work of my colleagues from the speech recognition group provided the neces-
sary foundation, on which I could build my research. I would like to express my gratitude
for the contributions of Maximilian Bisani, Stephan Kanthak, Klaus Macherey, Wolfgang
Macherey, Sirko Molau, Michael Pitz, Ralf Schluter, Achim Sixtus, Tibor Szilassy, Frank
Wessel, and Andr as Zolnay. I also owe a lot to numerous other fellow researchers and
project partners, who gave me valuable feedback and advice.
Thanks to the people from the image processing and translation group for inspiring
discussions about their research elds. The system administration team did a great job
in providing a reliable environment for the experimental evaluations.
Special thanks to Andrea Semroch for her support and patience.
This work was partially funded by the DFG (Deutsche Forschungsgemeinschaft) under
the contracts NE 572/4-1 and NE 572/4-3, and the European Commission under the
Human Language Technologies project TRANSTYPE2, IST-2001-32091.Abstract
This work describes an algorithm to increase the noise robustness of automatic speech
recognition systems.
In many practical applications recognition systems have to work in adverse acoustic
environment conditions. Distortions and noises caused by the transmission are typical for
telephone applications. Considerable amounts of varying background noise are a problem
for all mobile applications such as cellular phones or speech controlled systems in cars.
Automatic systems are much more sensitive to the variabilities of the acoustic signal than
humans. Whenever there is a mismatch between the distribution of the training data and
the data that is to be recognized, the recognition word error rates will increase.
There are three possible ways of dealing with such a mismatch during the recognition
process: adapting the recognizer’s model parameters to the current noise condition, using
a modi ed likelihood calculation that is invariant to the distortions caused by the noise,
and reducing the in uence of the noise during feature extraction. Within this work a
feature extraction method is investigated.
The goal was to develop a computationally inexpensive method that can be applied
in real time online systems. It should not require any prior assumptions about the noise
conditions that are to be expected or the kind of training data available. And it should
be independent from the actual recognition system that will use the features.
Quantile based histogram equalization improves the recognition performance in noisy
conditions by applying a non{linear parametric transformation function during feature
extraction. It reduces an eventual mismatch between the current recognition data and
the distribution of the data the system was trained on. Based on the quantiles of the
cumulative distributions, the parameters of the transformation function can be reliably
estimated from small amounts of data. By the way they are de ned quantiles are indepen-
dent from the scaling, range, and amount of data. Thus making the method independent
from prior assumptions about the training and recognition data.
The approach is integrated into a modi ed Mel cepstrum feature extraction, in which
the logarithm is replaced by a root function to increase the noise robustness. The actual
transformation that is proposed in this work consists of two steps. First, a power function is applied to each output of the Mel{scaled lter{bank, then neighboring
lter are channels combined linearly. These transformation steps can be added to the
feature extraction using a moving window implementation that does not require more
delay than a conventional mean and variance normalization.To investigate the genericity of the approach and the proposed setup, experimental
evaluations have been carried out with di eren t speech recognition systems, on several
databases with di eren t levels of complexity, ranging from digit strings (SpeechDat Car)
to larger vocabulary isolated word (Car Navigation) and continuous speech recognition
tasks (Wall Street Journal with added noise).
Consistent recognition results were observed on all databases. The modi ed feature
extraction, with the root instead of the logarithm, already outperformed the original
baseline on noisy data. Filter channel speci c quantile equalization always improved
these results, yielding relative improvements between of 5% and 50%, depending on the
recognition task and the mismatch of the data. Finally, the combination of neighboring
lter channels was able to reduce the error rates somewhat further, especially if the noise,
like car noise, was band limited.Zusammenfassung
Diese Arbeit beschreibt einen Algorithmus zur Verbesserung der Gerauschrobustheit von
automatischen Spracherkennungssystemen.
In vielen praktischen Anwendungen mussen Spracherkennungsysteme unter
ungunstigen akustischen Umgebungsbedingungen arbeiten. Verzerrungen und Rauschen
sind typisch fur Anwendungen im Bereich der Telefonie. Erhebliche, wechselnde Hinter-
grundgerausche sind ein Problem bei allen mobilen Anwendungen, wie Mobiltelefonen
oder sprachgesteuerten Systemen in Fahrzeugen. Automatische Systeme reagieren viel
emp ndlic her als Menschen auf Variabilitaten im akustischen Signal. Sobald sich die Ver-
teilung der Trainingsdaten von derjenigen der zu erkennenden Daten unterscheidet, steigen
die Wortfehlerraten bei der Erkennung.
Es gibt drei prinzipielle Moglichkeiten, wahrend der Erkennung mit einem solchen Un-
terschied umzugehen: Eine Anpassung der Modellparameter des Erkenners an die aktuel-
len Gerauschbedingungen, eine modi zierte Wahrscheinlichkeitsberechnung die invariant
gegenub er den Veranderungen durch die Gerausche ist und eine Reduktion des Ein us-
ses der Gerausche wahrend der Merkmalsextraktion. Im Rahmen dieser Arbeit wird eine
Methode im Merkmalsbereich untersucht.
Das Ziel war es, eine Methode zu entwickeln, die wenig Rechenaufwand erfordert und
in Echtzeitsystemen eingesetzt werden kann. Sie soll keine a-priori Annahmen ub er die
zu erwartenden Gerauschbedingungen oder das zur Verfugung stehende Trainingsmaterial
erfordern. Und sie soll unabhangig vom letztlich eingesetzten Spracherkennungsystem sein.
Der auf Quantilen basierende Histogram{Ausgleich verbessert die Erkennung durch
das Anwenden einer nichtlinearen parametrischen Transformationsfunktion. Sie reduziert
einen etwaigen Unterschied zwischen den Verteilungen der Erkennungs{ und Trainingsda-
ten. Basierend auf den Quantilen der kumulativen Verteilungen lassen sich die Parameter
der Funktion zuverlassig auf kleinen Datenmengen schatzen. Per De nition sind die Quan-
tile unabhangig von der Skalierung, dem Wertebereich und der Datenmenge. Damit ist
die Methode unabhangig von Annahmen uber Trainings{ und Testdaten.
Das Verfahren wird in eine modi zierte Mel Cepstrum Merkmalsextraktion integriert,
bei der anstelle des Logarithmus zur Verbesserung der Gerauschrobustheit eine Wurzel-
funktion eingesetzt wird. Die eigentliche Transformation, die im Rahmen dieser Arbeit
eingesetzt wird, besteht aus zwei Schritten. Zunachst wird eine Potenzfunktion auf die
Ausgange der Mel{skalierten Filterbank angewandt, danach werden benachbarte Filter-
kanale linear kombiniert. Unter Verwendung eines laufenden Fensters konnen diese Trans-
formationsschritte so in die Merkmalsextraktion integriert werden, dass dabei nicht mehrVerzogerung als bei einer konventionellen Mittelwerts{ und Varianznormierung erforder-
lich ist.
Um die Verallgemeinerbarkeit des Verfahrens zu untersuchen, wurden Experimente
mit verschiedenen Spracherkennungssystemen auf unterschiedlichen Datensatzen durch-
gefuhrt: von Zi ernk etten (SpeechDat Car) bis hin zu Erkennungsaufgaben mit einem
gro eren Vokabular von Einzelworten (Car Navigation) und kontinuierlicher Sprache (Wall
Street Journal mit Gerauschen unterlegt).
Auf allen Datensatzen wurden konsistente Erkennungsergebnisse beobachtet. Die mo-
di zierte Merkmalsextraktion, mit der Wurzelfunktion an Stelle des Logarithmus, lieferte
auf verrauschten Daten bereits bessere Erkennungsergebnisse als das Original. Die auf
Quantilen basierende Transformation individueller Filterkanale konnte diese Ergebnisse
immer verbessern, abhangig von der Erkennungsaufgabe und dem Missverhaltnis zwi-
schen den Trainings{ und Testdaten lagen die relativen Verbesserungen zwischen 5%