Acoustic modelling for under-resourced languages [Elektronische Ressource] / von Sebastian Stüker

karlsruher_institut_fur_technologie

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

183 pages

English

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	karlsruher_institut_fur_technologie
Publié le	01 janvier 2009
Nombre de lectures	23
Langue	English
Poids de l'ouvrage	3 Mo

Extrait

Acoustic Modelling for
Under-Resourced
Languages
zur Erlangung des akademischen Grades eines
Doktors der Ingenieurwissenschaften
der Fakult¨at fur¨ Informatik
der Universit¨at Fridericiana zu Karlsruhe (TH)
genehmigte
Dissertation
von
Sebastian Stuk¨ er
aus Detmold
Tag der mundlic¨ hen Prufung:¨ 23. Juli 2009
Erster Gutachter: Prof. Dr. Alexander Waibel
Zweiter Gutachter: Prof. Dr. Tanja SchultziiAbstract
Over the past decades research in the ﬁeld of automatic speech recognition
has lead to systems with a suﬃciently high grade of maturity that makes them
suitableforuseinreal-lifeapplications. However,suchrecognitionsystemshave
been developed only for very few languages. Languages addressed are mainly
those with a large population, a high economic power, or for which a high
political interest exists. For the vast majority of the 4,000-7,000 languages in
the world no well performing speech recognition systems exist.
Languages are dying at a rapid rate. Linguists estimate that up to 90% of
today’slanguagesmaygoextinctwithinafewgenerations. Oftenlanguagesdie,
because their speakers abandon them in favor of a more wide-spread language,
from which they expect more economic or cultural advantages. We believe that
technology can play a role in stopping this trend, if it were to provide natural
language processing technologies, including automatic speech recognition, for
all languages in the world.
The traditional way of training speech recognition systems for a new language
requires the collection of large amounts of transcribed audio recordings, text
resources, and the creation of a pronunciation dictionary. Considering the vast
number of languages in the world in combination with the fact that most of
them are only spoken by comparatively few speakers leads to the conclusion
that this approach is not feasible when wanting to address all languages in the
world.
The pronunciation dictionary is a central component of a speech recognition
system which is time-consuming and expensive to create. In this thesis we
show that the use of graphemes instead of the traditionally used phonemes is aiv
feasible approach to speech recognition for many languages in the world. The
use of graphemes instead of phonemes eliminates the need for a pronunciation
dictionary, and thus signiﬁcantly eases the creation of a recognition system for
a new language. Part of the knowledge previously encoded in the pronunciation
dictionary now needs to be learned by the context cluster tree of the acoustic
model. We therefore also examine the use of a more ﬂexible cluster tree for
grapheme based speech recognition.
In order to reduce the amount of transcribed audio data that is needed for the
training of a speech recognition system, past research has developed methods
for porting phoneme based speech recognition systems to new languages with
the help of multilingual models. In this thesis we transfer this work to the
notion of grapheme based recognition systems. We show that it is possible to
train multilingual recognition systems using graphemes instead of phonemes.
We further demonstrate that the multilingual systems can be used to initialize
the acoustic model of a new language. Since the graphemes of the languages in
the world are more diverse than the phonemes, we demonstrate two data driven
approaches for applying a multilingual system to a new language.
Past research has shown that articulatory features can be reliably recognized
across languages and that they can be modelled in a multilingual way. Past
research has also developed ways of integrating models for articulatory features
intoanHMMbasedrecognitionsystembasedonphonememodels. Inthisthesis
we have used models for articulatory features for improving the performance
when porting phoneme based recognition systems to new languages.
Linguists estimate that the vast majority of languages in the world is without
a writing system. For the case that a speech recognition system in such a new
language needs to be created, we examined the automatic discovery of word-
like units in a new language. We treated the case that the speech recognition
system is part of a speech translation system and that only an unsegmented,
phonetic transcript of the training data in the new language is available. In our
discoveryalgorithmwemadeuseofallavailableknowledge,includinganexisting
translation of the training material and compared it against a word discovery
schemewhichonlymakesuseofthemonolingual, unsegmentedphonemestring.
Taking into account the parallel data lead to clear improvements over the case
that only the monolingual data was used.vviKurzfassung
In den letzen Jahrzehnten hat die Forschung auf dem Gebiet der automati-
schen Spracherkennung Systeme von hinreichender Gute¨ fur¨ die Verwendung in
derPraxishervorgebracht. JedochwurdensolcheSpracherkennungssystemenur
fur¨ eine sehr beschr¨ankte Anzahl von Sprachen entwickelt. Betrachtet wurden
haupts¨achlich Sprachen mit entweder einer hohen Anzahl an Sprechern, mit
hoher Wirtschaftsleistung oder solche, die von politischer Relevanz sind. Fur¨
diegroßeMehrzahlder4.000bis7.000SpracheninderWeltwurdenbisherkeine
gut funktionierenden Spracherkennungssysteme entwickelt.
Sprachen sterben kontinuierlich aus, mit einer besorgniserregenden Geschwin-
digkeit. Linguisten sch¨atzen, dass innerhalb weniger Generationen 90% der
heutigenSprachenausgestorbenseinwerden. Sprachensterbenh¨auﬁg, weilihre
Sprecher sie zu Gunsten einer anderen Sprache aufgeben, von der sie sich ma-
terielle oder kulturelle Vorteile erhoﬀen. Wir glauben, dass der Einsatz von
Technik helfen kann, diesen Trend zu stoppen, wenn es gelingt, Sprachverar-
beitungssysteme, einschließlich Systeme zur automatischen Spracherkennung,
fur¨ alle Sprachen in der Welt zur Verfugu¨ ng zu stellen.
DertraditionelleAnsatzzumTrainingvonSpracherkennernbeinhaltetdasSam-
melngroßerMengentranskribierterAudiodaten,sowiedieErstellungeinespho-
netischen Aussprachew¨orterbuchs fur¨ die Zielsprache. Bedenkt man die hohe
Anzahl an Sprachen in der Welt, sowie die Tatsache, dass die meisten von ih-
nen nur ub¨ er verh¨altnism¨aßig wenig Sprecher verfugen,¨ so wird klar, dass dieser
traditionelleAnsatznichtgeeignetist, umErkennungssystemefur¨ alleSprachen
der Welt zu trainieren, da er zu zeit- und kostenintensiv ist. In dieser Arbeit
haben wir daher Methoden untersucht, um den Aufwand zur Erstellung einesviii
Spracherkennungssystems in einer neuen Sprache signiﬁkant zu reduzieren.
Graphembasierte Akustische Modellierung
Zentraler Bestandteil eines Spracherkennungssystems ist das phonetische Aus-
sprachew¨orterbuch. Sein Entwurf ist sehr zeitintensiv und teuer, und erfordert
h¨auﬁg die Mithilfe eines Experten der Zielsprache. Daher zeigen wir in dieser
Arbeit,dassdieVerwendungvonGraphemen,stattdernormalerweisegenutzten
Phoneme,alsModellierungseinheiteninSpracherkennungssystemeneinebrauch-
bareAlternativeist. DurchdieVerwendungvonGraphemenanstellevonPhone-
men entf¨allt die Notwendigkeit eines Aussprachew¨orterbuchs und die Entwick-
lung eines Spracherkennungssystems in einer neuen Sprache wird deutlich ver-
einfacht.
Unsere Experimente zeigen, dass Spracherkennungssysteme, die auf Graphe-
men beruhen, eine ahnlic¨ h gute Erkennungsleistung erbringen, wie phonem-
basierte. Dabei h¨angt die Diﬀerenz der Leistung im Vergleich zu
basierten Erkennern von der betrachteten Sprache und deren Verh¨altnis von
Schrift zu Aussprache ab. Das Wissen, das bei phonembasierten Systemen
im Aussprachew¨orterbuch enthalten ist, muss bei graphem
durch das akustische Modell, inklusive des Kontextclusterbaums, gelernt wer-
den. Deshalb haben wir in unseren Experimenten die Verwendung eines ﬂex-
iblen Clusterbaums fur¨ die graphembasierte Spracherkennung untersucht, der
das Verh¨altnis von Schrift zu Sprache besser erlernen kann, als es der sonst ver-
wendete Baum kann. Mit Hilfe des ﬂexiblen Baums konnten wir Gewinne fur¨
alle betrachteten Sprachen nachweisen.
GraphembasierteMultilingualeundCrosslinguale
Akustische Modellierung
UmdieMengedertranskribiertenAudiodaten,diezumTrainingeinesSpracher-
kennungssystemsineinerneuenSpracheben¨otigtwerden,zureduzieren,wurden
in der Vergangenheit Verfahren entwickelt, um phonembasierte Spracherken-
nungssystemmitHilfemultilingualerakustischerModelleschnellaufneueSpra-
chen zu portieren. In unserer Arbeit zeigen wir, dass es auch fur¨ graphem-
basierte Erkenner m¨oglich ist, multilinguale akustische Modelle zu trainieren.
Wir zeigen ferner, dass mit Hilfe dieser Modelle, die akustischen Modelle einer
neuen Sprache initialisiert werden k¨onnen. Durch die Verwendung geringerix
Mengen an Adaptionsmaterial zeigen wir, wie ein initiales Erkennungssystem
mit akzeptabler Erkennungsleistung mit Hife der multilingualen Modelle er-
stellt werden kann. Wegen der Bedeutung des Clusterbaums haben wir auch
die Verwendung der bekannten Polyphone Decision Tree Specialization unter-
sucht und sie mit einem Baumbeschneidungsverfahren kombiniert, und so die
Portierungsqualit¨at verbessert.
Crosslinguale Akustische Modellierung mit Ar-
tikulatorische