Real-time automatic emotion recognition from speech [Elektronische Ressource] / von Thurid Vogt

universitat_bielefeld

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

219 pages

Deutsch

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	universitat_bielefeld
Publié le	01 janvier 2010
Nombre de lectures	26
Langue	Deutsch
Poids de l'ouvrage	7 Mo

Extrait

Real-time automatic emotion recognition
from speech
DISSERTATION
zur Erlangung des akademischen Grades
Doktor der Ingenieurwissenschaften (Dr. Ing.)
eingereicht an der
Technischen Fakultät der Universität Bielefeld
von
Frau Dipl.-Inform. Thurid Vogt
Mai 2010
Erstgutachterin: Dr. Britta Wrede
Zweitgutachterin: Prof. Dr. Elisabeth AndréDatum der Disputation: Bielefeld, 19.10.2010
Prüfungsausschuss: Prof. Dr. Barbara Hammer (Vorsitzende)
Dr. Britta Wrede
Prof. Dr. Elisabeth André
Dr. Christina UngerZusammenfassung
In den vergangenen Jahren ist in der Mensch-Maschine-Kommunikation die Notwendigkeit, auf
den emotionalen Zustand des Nutzers einzugehen, allgemein anerkannt worden. Um diesen au-
tomatisch zu erkennen, ist besonders Sprache in den Fokus gerückt. Bisher ging es dabei haupt-
sächlich um akademische und wenig anwendungsbezogene Untersuchungen, die auf im Voraus
aufgenommenen Datenbanken mit emotionaler Sprache beruhen. Die Anforderungen hierbei un-
terscheiden sich jedoch von denen der Online-Analyse, insbesondere sind im letzteren Fall die
Bedingungen schwieriger und weniger vorhersagbar.
Diese Dissertation beschäftigt sich mit der automatischen Erkennung von Emotionen aus Spra-
che in Echtzeit anhand akustischer Merkmale. Dazu wurden zunächst Experimente auf beste-
henden Datenbanken mit emotionaler Sprache durchgeführt, um geeignete Methoden zur Seg-
mentierung, Merkmalsextraktion und Klassiﬁkation des Sprachsignals zu ﬁnden. Geeignet heißt
hierbei, dass die Methoden möglichst schnell und möglichst korrekt arbeiten. Um weitgehend
allgemeingültige Ergebnisse zu erhalten, wurden die Experimente auf drei Datenbanken mit sehr
unterschiedlichen Sprach- und Emotionstypen durchgeführt, nämlich der Berlin Datenbank mit
Emotionaler Sprache, dem FAU Aibo Emotionscorpus und dem SmartKom Mobile Corpus, die
sowohl gelesene als auch spontane Sprache sowie gespielte und natürliche Emotionen enthalten.
Die bei diesen Experimenten gewonnenen Erkenntnisse wurden dazu verwendet, eine umfassen-
de Sammlung von Werkzeugen und Programmen zur Online- und Ofﬂine-Emotionserkennung,
genannt EMOVOICE, zu implementieren.
Anhand von verschiedenen prototypischen Anwendungen und drei Benutzerstudien wurde die
praktische Nutzbarkeit von EMOVOICE, insbesondere auch durch externe Softwareentwickler,
bewiesen. Weiterhin wurden vier Ofﬂine-Studien zur multimodalen Emotionserkennung durch-
geführt, die akustische Merkmale mit Kontextinformation (Geschlecht), Biosignalen, Wortinfor-
mation und Mimik verbinden, da multimodale Erkennungsansätze eine höhere Erkennungsge-
nauigkeit versprechen.
Schlagwörter:
Emotionserkennung, Sprache, Merkmale, AnwendungenAbstract
Recently, the importance of reacting to the emotional state of a user has been generally accepted
in the ﬁeld of human-computer interaction and especially speech has received increased focus as
a modality from which to automatically deduct information on emotion. So far, mainly academic
and not very application-oriented ofﬂine studies based on previously recorded and annotated
databases with emotional speech were conducted. However, demands of online analysis differ
from that of ofﬂine analysis, in particular, conditions are more challenging and less predictable.
Therefore, in this thesis, real-time automatic emotion recognition from acoustic features of
speech was investigated. First, ofﬂine experiments were conducted to ﬁnd suitable audio segmen-
tation, feature extraction and classiﬁcation algorithms. Suitable means in this context that they
should be fast and at the same time give as correct results as possible. To be more general, results
were obtained from three databases of different speech and emotion types, the Berlin Database
of Emotional Speech, the FAU Aibo Emotion Corpus and the SmartKom Mobile Corpus, which
include read and spontaneous speech as well as acted and spontaneous emotions. Results lead to
the implementation of a collection of ofﬂine as well as online emotion recognition tools called
EMOVOICE.
This thesis also demonstrates the applicability of the framework and its usability for external soft-
ware developers with the help of several applications and three user studies. Furthermore, four
ofﬂine studies of multimodal emotion recognition combining acoustic information with context
information (gender), bio signals, words and facial expressions are described, since an improved
accuracy can be expected from multimodal analysis.
Keywords:
Emotion recognition, speech, features, applicationsDanksagung
Zu allererst möchte ich mich bei meiner Betreuerin Prof. Dr. Elisabeth André bedanken, die
mir viel Zeit gewidmet hat, hervorragende Unterstützung hat zukommen lassen und von der ich
viel gelernt habe. Genauso gilt mein Danke meiner Erstgutachterin Dr. Britta Wrede, die mich
auch über die Distanz sehr unterstützt hat und immer wertvolle Anregungen gegeben hat. Prof.
Dr. Gerhard Sagerer und Prof. Dr. Franz Kummert möchte ich dafür danken, dass sie es er-
möglicht haben, dass ich im Rahmen meines Stipendiums im Graduiertenkolleg “Aufgabenori-
entierte Kommunikation” der DFG die Arbeit zu dieser Dissertation zu einem großen Teil in
Augsburg am Lehrstuhl von Prof. Dr. Elisabeth André habe machen können und so in gewisser
Weise in beiden Arbeitsgruppen “zuhause” war.
Weiterhin möchte ich mich bedanken bei meinen vielen Kollegen, in Augsburg und Bielefeld,
für Diskussionen, die freundschaftliche Atmosphäre sowie für die erfolgreiche Zusammenarbeit
bei den multimodalen Ansätzen und bei der Studie mit Barthoc jr.; insbesondere bei Karin Le-
ichtenstern, meiner Bürokollegin, ohne die diese Arbeit nur halb so viel Spaß gemacht hätte; bei
meinem Kollegen Nikolaus Bee, der durch Namensgebung und die erste GUI entscheidend zur
Verbreitung von EMOVOICE beigetragen hat; bei Johannes Wagner, der sich in seiner Master-
arbeit mit Wavelet-basierten Merkmalen und Hidden-Markov-Modellen für die Emotionserken-
nung beschäftigt hat und anschließend als Kollege mit SSI ein Framework geschaffen hat, in
dem auch EMOVOICE weiter entwickelt werden kann; bei den Studenten Malte Iversen und Jana
Sichert, die in ihren Bachelorarbeiten Anwendungen für EMOVOICE entwickelt haben.
Darüberhinaus habe ich aus der Zusammenarbeit mit Kollegen in den EU-Projekten Humaine, E-
Circus, Callas und Iris, vor allem innerhalb der CEICES-Initiative in Humaine, sehr viel gelernt.
Auch privat war diese Zeit — dem Thema dieser Dissertation angemessen — sehr emotional
für mich durch den Tod meiner Mutter und die Geburten meiner Kinder Lilia und David. Eine
ganz besonders wichtige Rolle ist deshalb meinem Mann Andreas zugekommen, ohne dessen
Toleranz und Geduld diese Arbeit sicher nicht möglich gewesen wäre und den sie wahrscheinlich
genauso viele Nerven gekostet hat. Vielen Dank! Auch meiner Familie, die sich während der
Zeit der Dissertation in schöner Weise in viele Richtungen erweitert hat, danke ich sehr, vor allem
meinem Vater und meinen Schwiegereltern, die mich z. B. durch Kinderbetreuung unterstützt
haben.

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

Real-time automatic emotion recognition from speech [Elektronische Ressource] / von Thurid Vogt

Informatik

YouScribe

Le catalogue

Le service

Les conditions