La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
Télécharger Lire

Towards robust speech acquisition using sensor arrays [Elektronische Ressource] / von Hari Krishna Maganti

123 pages
ECOD·ODNEICS·MLUTÄTAbteilung NeuroinformatikUniversit˜at UlmProf. Dr. Gun˜ ther PalmTowards Robust Speech Acquisitionusing Sensor ArraysDissertation zur Erlangung des DoktorgradesDr.rer.nat. der Fakult˜at fur˜ Ingenieurwissenschaften und Informatik der Universit˜at UlmvonHari Krishna Magantiaus Hyderabad, India2006ISREVINU·ODNARUC·ODN2Amtierender Dekan : Prof. Dr. Partsch1. Gutachter : Prof. Dr. Gun˜ ther Palm2. Gutachter : Prof. Dr. Wolfgang Minker3. Gutachter : Prof. Dr. Herv¶e BourlardTag der Promotion : 26-01-2007AbstractAnintegratedsystemapproachwasdevelopedtoaddresstheproblemofdistantspeechacqui-sition in multi-party meetings, using multiple microphones and cameras. Microphone arrayprocessing techniques have presented a potential alternative to close-talking microphones byproviding speech enhancement through spatial flltering and directional discrimination. Thesetechniques relied on accurate speaker locations for optimal performance. Tracking accuratespeaker locations, solely based on audio were not successful due to the discreteness and vul-nerability to noise sources and reverberation. Multi-modal approaches, by using audio-visualsensors provided the required accurate speaker locations. Robust and accurate speaker lo-cations were achieved by utilizing the complementary advantages provided by the respectivemodalities.
Voir plus Voir moins

E
C
O
D
·

O
D
N
E
I
C
S
·
M
L
U
T
Ä
T
Abteilung Neuroinformatik
Universit˜at Ulm
Prof. Dr. Gun˜ ther Palm
Towards Robust Speech Acquisition
using Sensor Arrays
Dissertation zur Erlangung des Doktorgrades
Dr.rer.nat. der Fakult˜at fur˜ Ingenieurwissenschaften und Informatik der Universit˜at Ulm
von
Hari Krishna Maganti
aus Hyderabad, India
2006
I
S
R
E
V
I
N
U
·
O
D
N
A
R
U
C
·

O
D
N2
Amtierender Dekan : Prof. Dr. Partsch
1. Gutachter : Prof. Dr. Gun˜ ther Palm
2. Gutachter : Prof. Dr. Wolfgang Minker
3. Gutachter : Prof. Dr. Herv¶e Bourlard
Tag der Promotion : 26-01-2007Abstract
Anintegratedsystemapproachwasdevelopedtoaddresstheproblemofdistantspeechacqui-
sition in multi-party meetings, using multiple microphones and cameras. Microphone array
processing techniques have presented a potential alternative to close-talking microphones by
providing speech enhancement through spatial flltering and directional discrimination. These
techniques relied on accurate speaker locations for optimal performance. Tracking accurate
speaker locations, solely based on audio were not successful due to the discreteness and vul-
nerability to noise sources and reverberation. Multi-modal approaches, by using audio-visual
sensors provided the required accurate speaker locations. Robust and accurate speaker lo-
cations were achieved by utilizing the complementary advantages provided by the respective
modalities.
In the proposed approach, an audio-visual multi-person tracker was used to track active
speakerscontinuouslywithhighaccuracy. Thespeechprocessingsystemprovidedmicrophone
array based speech enhancement and automatic speech/non-speech segmentation to serve as
input for the speech recognition. The approach was evaluated on the data recorded in a
real meeting room for stationary speaker, moving speaker and overlapping speech scenarios.
The results revealed that the speech enhancement and recognition performance, achieved by
tracking active speaker, followed by microphone array processing were signiflcantly better
than those of single table-top microphone and comparable to those of lapel microphone for
all three studied scenarios. Overall, the envisaged integrated system was shown to be an
appropriate means for robust distant speech acquisition.
34Zusammenfassung
Die neuesten Entwicklungen im Ubiquitous Computing haben auch das Forschungsgebiet fur˜
Mensch-Maschine-Schnittstellen stark beein usst. Multimodale Sensoren und Sprachverar-
beitungsmethoden erm˜oglichen es dem Benutzer in naturlic˜ her Art mit Computern zu kom-
munizieren. Multimodale Sensorsysteme haben Anwendungsm˜oglichkeiten im Szenario von
Videokonferenzen oder -vorlesungen [31, 44, 7]. Hier sind Sprecher-Tracking und Sprachver-
arbeitungmitMikrophon-ArraysdiewesentlichenMethodenfur˜ dieSprachaquisition. Audio-
basiertes Sprecher-Tracking allein ist meist unzureichend, denn menschliche Sprache hat
wesentliche Energieanteile im niederfrequenten Bereich, in dem allerdings die Schallquellen-
lokalisation ungenau ist, au…erdem wird die Lokalisation durch vielf˜altige Nebenger˜ausche,
Echos,etcerschwert. AufderanderenSeiteistdasvideo-basiertePersonen-Trackingbeeintr˜achigt
wenn die zuverfolgende Person nicht oder nur teilweise sichtbar ist oder wenn sich sich die
Beleuchtungsverh˜altnisse schnell ˜andern.
Um die systembedingten Schw˜achen zu vermeiden scheint eine Kombination der beiden
Ans˜atze erfolgversprechend zu sein. In ub˜ erscihtlichen Szenarien sind bereits erste Arbeiten
erfolgt, beispielsweise zum Einsatz in eingeschr˜ankten Videokonferenzraumszenarien [20, 6].
Die vorliegende Dissertation befasst sich mit der Entwicklung und Evaluation eines integri-
erten audio-visuellen Personen-Trackingsystems auf der Basis von Kamerasystemen (3 Kam-
eras im Konferenzraumszenario) und Mikrophon-Arrays.
Die wesentlichen Beitr˜age der Arbeit sind:
† Entwicklung eines integrierten audio-visuellen Personen-Trackingsystems
† Evaluation der Audio, Video- und Audio-Video-Methoden fur˜ das Personen-Tracking
† EvaluationderPersonen-Tracking-MethodenhinsichtlichSprachqualit˜atundSpracherken-
nungsleistung
† Auswahl von Sprachverbesserungsmodulen fur˜ verschiedene Rauschquellen
† VorschlageinesneuenSprachsegmentationsverfahrensalsVorverarbeitungsblockfur˜ die
Spracherkennung
56
† Entwicklung und Aufbau einer audio-visuellen Mehrkanaldatenbasis
Im Vergleich zu einem System mit Tischmikrophon, zeigt der hier vorgeschlagene audio-
visuelleTrackingansatzdeutlichverbesserteSprachqualitt,sowieh˜ohereSpracherkennungsraten
und hat in etwa die Performanz eines Systems mit Knop ochmikrophon.Acknowledgements
IwouldliketothankmyadvisorsProf. Gun˜ therPalm, FacultyofEngineeringandComputer
Sciences, University of Ulm, Germany and Prof. Herv¶e Bourlard, IDIAP Research Institute,
Switzerland for the encouragement and guidance during the course of this work.
IwouldliketoacknowledgetheflnancialsupportfromtheEuropeanProjects,Augmented
Multi-party Interaction (AMI, EU-IST project FP6-506811), Detection and Identiflcations
of Rare Audio-visual Cues (DIRAC, EU-IST project FP6-003758), and the state of Baden
Wurtem˜ berg, Germany.
SpecialthankstoDr. DanielGatica-Perez,IDIAPResearchInstitute,SwitzerlandandDr.
Iain McCowan, e-Health Research Centre, Australia for their constant supervision and sup-
port, made this work to be accomplished. Without their personal and remote collaboration,
this work would not have been possible.
I would like to express my sincere gratefulness to Prof. Hynek Hermansky, IDIAP Re-
searchInstitute,andDr. FriedhelmSchwenker,UniversityofUlm,fortheprecioussuggestions
and discussions. I would also like to thank Dr. Jithendra Vepa, Sileye Ba, Guillaume Lath-
oud, Bastien Crettol for helping with my experiments and Dr. Mike Lincoln, University of
Edinburgh for the collaboration in designing the corpus.
I would like to thank all the members of Faculty of Engineering and Computer Sciences,
UniversityofUlm,GermanyandIDIAPResearchInstitute,Martigny,Switzerlandformaking
my stay enjoyable and memorable at the respective places. Special thanks to Hans-Georg,
Stefan, Markus, Mathew, Hemant, Joel, Petr, Octavian, Dong, Mike, and Hamed for the
friendly and jovial atmosphere.
Finally, I thank my parents and all the rest of my family for their support over the years.
78Contents
1 Introduction 17
1.1 Automatic Speech Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Microphone Array based Speech Acquisition
and Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Integration of Person Tracking and Speech Recognition. . . . . . . . . . . . . 19
1.4 Statement of the Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Scope and Objectives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Thesis Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7 Publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.7.1 International Journal Publications . . . . . . . . . . . . . . . . . . . . 22
1.7.2 In Conference . . . . . . . . . . . . . . . . . . 23
2 Background and Related Work 25
2.1 Localization and Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Audio Localization and Tracking . . . . . . . . . . . . . . . . . . . . . 26
2.1.2 Audio-Visual Localization and Tracking . . . . . . . . . . . . . . . . . 27
2.2 Speech Enhancement with Microphone Arrays. . . . . . . . . . . . . . . . . . 30
2.2.1 Beamforming Theory and Techniques . . . . . . . . . . . . . . . . . . 31
2.2.2 Fixed Beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.3 Adaptive . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.4 Post-flltering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Speech/Non-Speech Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 Microphone Array Speech Recognition . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Automatic Speech . . . . . . . . . . . . . . . . . . . . . . 39
2.4.2 Robust Speech Recognition Techniques . . . . . . . . . . . . . . . . . 45
2.4.3 Microphone Arrays Processing for Automatic Speech Recognition . . . 48
2.5 Integrated System Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . 49
910 CONTENTS
2.5.1 Need for Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.5.2 Early Attempts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5.3 Weak Linkages in Integration . . . . . . . . . . . . . . . . . . . . . . . 51
3 Database Design 53
3.1 Known Audio-Visual Databases . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Opted Database and its Scope. . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 The MC-WSJ-AV Database Speciflcation . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Data Acquisition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.2 Speaking Conditions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.3 Corpus Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4 Corpus Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Annotation and Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6 Camera Calibration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4 Integration of A-V Tracking and Speech Processing System 61
4.1 Theoretical Considerations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Audio-Visual Sensor Array . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.1 Sensor Conflguration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.2 Sensor Calibration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3 Audio-Visual Person Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1 Dynamical Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.2 Observation Likelihood Model. . . . . . . . . . . . . . . . . . . . . . . 68
4.3.3 Sampling Mechanism . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Speech Enhancement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4.1 Post-fllter for Overlapping Speech . . . . . . . . . . . . . . . . . . . . 73
4.5 Speech/Non-Speech Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Experiments and Results 79
5.1 Data Speciflcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Person Tracking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2.1 Evaluation of the Performance of Audio-only vs AV Tracking . . . . . 80
5.2.2 Results of Tracking Experiments . . . . . . . . . . . . . . . . . . . . . 81
5.3 Efiects of Tracking on Speech Enhancement and
Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3.1 Speech Enhancement and Recognition Performance Measures . . . . . 85