Low delay audio coding based on logarithmic spherical vector quantization [Elektronische Ressource] = Audiocodierung mit geringer Verzögerung basierend auf logarithmisch sphärischer Vektorquantisierung / vorgelegt von Hauke Ulrich Krüger
187 pages
Deutsch

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Low delay audio coding based on logarithmic spherical vector quantization [Elektronische Ressource] = Audiocodierung mit geringer Verzögerung basierend auf logarithmisch sphärischer Vektorquantisierung / vorgelegt von Hauke Ulrich Krüger

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
187 pages
Deutsch
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Low Delay Audio Coding Based onLogarithmic Spherical Vector QuantizationAudiocodierung mit geringer Verzögerung basierendauf Logarithmisch Sphärischer VektorquantisierungVon der Fakultät für Elektrotechnik und Informationstechnikder Rheinisch-Westfälischen Technischen Hochschule Aachenzur Erlangung des akademischen Grades eines Doktors derIngenieurwissenschaften genehmigte Dissertationvorgelegt vonDiplom-IngenieurHauke Ulrich Krügeraus LübeckBerichter: Universitätsprofessor Dr.-Ing. Peter VaryUniversitätsprofessor Dr.-Ing. Jens-Rainer OhmTag der mündlichen Prüfung: 24. Februar 2010Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfügbar.AACHENER B EITRÄGE ZU DIGITALEN NACHRICHTENSYSTEMENHerausgeber:Prof. Dr.-Ing. Peter VaryInstitut für Nachrichtengeräte und DatenverarbeitungRheinisch-Westfälische Technische Hochschule AachenM uffeter W eg 3a52074 AachenTel.: 0241-80 26 956Fax.: 22 186Bibliografische Information der Deutschen BibliothekDie Deutsche Bibliothek verzeichnet diese Publikation in derDeutschen Nationalbibliografie; detaillierte bibliografischeDaten sind im Internet über http://dnb.ddb.de abrufbar1. Auflage Aachen:W issenschaftsverlag M ainz in Aachen(Aachener Beiträge zu digitalen Nachrichtensystemen, Band 25)IS S N 1437-6768IS BN 3-86130-651-4© 2010 Hauke KrügerW issenschaftsverlag M ainzSüsterfeldstr. 83, 52072 AachenTel.: 02 41 / 2 39 48 oder 02 41 / 87 34 34Fax: 02 41 / 87 55 77www.

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 43
Langue Deutsch
Poids de l'ouvrage 6 Mo

Extrait

Low Delay Audio Coding Based on
Logarithmic Spherical Vector Quantization
Audiocodierung mit geringer Verzögerung basierend
auf Logarithmisch Sphärischer Vektorquantisierung
Von der Fakultät für Elektrotechnik und Informationstechnik
der Rheinisch-Westfälischen Technischen Hochschule Aachen
zur Erlangung des akademischen Grades eines Doktors der
Ingenieurwissenschaften genehmigte Dissertation
vorgelegt von
Diplom-Ingenieur
Hauke Ulrich Krüger
aus Lübeck
Berichter: Universitätsprofessor Dr.-Ing. Peter Vary
Universitätsprofessor Dr.-Ing. Jens-Rainer Ohm
Tag der mündlichen Prüfung: 24. Februar 2010
Diese Dissertation ist auf den Internetseiten der Hochschulbibliothek online verfügbar.AACHENER B EITRÄGE ZU DIGITALEN NACHRICHTENSYSTEMEN
Herausgeber:
Prof. Dr.-Ing. Peter Vary
Institut für Nachrichtengeräte und Datenverarbeitung
Rheinisch-Westfälische Technische Hochschule Aachen
M uffeter W eg 3a
52074 Aachen
Tel.: 0241-80 26 956
Fax.: 22 186
Bibliografische Information der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der
Deutschen Nationalbibliografie; detaillierte bibliografische
Daten sind im Internet über http://dnb.ddb.de abrufbar
1. Auflage Aachen:
W issenschaftsverlag M ainz in Aachen
(Aachener Beiträge zu digitalen Nachrichtensystemen, Band 25)
IS S N 1437-6768
IS BN 3-86130-651-4
© 2010 Hauke Krüger
W issenschaftsverlag M ainz
Süsterfeldstr. 83, 52072 Aachen
Tel.: 02 41 / 2 39 48 oder 02 41 / 87 34 34
Fax: 02 41 / 87 55 77
www.V erlag-M ainz.de
Herstellung: Druckerei Mainz GmbH,
Süsterfeldstr. 83, 52072 Aachen
Tel.: 02 41 / 87 34 34; Fax: 02 41 / 87 55 77
www.Druckservice-Aachen.de
Gedruckt auf chlorfrei gebleichtem Papier
"D 82 (Diss. RW TH Aachen, 2010)"Acknowledgments
This thesis was written during my time as a research assistant at the Institute of
Communication Systems and Data Processing (IND) at the Rheinisch-Westfälische
Technische Hochschule Aachen (RWTH Aachen University). I would like to express
my gratitude to all those who contributed to the success of this work.
In particular, I am sincerely grateful to my supervisor Prof. Dr.-Ing. Peter Vary
whose numerous suggestions, inspiring ideas and continuous support have been in-
valuable, and I highly appreciate his dedication to encourage me in my scientific
and technical interest over the years. I am also indebted to the co-supervisor of my
work, Prof. Dr.-Ing. Jens-Rainer Ohm, for showing much interest in the obtained
results.
Furthermore, I want to thank all my colleagues, students and permanent sta! at the
institute for the pleasant, friendly and productive working atmosphere. For many
fruitful and inspiring discussions, successful cooperative research projects and in
particular the friendship, I wish to express my deepest thanks to my former col-
leagues Dr.-Ing. Peter Jax, Dr.-Ing. Christoph Erdmann, Dr.-Ing. Thomas Lotter,
Dr.-Ing. Marc Adrat, Dr.-Ing. Thorsten Clevorn, Dipl.-Ing. Carsten Hoelper and
Dr.-Ing. Gerald Enzner, to my colleagues M. Sc. Marco Jeub, Dipl.-Ing. Matthias
Rüngeler, Dipl.-Ing. Bastian Sauert, Simone Sedgwick, Roswitha Fröhlich, Andreas
Welbers, and the colleagues from the IND workshop. I also owe special thanks
to Dipl.-Ing. Aulis Telle, Dipl.-Ing. Bernd Geiser, Dipl.-Ing. Laurent Schmalen,
and Dipl.-Ing. Magnus Schäfer for proof-reading my manuscript as well as Dr.-Ing.
Christiane Antweiler, Dipl.-Ing. Heiner Löllmann, and Dipl.-Ing. Thomas Schlien
for valuable suggestions for improvements of the final presentations. Of course,
special thanks also go to the many students who made significant contributions to
my research work, in particular Dipl.-Ing. Dennis Noppeney, Dipl.-Ing. Raimund
Schreiber, M. Sc. Na Zhou, and Thomas Schumacher.
I owe my loving thanks to my family, in particular, my parents Bärbel and Udo
Krüger and my parents-in-law Monika and Reinhard Niggemeier for their support
over the years.
Finally, I wish to thank my beloved wife Kirsten and children Jana and Moritz for
their loving support, patience, and understanding.
Aachen, February 2010 Hauke KrügerAbstract
Most systems for the transmission and storage of speech and audio signals are
nowadays based on digital technology. For specific applications, e.g., wireless mi-
crophones for live concerts, however, operation constraints are defined which only
analog technology could fulfill. The most critical and often contradictory constraints
are a low algorithmic delay, a high perceived quality for speech as well as for audio
signals at low bit rates and a low computational complexity. State-of-the-art stan-
dardized approaches for digital lossy source coding in general either have a high
algorithmic delay or have been optimized for speech signals only and are not suit-
able for audio coding.
The outcome of this thesis are novel approaches for the lossy compression of digital
speech and audio signals with low algorithmic delay. The new concepts are prin-
cipally based on combined linear prediction and vector quantization which is well-
known from state-of-the-art speech codecs. However, fundamental modifications of
the concepts known from speech coding are essential to achieve a low algorithmic
delay and a low computational complexity as well as a high perceived speech and
audio quality at low bit rates.
The developed approaches for low delay audio coding significantly outperform stan-
dardized audio codecs with a comparable algorithmic delay and bit rate, e.g., the
ITU-T G.722 audio codec, in terms of a higher subjective quality for speech and
particularly audio signals.Contents
Abbreviations & Mathematical Notation v
1 Introduction 1
1.1 Application Examples . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Wireless Microphones in Live Concerts . . . . . . . . . . . . . 2
1.1.2 Wireless Audio-Link for Hearing Aids . . . . . . . . . . . . . 3
1.2 Available Speech and Audio Codecs . . . . . . . . . . . . . . . . . . . 5
1.2.1 Speech Coding . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Audio Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Converged Speech and Audio Coding . . . . . . . . . . . . . . 6
1.3 The New Low Delay Speech and Audio Codec . . . . . . . . . . . . . 7
1.4 Structure of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Rate Distortion Theory 10
2.1 Definition of the Rate Distortion Function . . . . . . . . . . . . . . . 10
2.1.1 Definition of a Quantization Cost Function . . . . . . . . . . 11
2.1.2 Definition of the Information Rate . . . . . . . . . . . . . . . 12
2.1.3 The Rate Distortion Function (RDF) . . . . . . . . . . . . . . 13
2.1.4 The Distortion Rate Function (DRF) . . . . . . . . . . . . . . 14
2.2 Calculation of the Rate Distortion Function . . . . . . . . . . . . . . 14
2.2.1 Rate Distortion Bounds . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 Approximation by Blahuts Method . . . . . . . . . . . . . . . 16
2.3 RDF for Stationary Correlated Gaussian Sources . . . . . . . . . . . 17
2.3.1 Asymptotic Behavior for High Bit Rates . . . . . . . . . . . . 18
2.3.2 Decorrelation by Singular Value Decomposition (SVD) . . . . 19
2.3.3 Toeplitz Distribution Theorem . . . . . . . . . . . . . . . . . 20
2.3.4 Example SNR Plot for Correlated Gaussian Sources . . . . . 21ii Contents
3 Quantization 23
3.1 Scalar Quantization (SQ) . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.1 Fixed Rate SQ . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1.1 Uniform SQ . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1.2 Non-Uniform SQ . . . . . . . . . . . . . . . . . . . . 26
3.1.1.3 Optimal Non-Uniform SQ . . . . . . . . . . . . . . . 27
3.1.1.4 Lloyd-Max Quantization (LMQ) . . . . . . . . . . . 28
3.1.1.5 Logarithmic Non-Uniform SQ . . . . . . . . . . . . 28
3.1.2 Variable Rate SQ . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.3 Intermediate Summary . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Vector Quantization (VQ) . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1 The VQ Advantages . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1.1 The Space Filling Advantage . . . . . . . . . . . . . 34
3.2.1.2 The Shape Advantage . . . . . . . . . . . . . . . . . 35
3.2.1.3 The Memory Advantage . . . . . . . . . . . . . . . . 36
3.2.2 Asymptotic VQ Performance . . . . . . . . . . . . . . . . . . 38
3.2.3 VQ Design for Low Bit Rates . . . . . . . . . . . . . . . . . . 39
3.2.4 VQ Application Examples . . . . . . . . . . . . . . . . . . . . 39
3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Logarithmic Spherical VQ (LSVQ) 41
4.1 Motivation for Spherical VQ (SVQ) . . . . . . . . . . . . . . . . . . 42
4.2 Theory of LSVQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.1 Properties of Spheres . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.2 Definition of LSVQ . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.3 A Qualitative Analysis for High Bit Rates . . . . . . . . . . . 47
4.2.4 Quantitative Results . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.4.1 Analysis of the “Ide

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents