Spatiotemporal structuring of compressed videos based on motion information [Elektronische Ressource] / vorgelegt von Siripong Treetasanatavorn

Spatiotemporal Structuring of Compressed VideosBased on Motion InformationDer Technischen Fakultat¨ derUniversitat¨ Erlangen-Nurnber¨ gzur Erlangung des GradesDOKTOR-INGENIEURvorgelegt vonSiripong TreetasanatavornErlangen - 2006Als Dissertation genehmigt vonder Technischen Fakultat¨ derUniversitat¨ Erlangen-Nurnber¨ gTag der Einreichung: 29. Juni 2006Tag der Promotion: 22. November 2006Dekan: Prof. Dr.-Ing. Alfred Leipertz1. Berichterstatter: Prof. Dr.-Ing. Andre´ Kaup2. Prof. Dr.-Ing. Rolf-Rainer GrigatRaumzeitliche Strukturierung komprimierter Videosauf der Basis von BewegungsinformationKurzzusammenfassungVideoanwendungen, die auf Basis asynchroner Kommunikation laufen, wie das Video-Messaging, befinden sich heutzutage ublicherweise¨ in einer Vielfalt von mobilen End-geraten.¨ Als Hindernis wird jedoch die wachsende Anzahl von Leistungsmerkmalen undGeratetypen,¨ mit den dazugehorigen¨ Gebrauchskontexten sowie den zu Grunde liegen-den Netzwerktechnologien von Anbietern dieser Dienste wahrgenommen. Als Antwortauf diese Situation wurde die Videoadaptation entwickelt, um so eine nahtlose Kommu-nikation zwischen Geraten¨ mit nicht-kompatiblen Eigenschaften zu ermoglichen;¨ sie wirdsomit eingesetzt, um unterschiedliche Funktionen der Gerate¨ zu uberbr¨ uck¨ en. Wenn mandie Videoinhalte außer Betracht lasst,¨ ist der Mechanismus der Adaptation ausschließlichauf die Variationen der Gattungen der Kompressionsparameter von Videos beschrankt.
Publié le : lundi 1 janvier 2007
Lecture(s) : 18
Tags :
Source : WWW.OPUS.UB.UNI-ERLANGEN.DE/OPUS/VOLLTEXTE/2007/490/PDF/SIRIPONGTREETASANATAVORNDISSERTATION.PDF
Nombre de pages : 190
Voir plus Voir moins

Spatiotemporal Structuring of Compressed Videos
Based on Motion Information
Der Technischen Fakultat¨ der
Universitat¨ Erlangen-Nurnber¨ g
zur Erlangung des Grades
DOKTOR-INGENIEUR
vorgelegt von
Siripong Treetasanatavorn
Erlangen - 2006Als Dissertation genehmigt von
der Technischen Fakultat¨ der
Universitat¨ Erlangen-Nurnber¨ g
Tag der Einreichung: 29. Juni 2006
Tag der Promotion: 22. November 2006
Dekan: Prof. Dr.-Ing. Alfred Leipertz
1. Berichterstatter: Prof. Dr.-Ing. Andre´ Kaup
2. Prof. Dr.-Ing. Rolf-Rainer GrigatRaumzeitliche Strukturierung komprimierter Videos
auf der Basis von Bewegungsinformation
Kurzzusammenfassung
Videoanwendungen, die auf Basis asynchroner Kommunikation laufen, wie das Video-
Messaging, befinden sich heutzutage ublicherweise¨ in einer Vielfalt von mobilen End-
geraten.¨ Als Hindernis wird jedoch die wachsende Anzahl von Leistungsmerkmalen und
Geratetypen,¨ mit den dazugehorigen¨ Gebrauchskontexten sowie den zu Grunde liegen-
den Netzwerktechnologien von Anbietern dieser Dienste wahrgenommen. Als Antwort
auf diese Situation wurde die Videoadaptation entwickelt, um so eine nahtlose Kommu-
nikation zwischen Geraten¨ mit nicht-kompatiblen Eigenschaften zu ermoglichen;¨ sie wird
somit eingesetzt, um unterschiedliche Funktionen der Gerate¨ zu uberbr¨ uck¨ en. Wenn man
die Videoinhalte außer Betracht lasst,¨ ist der Mechanismus der Adaptation ausschließlich
auf die Variationen der Gattungen der Kompressionsparameter von Videos beschrankt.¨ Ste-
hen hingegen die in den Videos kommunizierten semantischen Inhalte zur Verfugung,¨ so
kann das mogliche¨ Transmoding von Videos in semantisch orientierte Key-Frames oder in
ikonische Zusammenfassungen verwirklicht werden.
In dieser Dissertation werden Methoden der Videoanalyse zur Unterstutzung¨ der oben
genannten Adaptation, die auf der Inhaltsanalyse beruht, vorgeschlagen und entsprechend
bewertet. Das vorgestellte Verfahren ist auf die Strukturierung raumzeitlicher Inhalte aus
der Bewegungsinformation von blockkomprimierten Videos fokussiert. Im ersten Teil wird
ein stochastisches Bewegungskoharenzmodell¨ als Instrument zur Analyse fur¨ die raumliche¨
Strukturierung bezuglich¨ bewegungskoharenter¨ Partitionen vorgeschlagen. Dieses Modell
basiert auf zweidimensionalen Gibbs-Markov-Zufallsfeldern sowie auf der affinen para-
metrischen Bewegung. Es evaluiert die Wahrscheinlichkeit der Bewegungsfeldpartition,
die von der statistischen Abhangigk¨ eit von der naheren¨ Zufallsfeldumgebung kalkuliert
wurde, um den Grad der Verlasslichk¨ eit eines jeden vorcodierten Bewegungsvektors zu
analysieren.
Im zweiten Teil werden das Modell der Bewegungskoharenz¨ sowie die raumliche¨ Struk-
turierungsmethode auf die Analyse von raumzeitlichen Bewegungssemantiken erweitert;
diese erfordern sowohl die raumliche¨ Analyse von bewegungskoharenten¨ Objekten im je-
weiligen Frame, als auch deren Verfolgung uber¨ Frames hinweg. Sequenzen raumzeitlicher
Bewegungspartitionen werden anfanglich¨ unter Anwendung der Partitionsprojektions- und
Relaxationsmethode erzielt. Dies geschieht in zwei Schritten. Zunachst¨ wird, basierend aufiv Kurzzusammenfassung
den Resultaten der vorhergehenden Frames, die aktuelle Partition vorausberechnet; dann
wird der Pradiktor¨ an die korrespondierenden Bewegungsfeldstatistiken fein angepasst.
Wenn das Bewegungsfeld sich erheblich von seinen Vorgangern¨ unterscheidet, wird ein
weiteres, auf der Bayes-Schatzungstheorie¨ basierendes Analysemodell angewandt, um das
ursprungliche¨ Resultat der raumzeitlichen Analyse zu verbessern. Dieses Verfahren analys-
iert die verfolgte Partition durch statistische Konsolidierung zweier potenziell komple-
mentarer¨ Hypothesen.
Anschließend werden Videosequenzen temporal auf Kamera-Subshot-Segmente, Key-
Frames und deren jeweiligen Annotationen strukturiert. Dieser Ansatz ermoglicht¨ die An-
wendung eines breiten Spektrums von Videoadaptationen, mit einer Verlustbegrenzung
von jener Schlusselinformation,¨ die zum Verstandnis¨ der ursprunglichen¨ Videoinhalte er-
forderlich ist. Zusatzlich¨ ermoglicht¨ dies schnelles und einfaches Editieren von Annota-
tionen, die den semantischen Entitaten¨ zugeordnet sind. Zwei alternative temporale Struk-
turierungsmethoden der Videobildsegmentierung werden vorgeschlagen und evaluiert. Die
erste Methode, ein lokaler Analyseansatz, ist fur¨ die Analyse von qualitativ hochwertigen
professionellen Videos in Echtzeit geeignet. Die andere Methode hingegen basiert auf der
globalen Analyse und ist fur¨ Videos in jener Amateurqualitat,¨ die ublicherweise¨ im Ziel-
gruppenszenario vorgefunden wird, besser geeignet. Dies liegt an der einzigartigen Charak-
teristik des globalen Optimierungsansatzes, der dazu fahig¨ ist, ungewollte Bildstorungen¨
und -sprunge¨ zu entfernen. Diese beiden Vorgehensweisen werden durch die Methoden
der bewegungsbasierten Segmentannotation und der Key-Frameauswahl komplementiert.
S¨ amtliche Methoden zur Videostrukturierung wurden in eine Anwendung fur¨ das Messag-
ing integriert, welche die Anwendbarkeit des Algorithmus demonstriert, und so als Konzept-
beweis dient.Spatiotemporal Structuring of Compressed Videos
Based on Motion Information
Abstract
Today’s video applications which are driven by asynchronous communications such as
video messaging have become commonplace in a variety of mobile handsets. However,
the increasing number of features and classes of such devices, related usage contexts, and
underlying networking technologies is seen as an obstacle to service providers. To address
this situation, video adaptation was developed to enable seamless communications between
devices with incompatible properties and is therefore, deployed to bridge different device
functions. If the video contents are not taken into account, the adaptation mechanism is
limited to the generic variation of video compression parameters only. On the contrary, if
the semantic contents being communicated in the videos are available, potential transmod-
ing of the videos to semantically-oriented key-frames or iconic summaries may be realized
with a limited loss of significant information.
In this thesis, a set of video analysis methods are proposed and respectively evaluated
in order to assist the previously mentioned adaptation, which is driven by content analysis.
The technique presented focuses on the structuring of spatiotemporal contents from motion
information in the block-based compressed videos. In the first part, a stochastic motion co-
herency model is proposed as an analytical tool for spatial structuring in terms of motion-
coherent partitions. This model is based on two-dimensional Gibbs-Markov random fields
and affine parametric motion. It evaluates the probability of the motion field partition that,
in particular, is calculated using statistical dependency in the random-field neighborhood
to analyze the confidence level of each pre-encoded motion vector.
In the second part, the motion coherency model and the spatial structuring method are
extended to the analysis of spatiotemporal motion semantics that require both the spatial
analysis of motion-coherent objects in each frame, and tracking of these objects between
frames. Sequences of the motion partitions are initially formed by using the
partition projection and relaxation method. It works in two steps. First, the current partition
is predicted based on the results of the preceding frames. Then, the predictor is refined to
fit the corresponding motion field statistics. If the motion field differs significantly from its
predecessors, another analysis model based on the Bayesian estimation theory is applied
to improve the initial result of the spatiotemporal analysis. This technique analyzes the
tracking partition by statistically consolidating two potentially complementary hypotheses.vi Abstract
In the last part, video sequences are temporally structured into camera sub-shot seg-
ments, key-frames, and related annotations. This approach allows a wide range of video
adaptation applications with a limited loss in the key information necessary to understand
the contents of the original videos. It also enables fast and simple editing of related anno-
tations to these semantic entities. Two alternative temporal structuring methods for camera
shot segmentation are proposed and evaluated. The first method, a local analysis approach,
is suitable for analyzing high-quality professional videos in a real-time manner. On the
contrary, the other method, based on global analysis, is better suited for amateur-quality
videos, commonly found in the target scenario. This is due to the unique characteris-
tic of the global optimization approach capable of removing undesired noise and jittering
motion. These two methods are complemented by motion-based segment annotation and
key-frame selection methods. All of the video structuring methods were integrated into a
video messaging implementation that demonstrates the applicability of the algorithms, and
thus serves as a proof of concept.Acknowledgments
I consider myself very fortunate to complete this dissertation under close supervision of
Prof. Dr.-Ing. Andre´ Kaup. I am deepest grateful for his many invaluable advices, and in
particular, his patience to initiate and carefully implement an intellectual-freedom setting
that was a central component in this rewarding and fulfilling journey.
I would like to convey my gratitude to Prof. Dr.-Ing. Rolf-Rainer Grigat for his interest
in this dissertation and willingness to be the second examiner. My appreciation is cordially
conveyed to Prof. Dr.-Ing. Wolfgang Koch, who chaired the examination board, and Prof.
Dr.-Ing. Joachim Hornegger for his acceptance to take part in this examination.
This dissertation would have never been completed without support from Siemens
Youth and Knowledge fellowship and Siemens Corporate Technology. I appreciate vision
and guidance of Dr. Klaus Illgner, Dr. Uwe Rauschenbach, and Dr. Jor¨ g Heuer, who
helped set up this research project up to the finalization of this work. In particular, I would
like to thank Dr. Rauschenbach for his understanding advices in every aspect since day
one. Undoubtedly, he has been very influential to the success of this dissertation. Special
acknowledgments are cordially conveyed to Dr. Holger Herzog and Dr. Christian Winkler
who made this research opportunity at Siemens CT IC2 possible. I would also like to thank
Dr. Eckart Hundt and Prof. Dr. Ulrich Eckhardt for numerous advices and supports.
I am grateful to colleagues at Siemens: Francesc, Andrea, Andreas, Marcel, Benoit,
Weng, Lixiang, Thomas, Gero, Norbert, Gabriel, Ralf, Peter, Jo, Colin, Jur¨ gen, Robert, and
Mrs. Krekow. For Ralf, we will never forget him and his everlasting friendship. Many
thanks go to friends and colleagues at LMS/LNT University of Erlangen-Nuremberg: Jens
(Bialkowski and Garbas), Marcus, Markus, Uli, Katrin, Fabian, Parijat, Wolfgang (Her-
bordt and Sor¨ gel), Bernd, Mr. Preiss, and many others. My sincere thanks are to Ellen-
Jens, Marcus, and Katrin-Fabian for their warm welcomes everytime I visited Erlangen.
In particular, I appreciate voluntary help from Jens and Marcus in setting up scripts for
visualizing segmentation and tracking results. Very special thanks also go to Mrs. Heller-
Benchimol, Ms. Strauss, and Ms. Maliwal for valuable expert advices on linguistic issues.
My last words are to my family: mom, dad, sister, and brother. They are my lifelong
motivation nurturing the value of education. I would not have had today without their un-
derstanding, encouragement, love, patience, and forgiveness. I owe you so much.
Siripong Treetasanatavorn
Munich, November 2006Inhaltsverzeichnis
1 Einleitung 1
2 Literatur zur Videostrukturierung basierend auf der Bewegungsanalyse 6
2.1 Einfuhrung¨ zur V 7
2.1.1 Klassifizierung der Literatur und Innovation der Dissertation 8
2.2 Grundlagen der Bewegungsanalyse 11
2.2.1 Bewegung und optische Flow-Felder 11
2.2.2 Blockbasierte Bewegungsanalyse 14
2.2.3 Parametrische Bewegungsmodellierung und Schatzung¨ 16
2.3 Verwandte Methoden der Bewegungsstrukturierung 21
¨2.3.1 Ortliche Strukturierung basierend auf Bewegungsinformationen 22
2.3.2 Bewegungs-Tracking von Video-Segmenten 27
2.3.3 Temporale Bewegungsstrukturierung 30
¨3 Ortliche Strukturierung basierend auf stochastischer Bewegungskohar¨ enz 35
¨3.1 Ortliche Strukturierung als ein Labelling-Problem 37
3.2 Videostrukturierung durch Gibbs-Markov-Zufallsfelder 38
3.2.1 Markov-Zufallsfelder und Gibbs-Distribution 39
3.2.2 Methoden fur¨ stochastische Image- und Videostrukturierung 44
3.3 Stochastisches Bewegungskoharenz-Modell¨ 51
3.3.1 Parametrisches Region-Modell 53
3.3.2 Wahrscheinlichkeit der Bewegungskoharenz¨ 54
3.3.3 A-Priori-Dichte der Region-Umrandung 57
3.4 Modellunterstutzter¨ ortlicher¨ Strukturierungsalgorithmus 58
3.4.1 Anfangliche¨ Einschatzung¨ der lokalen Bewegungskoharenz¨ 59
3.4.2 Initialisierung der Partition 60
3.4.3 Optimierung der Partition 62
3.5 Ergebnis und Diskussion 64
viiiInhaltsverzeichnis ix
4 Bewegungs-Tracking und raumzeitliche Konsolidierung der Partition 71
4.1 Bewegungs-Tracking basierend auf Projektion und Relaxation 73
4.1.1 Bewegungskoharenz-Modellierung¨ 74
4.1.2 Temporale Projektion der Bewegungsstruktur 76
4.1.3 Optimierungsalgorithmus fur¨ die projizierte Partition 79
4.1.4 Funktionalitaten¨ der Projektions- und Relaxationsmethode 82
4.2 Bayes-Modell fur¨ die Hypothesenkonsolidierung 88
4.2.1 Wahrscheinlichkeit der dualen Hypothesen-Kongruitat¨ 89
4.2.2 Konsolidierungsregulierung mit Bewegungskoharenz¨ 90
4.2.3 A-Priori-Dichte von Region-Umrandungen 91
4.3 Algorithmus fur¨ die raumzeitliche Konsolidierung 91
4.3.1 Initialisierung der dualen Hypothese 91
4.3.2 Hypothesen-Verknupfung¨ und Konflikt-Detektion 93
4.3.3 Iterative Resolution 93
4.4 Klassifizierung raumzeitlicher Segmente 98
4.5 Ergebnis und Diskussion 99
5 Temporale Bewegungsstrukturierung und Inhaltsanalyse 105
5.1 Referenz-Bewegungsmodell 107
5.1.1 Globale Bewegungsanalyse 107
5.1.2 Bewegungstrajektorie 109
5.2 Temporale Bewegungssegmentation 112
5.2.1 Diskreter Algorithmus der Kurvenevolution 112
5.2.2 Bewegungssegmentation basierend auf der Kurvenevolution 114
5.2.3 Bewe auf einem lokalen Ansatz 117
5.3 Segment-Annotation und Key-Frame-Selektion 121
5.3.1 Se basierend auf der Bewegungsanalyse 121
5.3.2 Regeln zur Key-Frame-Selektion. 123
5.4 Ergebnis und Diskussion 124
6 Videostrukturierung bei der Multimedia-Messaging-Anwendung 135
6.1 Multimedia-Organisation beim Messaging-System 137
6.2 M3Box: ein experimentelles 138
6.3 Medienadaptation basierend auf Videostrukturierung 140
7 Zusammenfassung 145
Literatur 152Contents
1 Introduction 1
2 Related Literature in Video Structuring Using Motion Analysis 6
2.1 Introduction to Video 7
2.1.1 Literature Classification and Thesis Innovation 8
2.2 Related Fundamentals in Motion Analysis 11
2.2.1 Motion and Optical Flow Fields 11
2.2.2 Block-based Motion Analysis 14
2.2.3 Parametric Motion Modelling and Estimation 16
2.3 Related Methods in Structuring 21
2.3.1 Spatial Structuring Using Motion Information 22
2.3.2 Motion Tracking of Video Segments 27
2.3.3 Temporal Motion Structuring 30
3 Spatial Video Structuring Using Stochastic Motion Coherency 35
3.1 Spatial Structuring as a Labelling Problem 37
3.2 Video by Gibbs-Markov Random Fields 38
3.2.1 Markov Random Fields and Gibbs Distribution 39
3.2.2 Related Methods in Stochastic Image and Video Structuring 44
3.3 Stochastic Motion Coherency Model 51
3.3.1 Region Parametric Model 53
3.3.2 Motion Coherency Likelihood 54
3.3.3 Region Boundary A-Priori Density 57
3.4 Model based Spatial Structuring Algorithm 58
3.4.1 Initial Assessment of the Local Motion Coherency 59
3.4.2 Partition Initialization 60
3.4.3 P Optimization 62
3.5 Result and Discussion 64
x

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.