Graph based spatial motion tracking using affine covariant regions [Elektronische Ressource] / vorgelegt von Andreas Haja

ruprecht-karls-universitat_heidelberg - Ahaja

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

183 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	ruprecht-karls-universitat_heidelberg
Publié le	01 janvier 2009
Nombre de lectures	9
Langue	English
Poids de l'ouvrage	5 Mo

Extrait

INAUGURAL — DISSERTATION
zur
Erlangung der Doktorwürde
der
Naturwissenschaftlich-Mathematischen Gesamtfakultät
der
Ruprecht – Karls – Universität
Heidelberg
vorgelegt von
Dipl.-Ing. Andreas Haja
aus Hannover
Tag der mündlichen Prüfung: 18.12.2008Graph-based Spatial
Motion Tracking Using
Afﬁne-covariant Regions
Gutachter: Prof. Dr. Bernd Jähne
Prof. Dr. Dr. h.c. Hans Georg BockAbstract
This thesis considers the task of spatial motion reconstruction from image sequences
using a stereoscopic camera setup. In a variety of ﬁelds, such as ﬂow analysis in physics
or the measurement of oscillation characteristics and damping behavior in mechanical
engineering, efﬁcient and accurate methods for motion analysis are of great importance.
This work discusses each algorithmic step of the motion reconstruction problem using
a set of freely available image sequences. The presented concepts and evaluation results
are of a generic nature and may thus be applied to a multitude of applications in various
ﬁelds, where motion can be observed by two calibrated cameras.
The ﬁrst step in the processing chain of a motion reconstruction algorithm is con-
cerned with the automated detection of salient locations (=features or regions) within
each image of a given sequence. In this thesis, detection is directly performed on the
natural texture of the observed objects instead of using artiﬁcial marker elements (as
with many currently available methods). As one of the major contributions of this work,
ﬁve well-known detection methods from the contemporary literature are compared to
each other with regard to several performance measures, such as localization accuracy
or the robustness under perspective distortions. The given results extend the available
literature on the topic and facilitate the well-founded selection of appropriate detectors
according to the requirements of speciﬁc target applications.
In the second step, both spatial and temporal correspondences have to be established
between features extracted from different images. With the former, two images taken at
the same time instant but with different cameras are considered (stereo reconstruction)
while with the latter, correspondences are sought between temporally adjacent images
from the same camera instead (monocular feature tracking). With most classical meth-
ods, an observed object is either spatially reconstructed at a single time instant yielding
a set of three-dimensional coordinates, or its motion is analyzed separately within each
camera yielding a set of two-dimensional trajectories.
A major contribution of this thesis is a concept for the uniﬁcation of both stereo recon-
struction and monocular tracking. Based on sets of two-dimensional trajectories from
each camera of a stereo setup, the proposed method uses a graph-based approach to
ﬁnd correspondences not between single features but between entire trajectories instead.
Thereby, the inﬂuence of locally ambiguous correspondences is mitigated signiﬁcantly.
The resulting spatial trajectories contain both the three-dimensional structure and the
motion of the observed objects at the same time. To the best knowledge of the author, a
similar concept does not yet exist in the literature. In a detailed evaluation, the superior-
ity of the new method is demonstrated.Zusammenfassung
Die vorliegende Arbeit behandelt das Problem der räumlichen Bewegungsrekonstruktion
aus Bildsequenzen unter Verwendung eines stereoskopischen Kameraaufbaus. Die zu-
verlässige und genaue Bestimmung von Bewegungsparametern spielt eine bedeutende
Rolle in einer Vielzahl von Anwendungsgebieten, z.B. der Analyse von Strömungs-
feldern in der Physik oder der Messung von Schwingungscharakteristiken und des Däm-
pfungsverhaltens im Maschinenbau.
Im Rahmen dieser Arbeit wird jeder Verarbeitungsschritt des Rekonstruktionsprob-
lems anhand von frei verfügbaren Bildsequenzen diskutiert. Die vorgestellten Konzepte
und die Untersuchungsergebnisse sind allgemeiner Natur und können daher auf eine
Vielzahl von Anwendungsfällen übertragen werden, in denen die Beobachtung von Be-
wegung mittels zweier kalibrierter Kameras möglich ist.
Der erste Schritt in der vorgestellten Verarbeitungskette befasst sich mit der automa-
tischen Detektion geeigneter Merkmale (oder Regionen) in jedem Einzelbild einer Bild-
sequenz. Im Rahmen dieser Arbeit erfolgt dieser Schritt direkt auf Basis der Eigentextur
der beobachteten Objekte, d.h. es werden keine künstlichen Messmarken oder sonstige
Markierungselemente verwendet. Als ein wesentlicher Beitrag dieser Arbeit werden fünf
populäre Detektionsmethoden aus der Literatur hinsichtlich verschiedener Leistungskri-
terien miteinander verglichen. Diese beinhalten z.B. die Positionsgenauigkeit der detek-
tierten Merkmale und deren Robustheit gegenüber perspektivischen Verzerrungen des
Bildinhaltes. Die umfangreichen Untersuchungsergebnisse ergänzen die vorhandene
Literatur zum Thema und ermöglichen die wohlbegründete Auswahl eines geeigneten
Detektionsverfahrens anhand der Erfordernisse einer Zielapplikation.
Im zweiten Schritt werden sowohl räumliche als auch zeitliche Korrespondenzen zwi-
schen Merkmalen aus verschiedenen Bildern extrahiert. Erstere werden aus Bilddaten
gewonnen, die zum gleichen Zeitpunkt von unterschiedlichen Kameras erzeugt wurden
(Stereorekonstruktion). Letztere hingegen stammen aus zeitlich benachbarten Bildern
der gleichen Bildsequenz, d.h. die Aufnahme erfolgt unter Verwendung einer einzel-
nen Kamera (monokulare Merkmalsverfolgung). Die meisten klassischen Methoden be-
fassen sich entweder mit der dreidimensionalen Rekonstruktion eines Objektes zu einem
Zeitpunkt oder mit der Analyse dessen zweidimensionaler Bewegung.
Ein weiterer Beitrag dieser Arbeit besteht in einem Konzept zur Vereinigung von
Stereorekonstruktion und monokularer Merkmalsverfolgung. Dieses beinhaltet im Kern
einen graphenbasierten Ansatz zur Korrespondenzanalyse, der anstelle von Einzelmerk-
malen aus zwei Bildern zweidimensionale Merkmalstrajektorien aus mehreren Bildern
als Datenbasis verwendet. Hierdurch wird der Einﬂuss von Mehrdeutigkeiten deutlich
gesenkt. Ergebnisse dieses Verarbeitungsschrittes sind sowohl die räumliche Struktur
des beobachteten Objektes als auch dessen Bewegung. Nach Kenntnis des Autors ex-
istiert in der Literatur derzeit kein vergleichbares Verfahren. Die Leistungsfähigkeit der
neuen Methode wird anhand von detaillierten Untersuchungen demonstriert.Danksagung
An dieser Stelle möchte ich mich bei allen bedanken, die zum Gelingen dieser Arbeit
beigetragen haben. Mein Dank für die fachliche Betreuung der Arbeit gilt Prof. Bernd
Jähne von der Universität Heidelberg und Dr. Steffen Abraham, die mich mit zahlrei-
chen Anregungen und Ideen nach Kräften unterstützt haben. Weiterhin danke ich den
Hildesheimer Doktoranden und Kollegen der Robert Bosch GmbH für die Zeit, die ich
mit vielen Fragen und Diskussionen beanspruchen durfte.
Meiner Frau Petra danke ich für ihre Geduld, ihr ausdauerndes Verständnis und ihre
emotionale Unterstützung, die mich durch die Verfassung dieser Schrift getragen haben.
Auch meiner Familie sei an dieser Stelle mein besonderer Dank ausgesprochen.
Nicht zuletzt muss hier mein Opa Kurt Schilling erwähnt werden, der mit seiner uner-
müdlichen und geduldigen Mathe-Nachhilfe das Entstehen dieser Arbeit überhaupt erst
ermöglicht hat. Tausend Dank!
viiviiiContents
Contents
1 Introduction 1
2 Evaluation of Region Detectors 7
2.1 Chapter Introduction........................... 7
2.2 Background . .............................. 9
2.2.1 Camera Calibration . . ..................... 9
2.2.2 Feature Detection . . . 14
2.2.3 Rotation-invariant Region Descriptors ............. 24
2.2.4 Homography Estimation From Region Correspondences.... 30
2.3 Measurement Setup and Image Datasets................. 33
2.4 Camera Calibration Results . . 36
2.4.1 Single-Camera Calibration ................... 36
2.4.2 Stereo-Camera 40
2.5 Evaluation . . 43
2.5.1 Homography Estimation Results . . . ............. 43
2.5.2 Region Performance Measures ................. 46
2.5.3 Overlap-based Region Correspondences ............ 53
2.5.4 Descriptor-based Region ........... 61
2.6 Chapter Conclusion ........................... 65
3 Monocular Region Tracking 69
3.1 Chapter Introduction 69
3.2 Background . .............................. 71
3.2.1 An Introduction to Tracking................... 71
3.2.2 Generic Bayesian Filtering Framework ............. 76
3.2.3 The Kalman Filter . . . ..................... 77
3.2.4 Kanade-Lucas-Tomasi Tracker ................. 80
3.3 Concepts for Descriptor-based Region Tracking ............ 83
3.3.1 Multi-Region Tracking Using a Constant Gating Region .... 84
3.3.2gion T Using Kalman-Filtering ........ 87
3.3.3 A Graph-based Approach to Multi-Region Tracking . . .... 95
3.4 Evaluation . . .............................. 102
3.4.1 Tracking Performance Measures . . . ............. 102
3.4.2 Descriptor-based Region Trackers . . 104
ixContents
3.4.3 Kanade-Lucas-Tomasi Tracker: A Reference .......... 118
3.5 Chapter Conclusion .................