La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Sujets
Informations
Publié par | technischen_universitat_darmstadt |
Publié le | 01 janvier 2010 |
Nombre de lectures | 23 |
Langue | English |
Poids de l'ouvrage | 8 Mo |
Extrait
Monocular Visual Scene
Understanding
from Mobile Platforms
A dissertation for the degree of
Doktor-Ingenieur (Dr.-Ing.)
approved by
TECHNISCHE UNIVERSITÄT DARMSTADT
Fachbereich Informatik
presented by
CHRISTIAN ALEXANDER WOJEK
Dipl.-Inform.
born in Schillingsfürst, Germany
Examiner: Prof. Dr. Bernt Schiele
Co-examiner: Prof. Dr. Luc Van Gool
thDate of Submission: 14 of May, 2010
thDate of Defense: 30 of June, 2010
Darmstadt, 2010
D17ABSTRACT
Automatic visual scene understanding is one of the ultimate goals in computer vision
and has been in the field’s focus since its early beginning. Despite continuous effort
over several years, applications such as autonomous driving and robotics are still
unsolved and subject to active research. In recent years, improved probabilistic meth-
ods became a popular tool for current state-of-the-art computer vision algorithms.
Additionally, high resolution digital imaging devices and increased computational
power became available. By leveraging these methodical and technical advancements
current methods obtain encouraging results in well defined environments for robust
object class detection, tracking and pixel-wise semantic scene labeling and give rise
to renewed hope for further progress in scene understanding for real environments.
This thesis improves state-of-the-art scene with monocular cam-
eras and aims for applications on mobile platforms such as service robots or driver
assistance for automotive safety. It develops and improves approaches for object
class detection and semantic scene labeling and integrates those into models for
global scene reasoning which exploit context at different levels.
To enhance object class detection, we perform a thorough evaluation for people
and pedestrian detection with the popular sliding window framework. In particular,
we address pedestrian detection from a moving camera and provide new benchmark
datasets for this task. As frequently used single-window metrics can fail to predict
algorithm performance, we argue for application-driven image-based evaluation
metrics, which allow a better system assessment. We propose and analyze features
and their combination based on visual and motion cues. Detection performance is
evaluated systematically for different feature-classifiers combinations which is crucial
to yield best results. Our results indicate that cue combination with complementary
features allow improved performance. Despite camera ego-motion, we obtain
significantly better detection results for motion-enhanced pedestrian detectors.
Realistic onboard applications demand real-time processing with frame rates
of 10 Hz and higher. In this thesis we propose to exploit parallelism in order to
achieve the required runtime performance for sliding window object detection. In a
case study we employ commodity graphics hardware for the popular histograms
of oriented gradients (HOG) detection approach and achieve a significant speed-up
compared to a baseline CPU implementation.
Furthermore, we propose an integrated dynamic conditional random field model
for joint semantic scene labeling and object detection in highly dynamic scenes. Our
model improves semantic context modeling and fuses low-level filter bank responses
with more global object detections. Recognition performance is increased for object
as well as scene classes. Integration over time needs to account for different dynamics
of objects and scene classes but yields more robust results.
Finally, we propose a probabilistic 3D scene model that encompasses multi-
iiiiv
class object detection, object tracking, scene labeling, and 3D geometric relations.
This integrated3D model is able to represent complex interactions like inter-object
occlusion, physical exclusion between objects, and geometric context. Inference in
this model allows to recover 3D scene context and perform 3D multi-object tracking
from a mobile observer, for objects of multiple categories, using only monocular
video as input. Our results indicate that our joint scene tracklet model for the
evidence collected over multiple frames substantially improves performance.
All experiments throughout this thesis are performed on challenging real world
data. We contribute several datasets that were recorded from moving cars in urban
and sub-urban environments. Highly dynamic scenes are obtained while driving
in normal traffic on rural roads. Our experiments support that joint models, which
integrate semantic scene labeling, object detection and tracking, are well suited to
improve the individual stand-alone tasks’ performance.ZUSAMMENFASSUNG
Automatisiertes visuelles Szenenverstehen gehört zu den letztendlichen Zielen des
maschinellen Sehens und steht bereits seit dem Beginn der Forschungsaktivitäten im
Zentrum des Interesses. Trotz mehrjähriger kontinuierlicher Bemühungen sind je-
doch Anwendungen wie zum Beispiel autonomes Fahren und autonome Robotorsys-
teme noch immer ungelöst und Gegenstand aktiver Forschung. In den letzten
Jahren entwickelten sich probabilistische Methoden zu einem beliebten Werkzeug
für die Ansätze des maschinellen Sehens, die den derzeitigen Stand der Technik
darstellen. Zusätzlich hat die Leistungsfähigkeit von Rechnern stark zugenommen
und hochauflösende digitale Kamerasensoren wurden verfügbar. Gegenwärtige
Ansätze nutzen diese methodischen und technischen Verbesserungen und erreichen
in wohl definierten Umgebungen ermutigende Ergebnisse in den Bereichen robuste
Objektklassenerkennung, Objektverfolgung und pixelweise semantische Szenenseg-
mentierung. Diese geben Anlass zu erneuter Hoffnung auf Fortschritte im Gesamt-
szenenverständnis realistischer Umgebungen.
Diese Arbeit verbessert den Stand der Technik für monokulares Szenenver-
ständnis und ist auf Anwendungsszenarien mit mobilen Plattformen wie zum
Beispiel Servicerobotern oder Fahrerassistenzsystemen zur Erhöhung der auto-
mobilen Fahrsicherheit ausgerichtet. Sie entwickelt und verbessert Ansätze zur
Objektklassendetektion und zur semantischen Szenensegmentierung und integriert
diese in Modelle zum Gesamtszenenverständnis, die Kontext unterschiedlicher Art
ausnutzen.
Zunächst führen wir zu einem besseren Verständnis der Objektklassenerkennung
eine sorgfältige Leistungsanalyse unterschiedlicher Ansätze durch, die das Sliding-
Window-Paradigma für die Erkennung von Menschen und Fußgängern verwenden.
Insbesondere behandeln wir Fußgängererkennungsalgorithmen, die mit bewegten
Kameras verwendet werden können und stellen für diese Aufgabe neue Vergleichs-
datensätze zur freien Verfügung. Da häufig verwendete Einzelfenstermetriken
bei der Bestimmung der Leistungsfähigkeit scheitern können, plädieren wir in
dieser Arbeit für die Verwendung anwendungsorientierter Gesamtbildmetriken, die
eine bessere Beurteilung erlauben. Darüber hinaus schlagen wir die Verwendung
und Kombination von Aussehens- und Bewegungsmerkmalen vor und analysieren
diese systematisch für verschiedene Klassifikator/Merkmalskombinationen. Dies
erweist sich als wichtig, um die besten Ergebnisse zu erzielen. Unsere Ergebnisse
zeigen, dass die Kombination komplementärer Merkmale zu einer verbesserten
Erkennungsleistung führen kann. Trotz Kameraeigenbewegung erreichen wir unter
Miteinbeziehung von Bewegungsmerkmalen bei der Detektion von Fußgängern
signifikant bessere Ergebnisse.
Reale Anwendungen mit mobilen Plattformen benötigen häufig eine Echtzeitver-
arbeitungsgeschwindigkeit von10 Bilder pro Sekunde und mehr. In dieser Arbeit
vvi
schlagen wir vor, mögliche Parallelität von Verarbeitungsschritten auszunutzen,
um diese Geschwindigkeit für das Sliding-Window-Verfahren zu erreichen. In
einer Fallstudie verwenden wir Endbenutzergrafikhardware, um das verbreitete His-
tograms of oriented Gradients (HOG) Erkennungsverfahren zu implementieren und
erreichen damit eine signifikante Beschleunigung gegenüber einer CPU-basierten
Referenzimplementierung.
Des Weiteren schlagen wir ein integriertes dynamisches Conditional Random
Field Modell vor, das die gleichzeitige Inferenz von semantischer Szenensegmen-
tierung und die Erkennung von Objekten in hochdynamischen Szenen erlaubt. Unser
Modell verbessert die Modellierung semantischen Kontextes und verbindet low-
level Filterbankantworten mit Objekthypothesen. Dabei wird die Erkennungsleis-
tung sowohl für Objekt- als auch für Hintergrundszenenklassen verbessert. Die
zeit-dynamische Erweiterung des Modells beachtet die höchst unterschiedliche Be-
wegungsdynamik von Objekten und Hintergrundszene und kann dadurch noch
robustere Ergebnisse erzielen.
Schließlich schlagen wir ein probabilistisches3D Gesamtszenenmodell vor, das
Mehrklassenobjektdetektion, Objektverfolgung, semantische Szenensegmentierung
und die Modellierung von 3D Beziehungen vereint. Dieses integrierte 3D Modell ist
in der Lage komplexe Wechselwirkungen wie Verdeckung unter Objekten, physikalis-
chen Ausschluss von Objekten, sowie geometrischen Kontext zu modellieren. Dieses
Modell erlaubt es, lediglich unter Verwendung einer monokularen Kamera, 3D
Szenenkontext zu erschließe