Observing and interpreting complex human activities in everyday environments [Elektronische Ressource] / Jan Bandouch

technische_universitat_munchen

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

224 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Wissenschaft

Informations

Publié par	technische_universitat_munchen
Publié le	01 janvier 2010
Nombre de lectures	16
Langue	English
Poids de l'ouvrage	58 Mo

Extrait

Lehrstuhl für Bildverstehen und wissensbasierte Systeme
Institut für Informatik
Technische Universität München
Observing and Interpreting Complex Human Activities in
Everyday Environments
Jan Bandouch
Vollständiger Abdruck der von der Fakultät für Informatik der Technischen Universität Mün-
chen zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften (Dr. rer. nat.)
genehmigten Dissertation.
Vorsitzender: Univ.-Prof. Dr. Daniel Cremers
Prüfer der Dissertation: 1. Univ.-Prof. Michael Beetz, Ph.D.
2. Prof. Odest Chadwicke Jenkins, Ph.D.
(Brown University, Providence, RI, USA)
Die Dissertation wurde am 14.04.2010 bei der Technischen Universität München eingereicht
und durch die Fakultät für Informatik am 28.10.2010 angenommen.Abstract
The ability to automatically observe and interpret human activities is one of the main chal-
lenges in computer vision research. Successful methods will provide the foundations for a
broad range of novel and advanced applications in human computer interaction, robotics or
biomechanical and clinical research, to name just a few. Still, after more than two decades of
research, the task remains a hard challenge.
In this thesis we present a novel system for unintrusive observation of human activities that
requires no more than three cameras to precisely estimate human fullbody motions in a wide
variety of scenarios. It is capable to track a large spectrum of motions, including scenarios
where the subject is partially occluded, where it manipulates objects as part of its activities, or
where it interacts with the environment or other humans. The accuracy and robustness obtained
by our system is the result of the following contributions. First, we take an anthropometric
human model and optimize it towards use in a probabilistic tracking framework to provide
a detailed biomechanical representation of human shape, posture and motion. Second, we
introduce a sophisticated hierarchical sampling strategy for tracking that is embedded in a
probabilistic framework and outperforms state-of-the-art Bayesian methods. Third, we show
how to track complex manipulation activities in everyday environments using a combination
of learned human appearance models and implicit environment models. Fourth, we introduce
a method to learn environment- and task-speciﬁc models of human motion over time. These
models do not only improve the predictive capabilities and thus the efﬁciency of our tracker,
but also provide the basis for the recognition and interpretation of observed activities.
Our system competes with the state-of-the-art for markerless human motion capture, with a
mean accuracy of about2 cm for the joint locations. At the same time, our pose estimates are
more detailed due to the increased level of realism for the spine and shoulders in our biome-
chanical model. In terms of robustness and generality, our system outperforms related methods
as is shown through extensive evaluation on today’s benchmarks and several challenging se-
quences ranging from athletic exercises to ergonomic case studies to everyday manipulation
tasks. In particular, we have created the ﬁrst publicly available data set that features markerless
fullbody motion capture data of challenging manipulation activities for several subjects.
IIIKurzfassung
Das automatische Beobachten und Erkennen von menschlichen Aktivitäten ist eine der größ-
ten Herausforderungen im Bereich des automatischen Bildverstehens. Erfolgreiche Lösungs-
ansätze werden eines Tages die Grundlage für innovative Anwendungen u.a. im Bereich der
Mensch-Maschine-Interaktion, der Robotik oder auch der biomechanischen Bewegungsana-
lyse bilden. Nach mehr als zwei Jahrzehnten Forschung bleibt das gesteckte Ziel jedoch noch
immer eine große Herausforderung.
In dieser Dissertation stellen wir ein neuartiges System zur passiven Beobachtung mensch-
licher Aktivitäten vor. Es ermöglicht die präzise Vermessung menschlicher Ganzkörperbewe-
gungen in einer Vielzahl unterschiedlicher Szenarien, wobei nicht mehr als drei Kameras be-
nötigt werden. Das System arbeitet zuverlässig mit einem breiten Spektrum an Bewegungen,
selbst wenn die zu beobachtende Person teilweise verdeckt wird, wenn sie mit Gegenständen
hantiert, oder wenn sie mit der Umgebung oder anderen Personen interagiert. Die Genauigkeit
und Robustheit unseres Systems ist auf nachstehende Beiträge dieser Arbeit zurückzuführen.
Zum einen verwenden wir ein anthropometrisches Menschmodell, welches wir im Hinblick
auf die Verwendbarkeit in probabilistischen Verfahren zur Bewegungsverfolgung optimiert
haben. Dies ermöglicht uns eine genaue biomechanische Modellierung des äußeren Erschei-
nungsbilds sowie der Haltung und Bewegung von Menschen. Des weiteren präsentieren wir
ein fortschrittliches hierarchisches Verfahren zur Bayes’schen Bewegungsschätzung, welches
verwandte Verfahren in Bezug auf Genauigkeit und Zuverlässigkeit übertrifft. Wir zeigen au-
ßerdem, wie man die Vermessung komplexer Manipulationsaktivitäten in Alltagsumgebungen
durch das Erlernen menschlicher Erscheinungsbilder sowie durch implizite Umgebungsmo-
dellierung bewerkstelligen kann. Darüber hinaus stellen wir eine automatisierte Methode vor,
die das inkrementelle Erlernen umgebungsspeziﬁscher Modelle für menschliche Bewegungen
ermöglicht. Diese Modelle können nicht nur zur verbesserten Bewegungsvorhersage und so-
mit zur Efﬁzienzsteigerung unseres Systems verwendet werden, sondern liefern gleichzeitig
die Basis für die Erkennung und Interpretation der beobachteten Aktivitäten.
Unser System gehört mit einer mittleren Genauigkeit der geschätzten Gelenkpositionen von
ungefähr 2 cm zu den genauesten Systemen zur passiven menschlichen Bewegungserfassung
Vohne Marker. Gleichzeitig ist die Haltungsschätzung auf Grund der erhöhten Detaildarstel-
lung unseres Menschmodells besonders im Bereich der Wirbelsäule und der Schultern um
einiges detaillierter als bei vergleichbaren Systemen. In Bezug auf Robustheit und allgemeine
Anwendbarkeit übertreffen unsere Methoden verwandte Ansätze, wie umfangreiche Versuchs-
reihen bestätigen. Zu den anspruchsvollen Testsequenzen gehören neben wissenschaftlichen
Benchmarks auch Aufnahmen von Bodenturnen, ergonomischen Einstiegsstudien im Auto-
mobilbereich, sowie alltäglichen Küchenaktivitäten. Darüber hinaus haben wir im Rahmen
unserer Arbeit das erste umfangreiche Datenset mit komplexen Bewegungsdaten von Alltags-
aktivitäten veröffentlicht, welches nur mit Hilfe passiver Verfahren zur Bewegungsverfolgung
erstellt wurde.Acknowledgements
I would like to thank all the great people at the Intelligent Autonomous Systems group in
Munich for making my PhD research so much fun despite the hard work. First and fore-
most I would like to thank my advisor Prof. Michael Beetz for giving me the opportunity
to do research in Robotics and Computer Vision, for providing an excellent working envi-
ronment and for all the personal and technical support throughout the years. Many thanks
to Derik for introducing me to research (and to Michael). Cheers to Suat, Freek, Andreas,
Radu, Nico v. H., Bernhard, Matthias, Andras, Alexis, Federico, Francisco, Moritz, Dominik,
Thomas, Lorenz, Alex, Armin, Ingo, Lars, Dejan, Tetsuyou, Zahid, Murat, Zoltan, Nico B.,
Mihai, Uli, Christoph, Karinne and many more for endless discussions, evenings and ’kicker’
sessions. Special thanks to Andreas, Dejan, Zoltan, Dominik, Moritz and Suat for reviewing
parts of this thesis (sorry if I forgot anyone here). Thanks to all my students who showed me
the joy (and sometimes pain) of teaching and who helped with many projects, and thanks to
Sabine, Oliver and Quirin for shielding me from administrative tasks.
I would especially like to thank Prof. Chad Jenkins for inviting me to Brown University, for
making me feel at home there, for introducing me to nonlinear dimensionality reduction and
for serving on my committee. Thanks also to Aggeliki, Marek, Bart, Elisa, Silvia and all the
other colleagues and friends from RLAB and Prof. Michael Black’s group who made my stay
in Providence a memorable experience.
I’m very grateful to Prof. Daniel Cremers for leading my thesis committee, and to all mem-
bers of the scientiﬁc community for the many great insights and discussions at conferences
and workshops. I would also like to thank Prof. Fernando De la Torre, Prof. Sebastian Thrun
and Prof. Masayuki Inaba for inviting me to their labs and showing interest in my work.
Finally, I would like to thank my parents for early guidance and support, my love Monika
for everything and much more, and myself for writing this thesis (despite the nice weather
outside).
VIITo Moni