On knowledge transfer in object class recognition [Elektronische Ressource] / presented by Michael Stark
186 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

On knowledge transfer in object class recognition [Elektronische Ressource] / presented by Michael Stark

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
186 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Sujets

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 62
Langue English
Poids de l'ouvrage 12 Mo

Extrait

2010
rmstadt,
ARMST
Prof.
Dr.
SIT
3
A
i
ereich
esele,
ert,
TECHNISCHE
Date
ass
Date
T
er,
ransfer
o
F
Mainz,
app
Michael
rmatik
fo
rtial
y
co-examiner
Cl
Schiele,
UNIVER
Submission:
T
August,
Ä
Defense:
Recognition
of
D
Dipl.-Info
no
b
ADT
rn
dissertation
n
achb
Germany
in
Dr.-Ing.
Info
Go
roved
examiner
Ma
K
wledge
Object
b
Prof.
r
Heb
the
Ph.D.,
degree
Prof.
of
Bernt
Dokto
co-examiner
r-Ingenieur
of
(Dr.-Ing
12
.)
of
p
2010
resented
of
b
2
y
Da
MICHAEL
Septemb
ST
2010
ARK
D17
rm.
On
th
rdABSTRACT
In recent years, impressive results have been reported for the recognition of in-
dividual object classes, based on the combination of robust visual features with
powerful statistical learning techniques. As a result, the simultaneous recognition
of many object classes is coming into focus, posing challenges with respect to both
model complexity and the need for increasing amounts of training data. Reusing
once acquired information in the context of related recognition tasks, effectively
transferring knowledge between object classes, has been identified as a promising
route towards scalable recognition. Besides increasing scalability, knowledge transfer
has been shown to enable novel tasks, such as the recognition of object classes for
which no training data are available, termed zero-shot recognition. In this case, miss-
ing training data is compensated by exploiting additional, complementary sources
of knowledge, such as linguistic knowledge bases. Based on these encouraging
prospects, this thesis explores four different dimensions of knowledge transfer in
object class recognition.
First, we investigate the role of visual features as a low level representation
of transferable knowledge. Based on an extensive evaluation of existing state-of-
the-art local feature detectors and descriptors, we identify shape-based features in
connection with powerful spatial models as a promising candidate representation.
Building upon this result, we further introduce a novel flavor of local shape-based
features, as well as a generic appearance descriptor based on shading artifacts.
Second, we highlight the connection between knowledge transfer and generaliza-
tion across basic-level object categories, by recognizing objects according to potential
functions or affordances. In particular, we demonstrate that visually distinct hints
on affordances, modeled as collections of local shape features, can be shared and
hence transfered between object classes.
Third, we design shape-based object class models for knowledge transfer, repre-
senting object classes as spatially constrained assemblies of parts, including pair-wise
symmetry relations. These models are both compositional and incremental, allowing
for knowledge transfer either on the level of entire object class models or restricted
to a subset of model components. While knowledge transfer in these models has to
be guided by manual supervision, we demonstrate the benefit of knowledge transfer
for object class recognition when learning from scarce training data.
And fourth, we demonstrate that exploiting additional sources of knowledge
besides real world training images can aid object class recognition, effectively trans-
ferring knowledge between different representations. In particular, we use linguistic
knowledge bases in connection with semantic relatedness measures to automatically
determine potential sources and targets of knowledge transfer for zero-shot recog-
nition, and show the successful learning of shape-based object class models from
collections of 3D computer aided design (CAD) models, not using any real world
iiiiv
training images of the object class of interest.
In summary, this thesis achieves encouraging results with respect to four different
dimensions of knowledge transfer, namely, specialized visual feature representations,
generalization across basic-level categories, compositional object class models, and
the exploitation of additional sources of knowledge, confirming the benefits of
knowledge transfer. As a side effect, we are able to obtain object class recognition
results often superior to or en par with prior work.ZUSAMMENFASSUNG
In den letzten Jahren wurden bemerkenswerte Ergebnisse im Erkennen einzelner
Objektklassen erzielt, erreicht durch die Kombination von robusten visuellen Merk-
malen mit Verfahren des statistischen maschinellen Lernens. In der Folge rückt das
simultane Erkennen vieler Objektklassen in den Fokus, was Herausforderungen
sowohl hinsichtlich der Modellkomplexität als auch der Menge der benötigten Train-
ingsdaten mit sich bringt. Wiederverwendung und Transfer von einmal gewonnenem
Wissen zwischen verwandten Erkennungsaufgaben wurde als ein vielversprechen-
der Ansatz zum Erreichen skalierbarer Erkennung erkannt. Dabei ermöglicht Wis-
senstransfer neben gesteigerter Skalierbarkeit das Lösen neuartiger Aufgaben, wie
etwa das Erkennen von Objektklassen, für welche keine Trainingsdaten verfügbar
sind, gennant zero-shot recognition. In diesem Falle werden fehlende Trainingsdaten
durch das Heranziehen zusätzlicher, komplementärer Wissensquellen ersetzt, zum
Beispiel linguistischer Natur. Inspiriert vom Potenzial des Wissenstransfers unter-
sucht diese Arbeit vier verschiedene Richtungen des W im Erkennen
von Objektklassen.
Die erste Richtung untersucht die Rolle von visuellen Merkmalen als die Repräsen-
tation von transferierbarem Wissen auf der untersten Abstraktionsebene. Als Basis
dient eine umfangreiche Evaluation verschiedener lokaler Merkmalsextraktoren
und -Deskriptoren, welche formbasierte Repräsentationen in Kombination mit aus-
drucksstarken räumlichen Modellen als vielversprechend identifiziert. Diesem
Resultat folgend entwickeln wir weiters eine neuartige Variante einer formbasierten
Repräsentation und einen generischen Deskriptor zur Charakterisierung von Ober-
flächenschattierungen.
Die zweite Richtung beleuchtet die Verbindung zwischen Wissenstransfer und
der Generalisierung zwischen Kategorien der Basisebene (basic-level categories), am
Beispiel des Erkennens funktionaler Objektklassen. Insbesondere verdeutlichen wir,
dass unterschiedlichen Objektklassen visuelle, formbasierte Merkmale gemein sein
können, welche auf potenzielle Funktionen (sogenannte affordances) hinweisen. Jene
Merkmale sind folglich zwischen den Objektklassen transferierbar.
Die dritte Richtung ist dem Entwurf formbasierter Objektklassenmodelle gewid-
met, welche Objektklassen als Ansammlungen von Teilen in einer festgelegten
räumlichen Anordnung beschreiben, und zusätzlich paarweise Symmetriebeziehun-
gen zwischen Paaren von Teilen einbeziehen. Jene Modelle sind gleichzeitig kom-
ponierbar und inkrementell erweiterbar, und erlauben somit Wissenstransfer auf
der Ebene vollständiger Modelle und auf der Ebene von Teilmodellen. Obwohl der
Wissenstransfer in diesen Modellen von Hand spezifiziert werden muss, zeigt sich
der Nutzen des Wissenstransfers im Falle weniger verfügbarer Trainingsdaten.
Die vierte Richtung demonstriert die Verwendung von zusätzlichen Wissensquellen
zur Verbesserung der Objektklassenerkennung, indem Wissen zwischen unter-
vvi
schiedlichen Repräsentationen transferiert wird. Insbesondere untersuchen wir die
Verwendung linguistischer Wissensquellen in Verbindung mit Maßen der semantis-
chen Verwandtschaft, um automatisch potenzielle Wissenstransferquellen und -Ziele
zu bestimmen. Weiters zeigen wir das erfolgreiche Lernen formbasierter Objektklas-
senmodelle aus einer Sammlung von3D computer aided design (CAD-) Modellen,
wobei wir auf jegliche Trainingsbilder der jeweiligen Objektklasse verzichten.
Insgesamt erzielt diese Arbeit vielversprechende Resultate bezüglich vier ver-
schiedener Richtungen des Wissenstransfers: spezialisierte Repräsentationen vi-
sueller Merkmale, Generalisierung zwischen Kategorien der Basisebene, komponier-
bare Objektklassenmodelle, und die Verwendung zusätzlicher Wissensquellen. Als
Nebeneffekt wird eine oft bessere oder gleichwertige Performanz verglichen mit
früheren Arbeiten in der Objektklassenerkennung erzielt.ACKNOWLEDGEMENTS
First and foremost, I want to thank Prof. Bernt Schiele for supervising my thesis,
and being a constant source of inspiration and motivation throughout the time. In
particular, I am grateful for his confidence in my abilities from the beginning, which
allowed me to grow from a layman in computer vision to being fluent in object class
recognition. Likewise, I thank Prof. Michael Goesele for co-supervising my thesis
and agreeing to serve as an examiner. I am more than thankful for his advice, which
often proved invaluable, precisely because of its non-vision perspective. I am truly
grateful to Prof. Martial Hebert for serving as an external reviewer as part of the
thesis committee.
I would also like to express my gratitude to all members of the MIS, IU, ESS, and<

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents