Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

A computational recognition system grounded in perceptual research [Elektronische Ressource] / vorgelegt von Christian Wallraven

172 pages
Ajouté le : 01 janvier 2007
Lecture(s) : 7
Signaler un abus

A computational recognition system
grounded in perceptual research
Dissertation
zur Erlangung des Grades eines Doktors
der Naturwissenschaften
der Fakultät für Mathematik und Physik
der Eberhard Karls Universität Tübingen
vorgelegt von
Christian Wallraven
aus Kempen
2007ii
Tag der mündlichen Prüfung: 18. Oktober 2006
Dekan: Prof. Dr. N. Schopohl
1. Berichterstatter: Prof. Dr. H. Ruder / Prof. Dr. H. Bülthoff
2. Ber: Prof. Dr. B. Schölkopf
3. Ber: Prof. Dr. W. StraßerContents
1 Cognitivebasisofobjectrecognition 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cognitive psychophysics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Structural versus view based approaches . . . . . . . . . . . . . . . . . . . . 4
1.2.2 View based recognition of faces . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 The canonical view . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.4 Temporal aspects of object learning . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.5 Tal of object recognition . . . . . . . . . . . . . . . . . . . . . . 21
1.2.6 Configuration and components . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3 Physiology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.3.1 Visual processing in the brain . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.3.2 Beyond the traditional view . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2 Computationalapproachestoobjectrecognition 39
2.1 Data representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1.1 Structured shape models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.1.2 Statistical appearance models . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Classification algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.1 K means with n nearest neighbor . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.2 Radial basis function networks . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.3 Support vector machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 Agenericframeworkforobjectlearningandrecognition 51
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Learning and recognizing objects using keyframes . . . . . . . . . . . . . . . . . . . 53
3.2.1 Related concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.2 What defines a keyframe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Discussion of the framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Keyframes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Local visual features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Computational implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4.1 Visual features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4.2 Matching of visual features . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.3 Recognition and Incremental Learning . . . . . . . . . . . . . . . . . . . . . . 61
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
iiiiv CONTENTS
4 Cognitivemodelingstudies 63
4.1 View based recognition of faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.1 Feature matching - the horizontal prior . . . . . . . . . . . . . . . . . . . . . . 64
4.1.2 Modeling psychophysical experiments . . . . . . . . . . . . . . . . . . . . . . 65
4.1.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Configuration and components . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1 The face representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Feature matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2.3 Modeling psychophysical experiments . . . . . . . . . . . . . . . . . . . . . . 74
4.2.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3 Temporal aspects of recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3.1 Modeling temporal contiguity by learning keyframes . . . . . . . . . . . . . . 80
4.3.2 The influence of morphing on feature tracking . . . . . . . . . . . . . . . . . . 81
4.3.3 Learning keyframes from morphed or scrambled sequences . . . . . . . . . . 84
5 ComputationalstudiesI-Keyframes 93
5.1 Geometric constraints for local feature matching . . . . . . . . . . . . . . . . . . . . 93
5.1.1 Geometric constraints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.1.2 Recognition under large view rotations . . . . . . . . . . . . . . . . . . . . . 94
5.2 Keyframe extraction for learning of object representations . . . . . . . . . . . . . . . 97
5.2.1 Parameters of keyframe extraction . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.2 Real world sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2.3 Recognition using keyframes . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3 Incremental build up of object representations . . . . . . . . . . . . . . . . . . . . . . 105
5.3.1 Parameters of incremental learning . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6 ComputationalstudiesII-SVMsandlocalfeatures 109
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.2 Support Vector Machines and local features . . . . . . . . . . . . . . . . . . . . . . . 110
6.3 Local kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.4.1 Experimental Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.4.2 Results: View Generalizatiom . . . . . . . . . . . . . . . . . . . 117
6.4.3 Experimental SIFT versus Local Kernels. . . . . . . . . . . . . . . . 119
6.4.4 Results: Recognition under Noise . . . . . . . . . . . . . . . . 119
6.4.5 Experimental using position constraints . . . . . . . . . 120
6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7 ComputationalstudiesIII-SVMsandkeyframes 121
7.1 Algorithmic Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.1 Image Sequence Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.2 Feature Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.1.3 Image and Feature Matching for Kernel Machines . . . . . . . . . . . . . . . 125
7.1.4 Multi class SVMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 Computational Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2.1 Database and Representation . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2.2 Classification of Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.3 of Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2.4 Experimental validation of positive definiteness . . . . . . . . . . . . . . . . . 131
7.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132CONTENTS v
8 Generalconclusionandoutlook 133
8.1 A unified framework for object recognition . . . . . . . . . . . . . . . . . . . . . . . . 134
8.1.1 Categorization processing by feature correspondences . . . . . . . . . . . . 134
8.1.2 The role of context in object recognition . . . . . . . . . . . . . . . . . . . . . 136
8.1.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
8.2 Multi modal keyframes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.2.1 Psychophysics of visuo haptic object recognition . . . . . . . . . . . . . . . . 138
8.2.2 Multi modal keyframes - the view transition map . . . . . . . . . . . . . . . . 139
8.2.3 Computational experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.3 Categorization using SVMs and local features . . . . . . . . . . . . . . . . . . . . . . 146
8.3.1 Experiment 1 - Categorization using a controlled database . . . . . . . . . . 146
8.3.2 Categorization experiments in cluttered scenes . . . . . . . . . . . . . . . . . 146
8.3.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Bibliography 151vi CONTENTSSummary
Inthisthesisacomputationalframeworkforvisualobjectrecognitionisdeveloped,whichisbased
on results from perceptual research. The motivation for this approach is given by the fact that
despiteseveraldecadesofresearchinthefieldofcomputervision,therestillexistsnorecognition
system which is able to match the visual performance of humans (or other primates). The appar
ent ease with which visual tasks such as recognition and categorization are solved by humans
is testimony of a highly optimized visual system which not only exhibits excellent robustness and
generalization capabilities but is in addition highly flexible in learning and organizing new data.
In developing the framework, the underlying philosophy was to model object recognition on an
abstractcognitivelevelratherthansupplyingacompleteneurophysiologicallyplausibleimplemen
tation. The proposed framework is able to model results from psychophysics and, in addition, de
livers excellent recognition performance in computational recognition experiments. Furthermore,
the framework also interfaces well with advanced classification schemes from machine learning
thus further broadening the scope of application.
The basic outline of this thesis is summarized again in Figure 1, which situates this thesis in
the context of the fields of cognitive psychophysics, computer vision as well as machine learning.
As will be shown throughout the following chapters, the combination of methodologies from each
fieldleadstoanintegrativeframework,whichhasthepotentialtosolvesomeoftheopenproblems
pertaining to object recognition.
Figure 1: Structure of this thesis.
The first main part of this thesis (chapter 1) reviews relevant results from both psychophysi
cal and physiological studies on object recognition. A particular focus is placed on the dynamic
aspect of recognition processes, the contribution of which has up to now been largely neglected
in theoretical modeling of recognition. Several recent experiments in perceptual research have
found the temporal dimension to play a large role in object recognition - both by being able to
mediate learning of object representations and by providing an integral part of the representation
viiviii CONTENTS
itself. In addition, results from further psychophysical studies, which were conducted in the scope
of this thesis, shed light on how objects might be represented in the brain using local pictorial
features and their spatial relations thus forming a sparse and at the same time structured object
representation.
In chapter 2, an overview of current methodologies in computer vision and machine learning -
two fields concerned with object recognition from a computational perspective - is given. In par
ticular, methods from computer vision focusing on robust data representations and from machine
learning focusing on efficient classification schemes will be discussed in a unified perspective.
Drawingonthethreefieldsofcognitiveresearch,computervisionandmachinelearning,chap
ter 3 develops an integrative and abstract framework for object recognition, which represents the
core of this work. The main contribution of this integrative framework is that it provides spatio
temporalprocessingofvisualinputbymeansofastructured,appearance basedobjectrepresen
tation.
The second main part of this thesis (chapter 4) is concerned with cognitive modeling of some
of the recent psychophysical results presented in chapter 1 with the help of the proposed frame
work. Several experiments can successfully be modeled using a computational implementation
of the framework which demonstrates the perceptual plausibility of spatio temporal local feature
processing. In addition, based on the computational modeling results, a number of performance
predictions can be made, which can be tested in further psychophysical experiments thus closing
the loop between experimental work and modeling.
The third part of the thesis (chapters 5 7) puts the proposed framework into a computational
visionandmachinelearningperspective. Here,themainfocusliesonapproachesusinglocalfea
tures and so called appearance based methods, that is, methods where images are represented
bylocalpictorialfeatures. Chapter5providesexperimentalvalidationoftheintegrativeframework
in a computer vision setting, which demonstrates the importance of using spatio temporal infor
mation in several recognition experiments on both artificial and real world data. In this context,
another main contribution of this thesis consists of the development of a framework for combin
ing spatio temporal object representations based on local features and state of the art statistical
learning methods (Support Vector Machines, chapters 6 7). Within this novel framework, the
proposed recognition approach is integrated and benchmarked against several other recognition
algorithms. Extensive recognition experiments demonstrate that by combining efficient represen
tations from computational vision with robust classification schemes from machine learning, ex
cellent recognition performance can be achieved.
Finally,chapter8summarizestheapplicationoftheintegrativeframeworkinthepreviouschap
tersandpresentsanoutlookforfutureworkoncombiningcognitiveresearch,computervisionand
machinelearninginordertoprovidesolutionstosomeoftheopenproblemsinobjectrecognition.Zusammenfassung
In dieser Arbeit wird ein computergestütztes Framework für visuelle Objekterkennung entwick
elt, das auf Ergebnissen aus der Wahrnehmungsforschung basiert. Die Motivation für diesen
Ansatz leitet sich aus der Tatsache her, dass trotz mehrerer Jahrzehnte intensiver Forschung auf
dem Gebiet des maschinellen Sehens (der ”Computer Vision”) noch immer kein Erkennungssys
tem existiert, das es mit der visuellen Erkennungsfähigkeit des Menschen aufnehmen kann. Die
Leichtigkeit, mit der Erkennungs und Kategorisierungsaufgaben vom Menschen gelöst werden,
zeigt, dass wir ein hoch optimiertes visuelles System besitzen, das nicht nur robust erkennen
undgeneralisierenkann,sondernauchflexibelneueInformationenlernenundorganisierenkann.
Bei der Entwicklung des hier vorgestellten Frameworks war die Philosophie, Objekterkennung
auf einer abstrakten kognitiven Ebene zu modellieren, anstatt eine komplette neurophysiologisch
plausible Implementation zu entwickeln. Das Framework ist in der Lage, Ergebnisse aus der Psy
chophysik zu modellieren und liefert zusätzlich sehr gute Erkennungsleistungen in Objekterken
nungsexperimenten. Darüber hinaus ist es mit neuen, robusten Verfahren aus dem maschinellen
Lernen (”Machine Learning”) kombinierbar, was die Anwendungsmglichk¨ eiten noch erweitert.
Der Aufbau dieser Arbeit ist in Abb. 2 dargestellt und kombiniert kognitive Psychophysik,
Computer Vision und Machine Learning. Wie in den folgenden Kapiteln gezeigt wird, hat die
Kombination von Methoden und Ansätzen aus diesen Feldern in einem integrativen Framework
das Potenzial, einige offene Probleme in der Objekterkennung anzugehen.
Figure 2: Aufbau dieser Arbeit.
DerersteHauptteildieserArbeit(Kapitel1)beginntmiteinemÜberblicküberrelevanteForschung
zur Objekterkennung aus den Gebieten der Psychophysik und der Physiologie. Ein besonderer
Fokus liegt dabei auf dem dynamischen Aspekt von Erkennungsprozessen, deren Beitrag bisher
bei der theoretischen Modellierung vernachlässigt wurde. Mehrere Experimente haben in letzter
Zeit jedoch belegt, dass die zeitliche Dimension eine grosse Rolle bei der Objekterkennung spielt
- dies sowohl beim Lernen von Objektrepräsentationen als auch als integraler Bestandteil der
ixx CONTENTS
Repräsentationen selber. Weitere Resultate aus Experimenten, die im Rahmen dieser Arbeit
durchgeführt wurden, zeigen, wie Objekte im Gehirn durch lokale Merkmale und ihren raum
zeitlichen Zusammenhang repräsentiert werden könnten, was zu sowohl kompakten als auch
strukturierten Objektrepräsentationen führt. Kapitel 2 präsentiert einen Überblick aktueller Meth
oden in der Computer Vision und dem Machine Learning - zwei Felder, die sich mit Objekterken
nung von der algorithmischen Seite her beschäftigen. Hier liegt der Fokus insbesondere auf der
Integration von Methoden aus der Computer Vision, die sich mit robusten Datenrepräsentationen
befassen, mit aus dem Machine Learning, die effiziente Klassifikationsalgorithmen bi
eten. Kapitel3entwickeltausdendreiFeldernderkognitivenWahrnehmungsforschung,derCom
puter Vision und dem Machine Learning ein integratives, abstraktes Framework für Objekterken
nung, das den Kern dieser Arbeit darstellt. Der Hauptbeitrag dieses integrativen Frameworks ist
dabei ein System zur robusten Objekterkennung basierend auf strukturierten, bildbasierten Ob
jektrepräsentationen, die räumliche und zeitliche Information integrieren.
Der zweite Hauptteil dieser Arbeit (Kapitel 4) beschäftigt sich mit der Modellierung einiger
neuerer Psychophysikexperimente aus Kapitel 1 mithilfe des vorgeschlagenen Frameworks. Es
wird gezeigt, dass eine Implementation des Frameworks in der Lage ist, die Ergebnisse der Ex
perimente korrekt zu modellieren. Zusätzlich macht das Framework konkrete Voraussagen, die in
weiterenpsychophysischenExperimentengetestetwerdenkönnen,womitsichderKreiszwischen
experimenteller und theoretischer Arbeit schliesst.
Der dritte Teil dieser Arbeit (Kapitel 5 7) stellt das vorgeschlagene Framework in den Kontext
von Computer Vision und Machine Learning. Der Hauptfokus hier liegt auf der Evaluation von
Methoden, die lokale Features in einem bildbasierten Ansatz benutzen. In Kapitel 5 wird das
Framework mit Erkennungsexperimenten validiert, die die Wichtigkeit von raum zeitlicher Infor
mationbeiderErkennungvonObjektenincomputergeneriertenSequenzenundVideosequenzen
untermauern. Ein weiterer wichtiger Beitrag dieser Arbeit ist in diesem Kontext die Entwicklung
einer Kombination von raum zeitlichen Objektrepräsentationen auf Basis von lokalen Merkmalen
und aktuellen Verfahren aus dem Machine Learning (den Support Vektor Maschinen). Kapitel 6 7
vergleichen diesen kombinierten Ansatz mit anderen Erkennungsalgorithmen und zeigen, dass
die Kombination von effizienten Repräsentationen aus der Computer Vision mit robusten Klassi
fikationsalgorithmenausdemMachineLearningeineexzellenteErkennungsleistungermöglichen.
Kapitel8 schliesslichfasstdie Arbeitzusammenund präsentierteinenAusblick aufzukünftigeAr
beit an der Schnittstelle von kognitiver Wahrnehmungsforschung, Computer Vision und Machine
Learning, die helfen kann, offene Problem in der Objekterkennung anzugehen.

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin