La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Partagez cette publication

Classi cation and Feature Extraction
in Man and Machine
Dissertation
zur Erlangung des Grades eines Doktors
der Naturwissenschaften
der Fakult at fur Mathematik und Physik
der Eberhard-Karls-Universit at zu Tubingen
vorgelegt von
Arnulf B.A. Graf
aus Lausanne (Schweiz)
2004Tag der mundlic hen Prufung: 18.10.2004
Dekan
Prof. Dr. Peter Schmid
1. Berichterstatter
Prof. Dr. Hanns Ruder und Prof. Dr. Bernhard Sch olkopf
2.
Prof. Dr. Heinrich H. Bultho Abstract
This dissertation attempts to shed new light on the mechanisms used by hu-
man subjects to extract features from visual stimuli and for their subsequent
classi cation. A methodology combining human psychophysics and machine
learning is introduced, where feature extractors are modeled using methods
from unsupervised machine learning whereas supervised machine learning is
considered for classi cation. We consider a gender classi cation task using
stimuli drawn from the Max Planck Institute face database. Once a feature
extractor is chosen and the corresponding data representation is computed,
the resulting feature vector is classi ed using a separating hyperplane (SH)
between the classes. The behavioral responses of humans to one stimulus,
in our study the gender estimate and its corresponding reaction time and
con dence rating, are compared and correlated to the distance of the fea-
ture vector of this stimulus to the SH. It is successfully demonstrated that
machine learning can be used as a novel method to \look into the human
head" in an algorithmic way.
In a rst psychophysical classi cation experiment we note that a high
classi cation error and a low con dence for humans are accompanied by a
longer processing of information by the brain. Furthermore, a second classi-
cation experiment on the same stimuli but in a di eren t presentation order
con rms the consistency and the reproducibility of the subjects’ responses.
Using several classi cation algorithms from supervised machine learn-
ing, we show that separating hyperplanes (SHs) are a plausible model to
describe classi cation of visual stimuli by humans since stimuli represented
by features distant from the SH are classi ed more accurately, faster and
with higher con dence than the ones closer to the SH. A piecewise linear
extension as in the K-means classi er seems however less adapted to model
classi cation. Furthermore, the comparison of the classi cation algorithms
indicates that the Support Vector Machine (SVM) and the Relevance Vector
Machine (RVM), both exemplar-based classi ers, compare best to human
classi cation performance and also exhibit the best man-machine correla-
tions. The mean-of-class prototype learner, its popularity in neuroscience
notwithstanding, is the least human-like classi er in all cases examined.
These ndings are corroborated by the stochastic nature of the human clas-
si cation between the rst and second classi cation experiments: elements
iclose to the SH are subject to more jitter in the subjects’ gender estimation
than elements distant from the SH.
The above classi cation studies also give a hint at the mechanisms re-
sponsible for the computation of the feature vector corresponding to a stim-
ulus, in other words the feature extraction procedure which is de ned by
the combination of a data type with a preprocessor. Gabor wavelet lters
reveal to be the most suited preprocessor when considering the image pixel
data type. The biological realism of both Gabor wavelets and the image
data con rms the validity of our approach. Alternatively, the information
contained in the data type de ned by the combination of the texture and the
shape maps of each face, these maps bringing each face into spatial corre-
spondence with a reference face, is also shown to be useful when describing
the internal face representation of humans. Non-negative Matrix Factoriza-
tion applied on the texture-and-shape data type is demonstrated to describe
well the preprocessing of visual information in humans, and this has three
implications. First, humans seem to use a basis of images to encode visual
information, what may suggest that models such as kernel maps are less
adapted since they do not use a basis to decompose (visual) data. Second,
this basis seems to be part-based, in contrast to Principal Component Anal-
ysis which yields a holistic basis. Third, this part-based basis is spatially
not too sparse, excluding Independent Component Analysis. Both for the
encodings and for the basis, a medium degree of sparseness is shown to be
most adapted.
Alternative approaches to model classi cation of visual stimuli by hu-
mans are subsequently introduced. In order to get novel insights into the
metric of the human internal representation of faces, the above data is an-
alyzed using logistic regression interpolations between the mean subjects’
class estimate for a stimulus and the distance of this stimulus to the SH
of each classi er. We show that a representation based upon the subjects’
gender estimates is most appropriate, while the classi cation performance
is demonstrated to be a poor measure when comparing man and machine.
A novel psychophysical experiment is then designed where the hypotheses
generated from machine learning are used to generate novel stimuli along
a direction|the gender axis|orthogonal to the SH of each classi er. The
study of the subjects’ responses along these gender axes allows us then to
infer the validity of the prediction given by machine learning. The results
of this experiment|SVM and RVM are best while the prototype classi-
er is worst|validate the models given by machine learning and close the
\psychophysics-machine learning" loop.
We nally show in a psychophysical experiment that it is more di cult to
cast concepts from machine learning into a formalism describing the memory
mechanisms of humans. However, machine learning is demonstrated to be an
appropriate model for feature extraction and classi cation of visual stimuli
in humans given the particular task we chose.
iiZusammenfassung
Diese Dissertation befasst sich mit den Mechanismen, die Menschen ver-
wenden, um Merkmale aus visuellen Reizen zu erzeugen und anschliessend
zu klassi zieren. Es wird eine experimentelle Methode entwickelt, die men-
schliche Psychophysik mit maschinellem Lernen verbindet. Im Mittelpunkt
der Arbeit steht ein Geschlechtsklassi k ationsexperiment, das mit Hilfe der
Kopfdatenbank des Max Planck Instituts durchgefuhrt wird. Hierzu wer-
den verschiedene niedrig-dimensionale Merkmale aus den Gesichtsbildern
extrahiert. Das Klassi k ationsverfahren auf diesen Merkmalen ist durch
eine Trennebene zwischen den beiden Klassen modelliert. Die Antworten
der Versuchspersonen werden verglichen und korreliert mit der Distanz der
Merkmale zur Trennebene. In dieser Arbeit wird bewiesen, dass maschinelles
Lernen ein neues und wirksames algorithmisches Verfahren ist, um Einblicke
in menschliche kognitive Prozesse zu erhalten.
In einem ersten psychophysischen Klassi k ationsexperiment wird gezeigt,
dass eine hohe Fehlerrate und ein niedriges Vertrauen der Versuchsperso-
nen einer l angeren Verarbeitung der Information im Gehirn entsprechen.
Ein zweites Klassi k ationsexperiment auf den selben Reizen aber in unter-
schiedlicher Reihenfolge, best atigt die Konsistenz der Antworten der Ver-
suchspersonen und die Reproduzierbarkeit der folgenden Resultate.
Es wird gezeigt, dass Trennebenen ein ad aquates Modell sind, um die
Klassi k ation visueller Reize bei Menschen zu beschreiben. Reizmerkmale,
die entfernt von der Trennebene sind, werden dabei genau, schnell und
mit hohem Vertrauen klassi ziert. Es stellt sich heraus, dass Verfahren,
die auf einer stuc kweis-linearen Trennebene basieren, weniger geeignet sind.
Dahingegen beschreiben beispielbasierte Verfahren wie die Support Vector
Machine oder die Relevance Vector Machine am besten das Verhalten der
Versuchspersonen. Dies wird belegt durch Studien, die sowohl den Klassi-
k ationsfehler vom Menschen und der Maschine vergleichen als auch deren
Verhalten korrelieren. Der weitverbreitete Prototypenlerner schneidet am
schlechtesten ab. Diese Resultate werden unterstutzt durch eine Studie der
stochastischen Komponente des menschlichen Klassi k ationverfahrens: die
Sch atzung des Geschlechts ist inkonsequent zwischen dem ersten und zweiten
Klassi k ationsexperiment auf den Mustern nahe zur Trennebene.
Im weiteren Rahmen erlauben die in dieser Arbeit durchgefuhrten Stu-
iiidien Aussagen ub er die Mechanismen der menschlichen Merkmalsextrak-
tion. Die biologisch-bewiesene Relevanz von Gabor lteran tworten erweist
sich auch in dem Kontext der hier durchgefuhrten Studien als geeignete
Kodierung von Pixeldaten. Desweiteren erweist sich die Information enthal-
ten in der Kombination von Textur- und Form-Flussfeldern als gut geeignet
zur Beschreibung der menschlichen Merkmalsextraktion. Hier werden r aum-
liche Korrespondenzen der Bildreize miteinbezogen. Mit Hilfe dieses Daten-
typs kann gezeigt werden, dass Menschen fur diese Aufgabe wahrschein-
lich eine Bilderbasis verwenden, die aus Musterteilen besteht und nicht
aus Gesamtmustern. Letztlich werden die Merkmalsextraktionsverfahren
hinsichtlich ihrer Sp arlichkeit untersucht, wobei sich ein mittlerer Grad an
Sp arlichkeit als am besten erweist.
Im weiteren werden Verfahren zur Modellierung des menschlichen Ver-
haltens bei Klassi k ation von visuellen Reizen untersucht, die Aussagen ub er
die Metrik der internen Gesichtsdarstellung erlauben. Dafur wird eine logis-
tische Regression zwischen der Geschlechtseinsch atzung der Versuchsperson
fur einen Reiz und der Distanz dieses Reizes zur Trennebene verwendet.
Es wird gezeigt, dass eine Darstellung, die auf Antworten der Versuchsper-
son basiert, sich besser eignet, als eine Darstellung, die auf dem wahren
Geschlecht basiert. Es stellt sich heraus, dass der Klassi k ationsfehler ein
schlechtes Mass zwischen Mensch und Maschine ist. In einem weiteren psy-
chophysischen Klassi k ationsexperiment werden die Trennebenen der Mas-
chine verwendet, um neue Gesichtsreize zu erzeugen: diese liegen auf einer
Geschlechtsachse, die senkrecht zur Trennebene steht. Die Unterscheidung
durch die Versuchspersonen der Reize auf dieser Achse best atigt die obigen
Vorhersagen: die Support Vector Machine und die Relevance Vector Ma-
chine erweisen sich als besser als der Prototypenlerner, um das menschliche
Klassi k ationsverfahren zu modellieren. Mit diesem Experiment wird die
\Psychophysik-maschinelles Lernen" Schleife geschlossen.
In einem abschliessenden psychophysischen Experiment wird gezeigt,
dass es schwieriger ist, maschinelles Lernen auf das Ged achnissverhalten
des Menschen anzuwenden, obwohl sich maschinelles Lernen als gut erweist,
um Merkmalextraktion und Klassi k ation visueller Reize bei Menschen zu
modellieren.
ivAcknowledgments
First and foremost I take pleasure in expressing my profound gratitude to
F.A. Wichmann for introducing me to methodologically sound human psy-
chophysics. I like to acknowledge his help and guidance during the develop-
ment of the ideas in this dissertation.
This research was conducted at the Max Planck Institute for Biologi-
cal Cybernetics in an interdisciplinary project between the Department for
Cognitive and Computational Psychophysics headed by Prof. H.H. Bultho
and the Department for Empirical Inference for Machine Learning and Per-
ception headed by Prof. B. Sch olkopf. In a sense this dissertation continues
unpublished work by Prof. B. Sch olkopf while being a PhD student at the
Max Planck Institute for Biological Cybernetics some years ago in the group
of Prof. H.H. Bultho . I like to thank both directors for creating an agree-
able research atmosphere and for providing me with their excellent facilities.
Furthermore I would like to express my deep gratitude to Prof. H.H. Bultho
for providing me with the opportunity to attend various conferences, summer
schools and workshops which broadened my horizon in the neurosciences.
In addition, I like to express my thanks to Prof. H. Ruder for accepting to
serve as my thesis director at the Department of Mathematics and Physics
of the Eberhard Karls University of Tubingen.
Finally I would also like to thank V. Blanz for providing me with a
modi ed version of the MPI face database software. Many people have
contributed to make my stay at the MPI scienti cally bene cial. Of those,
C. Wallraven, J. Hill, O. Bousquet, M. Giese, D. Cunningham, O. Chapelle,
A. Gretton, M. Kleiner, C. Curio, A. Casile and M. Franz are worth special
mentioning.
vviContents
1 Introduction 1
2 The Database and its Encodings 11
2.1 The MPI Face Database . . . . . . . . . . . . . . . . . . . . . 11
2.2 Cleaning of the . . . . . . . . . . . . . . . . . . . . 12
2.3 Feature Extraction . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Data Types . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2 Preprocessors . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Sparseness of Encodings . . . . . . . . . . . . . . . . . . . . . 25
2.5 Discriminability of Encodings . . . . . . . . . . . . . . . . . . 26
3 Human Classi cation Behavior 31
3.1 Experiment I . . . . . . . . . . . . . . . . . . . 31
3.2 Classi cation Expt II . . . . . . . . . . . . . . . . . . . 35
3.3 Experimental Details . . . . . . . . . . . . . . . . . . . . . . . 36
4 Machine Classi cation Behavior 39
4.1 From Machine Learning to Psychophysics . . . . . . . . . . . 39
4.2 Hyperplane Classi ers . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Classi cation with Spiking Neurons . . . . . . . . . . . . . . . 46
4.4 Tricks of the Trade . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Classi cation Behavior of Man and Machine 51
5.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Classi cation Performance of Man and Machine . . . . . . . . 53
5.2.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . 53
5.2.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Classi cation Behavior of Man and Machine . . . . . . . . . . 56
5.3.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . 56
5.3.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.4 Stochastic Classi cation Behavior of Man . . . . . . . . . . . 67
5.4.1 Methodology . . . . . . . . . . . . . . . . . . . . . . . 67
5.4.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . 68
vii5.5 Summary & Discussion . . . . . . . . . . . . . . . . . . . . . 69
5.6 Some Related Studies . . . . . . . . . . . . . . . . . . . . . . 74
5.7 And what about Neurophysiology? . . . . . . . . . . . . . . . 76
6 Other Approaches to Model Classi cation in Humans 79
6.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Some Algorithms from Machine Learning . . . . . . . . . . . 80
6.3 Classi cation in Man and Machine . . . . . . . . . . . . . . . 81
6.4 The Decision Images . . . . . . . . . . . . . . . . . . . . . . . 86
6.5 Man-Machine Analysis Using Logistic Regression . . . . . . . 91
6.6 Going Orthogonal, and Closing the Loop . . . . . . . . . . . . 95
6.7 Summary & Discussion . . . . . . . . . . . . . . . . . . . . . 101
7 Applying Machine Learning to Model Human Memory 105
7.1 Overview & Methodology . . . . . . . . . . . . . . . . . . . . 105
7.1.1 Database and Feature Extraction . . . . . . . . . . . . 106
7.1.2 Classi cation Experiment I . . . . . . . . . . . . . . . 106
7.1.3 Online Computation of Representations . . . . . . . . 107
7.1.4 Memory Experiment . . . . . . . . . . . . . . . . . . . 109
7.1.5 Classi cation Experiment II . . . . . . . . . . . . . . . 111
7.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.2.1 Memory experiment . . . . . . . . . . . . . . . . . . . 111
7.2.2 Classi cation Experiment II . . . . . . . . . . . . . . . 114
7.3 Summary & Discussion . . . . . . . . . . . . . . . . . . . . . 118
8 Conclusions 121
Bibliography 125
A Data Representation 137
A.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
A.2 Principal Component Analysis . . . . . . . . . . . . . . . . . 137
A.3 Locally Linear Embedding . . . . . . . . . . . . . . . . . . . . 140
A.4 Independent Component Analysis . . . . . . . . . . . . . . . . 143
A.5 Non-negative Matrix Factorization . . . . . . . . . . . . . . . 146
A.6 Empirical Kernel Maps . . . . . . . . . . . . . . . . . . . . . . 147
A.7 Gabor Wavelet Filters . . . . . . . . . . . . . . . . . . . . . . 149
B Hyperplane Classi ers 151
B.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
B.2 Prototype Classi ers . . . . . . . . . . . . . . . . . . . . . . . 152
B.3 Kmeans & Nearest-neighbor . . . . . . . . . . . . . . . . . . . 153
B.4 Support Vector Machines . . . . . . . . . . . . . . . . . . . . 155
B.5 Relevance Vector Machines . . . . . . . . . . . . . . . . . . . 157
B.6 Comparison of classi ers . . . . . . . . . . . . . . . . . . . . . 159
viii

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin