Classification of natural scenes [Elektronische Ressource] / vorgelegt von Jan Drewes
154 pages
Deutsch

Classification of natural scenes [Elektronische Ressource] / vorgelegt von Jan Drewes

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
154 pages
Deutsch
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

C L AS S IFICAT IO N O F NAT U RAL SCENESInaugural-Dissertationzur Erlangung des Doktorgrades der Naturwissenschaftender Fakultät für Naturwissenschaftender Justus-L iebig-U niversität Giessenvorgelegt von Jan Drewes2006Tag der mündlichen Prüfung: 22. S eptemb er 2006DekanProf. Dr. Dr. Jürgen Hennig (Psychologie, Gießen)1. BerichterstatterProf. Karl Gegenfurtner, PhD (Psychologie, Gießen) Prof. Dr. Frank Bremmer (Neurophysik, Marburg)2. BerichterstatterProf. Dr. U we Ilg (Neurobiologie, T übingen)ZUSAMMENFASSUNGS eit einiger Zeit ist bekannt, dass das menschliche visuelle S ystem zu einer erstaunlich schnellen Verarbeitung natürlicher S zenen in der L age ist. Wenn ma n einem Beobachter zwei Bilder präsentiert, sei es auch nur für sehr kurze Zeit (z. B. 30ms), so das auf genau einem der Bilder ein O bjekt einer bestimmten O bjektklasse (z. B. „Tiere“) zu sehen ist, so können Menschen dies nicht nur überaus zuverlässig (im Allgemeinen über 90% richtig), sondern auch extrem schnell erkennen – schon ab 150ms entscheiden ma nche Versuchspersonen über-zufällig richtig. Eine solch schnelle Entscheidung lässt nicht sehr viel Zeit für kognitive Abläufe. Es ist wahrscheinlich, dass diese Fähigkeit zur schnellen Entscheidung nicht etwa auf einem Abgleich mit einem im Gedächtnis gespeicherten Katalog von Tierbildern beruht, sondern aufgrund von sehr grundlegenden Bildeigenschaften geschieht.

Sujets

Informations

Publié par
Publié le 01 janvier 2006
Nombre de lectures 23
Langue Deutsch
Poids de l'ouvrage 9 Mo

Extrait

C L AS S IFICAT IO N O F NAT U RAL SCENES
Inaugural-Dissertation
zur Erlangung des Doktorgrades
der Naturwissenschaften
der Fakultät für Naturwissenschaften
der Justus-L iebig-U niversität Giessen
vorgelegt von
Jan Drewes
2006Tag der mündlichen Prüfung: 22. S eptemb er 2006
Dekan
Prof. Dr. Dr. Jürgen Hennig (Psychologie, Gießen)
1. Berichterstatter
Prof. Karl Gegenfurtner, PhD (Psychologie, Gießen)
Prof. Dr. Frank Bremmer (Neurophysik, Marburg)
2. Berichterstatter
Prof. Dr. U we Ilg (Neurobiologie, T übingen)ZUSAMMENFASSUNG
S eit einiger Zeit ist bekannt, dass das menschliche visuelle S ystem zu einer erstaunlich schnellen
Verarbeitung natürlicher S zenen in der L age ist. Wenn ma n einem Beobachter zwei Bilder präsentiert,
sei es auch nur für sehr kurze Zeit (z. B. 30ms), so das auf genau einem der Bilder ein O bjekt einer
bestimmten O bjektklasse (z. B. „Tiere“) zu sehen ist, so können Menschen dies nicht nur überaus
zuverlässig (im Allgemeinen über 90% richtig), sondern auch extrem schnell erkennen – schon ab
150ms entscheiden ma nche Versuchspersonen über-zufällig richtig. Eine solch schnelle Entscheidung
lässt nicht sehr viel Zeit für kognitive Abläufe. Es ist wahrscheinlich, dass diese Fähigkeit zur
schnellen Entscheidung nicht etwa auf einem Abgleich mit einem im Gedächtnis gespeicherten
Katalog von Tierbildern beruht, sondern aufgrund von sehr grundlegenden Bildeigenschaften
geschieht. Eine mögliche Informa tionsquelle, die zu solch schneller Klassifikation beitragen könnte,
ist das globale Amplitudenspektrum. Es ist das Ziel dieser Dissertation, zu untersuchen in wie weit
das globale Amplitudenspektrum zur Klassifikation von Bildern beitragen kann, und ob dieses
tatsächlich auch im menschlichen visuellen S ystem geschieht. Durchgeführt wird dies am Beispiel
der Bildklassen „Tier“ und „kein Tier“.
Dazu wurde zunächst eine knapp 11000 Bilder umfassende Datenbank geschaffen, die zu jeweils
50% aus „Tier“- und „nicht Tier“-Bildern besteht. Im folgenden wird zunächst ein Computer-
Algorithmus ausführlich vorgestellt, der mit einer Trefferquote von ca. 75% in der L age ist, „Tier“-
von „nicht Tier“-Bilder zu unterscheiden, und zwar ausschließlich anhand des globalen
Amplitudenspektrums.
Anschließend werden drei Hauptmerkmale des Klassifikationsverhaltens dieses Computer-
Algorithmus mit dem Verhalten menschlicher Versuchspersonen verglichen, um Gemeinsamkeiten
und U nterschiede herauszuarbeiten.
Im ersten Experiment wird die Anfälligkeit des Computer-Algorithmus auf Rotierten der Bildern mit
der Anfälligkeit menschlicher Versuchspersonen verglichen. Aufgrund der Rotationsinvarianz des
Computer-Algorithmus wird ein angenommenes Klassifikationsprofil mit den tatsächlich
experimentell gemessenen Ergebnissen der Versuchspersonen verglichen. Eingesetzt wurde ein
2AFC-Paradigma, bei dem die Augenbewegungen der Versuchspersonen zur Ermittlung der
relevanten Messgrößen werden. Es stellt sich heraus, das Menschen in der Tat eine ähnliches, wenn
auch schwächer ausgeprägtes Profil aufzeigen. Bilder in kardinalen Rotationswinkeln (0°, 90°, 180°)
werden dabei besser klassifiziert als Bilder in anderen Winkeln (45°, 135°).
Das zweite Experiment behandelt die individuelle „S chwierigkeit“ von Bildern. Der Computer-
Algorithmus vergibt aufgrund des Abstandes von der Klassifikationsebene eine Wertung der
„Tier“-haftigkeit bzw. „nicht Tier“-haftigkeit jedes Bildes. Je höher die „Tier“-haftigkeit eines Bildes
ausfällt, desto leichter sollte es einer Versuchsperson fallen, dieses korrekt zu klassifizieren.Hier wurde ein Go/NoGo-Paradigma eingesetzt, bei dem die Versuchspersonen einen Knopf immer
dann schnellstmöglich loslassen sollten, wenn ein „Tier“-Bild gezeigt wurde. Anhand von
Reaktionszeit und Trefferquote konnte auch in diesem Experiment ein hohes Maß an Ähnlichkeit
zwischen menschlichem Verhalten und Computer-Algorithmus festgestellt werden.
Im dritten Experiment wird die Reaktion auf den Wegfall des globalen Amplitudenspektrums
betrachtet. Dazu wurde das individuelle Amplitudenspektrum der Bilder ersetzt durch das gemittelte
Amplitudenspektrum ihrer jeweiligen Bildklasse. Eingesetzt wurden sowohl 2AFC- als auch
Go/NoGo-Paradigma . Wä hrend der Computer-Algorithmus durch das Fehlen des einzigen
Klassifikationsmerkma ls auf Zufallsniveau abfällt, verringern sich die L eistungen der menschlichen
Versuchspersonen nur geringfügig (übereinstimmend in beiden Paradigmen).
Im zweiten Teil dieser Dissertation wird untersucht, welche Datengrundlage zur Klassifikation
herangezogen werden könnte, wenn das globale Amplitudenspektrum nicht in Frage kommt. Als
Konsequenz wird ein neuer Computer-Algorithmus vorgestellt, der nicht nur Frequenz, O rientierung
und Amplitude, sondern auch die L okalisation der Informa tion berücksichtigt. Als Datengrundlage
dient eine Bildpyramide, die mehrere Frequenz- und O rientierungsbänder an jeder S telle des Bildes
beinhaltet. Mit diesem neuen Algorithmus wird eine Klassifikationsleistung von annähernd 78%
erreicht. Durch eine genauere Analyse der Verteilung der relevanten Informa tion über die Fläche
eines Bildes wird dabei ein zuvor unentdecktes Artefakt aufgezeigt, welches bereits durch den
Aufnahmeprozess der Bilder entstanden ist. Dieses Artefakt ist in der L age, einem Computer-
Algorithmus zu einer recht hohen Klassifikationsleistung (ca 74-75% ) zu verhelfen, auch wenn das
eigentlich relevante Bildzentrum ausgeblendet wird und somit das O bjekt der S zenerie nicht mehr
vorhanden ist. Dies ist von Bedeutung, da die Bilddatenbank, welche als Q uelle sämtlicher Bilder
dieser Arbeit dient, im Bereich der Wissenschaft weite Verbreitung genießt.
In einem vierten Experiment wird getestet, ob menschliche Versuchspersonen ebenfalls auf dieses
Artefakt zurückgreifen können. Eingesetzt wird das bewährte 2AFC-Paradigma, bei dem selektiv
verschiedene Bildausschnitte gezeigt werden. Ein Effekt des Artefaktes auf menschliche
Versuchspersonen konnte nicht festgestellt werden.
Abschließend werden die Resultate aller 4 Experimente, sowie der Computer-Algorithmen diskutiert
und geschlussfolgert, dass das globale Amplitudenspektrum aller Wahrscheinlichkeit nach keine
dominante Rolle für schnelle Bildklassifikation im Menschen dient. Es wird eine Empfehlung
ausgesprochen, dies bei zukünftiger Forschung im Bereich menschlicher Klassifikationsleistung zu
berücksichtigen.ABSTRACT
Humans are capable of rapidly classifying scenes by content, even when they are presented only very
briefly. Classification accuracy can exceed 90% , while above-chance performa nce can be achieved in
about 150ms. T he global amplitude spectrum of an ima ge has repeatedly been suggested to be a
possible source of information for such fast classification. T he aim of this thesis was to analyze the
way in which huma ns classify ima ges, specifically for the case of scenes which contain an animal or
not. Indeed it was found that the information contained in the global amplitude spectrum, even at a
rather coarse scale, is quite adequate for successful computer classification. In the first part of this
thesis, a computer classifier was developed, capable of correctly classifying 75% of the ima ges in our
database. T hen, 3 ma in characteristics of this classifier are identified and then tested against huma n
subjects in 3 experiments:
First, the sensitivity to ima ge rotation is tested. U sing a 2AFC paradigm, human subjects were asked
to decide which of two displayed ima ges contained an anima l. Eye movements were recorded to
measure response time and classification accuracy. A high degree of similarity to the behavior of our
computer classifier was found, with better performance on cardinal ima ge rotations (0°, 90°, 180°).
S econd, the order of the images in terms of classification difficulty is analyzed. We employed both a
2AFC paradigm and a Go/NoGo paradigm. In the latter subjects were asked to release a button as
quickly as possible only when an animal ima ge was shown. Here too a high degree of similarity
between the results of the human visual system and those of our computer classifier was found.
T hird, classification without the amplitude spectrum as a prima ry clue is tested. We modified our
ima ges, replacing the individual amplitude spectrum of each ima ge with the mean amplitude
spectrum of its ima ge class. T he individual phase spectrum was retained, unaltered. In this case, the
computer classifier was “blinded” and would not exceed chance performa nce, while our huma n
subjects still achieved high classification performance. T his clearly contradicts the global amplitude
spectrum hypothesis.
In the second part of this thesis, a different approach to computer classification is presented. T he
ima ges were filtered in a way that allowed to analyze image content for different frequencies and
orientations at discrete locations (as opposed to the global amplitude spectrum) . T he new computer
classifier was able to achieve almost 78% correct classification. Also, a

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents