Effet du filtrage spatial sur la reconnaissance de paysages - article ; n°3 ; vol.99, pg 415-445

De
Publié par

L'année psychologique - Année 1999 - Volume 99 - Numéro 3 - Pages 415-445
Résumé
Nous avons catégorisé a priori deux types de photos : des photos de type « campagne » et d'autres de type « ville ». Après analyse de 8 images nous avons constaté que les images de type « campagne » contiennent plus de hautes fréquences spatiales que les images de type « ville ». En outre, les premières comportent des objets naturels descriptibles par la théorie géométrique des Fractals et les secondes des artefacts descriptibles par la géométrie euclidienne. Le but de l'expérience était de savoir si le type d'image déterminait ou non un traitement allant du « global » vers le « local » selon les fréquences spatiales la composant. Les résultats à une épreuve de reconnaissance d'images des deux types, sans filtrage spatial ou avec filtrage des basses ou des hautes fréquences, montrent que les images filtrées sont moins bien et plus lentement reconnues que les mêmes images non filtrées. Les images de type « campagne » sont moins bien et plus lentement reconnues que celles de type « ville ». Les images de type « ville », comportant plus de basses fréquences que celles de type « campagne », sont aussi bien et aussi rapidement reconnues quel que soit leur mode de filtrage. En revanche, les images de type « campagne » comportant plus de hautes que de basses fréquences sont mieux reconnues lorsqu'elles sont présentées en reconnaissance avec les basses fréquences seules qu'avec les hautes fréquences seules. L'hypothèse d'une dualité de traitement des fréquences spatiales hautes ou basses dès les premiers niveaux de traitement est discutée en opposition à celle exclusive d'une précédence du traitement des basses fréquences sur les hautes fréquences.
Mots-clés : reconnaissance de paysages, filtrage spatial, scènes visuelles complexes, fractals.
Summary : Spatial filtering effect on the recognition of landscape and town pictures.
The visual environment is composed of multiple objects. Some referred to as « artefacts », have non-accidental geometric properties and can be relatively easily described but some others, referred to as natural objects have apparently accidental property with random contours. The contours of artefacts delimits spatially oriented patches wich could be insensitive to spatial high frequency (HF) filtering. The contours of natural objects delimits small elements, such as leaves of a tree, which could be sensitive to H F filtering. Analyzing different types of visual scenes, we found that « landscape » pictures contain more spatial HF than « town » pictures. In a recognition task, recognition rate was higher and response time was lower for « town » pictures than « landscape » pictures. Low-pass filtered and high-pass filtered pictures showed lower performed than full spatial frequency pictures. Recognition performances was equivalent for high-pass filtered « town » pictures and the same low-pass filtered pictures. However, high-pass filtered « landscape » pictures, containing small objects, were less well recognized than the same low-pass filtered pictures. Results suggest two parallel visual processing modes controlled by the relative spatial location of the elements. One involves extracting objects contours when alignment and collinearity are present, the other involves determining patches of equal luminance. The coarse-to-fine scale processing and the continuous-flow models are discussed.
Key words : picture recognition, spatial frequency, complex visual scene, landscape pictures, coarse-to-fine processing, fractals.
31 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : vendredi 1 janvier 1999
Lecture(s) : 33
Nombre de pages : 33
Voir plus Voir moins

J.-P. Gaillard
P. Bourges
Effet du filtrage spatial sur la reconnaissance de paysages
In: L'année psychologique. 1999 vol. 99, n°3. pp. 415-445.
Citer ce document / Cite this document :
Gaillard J.-P., Bourges P. Effet du filtrage spatial sur la reconnaissance de paysages. In: L'année psychologique. 1999 vol. 99,
n°3. pp. 415-445.
doi : 10.3406/psy.1999.28515
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1999_num_99_3_28515Résumé
Résumé
Nous avons catégorisé a priori deux types de photos : des photos de type « campagne » et d'autres de
type « ville ». Après analyse de 8 images nous avons constaté que les images de type « campagne »
contiennent plus de hautes fréquences spatiales que les images de type « ville ». En outre, les
premières comportent des objets naturels descriptibles par la théorie géométrique des Fractals et les
secondes des artefacts descriptibles par la géométrie euclidienne. Le but de l'expérience était de savoir
si le type d'image déterminait ou non un traitement allant du « global » vers le « local » selon les
fréquences spatiales la composant. Les résultats à une épreuve de reconnaissance d'images des deux
types, sans filtrage spatial ou avec filtrage des basses ou des hautes fréquences, montrent que les
images filtrées sont moins bien et plus lentement reconnues que les mêmes images non filtrées. Les de type « campagne » sont moins bien et plus lentement reconnues que celles de type « ville ».
Les images de type « ville », comportant plus de basses fréquences que celles de type « campagne »,
sont aussi bien et aussi rapidement reconnues quel que soit leur mode de filtrage. En revanche, les
images de type « campagne » comportant plus de hautes que de basses fréquences sont mieux
reconnues lorsqu'elles sont présentées en reconnaissance avec les basses seules qu'avec
les hautes fréquences seules. L'hypothèse d'une dualité de traitement des fréquences spatiales hautes
ou basses dès les premiers niveaux de traitement est discutée en opposition à celle exclusive d'une
précédence du traitement des basses fréquences sur les hautes fréquences.
Mots-clés : reconnaissance de paysages, filtrage spatial, scènes visuelles complexes, fractals.
Abstract
Summary : Spatial filtering effect on the recognition of landscape and town pictures.
The visual environment is composed of multiple objects. Some referred to as « artefacts », have non-
accidental geometric properties and can be relatively easily described but some others, referred to as
natural objects have apparently accidental property with random contours. The contours of artefacts
delimits spatially oriented patches wich could be insensitive to spatial high frequency (HF) filtering. The
contours of natural objects delimits small elements, such as leaves of a tree, which could be sensitive to
H F filtering. Analyzing different types of visual scenes, we found that « landscape » pictures contain
more spatial HF than « town » pictures. In a recognition task, recognition rate was higher and response
time was lower for « town » pictures than « landscape » pictures. Low-pass filtered and high-pass
filtered pictures showed lower performed than full spatial frequency pictures. Recognition performances
was equivalent for high-pass filtered « town » pictures and the same low-pass filtered pictures.
However, high-pass filtered « landscape » pictures, containing small objects, were less well recognized
than the same low-pass filtered pictures. Results suggest two parallel visual processing modes
controlled by the relative spatial location of the elements. One involves extracting objects contours
when alignment and collinearity are present, the other determining patches of equal
luminance. The coarse-to-fine scale processing and the continuous-flow models are discussed.
Key words : picture recognition, spatial frequency, complex visual scene, landscape pictures, coarse-to-
fine processing, fractals.L'Année psychologique, 1999, 99, 415-445
Laboratoire de Psychologie expérimentale
Université de Haute- Bretagne1
EFFET DU FILTRAGE SPATIAL
SUR LA RECONNAISSANCE DE PAYSAGES
par Jean-Pierre GAILLARD et Patrick BOURGES2
SUMMARY : Spatial filtering effect on the recognition of landscape and
town pictures.
The visual environment is composed of multiple objects. Some referred to
as « artefacts », have non-accidental geometric properties and can be relatively
easily described but some others, referred to as natural objects have apparently
accidental property with random contours. The contours of artefacts delimits
spatially oriented patches wich could be insensitive to spatial high frequency
(HF) filtering. The contours of natural objects delimits small elements, such as
leaves of a tree, which could be sensitive to H F filtering. Analyzing different
types of visual scenes, we found that « landscape » pictures contain more
spatial HF than « town » pictures. In a recognition task, recognition rate was
higher and response time was lower for « town » pictures than « landscape »
pictures. Low-pass filtered and high-pass filtered pictures showed lower
performed than full spatial frequency pictures. Recognition performances was
equivalent for high-pass filtered « town » pictures and the same low-pass
filtered pictures. However, high-pass filtered « landscape » pictures,
containing small objects, were less well recognized than the same low-pass
filtered pictures. Results suggest two parallel visual processing modes controlled
by the relative spatial location of the elements. One involves extracting objects
contours when alignment and collinearity are present, the other involves
1. 6, avenue Gaston-Berger, 35043 Rennes Cedex.
2. Nous remercions de leurs conseils Pascal Gouery du laboratoire Costel et
J. Y. Edelman du CREA (Université de Rennes 2) pour le développement de
l'algorithme de traitement des fréquences spatiales. E-Mail : jean-pierre gail-
lard@uhb.fr. 416 Jean-Pierre Gaillard et Patrick Bourges
determining patches of equal luminance. The coarse-to-fine scale processing
and the continuous-flow models are discussed.
Key words : picture recognition, spatial frequency, complex visual scene,
landscape pictures, coarse-to-fine processing, fractals.
INTRODUCTION
De nombreuses études ont été consacrées à l'identification ou
la reconnaissance d'objets simples, souvent dessinés au trait. En
revanche, celles concernant la perception de stimulus complexes
tels que des scènes visuelles, paysage urbain ou champêtre, ont
fait l'objet d'une moindre attention. Partant du principe qu'un
objet n'est que très rarement isolé naturellement, elles ont sou
vent porté sur le rôle du contexte dans l'identification des objets.
Certaines d'entre elles utilisent fréquemment des stimulus visuels
représentant des scènes complexes stylisées, dessinées au trait
(Palmer, 1975 ; Biederman, Mezzanote et Rabinowitz, 1982).
L'utilisation de photos, plus proches de la réalité perceptive,
concerne souvent la perception des visages (Bruce et Young,
1986 ; Bruyer, 1987 ; Tiberghien, 1988), parfois celle de scènes
visuelles complexes représentant des paysages urbains, plus rar
ement des paysages champêtres (Biederman, 1972 ; Potter, 1975 ;
Biederman et Yu, 1988 ; Schyns et Oliva, 1994). Les arguments
épistémologiques, transversaux à la plupart des objets d'étude en
psychologie, justifiant une démarche analytique dans l'étude de
la perception visuelle furent sévèrement critiqués par Gibson
(1979). Cela tient peut-être à ce que l'étude de situations « écolo
giques », défendue par Gibson, a souvent été associée à
l'observation phénoménologique et s'inscrivait difficilement
dans le cadre des théories du traitement de l'information. Dans
l'étude que nous présentons nous avons utilisé comme stimulus
visuels des photos de paysages de deux sortes : des paysages de
type « campagne » et des de type « ville ».
La première difficulté que représentent ces types de stimulus
concerne leur composition et son contrôle pour faire varier de
façon systématique la stimulation. Comme le remarque à propos
Bonnet (1991) :
« II n'est possible, en effet, de modéliser le fonctionnement d'un sys
tème de traitement de l'information visuelle que si l'on dispose d'une des
cription quantitative du stimulus » (p. 312). Filtrage spatial 417
C'est à ce premier objectif que répond cette étude. Le second
objectif était de savoir si le type de paysage déterminait ou non
un mode de traitement de l'image privilégiant plutôt son trait
ement « global » ou « local » au cours d'une épreuve de recon
naissance.
Intuitivement, les scènes de type « ville » laissent entrevoir
une organisation géométrique des objets les constituant ; des
lignes, nettes, délimitent des formes non accidentelles. La per
ception de ces scènes n'impose pas le traitement perceptif des
détails représentant des ornements. Il en est tout autrement
dans les scènes de type « campagne », où le contour des objets ne
représente généralement pas une organisation géométrique mais
délimite plutôt des formes géométriquement accidentelles. Il
existe potentiellement deux façons de décrire une image. La pre
mière, familière des informaticiens, la conçoit comme une
matrice d'éléments picturaux en nombre fini, des pixels, expri
mant la valeur de la luminance en chaque point h(x, y). Toutes
choses égales par ailleurs, plus le nombre de pixels est import
ant, plus l'image sera susceptible de représenter des éléments de
petite dimension. La seconde consiste à considérer l'image
comme une superposition de réseaux de différentes fréquences
spatiales. Chaque réseau sinusoïdal est caractérisé par sa fr
équence spatiale et son amplitude. La fréquence est alors
exprimée en cycle par degré d'angle visuel (cpd) et l'amplitude
représente la différence de luminosité entre les bandes du réseau.
Or, il est théoriquement possible. d'analyser un signal complexe
en appliquant le principe de l'analyse de Fourier (Campbell et
Green, 1965). Ainsi un signal « carré », représentant une transi
tion brutale entre deux plages de luminance différente, peut être
décomposé en une série infinie de composantes sinusoïdales.
L'expression de la fréquence fondamentale est une représenta
tion grossière du signal et donc dans notre cas de l'image. Les
sinusoïdes de forte et faible amplitude représentent les
détails de l'image (Bonnet, 1989 ; Bagot, 1996). Les détails, cor
respondant à de l'information locale, sont donc portés par des
fréquences spatiales élevées, alors que les éléments de plus
grande taille, correspondant à l'information globale, le sont par
des fréquences spatiales moyennes et basses.
De nombreux arguments psychophysiologiques accréditent
l'hypothèse selon laquelle le système visuel se comporterait, tout
au moins au cours des premiers niveaux de traitement, comme
ff.\J 418 Jean-Pierre Gaillard et Patrick Bourges
Fig. I A. — Images non filtrées
Full spatial frequencies pictures
Fig. IB. — Images basses fréquences (BF)
Low-pass spatial frequencies pictures Filtrage spatial 419
Fig. 1 C. — Images hautes fréquences (HF)
High-pass spatial frequencies pictures
Fig. 1. — Exemples de photos de paysages urbain et champêtre, non filtrés,
basses fréquences seules et hautes fréquences seules
Exemples of town and landscape pictures, no filtred,
low-pass fildred and high-pass filtred
un analyseur de Fourier. Une telle analyse a donc suscité un
grand intérêt dans l'étude de la perception visuelle (Campbell et
Robson, 1968 ; Graham et Nachmias, 1971 ; Stromeyer et
Julesz, 1972 ; Bradick, Campbell et Atkinson, 1978 ; Ginsburg,
1984, 1986 ; De Valois et De Valois, 1990). Il est généralement
admis que la perception des détails est assurée par des cellules
ganglionnaires de type X à réponse tonique, dotées d'un champ
récepteur de petite taiile et disposant de vitesse de transmission
faible. Comparativement, les cellules de type Y, à réponse pha-
sique dotées d'un large champ récepteur et à vitesse de transmis
sion élevée traiteraient les éléments de plus grande taille
(Enroth-Cugell et Robson, 1966). Partant de la matrice
d'éléments discrets formés par les photorécepteurs de la rétine,
via les connections complexes des cellules amacrines, horizontal
es et bipojaires, les cellules de type X traiteraient les hautes fré-
j 420 Jean-Pierre Gaillard et Patrick Bourges
quences spatiales et les cellules de type Y les basses fréquences.
Par ailleurs, la détection des bords des objets, c'est-à-dire des
transitions entre des plages de luminosité différente, pourrait
s'expliquer par l'organisation des champs récepteurs des cellu
les X. Par exemple, Enroth-Cugell et Robson font l'hypothèse
que la réponse d'une cellule à centre « on » et périphérie « off »
représente une différence entre deux distributions gaussiennes,
l'une correspondant au centre du champ récepteur et l'autre à sa
périphérie. Le calcul de la différence entre deux distributions
gaussiennes correspond à la dérivée seconde d'une fonction (G2)
(Bruce et Green, 1993).
Le différentiel des temps de transmission de l'information
vers des structures de plus haut niveau de ces deux types de cellu
les, a suscité un paradigme consistant à faire varier la durée de la
stimulation visuelle pour en observer les conséquences sur la visi
bilité du stimulus ou sur les traitements de plus haut niveau de
cette information. De nombreux résultats indiquent que les bas
ses fréquences spatiales sont intégrées plus rapidement que les
hautes fréquences, pour lesquelles il convient d'accroître la durée
de stimulation (Nachmias, 1967 ; Breitmeyer et Ganz, 1976 ;
Legge, 1978 ; Sergent, 1982). L'hypothèse d'une prééminence
temporelle du traitement des basses fréquences a donc suggéré
que le système visuel se comporte comme un analyseur de Fourier
ayant comme fonction de traiter rapidement l'information glo
bale, avant de traiter, plus lentement, l'information locale (Kin-
chla, 1974 ; Navon, 1977). On admet généralement que l'énergie
lumineuse, et donc l'ensemble du spectre fréquentiel composant
un stimulus, est intégrée en 300 ms (Kahneman et Norman,
1964). Si on fait l'hypothèse que le traitement d'une image est
interrompu dès la présentation d'une autre, le paradigme expéri
mental consistant à présenter plusieurs images successives, inter
dit théoriquement le traitement de chacune des images au-delà de
son temps de présentation. Il a été ainsi montré que l'image d'une
scène complexe, insérée dans une séquence d'images différentes,
peut être identifiée ou reconnue dans un temps inférieur à 150 ms
(Potter et Faulconer, 1975 ; Intraub, 1981). Thorpe (1988), en
utilisant le même paradigme, suggère qu'il est possible d'ident
ifier les objets en 60 ms. Watt (1988) en procédant à divers filtra
ges spatiaux de l'image a montré que quelques taches spatial
ement orientées permettent l'identification d'objets, attestant
ainsi de la possibilité d'identifier un objet en ne traitant que les
îd. Filtrage spatial 421
basses fréquences spatiales composant son image. L'hypothèse
d'une identification ou d'une reconnaissance fondée principal
ement sur le traitement de l'information globale portée par les bas
ses fréquences spatiales paraît donc plausible.
La question de savoir s'il y a une hiérarchisation temporelle
dans le traitement selon la taille angulaire de l'information
visuelle a fait l'objet de nombreux débats (Bonnet, 1991).
L'hypothèse d'un modèle strictement sériel a été écarté, mais
certains conservent l'idée d'un traitement allant du « global vers
le local », compatible avec un modèle de traitement simultané
des basses et des hautes fréquences (Coles et al., 1985 ; Eriksen et
Schultz, 1979). Selon Parker, Lishman et Hughes (1996), ce type
de modèle comprendrait un processus de raffinement de
l'information spatiale avec intégration temporelle et différents
critères de décision pouvant opérer à tout moment au cours de
l'intégration en fonction de la situation. Les techniques de fi
ltrage des hautes fréquences spatiales de l'image reviennent donc
à opérationnaliser l'hypothèse Gestaltiste d'un traitement glo
bal des scènes visuelles et à en donner des explications psychop
hysiologiques.
Alternativement à un modèle par « raffinement », on trouve
des modèles analytiques supposant que l'identification n'est
possible que sur la base des composantes structurelles de
l'image. Sa forme grossière, portée par les basses fréquences, ne
servirait qu'à fournir l'information permettant le traitement des
composantes (primitives visuelles des formes). L'image grossière
ne représenterait qu'un préprocessus insuffisant à la reconnais
sance des formes (Marr, 1982 ; Pentland, 1986 ; Biederman,
1987). Les deux approches reposent à la fois sur de solides argu
ments neurophysiologiques, psychologiques et sur des modélisat
ions informatiques. En particulier, celles concernant les
niveaux d'analyse des discontinuités de luminance dans la déter
mination des contours des objets.
1. LA THÉORIE COMPUTATIONNELLE DE MARR
ET HILDRETH (1980)
Selon Marr et Hildreth, il existe une relation entre la localisa
tion des différents éléments composant une image, la répartition
des changements d'intensité lumineuse et des fréquences spatial
es de cette image. 422 Jean-Pierre Gaillard et Patrick Bourges
Toutefois, sur des images réelles, il n'est pas possible de
considérer chaque variation de la luminance ou caractéristique
de la distribution spatiale comme un indice absolu de la présence
d'un bord ou de la discrimination entre deux surfaces : en effet,
une ombre, un reflet, des particularités de texture peuvent être
des éléments qui entraîneront des variations d'intensité lumi
neuse formant un « bruit », c'est-à-dire ne représentant pas une
information pertinente.
Le propos de Marr et Hildreth est de dépasser ce niveau de
difficulté, en réalisant plus qu'une simple détection de bords.
Pour se départager, dans les images réelles, de ces phénomènes
de bruit, les auteurs appliquent différents filtres de largeurs
variables. Sur ces produits de filtrage, ils analysent les varia
tions d'intensité de la fonction luminance L(#, y) en y appl
iquant un opérateur appelé le laplacien : cela revient à réaliser la
somme des dérivées secondes dans deux directions orthogonales
d2L —H d2L — . Le passage par zéro du laplacien correspond à une
dx dy
valeur maximale du gradient de luminance ; ce qui concrète
ment apparaît comme une variation brusque de celle-ci.
L'application du laplacien sur un filtre large ne décrira dans
l'image que les changements d'intensité à grande échelle, alors
que le laplacien appliqué sur un filtre étroit permettra de détec
ter les changements à petite échelle. Le problème essentiel est
que la première opération ne rendra compte que de changements
peu significatifs, alors que la deuxième opération permettra cer
tes de détecter de petits détails mais aussi le bruit.
Marr et Hildreth (1980) proposent donc de combiner les indi
cations de passage par zéro du laplacien sur les images issues de
plusieurs filtres. Cette solution offre la possibilité d'extraire les
informations qui lors d'un traitement ultérieur permettront la
détermination de bords, de terminaisons et de taches dans
l'image. Le produit de cette opération constitue une ébauche
primitive brute.
2. L'APPROCHE COMPUTATIONNELLE DE WATT (1988) :
L'ALGORITHME MIRAGE (WATT ET MORGAN, 1985)
La détection du passage par zéro permet de localiser des
bords caractérisés par des discontinuités de luminance, Watt et

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.