La signature spatiale de l'objet : une information essentielle pour la localisation de cibles dans une scène naturelle - article ; n°1 ; vol.104, pg 9-49

De
Publié par

L'année psychologique - Année 2004 - Volume 104 - Numéro 1 - Pages 9-49
41 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : jeudi 1 janvier 2004
Lecture(s) : 28
Nombre de pages : 42
Voir plus Voir moins

G. Giraudet
C. Roumes
La signature spatiale de l'objet : une information essentielle pour
la localisation de cibles dans une scène naturelle
In: L'année psychologique. 2004 vol. 104, n°1. pp. 9-49.
Citer ce document / Cite this document :
Giraudet G., Roumes C. La signature spatiale de l'objet : une information essentielle pour la localisation de cibles dans une
scène naturelle. In: L'année psychologique. 2004 vol. 104, n°1. pp. 9-49.
doi : 10.3406/psy.2004.3926
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_2004_num_104_1_3926L'Année psychologique, 2004, 104, 9-49
MÉMOIRES ORIGINAUX
Essilor International* '
I MASSA**2
LA SIGNATURE SPATIALE DE L'OBJET :
UNE INFORMATION ESSENTIELLE
POUR LA LOCALISATION DE CIBLES
DANS UNE SCÈNE NATURELLE
Guillaume GlRAUDET*3 et CORINNE ROUMES**3
SUMMARY : Object spatial signature : An essential tool for target
localization in a natural environment.
Scenes of the outside world do not look like any artificial image. They
exhibit a specific spatial frequency content and a global structure evocative of
their category membership. This information characteristic of natural scenes
leads to define the concept of scene spatial signature. What is the respective
role of this specific global information related to the scene and of the local
information related to the image components in a target localization task ? Two
experiments investigate the relative weight of both levels of information. Results
show that initially, when images are blurred, the global structure plays a major
role. However, after a familiarization period, subjects start using the invariant
distinctive features of the target to localize it regardless of the aspect of the scene.
Analogous to the scene spatial signature, the local information distinguishing
the target from its close environment defines the object spatial signature. This
perceptual adaptation process frees subjects from having to rely on global
information. Results show that perceptual strategies are not determined once
and for all. The visual system is flexible and is able to juggle the various
available information at both global and local levels to adapt to the demand.
Key words : spatial signature, natural images, perceptual adaptation,
object localization, jumbled images.
1. Essilor International, Recherche et développement optique, Service
d'optique physiologique, 57, avenue de Condé, 94106 Saint-Maur.
2. Institut de médecine aérospatiale du service de santé des armées, Dépar
tement de sciences cognitives, bp 73, 91220 Brétigny-sur-Orge.
3. E-Mail : giraudeg@essilor.fr, croumes@imassa.fr. 10 Guillaume Giraudet et Corinne Roumes
Le monde fournit à chaque moment une grande quantité
d'information visuelle. Compte tenu des capacités de traitement
limitées du système visuel, les données redondantes doivent être sinon éliminées. Attneave (1954) et Barlow (1961) sug
gèrent que la redondance provient de l'uniformité ; par exemple
le ciel, la mer ou des paysages désertiques ne nécessitent pas un
codage précis sur toute leur étendue spatiale. DeValois et DeVa-
lois (1988) proposent une approche comparable basée sur la
périodicité de l'environnement naturel. Les images naturelles
ont en effet une propriété commune : l'organisation périodique
de leur contenu spatial. Par analyse d'image, on peut mettre en
évidence que cette caractéristique commune se traduit par un
spectre fréquentiel tout à fait spécifique (Field, 1987 ; Tadmor et
Tolhurst, 1994 ; Parraga, Tolhurst et Troscianko, 1998 ; Tol-
hurst et Tadmor, 1997). La majorité de l'énergie contenue dans
une image naturelle est concentrée dans les basses fréquences
spatiales et décroît de façon linéaire au fur et à mesure que des
fréquences plus hautes sont considérées (Field, 1987). En plus de
cette spécificité fréquentielle, les statistiques de distribution des
orientations dominantes dans une image naturelle peuvent ser
vir d'élément discriminatoire entre les différentes catégories de
scènes (Guérin-Dugué, Bernard et Oliva, 1998). Les scènes
appartenant à une même catégorie basique présentent les
mêmes régularités dans leur organisation globale et dans la
forme de leur spectre fréquentiel (Oliva, Guérin-Dugué et
Fabry, 1998 ; Schyns et Oliva, 1994). La conjonction d'un
contenu fréquentiel et d'une organisation spatiale globale spéci
fiques des images naturelles constitue un ensemble d'info
rmations physiques identifiées sous le terme de signature spatiale
de la scène.
La signature spatiale d'une scène est une caractéristique glo
bale de la stimulation. D'un point de vue constitutionnel, une
scène est le plus souvent formée d'un ensemble d'objets, impli
qués non seulement dans la signification, mais également dans la
structure spatiale de l'image. Au niveau local, l'objet est lui-
même constitué d'un groupe d'éléments. Ainsi, selon le point de
vue adopté, un objet peut devenir une scène complexe cons
tituée d'un ensemble de formes locales. Cette dichotomie entre
informations globales et locales a inspiré un grand nombre
d'études. La perception d'une stimulation globale naît-elle de
l'analyse et de la mise en correspondance de ses éléments consti- Signature spatiale de l'objet 11
tutifs locaux ou, au contraire, le traitement perceptuel se déve-
loppe-t-il d'un « tout » global vers des détails locaux de plus en
plus spécifiques. Les travaux de Navon (1977, 1981) argument
ent en faveur de cette dernière théorie. En utilisant des lettres
hiérarchiques, c'est-à-dire des grandes lettres constituées de
petites, Navon montre que les temps de réponses pour les lettres
globales sont inférieurs à ceux obtenus pour la reconnaissance
des lettres locales. Il constate également qu'il est possible
d'ignorer la présence d'informations locales non concordantes,
alors que les informations globales sont obligatoirement prises
en compte. Le modèle issu de ces données expérimentales pro
pose un traitement séquentiel commençant par les informations
globales se développant ensuite vers les informations de plus en
plus locales. Il s'agit du modèle « Global-to-Local ».
La signature spatiale de la scène pourrait également consti
tuer une illustration de cette dominance des informations global
es sur les informations locales. La signature spatiale caractérise
des régularités statistiques dans l'organisation globale
des composantes physiques de l'image. Les théories les plus
récentes proposent que le système visuel s'est développé de
façon à utiliser au mieux cette information délivrée par
l'environnement au travers du capteur oculaire (Tolhurst, 1998).
Les images naturelles et leur signature spatiale spécifique appar
aissent donc comme des stimulations particulièrement perti
nentes pour le système visuel. Quelle influence cette information
globale exerce-t-elle sur l'analyse locale des constituants de la
scène ? La dominance des informations globales constatée pour
des stimulus hiérarchiques est-elle également présente au niveau
des images naturelles ? De nombreux travaux se sont intéressés
à cette problématique. Cependant, leur approche s'est focalisée
sur les relations sémantiques entre les niveaux global et local de
l'image : il s'agissait d'évaluer l'influence de la signification de la
scène sur la perception d'objets (Biederman, 1981 ; Biederman,
Mezzanotte et Rabinowitz, 1982 ; Boy ce, Pollatsek et Rayner,
1989 ; Boyce et Pollatsek, 1992). Aucune étude n'a abordé cette
question d'un point de vue purement perceptif en intégrant la
notion de signature spatiale de la scène.
Les stimulations envisagées dans cette expérience sont plus
complexes que les lettres hiérarchiques de Navon. Néanmoins, la
démarche est similaire. L'objectif de cette étude est de détermin
er, lors du processus perceptif, les rôles respectifs des informa- 12 Guillaume Giraudet et Corinne Roumes
tions globales de la scène, dont le contenu spatial possède une
répartition spécifique, et des informations locales liées à l'objet.
La tâche retenue fait référence à une situation visuelle fréquente
au quotidien : la localisation d'un objet cible dans un environne
ment complexe. Dans le cas où l'objet est suffisamment saillant
dans son environnement et où les conditions de perception sont
optimales, eu égard aux habitudes visuelles du sujet, les info
rmations locales liées à la cible suffisent à la localiser (Thorpe,
1988, 1995 ; Thorpe, Fize et Marlot, 1996). Cependant, ces
conditions visuelles ne sont pas immuables et peuvent être
dégradées de façon naturelle (brouillard, éblouissement, etc.),
artificielle (dispositifs optiques variés) ou pathologique (amé-
tropie mal compensée, diffusion accrue des milieux oculai
res, etc.). Lorsque la saillance de l'objet est altérée, l'hypothèse
est avancée d'une importance décisive des informations globales
liées à la structure spatiale de la scène dans la réalisation de la
tâche visuelle. Cette situation n'est pas nécessairement figée. Le
système visuel est un système de traitement éminemment
flexible, car il répond à des demandes très variées dans des
conditions perceptives qui ne sont pas toujours optimales.
L'hypothèse est avancée qu'après une période d'habituation aux dégradées de perception, les observateurs sont capa
bles de s'affranchir des informations globales de la scène et
d'utiliser à nouveau les caractéristiques locales de la cible pour
réaliser la tâche demandée. Il s'agit en cela d'un phénomène
d'adaptation, résultat d'un changement dans les mécanismes de
traitement de l'information sensorielle en réponse à une modifi
cation des conditions de stimulation. L'adaptation peut recou
vrir deux types de processus :
— soit l'élaboration de nouveaux mécanismes de traitement,
notamment lorsque les capteurs, les voies ou les centres sen
soriels ont été remaniés ou détruits, c'est le cas par exemple
de la plasticité sensorielle après lésion ;
— soit la simple modification des stratégies perceptives avec r
éévaluation de l'influence relative de mécanismes élémentair
es en fonction de leur pertinence dans l'environnement et/ou
la tâche, c'est le cas de la flexibilité perceptive dont il est ici
question.
La localisation de cibles dans un environnement naturel
reposerait donc sur un traitement exploitant de façon conjointe Signature spatiale de l'objet 13
des informations globales et locales, les poids accordés à ces deux
sources d'information variant en fonction des conditions de per
ception.
Afin d'évaluer l'influence relative des informations globales
et locales, le paradigme de déstructuration développé par Bie-
derman (1972) a été utilisé. En mélangeant (image déstructurée)
les 6 cases d'une partition 3 par 2 de l'image d'origine, on per
turbe les relations spatiales existant entre les différentes compos
antes d'une scène. Sa signature spatiale est ainsi altérée (i.e. elle
ne correspond plus à la typique des scènes naturelles
de sa catégorie). En prenant soin de choisir une cible de taille
inférieure à la dimension d'une case unitaire, l'objet conserve un
environnement local stable que l'image soit structurée ou dés
tructurée. Afin de mettre en évidence la modification des straté
gies de traitement induites par le changement de condition de
perception, un filtrage de type passe-bas a été réalisé. Ce filtrage
ampute le spectre de l'image dans les hautes fréquences spatiales
et présente deux intérêts :
— l'image rendue floue, les cibles ne disposent plus de la même
saillance perceptive que dans une situation sans filtrage ;
— de plus, même si le spectre est modifié, la signature spatiale
de la scène rendant compte de la répartition de
l'information dans l'image conserve sa pertinence : les études
de Schyns et Oliva ont ainsi mis en évidence que les informat
ions liées à l'organisation spatiale globale de la scène sont
principalement véhiculées par les basses fréquences spatial
es ; ces informations précoces permettent une catégorisation
initiale de la scène qui agit en retour sur le traitement plus
tardif des hautes fréquences spatiales liées aux détails fins
présents dans l'image et renseignant sur l'identité des él
éments locaux ; ces résultats s'intègrent dans la théorie
« Coarse-to-Fine » (Parker, Lishman et Hughes, 1992 ;
Schyns et Oliva, 1994).
Dans ce modèle « Coarse-to-Fine », la supériorité des basses
fréquences spatiales dans le processus perceptif est donc issue de
la rapidité à laquelle le système délivre cette catégorie d'info
rmation par rapport aux informations des hautes fréquences spat
iales. Schyns et Oliva (1994) ont aussi montré que le biais per
ceptif des basses vers les hautes fréquences spatiales peut
s'inverser en augmentant le temps d'exposition aux stimula- 14 Guillaume Giraudet et Corinne Roumes
tions. Compte tenu de ces interactions spatio-temporelles, il
convient de contrôler le temps de présentation du stimulus
visuel. Nous faisons l'hypothèse que, pour des temps d'exposi
tion courts, les basses fréquences spatiales rendant compte de la
structure spatiale globale de la scène sont privilégiées.
L'utilisation conjointe de la méthode de déstructuration de
Biederman, d'un filtrage passe-bande et d'un contrôle du temps
d'exposition permet d'évaluer le rôle de la signature spatiale glo
bale de la scène dans une tâche de localisation de cible en env
ironnement naturel. Si la perturbation de la signature spatiale de
la scène dégrade la performance dans la tâche, sa contribution
au processus perceptif est démontrée ; si la performance peut
être maintenue, elle repose sur des éléments plus locaux de
l'image non perturbés par le filtrage et la déstructuration. Les
hypothèses sont donc les suivantes :
— si la signature spatiale de la scène constitue une information
décisive dans la prise de décision, suivant les théories de
Navon, Biederman ou Schyns et Oliva, quelle que soit la
condition de perception envisagée, les performances seront
diminuées lorsque l'image est déstructurée ;
— si l'information globale de signature spatiale est optionnelle,
par extension de la théorie de Thorpe et collaborateurs au cas
des images au spectre fréquentiel amputé, les performances
de localisation d'objets ne devraient pas varier en fonction de
l'aspect structuré ou déstructuré de l'environnement ;
— lorsque l'image est rendue floue, l'importance relative des
informations de structure globale de la scène est accrue ; on
s'attend par conséquent à ce que ce filtrage passe-bas associé
à la déstructuration de l'image diminue sensiblement les per
formances ;
— également, la diminution du temps d'exposition tend à privi
légier, dans le processus perceptif, le poids des basses fr
équences spatiales ; les performances sont donc d'autant plus
affectées que la diminution du temps d'exposition est com
binée à la déstructuration de la scène ; de plus, il doit exister
une synergie entre les paramètres suivants : diminution du
temps d'exposition, augmentation du niveau de filtrage et
déstructuration de la scène ;
— enfin, compte tenu de la flexibilité du système visuel,
l'hypothèse est formulée d'une évolution des performances
au fur et à mesure que l'observateur se familiarise avec les Signature spatiale de l'objet 15
stimulations de l'expérience, avec en particulier une modifi
cation du rôle de la signature spatiale globale de la scène
dans la prise de décision.
EXPERIENCE 1
METHODE
DISPOSITIF
Les images tests sont présentées aux sujets sur un moniteur couleur de
diagonale 21 pouces, muni d'un écran tactile permettant de recueillir les
réponses des sujets. Les sujets sont installés à 50 cm de l'écran, la tête
appuyée sur une mentonnière et la main posée à 40 cm de sur la
barre d'espacement du clavier. L'expérimentation est menée dans une salle
sans autre source lumineuse que le moniteur pour éviter tout reflet sur
l'écran du moniteur perturbant la tâche du sujet.
STIMULUS
Les stimulations visuelles utilisées sont des images naturelles, issues de
la base de données Corel, et représentent des scènes de la vie quotidienne :
champêtres, citadines ou d'intérieur. Huit images ont été sélectionnées
selon des critères de taille, de localisation et d'environnement des
objets. Les objets à localiser sont choisis pour couvrir une large gamme de
saillance et ainsi refléter la diversité du monde visuel. Chaque cible est
située dans la case centrale d'une partition équilibrée de l'image formée de
5 cases en largeur sur 3 cases en hauteur (fig. 1). Les images sont équili
brées : des objets, ou éléments sémantiques, sont répartis sur toute la sur
face des images.
Chaque image (image d'origine) est définie par 1 705 x 1 152 pixels.
Sur la matrice virtuelle à 15 cases, un masque de sélection correspondant à
6 cases contiguës (3 X 2) permet d'extraire 6 sous-images de taille 1 024
X 768 pixels qui forment la base d'images expérimentales affichées à
l'écran (fig. 1). Pour chacune de ces sous-images, l'objet cible a une posi
tion différente sur l'écran. Compte tenu de la présence régulière d'él
éments dans les images d'origine, l'information sémantique apportée par
l'environnement est considérée comme ne variant pas d'une sous-image à
l'autre. i
/
6 sous-images permettant de varier la localisation de la cible .' .'
\
image d'origine masque
de sélection (objet centré)
Fig. 1. — Méthode utilisée afin de générer 6 sous-images à partir des images initiales. Cette séparation permet d'obtenir 6 localisations
possibles pour l'objet cible (ici, le buste de cheval) tout en maintenant une information sémantique relativement stable.
Method used to generate 6 sub-images out of the initial images ; with this arrangement, the target object (i.e. the horse bust) can be located in
6 different places, semantic information remaining relatively constant. Signature spatiale de l'objet 17
Dans les conditions d'observation, l'écran du moniteur sous-tend un
angle de 39 degrés en horizontal par 31,5 degrés en vertical. L'image (3 x 2)
est affichée en position centrale et sous-tend un angle de 31 X 23,7 degrés.
Le reste de l'écran, et la totalité de l'écran en l'absence d'image sont formés
par une plage uniforme grise, de coordonnées colorimétriques : x = 0,276 et
y = 0,311 (correspondant à une répartition uniforme de la luminance sur les
trois types de luminophores). La luminance moyenne des images présentées
est de 35 cd. nr2 ; les stimulations sont de type photopique.
Trois facteurs sont contrôlés dans cette expérimentation pour étudier
leur retentissement sur la localisation des objets cibles : le contenu fréquen-
tiel, le temps de présentation et la structure globale de la stimulation.
Trois niveaux de filtrage en fréquences spatiales sont appliqués. Ces fi
ltrages sont obtenus par décomposition de l'image initiale à l'aide de
l'analyse en ondelettes (Mallat, 1989) avec un profil de base des fonctions
analysantes en différence de deux gaussiennes (DOGs : Difference Of Gaus-
sians). Cette méthode d'analyse d'images a l'avantage d'extraire à chaque
échelle un contenu fréquentiel spatial de l'image comparable à la sélectivité
en fréquences spatiales du système visuel (Plantier et Menu, 1992). Les
images expérimentales résultent ensuite d'une reconstruction partielle,
fonction du niveau de filtrage désiré. Les filtrages sont de type passe-bas.
Trois valeurs de fréquences de coupure (FC) permettent de faire varier le
niveau de détails présent dans l'image : 6 ; 3 ; 1,5 cycle par degré (CPD). Les
différents niveaux de filtrage (identifiés respectivement par FC6, FC3, FC1,5,
l'image non filtrée étant NF) correspondent donc à une amputation de plus
en plus étendue du spectre fréquentiel spatial des images initiales dans le
domaine des hautes fréquences spatiales.
Quatre temps de présentation des images ont été envisagés (100, 200,
400 et 800 ms), permettant de faire varier les contraintes temporelles sur la
prise d'information visuelle.
Le principe de modification de la structure globale d'une image repose
sur le découpage de l'image selon ses 6 cases (3 X 2) et sur le mélange pseu
do-aléatoire de ces 6 cases (Biederman, 1972). Dans le cas présent, le
mélange des cases n'est pas réellement aléatoire dans la mesure où l'on con
trôle que deux cases préalablement adjacentes ne le soient pas dans l'image
déstructurée. Cette transformation de l'image modifie les relations spatiales
entre les différents éléments de la scène (fig. 2). La signature spatiale des
scènes déstructurées ne correspond plus aux habitudes perceptives des
observateurs. Afin de pouvoir comparer les performances obtenues pour ces
2 types d'images, l'objet cible est systématiquement situé au même endroit
dans l'image structurée et déstructurée.
Enfin, la position de l'objet sur l'écran est également contrôlée de façon
que l'objet apparaisse une fois à gauche, une fois au centre et une fois à
droite de l'écran pour chaque condition expérimentale.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.