Théorie des GEONS et interprétation quantitative dans une tâche d'identification d'objets - article ; n°4 ; vol.96, pg 561-586

De
Publié par

L'année psychologique - Année 1996 - Volume 96 - Numéro 4 - Pages 561-586
Résumé
Selon Biederman, l'activité de reconnaissance des objets serait fondée sur une représentation interne componentielle et structurelle. Les composants correspondant à des caractéristiques géométriques non accidentelles des objets formant un ensemble de primitives visuelles. Dans la première expérience, on a présenté dix objets usuels dont une partie du contour pouvait être effacé à l'endroit des jonctions ou au milieu des segments. Les résultats indiquent que l'identification des objets dépend bien de la quantité d'information présentée dans le stimulus visuel telle qu'elle est calculée par un algorithme représentant une fonction d'énergie et une fonction de tridimensionnalité de l'objet. Dans la seconde expérience, des objets symétriques étaient présentés, toujours en égalisant la quantité d'information théorique présentée, en les coupant selon leur axe de symétrie vertical ou selon un axe horizontal. Les résultats contredisent l'hypothèse d'une représentation interne économique, non redondante, ainsi que celle d'une duplication automatique de la moitié gauche de l'objet présenté au cours de l'identification. Dans la discussion, on analyse les résultats en fonction du temps d'intégration des fréquences spatiales, des processus de clôture perceptive et de la représentativité tridimensionnelle des jonctions.
Mots-clés : identification d'objets, clôture perceptive, componentiel, théorie de l'information, redondance, symétrie.
Summary : Recognition-by-component theory and quantitative interpretation in visual object recognition.
In Biederman's Recognition-by-components theory, the objet recognition process involves an internal componential and structural description. Components corresponding to geometrical non-accidental properties of objects represent visual primitives. In a first experiment, ten drawn objects were presented. Object contours were deleted at vertex or mid segments but we applied an algorithm to equalize the information quantity presented for two of the three conditions. Results indicate that the identification rate was partially predicted by the amount of information calculated by energy and three dimensional functions. In a second experiment, symmetrical objects were presented with half of the contour or with the top part of the contour only. The amount of information was also equalized between the two conditions. The results contradict the idea of an economical object internal representation avoiding redundancy and automatic duplication of symmetry along the vertical axis. In the discussion, we propose to explain these results by spatial frequency time integration, the closure process and the three-dimensionality of the presented junctions.
Key words : object recognition, componential, redundance, information theory, symmetry, perceptive closure.
26 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : lundi 1 janvier 1996
Lecture(s) : 48
Nombre de pages : 28
Voir plus Voir moins

Théorie des GEONS et interprétation quantitative dans une
tâche d'identification d'objets
In: L'année psychologique. 1996 vol. 96, n°4. pp. 561-586.
Citer ce document / Cite this document :
Théorie des GEONS et interprétation quantitative dans une tâche d'identification d'objets. In: L'année psychologique. 1996 vol.
96, n°4. pp. 561-586.
doi : 10.3406/psy.1996.28920
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_1996_num_96_4_28920Résumé
Résumé
Selon Biederman, l'activité de reconnaissance des objets serait fondée sur une représentation interne
componentielle et structurelle. Les composants correspondant à des caractéristiques géométriques non
accidentelles des objets formant un ensemble de primitives visuelles. Dans la première expérience, on
a présenté dix objets usuels dont une partie du contour pouvait être effacé à l'endroit des jonctions ou
au milieu des segments. Les résultats indiquent que l'identification des objets dépend bien de la
quantité d'information présentée dans le stimulus visuel telle qu'elle est calculée par un algorithme
représentant une fonction d'énergie et une fonction de tridimensionnalité de l'objet. Dans la seconde
expérience, des objets symétriques étaient présentés, toujours en égalisant la quantité d'information
théorique présentée, en les coupant selon leur axe de symétrie vertical ou selon un axe horizontal. Les
résultats contredisent l'hypothèse d'une représentation interne économique, non redondante, ainsi que
celle d'une duplication automatique de la moitié gauche de l'objet présenté au cours de l'identification.
Dans la discussion, on analyse les résultats en fonction du temps d'intégration des fréquences
spatiales, des processus de clôture perceptive et de la représentativité tridimensionnelle des jonctions.
Mots-clés : identification d'objets, clôture perceptive, componentiel, théorie de l'information, redondance,
symétrie.
Abstract
Summary : Recognition-by-component theory and quantitative interpretation in visual object recognition.
In Biederman's Recognition-by-components theory, the objet recognition process involves an internal
componential and structural description. Components corresponding to geometrical non-accidental
properties of objects represent visual primitives. In a first experiment, ten drawn objects were presented.
Object contours were deleted at vertex or mid segments but we applied an algorithm to equalize the
information quantity presented for two of the three conditions. Results indicate that the identification rate
was partially predicted by the amount of information calculated by energy and three dimensional
functions. In a second experiment, symmetrical objects were presented with half of the contour or with
the top part of the contour only. The amount of information was also equalized between the two
conditions. The results contradict the idea of an economical object internal representation avoiding
redundancy and automatic duplication of symmetry along the vertical axis. In the discussion, we
propose to explain these results by spatial frequency time integration, the closure process and the
three-dimensionality of the presented junctions.
Key words : object recognition, componential, redundance, information theory, symmetry, perceptive
closure.L'Année psychologique, 1996, 96, 561-586
MÉMOIRES ORIGINAUX
Laboratoire de Psychologie expérimentale
Université de Haute- Bretagne1
THEORIE DES «GEONS»
ET INTERPRÉTATION QUANTITATIVE
DANS UNE TÂCHE
D'IDENTIFICATION D'OBJETS
par Jean-Pierre GAILLARD,
Rachel BOULLIOU et Christelle GAUTIER
SUMMARY : Recognition-by-component theory and quantitative
interpretation in visual object recognition.
In Biederman's Recognition-by- components theory, the objet recognition
process involves an internal componential and structural description.
Components corresponding to geometrical non-accidental properties of objects
represent visual primitives. In a first experiment, ten drawn objects were
presented. Object contours were deleted at vertex or mid segments but we
applied an algorithm to equalize the information quantity presented for two of
the three conditions. Results indicate that the identification rate was partially
predicted by the amount of information calculated by energy and three
dimensional functions. In a second experiment, symmetrical objects were
presented with half of the contour or with the top part of the contour only. The
amount of information was also equalized between the two conditions. The
results contradict the idea of an economical object internal representation
avoiding redundancy and automatic duplication of symmetry along the
vertical axis. In the discussion, we propose to explain these results by spatial
frequency time integration, the closure process and the three-dimensionality of
the presented junctions.
Key words : object recognition, componential, redundance, information
theory, symmetry, perceptive closure.
1 . 6, avenue Gaston-Berger, 35043 Rennes Cedex. 562 J.-P. Gaillard, R. Boulliou et C. Gautier
INTRODUCTION
L'activité de reconnaissance, d'identification d'un objet sup
pose une représentation permanente de sa forme et conjointement
un mode et un format de stockage et de codage assurant des modif
ications successives au cours de l'expérience perceptive pour y
incorporer des informations nouvelles. Neisser (1976) y voyait là
une contradiction dialectique entre le guidage de l'activité percep
tive et l'actualisation des représentations. Ceci pose le problème à
la fois de la nature des modalités de traitement et de transforma
tion de l'image rétinienne d'un objet, en tant que processus ascen
dant, et celui du rôle de la représentation permanente au cours de
ce processus, en tant que processus descendant. La jonction ou
l'interface entre les informations ascendantes et descendantes a
été initialement conçue comme un mécanisme de comparaison
entre le produit du traitement du stimulus proximal d'une part et
une image interne de l'objet, sorte de copie, de l'autre.
1. APPARIEMENT DE GABARIT
La comparaison de gabarit (template matching) représente
l'hypothèse la plus ancienne et la plus simple. Elle suppose une
comparaison entre l'objet et un modèle de l'objet (Neisser,
1967). Lorsque l'objet est identique ou correspond dans une cer
taine mesure au modèle en mémoire, l'identification intervient.
L'écart éventuel entre le modèle initial et l'objet est la source de
l'apprentissage perceptif des objets, de leur généralisation
(classes d'objets) comme de leur differentiation perceptive. La
métaphore informatique explique que la reconnaissance est
achevée lorsque les pixels des deux images se superposent. L'hy
pothèse est alors aisément modélisable. Si tel était le cas, la
capacité à reconnaître un objet dans une orientation quel
conque, quelle que soit sa distance et donc sa taille relativement
à l'observateur, supposerait une représentation initiale en
mémoire de chacune de ses orientations, tailles et positions. Bien
que cette solution peu économique n'ait probablement pas été
celle adoptée au cours de la phylogenèse, l'hypothèse d'un appa-
riement de gabarit reste plausible si l'on admet que l'image de L'identification d'objets 563
l'objet puisse subir des transformations, rotations mentales,
mises à l'échelle, translations (Shepard et Metzler, 1971 ; Bar-
tram, 1976 ; Jolicœur, 1985 ; Ullman, 1989).
2. HYPOTHÈSE COMPONENTIELLE
L'hypothèse d'une décomposition de l'information en unités
de format inférieur au stimulus trouve son origine dans la philoso
phie rationaliste, prolongée par l'école de Würzbourg en psycholog
ie et inspirant la linguistique moderne. A la notion de phonème
en phonologie (Martinet, 1960) répondent celles de traits, de mar
queurs, de distincteurs, de sèmes en psychologie cognitive (Katz
et Postal, 1973; Pottier, 1976). La découverte de neurones
« détecteurs de traits » dans le cortex visuel par Hubel et Wiesel a
beaucoup accrédité l'hypothèse analytique de décomposition du
stimulus visuel en traits élémentaires (Hubel et Wiesel, 1979). Son
prolongement a donné un regain d'intérêt aux théories conceptua-
listes (Anderson et Bower, 1973). Elles expriment l'idée selon
laquelle l'information permanente, dans notre cas l'objet mémori
sé, ne comporte pas de représentation symbolique (image,
mot...), mais des représentations plus abstraites (Pylyshyn,
1973), exprimant une sorte de «langage de la pensée» (Fodor,
1975). Ces entités abstraites peuvent avoir un format proposition-
nel (Kintsch, 1972; Le Ny, 1979; Pylyshyn, 1981; Kosslyn,
1983), ou plus simplement des traits dont l'activation fonde les
processus de reconnaissance visuelle (Selfridge et Neisser, 1960 ;
Lindsay et Norman, 1980; Garner, 1978; McClelland et
Rumelhart, 1981). Les représentations symboliques ne seraient
alors que des médiations de la « pensée abstraite ».
La reconnaissance d'un objet ne reposerait pas sur un appa-
riement d'images comme dans l'appariement de gabarit. Le pro
duit terminal du traitement visuel de l'objet y serait décrit en
termes d'attributs indépendants, contour, intersection, surface,
texture, couleur (Treisman, 1988). Dans cette hypothèse, la
comparaison porterait sur la quantité de traits partagée par le
produit terminal du traitement de l'information pictographique
et l'objet mémorisé. Là encore, de sérieuses objections ont été
formulées à l'encontre de ce type d'hypothèses. Selon Hummel
et Biederman (1992) un modèle strictement componentiel fon
dant un processus d'appariement de traits serait susceptible à la 564 J.-P. Gaillard, R. Boulliou et C. Gautier
fois de produire des fausses reconnaissances et des non-reconn
aissances. Par exemple, ils montrent que si l'on procède à une
translation sur le plan des composantes d'une figure géomét
rique, produisant une sorte «d'éclaté» de la figure, il devient
impossible de reconnaître la figure. Selon eux, un modèle plau
sible de l'objet devrait contenir des éléments explicitant la
structure spatiale des composantes.
3. DESCRIPTION STRUCTURALE
« Une description structurale représente explicitement les objets
comme des configurations d'attributs (typiquement des parties)
selon des relations spécifiées de l'un à l'autre» (Hummel et Bie-
derman, 1992). Les attributs dont il sera question ici sont
dénommés par Biederman (1987) des Geons, contraction de
geometric ions. Ils correspondent à des propriétés géométriques
non accidentelles structurant notre environnement. De nom
breux objets possèdent ces caractéristiques que
l'on peut aisément décrire par des cônes généralisés. En parti
culier les objets « artéfactuels », construits par l'homme appar
tiennent à cette catégorie. Les Geons, au nombre de 36, sont
formés à partir des propriétés de colinéarité, coterminaison de
deux segments de droites (ex. jonction en L), de trois segments
(ex. jonction en T ou en Y), curvilinéarité, courbes parallèles
et relation de symétrie. Ils représentent donc les éléments pri
mitifs dont la combinaison spatiale formera la syntaxe visuelle
de l'objet perçu. A partir des formes caractéristiques d'un
objet, Biederman postule un processus d'inférence permettant
de construire très rapidement une représentation 3D dont les
attributs, les Geons, sont les invariants structuraux de l'objet
(Biederman, 1987; Biederman et Cooper, 1991, 1992; Biede
rman et Gerhardstein, 1993 ; Cooper, Biederman et Hummel,
1992; Cooper et Biederman, 1993).
L'activité de reconnaissance serait alors fondée sur ce type
de représentation par appariement entre les Geons de l'objet
perçu et ceux caractérisant les objets mémorisés. La théorie de
la reconnaissance par composant (recognition by components,
RBC) suggère l'extraction des traits visuels composant l'objet,
par un processus de segmentation du contour dans les régions de
forte concavité et de forte convexité et aboutissant à déterminer L'identification d'objets 565
les principaux Geons (fîg. 1). Ainsi, dans une tâche de reconnais
sance, la théorie de la RBC prédira que la probabilité de recon
naissance sera proportionnelle à la structure des Geons partagés
par l'objet stimulus et l'objet cible et inversement proportionnel
au temps de reconnaissance.
extraction
du contour
détection des analyse des
propriétés régions concaves non accidentelles
détermination
des
composants
appariement des
composants avec la
représentation objet
identification
de l'objet
Fig. 1. — Processus de reconnaissance d'objets
(d'après Biederman, 1987)
Object recognition process (After Biederman, 1987)
En faisant varier la composition informationnelle ou structu
rale d'un objet à reconnaître et en le présentant dans des situa
tions artificiellement dégradées, son temps ou son taux de recon
naissance pourraient être des indicateurs de la nature de sa
représentation interne. Aussi, Biederman a-t-il largement utilisé
cette technique pour opérationnaliser sa théorie de la RBC. La
méthode consiste à comparer les taux et les temps de reconnais
sance d'objets dessinés au trait selon deux conditions. L'une ou
le contour de l'objet est supprimé aux jonctions et l'autre au
milieu des segments. La première condition correspond à la sup
pression de Geons. Avec un temps de présentation de 100 ms les
résultats montrent que la suppression des angles par cette tech
nique rend à la fois plus aléatoire et plus longue la reconnais
sance d'objets. Lorsque le temps de présentation est plus long,
200 et 750 ms, la différence devient plus ténue, voire insigni
fiante, indiquant par là que des processus plus tardifs dans le 566 J.-P. Gaillard, R. Boulliou et C. Gautier
traitement de l'information visuelle permettrait de suppléer à
l'absence de primitives visuelles.
D'un point de vue strictement quantitatif, la valeur de
contour effacé est équivalente dans les deux situations. Bieder-
man présente les deux situations comme étant formellement équi
valentes mais perceptivement différentes. Il attribue la supérior
ité de la condition où les angles sont présents, à l'activation de
primitives (les Geons) à un niveau préattentionnel facilitant ainsi
la reconnaissance de l'objet. La différence de comportement des
sujets ne s'expliquerait donc que par une différence de valeur qual
itative entre les deux situations. Il existe cependant une interpré
tation, certes plus classique, mais aussi plus simple de ce type de
stimulus selon laquelle la théorie des Geons serait une extension
de la théorie de l'information (Bonnet, 1989). Un segment de
droite représente une certaine quantité d'information. Deux seg
ments de même longueur une double. Si les deux
ments se rejoignent, leur jonction représente une certaine quant
ité d'information supplémentaire. Du point de vue de la théorie
de l'information et de son application aux processus perceptifs
(Attneave, 1954) la suppression des jonctions revient à soustraire
une quantité d'information plus importante que la suppression
des milieux de segment. La quantité d'information présentée aux
sujets n'est pas équivalente entre les deux situations. Biederman
et Blickle (1985 ; cité par Biederman, 1987), en modifiant la lon
gueur totale de contour présenté, ont montré que la présence des
angles ne facilitait la reconnaissance que pour des temps de pré
sentation courts (100 ms) et un pourcentage de contour effacé
élevé (65%). Lorsque le de contour effacé est
moindre (45 % et 25 %) la supériorité liée à la présence des angles
disparaît, ce qui suggère que d'autres mécanismes de fermeture du
contour peuvent intervenir de façon efficace en l'absence des jonc
tions. Les deux expériences que nous présentons avaient pour but
de tester la validité d'une réinterprétation plus quantitative que
qualitative de la supériorité des jonctions sur les segments et du
rôle de la redondance de l'information dans la reconnaissance
d'objets. En effet, de nombreux objets possèdent un axe de symét
rie partageant l'objet en deux moitiés, l'une étant le miroir de
l'autre, d'un point de vue quantitatif, seule une moitié de ces
objets symétriques est informative, l'autre pouvant alors être
facilement prédite. Il existe donc plusieurs façons de concevoir la
valeur informative d'un stimulus. Par la longueur du contour pré- L'identification d'objets 567
sente, par le nombre de jonctions, par la redondance de l'informa
tion présentée ou suggérée dans le cas d'un objet symétrique. La
première expérience se proposait d'explorer la valeur quantitative
de la combinaison des deux premiers paramètres ; la seconde expér
ience, d'explorer la robustesse de cette métrique en fonction du
rôle de la symétrie dans l'identification des objets.
EXPERIENCE I
La première expérience visait à répliquer deux situations étudiées par
Biederman (1987) en égalisant la longueur des contours. Dans la condi
tion 1 (Cl) les angles étaient présents et 65 % du contour des objets était
effacé. Dans la condition 2 (C2) les angles étaient absents et 65 % du
contour était effacé. On en a ajouté une troisième correspondant à d'autres
résultats présentés par Biederman et Blickle (1985 ; cité par Biederman,
1987) pour tester l'interprétation quantitative. Dans cette situation (C3)
nous avons égalisé la quantité d'information présente entre Cl et C3 en
n'effaçant que 45 % du contour. On s'attendait à ce que le taux d'identifi
cation correcte soit supérieur en Cl par rapport à la condition C2 (replica
tion des résultats de Biederman) et que ce taux soit équivalent entre Cl
et C3. La figure 2 illustre ces trois conditions pour l'objet « table ».
I-
u
u u
C2 angles Fig. 2. effacés C3 — Illustration quantité avec une Cl d'information des angles longueur trois présents, conditions de équivalente contour expérimentales. équivalente à Cl à Cl,
Illustration of the three experimental conditions. Cl mid segment deleted,
C2 junction deleted and equal line drawing length as in Cl,
C3 same information amount as Cl 568 J.-P. Gaillard, R. Boulliou et C. Gautier
METHODE
MATÉRIEL
Le matériel expérimental comprenait dix objets courants représentés
par leur contour dessiné au trait. Chaise, pipe, marteau, crayon, couteau,
verre, maison, tasse, table et bateau. Pour réaliser une équivalence théo
rique entre les conditions Cl et C3, nous n'avons pas retenu l'algorithme
de mesure de clôture utilisé par Eider et Zucker (1994) qui ne tient pas
compte des jonctions et est plus adapté au temps d'identification qu'à son
taux. (Dans le cas des dessins de l'objet table l'application de cet algo
rithme conduisait à prédire que le taux d'identification dans la condi
tion Cl serait inférieur à la condition C2.) Par ailleurs, d'autres algo
rithmes n'étant pas adaptés au calcul d'un contour incomplet, nous avons
préféré en développer un, combinant différemment les deux variables de
mesure de la complexité tridimensionnelle, nombre de jonctions et nombre
de segments, élaboré par Hochberg et Brooks (1960). Cet algorithme tenait
compte à la fois de la longueur des segments présentés et du nombre de
jonctions pour Cl, et de la longueur des pour C2 et C3. Il repré
sente une métrique permettant a priori de satisfaire à la condition d'équi
valence informationnelle entre une jonction et une longueur de segment
pour construire la condition C3.
Pour la condition Cl :
x : somme des longueurs des segments formant une jonction ;
n : nombre de segments formant une jonction ;
/ : longueur moyenne x/n ;
N : nombre de segments + nombre d'angles formant la jonction
(par exemple N = 3 pour une jonction en L, N — 5 pour une
jonction en T) ;
Q : estimateur de l'information contenue dans une jonction
q = m-
Pour la jonction supérieure droite de la table les deux segments fo
rmant la jonction mesurent 0,8 cm et 0,5 cm.
x = 0,8 + 0,5 ;
n =2;
/ =0,65;
N = 3 et Q = 1,95.
La quantité d'information pour l'ensemble du contour fragmenté est
égale à la somme des informations estimées par Q pour chaque jonction : SQ.
Les longueurs totales des contours de Cl et de C2 sont égales :
= Sx(C2).

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.