Les illusions McGurk dans la parole : 25 ans de recherches - article ; n°3 ; vol.103, pg 497-542

De
Publié par

L'année psychologique - Année 2003 - Volume 103 - Numéro 3 - Pages 497-542
Résumé
Lorsque la vision et l'audition fournissent des signaux de parole incongrus, deux types d'illusions (fusions et combinaisons) ont été rapportées (McGurk et MacDonald, 1976). L'objectif de cet article est de faire le point sur l'état des connaissances relatives à l'effet McGurk. Nous considérons les divers paramètres susceptibles de moduler la taille de l'effet. Nous nous interrogeons ensuite sur le niveau de traitement auquel se produit l'intégration par rapport à la catégorisation phonétique. Nous discutons également de la place de l'effet dans les différentes théories de perception de la parole, ainsi que du développement de l'effet et de ses bases cérébrales possibles.
Mots clés : intégration audiovisuelle, lecture labiale, perception de la parole.
Summary : The McGurk illusions in speech: 25years of research.
When presented with an auditory /b/ dubbed onto a visual /g/, listeners perceive sometimes a fused phoneme like /d/ whereas with the reverse presentation, they experience a combination such as /bg/. These two kinds of illusions were reported by McGurk and MacDonald (1976).
The aim of this paper is to review research on the McGurk effect and on the underlying cognitive processes. Different experimental manipulations that are likely to modulate the size of the effect are examined, such as spatial separation and temporal desynchronisation between the signals, vocalic and consonantic environment, articulation rate, stimulus quality, cognitive influences and cross-linguistic differences. Datafrom studies bearing on the issue of the level of processing at which audiovisual integration occurs relative to phonetic categorization are considered. The place of the McGurk effect in current theories of speech perception is also discussed, as well as the development of the effect during childhood, and finally the possible cerebral bases.
Key words : audiovisual integration, speech reading, speech perception
46 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 2003
Lecture(s) : 83
Nombre de pages : 47
Voir plus Voir moins

Madame Christel Colin
Monique Radeau
Les illusions McGurk dans la parole : 25 ans de recherches
In: L'année psychologique. 2003 vol. 103, n°3. pp. 497-542.
Résumé
Lorsque la vision et l'audition fournissent des signaux de parole incongrus, deux types d'illusions (fusions et combinaisons) ont
été rapportées (McGurk et MacDonald, 1976). L'objectif de cet article est de faire le point sur l'état des connaissances relatives à
l'effet McGurk. Nous considérons les divers paramètres susceptibles de moduler la taille de l'effet. Nous nous interrogeons
ensuite sur le niveau de traitement auquel se produit l'intégration par rapport à la catégorisation phonétique. Nous discutons
également de la place de l'effet dans les différentes théories de perception de la parole, ainsi que du développement de l'effet et
de ses bases cérébrales possibles.
Mots clés : intégration audiovisuelle, lecture labiale, perception de la parole.
Abstract
Summary : The McGurk illusions in speech: 25years of research.
When presented with an auditory /b/ dubbed onto a visual /g/, listeners perceive sometimes a fused phoneme like /d/ whereas
with the reverse presentation, they experience a combination such as /bg/. These two kinds of illusions were reported by McGurk
and MacDonald (1976).
The aim of this paper is to review research on the McGurk effect and on the underlying cognitive processes. Different
experimental manipulations that are likely to modulate the size of the effect are examined, such as spatial separation and
temporal desynchronisation between the signals, vocalic and consonantic environment, articulation rate, stimulus quality,
cognitive influences and cross-linguistic differences. Datafrom studies bearing on the issue of the level of processing at which
audiovisual integration occurs relative to phonetic categorization are considered. The place of the McGurk effect in current
theories of speech perception is also discussed, as well as the development of the effect during childhood, and finally the
possible cerebral bases.
Key words : audiovisual integration, speech reading, speech perception
Citer ce document / Cite this document :
Colin Christel, Radeau Monique. Les illusions McGurk dans la parole : 25 ans de recherches. In: L'année psychologique. 2003
vol. 103, n°3. pp. 497-542.
doi : 10.3406/psy.2003.29649
http://www.persee.fr/web/revues/home/prescript/article/psy_0003-5033_2003_num_103_3_29649L'année psychologique, 2003, 104, 497-542
REVUE CRITIQUE
Université Libre de Bruxelles1
FNRS, Belgique
LES ILLUSIONS MCGURK
DANS LA PAROLE :
25 ANS DE RECHERCHES
Cécile COLIN2 et Monique RADEAU3
SUMMARY : The McGurk illusions in speech: 25 years of research.
When presented with an auditory Ibl dubbed onto a visual Igl, listeners
perceive sometimes a fused phoneme like Idl whereas with the reverse
presentation, they experience a combination such as Ibgl . There two kinds of
illusions were reported by McGurk and MacDonald (1976).
The aim of this paper is to review research on the McGurk effect and on the
underlying cognitive processes. Different experimental manipulations that are
likely to modulate the size of the effect are examined, such as spatial separation
and temporal desynchronisation between the signals, vocalic and consonantic
environment, articulation rate, stimulus quality, cognitive influences and
cross-linguistic differences. Data from studies bearing on the issue of the level
of processing at which audiovisual integration occurs relative to phonetic
categorization are considered. The place of the McGurk effect in current theories
of speech perception is also discussed, as well as the development of the effect
during childhood, and finally the possible cerebral bases.
Key words : audiovisual integration, speech reading, speech perception
1. Unité de Recherche en Neurosciences Cognitives, CP 191, Université
Libre de Bruxelles, 50, av. F. Roosevelt, 1050 Bruxelles, Belgique.
2. E-mail : ccolin@ulb.ac.be.
3. Nous remercions chaleureusement deux experts anonymes pour leur lec
ture très attentive de l'article ainsi que pour leurs suggestions particulièrement
constructives et enrichissantes.
Cette recherche a été subsidiée par la Communauté française de Belgique
dans le cadre d'une Action de recherche concertée (96/01-203) ainsi que d'un
Fonds pour la recherche fondamentale collective (8.4501.98) accordé à Monique
Radeau. 498 C. Colin et M. Radeau
LA COMPLÉMENTARITÉ
DE L'AUDITION ET DE LA VISION
DANS LA PERCEPTION DE LA PAROLE
La perception de la parole a longtemps été considérée comme un proces
sus purement auditif. En effet, dans de nombreuses situations de communic
ation (conversation téléphonique, écoute de programmes radiophoni-
ques...), la parole auditive est la seule source d'information disponible et elle
semble suffisante pour atteindre un niveau de compréhension satisfaisant.
Durant la seconde moitié du XXe siècle, de nombreuses études ont mis
en évidence l'apport essentiel de l'information visuelle dans la perception
de la parole. Sumby et Pollack (1954) sont parmi les premiers à avoir mont
ré que l'intelligibilité d'un signal acoustique (des mots mono-, bi- ou trisyl-
labiques), mêlé à du bruit, était fortement améliorée par la lecture labiale.
Celle-ci contribuait d'autant plus à la perception de la parole que le bruit
était important. Ces résultats ont été largement reproduits lors d'études
ultérieures menées en anglais (Erber, 1969 ; Dodd, 1977 ; Middleweerd et
Plomp, 1987 ; MacLeod et Summerfield, 1990). Ils ont été reproduits par
Mohamadi et Benoît (1992) pour le français. La lecture labiale s'avère éga
lement extrêmement bénéfique chez les personnes souffrant de déficience
auditive. Elle contribue notamment à l'acquisition du langage oral chez les
enfants sourds (Dodd, Mclntosh et Woodhouse, 1998).
L'influence de la parole visuelle ne se limite pas aux situations dans le
squelles le signal auditif est dégradé. Elle améliore la compréhension d'un
signal de parole clair, mais comprenant un contenu sémantiquement
complexe (Reisberg, McLean et Goldfield, 1987), ou prononcé dans une
langue étrangère (Davis et Kim, 1998), ou encore prononcé dans la langue
maternelle mais par un locuteur parlant avec un accent étranger (Burn-
ham, 1998). Dans des conditions normales d'écoute, elle améliore égal
ement la compréhension de la parole conversationnelle (Cerrato, Leoni et
Falcone, 1998) ou celle de logatomes VCVCV1 (Benoît, Mohamadi et Kan-
del, 1994). Enfin, Mills (1987) a montré que des enfants aveugles, d'une
moyenne d'âge de deux ans, acquéraient plus lentement que les voyants
des sons caractérisés par une articulation clairement visible (des bilabiales
comme /b/, liai...) et qu'ils commettaient des erreurs spécifiques à leur défi
cit (substitution d'un phonème par un autre appartenant à une catégorie
visuelle différente).
L'augmentation de l'intelligibilité de la parole par l'information
visuelle est en toute logique due au fait que cette dernière est complément
aire de l'information auditive (Summerfield, 1987). Pour les consonnes,
Miller et Nicely (1955) ont souligné que le heu d'articulation (spécifié par
1. C = consonne ; V = voyelle L'effet Me Gurk 499
des changements acoustiques rapides, de faible intensité) est difficile à iso
ler du signal auditif présenté seul. Ce dernier fournirait par contre
l'information relative au mode d'articulation et au voisement. Ces consta
tations ont été confirmées par Smeele et Sittig (1991). Ces auteurs ont
demandé à des participants néerlandophones d'identifier des consonnes
placées dans différents contextes syllabiques. La présentation était
visuelle, auditive ou audiovisuelle. Dans la condition visuelle, le lieu
d'articulation était le trait le mieux transmis. Dans la condition auditive,
le mode d'articulation était bien perçu tandis que les scores relatifs au lieu
étaient très faibles. L'information concernant les traits phonétiques
n'était cependant pas transmise exclusivement par l'une ou l'autre modal
ité sensorielle puisque la perception bimodale était meilleure que la
somme des deux conditions unimodales. Robert-Ribès, Schwartz, Lal-
louache et Escudier (1998) ont décrit le même type de résultats pour les
voyelles du français.
Une étude de Rosen, Fourcin et Moore (1981) a bien illustré
cette complémentarité entre audition et vision. La fréquence fondament
ale FO), qui présentée seule n'est pas intelligible, constitue pourtant un
indice important dans la compréhension du langage. La FO n'est quasi
ment pas détectable via la modalité visuelle mais la complète bien. Les
auteurs ont montré que les performances en lecture labiale augmentaient
considérablement lorsque l'information acoustique de la FO était dispo
nible. Breeuwer et Plomp (1985) ont obtenu le même type de résultats en
utilisant les fréquences des premier et second formants (FI et F2) à la
place de la FO.
L'EFFET MCGURK OU LA PERCEPTION
DE LA PAROLE AUDIOVISUELLE INCONGRUE
Le rôle crucial de la lecture labiale, ainsi que le caractère spontané et
irrépressible de son utilisation s'illustrent particulièrement bien lorsque la
vision et l'audition fournissent des signaux incongrus. Pour preuve, la pré
sentation d'un message acoustique parfaitement audible en même temps
que des mouvements articulatoires correspondant à un message différent
donne souvent lieu à un percept qui ne correspond pas à l'information audi
tive mais intègre des traits du signal visuel. Cette illusion, mise en évidence
par McGurk et MacDonald en 1976, démontre que le système perceptif uti
lise l'information visuelle-même lorsque le signal auditif est clair et non
ambigu. McGurk et MacDonald (1976) ont doublé des syllabes auditives de
type CV redoublées, comme /baba/, de mouvements articulatoires corre
spondant à d'autres syllabes, comme /gaga/, et ont observé deux types
d'illusions : des fusions et des combinaisons. Lorsque la consonne vélaire
était présentée visuellement et la bilabiale auditivement, la perception qui
en résultait était, chez 98 % des adultes, une fusion entre les deux informa- 500 C. Colin et M. Radeau
tions (/dada/). Par contre, la présentation d'un /baba/ visuel doublé d'un
/gaga/ auditif suscitait une réponse de type combinaison, telle que /baga/,
/gaba/, /gabga/ ou /bagba/ chez 54 % des adultes. Ces premiers résultats ont
été confirmés dans une étude ultérieure utilisant davantage de consonnes
(MacDonald et McGurk, 1978).
Notons qu'en présence d'un /ga/ auditif doublé d'un /ba/ visuel, la com
binaison la plus courante est /bga/. Puisque à l'initiale d'un item monosyll
abique, l'information visuelle articulatoire précède l'information auditive,
le lieu d'articulation est donc identifié plus vite via la modalité visuelle que
via la modalité auditive. Selon Smeele, Sittig et van Heuven (1994), cela
explique en partie pourquoi les combinaisons sont plutôt de type /bg/
que /gb/. Une autre explication, complémentaire, a été proposée par Mas-
saro et Cohen (1993 ; voir aussi Cathiard, 1994). Un facteur déterminant de
la formation de combinaisons de type /bg/ serait la compatibilité entre la
configuration articulatoire du signal visuel et celle du percept combinaison
attendu. Ainsi, les percepts /gb/ seraient peu fréquents à cause de la grande
différence de configuration articulatoire entre /b/ et /gb/, alors que les art
iculations de /b/ et de /bg/ sont plus semblables.
Outre les réponses de type fusion ou combinaison, on observe parfois
des captures visuelles. La modalité visuelle domine alors complètement le
percept. En présentant tous les doublages possibles des syllabes auditives
et visuelles /va/, /da/, lda.1 et /ba/, Repp, Manuel, Liberman et Studdert-
Kennedy (1983) ont obtenu de très hauts pourcentages de captures visuell
es. Rosenblum et Saldana (1996) ont également montré que la présenta
tion d'un /ba/ auditif avec un /va/ visuel donnait lieu à la perception
de /va/. De nombreux exemples de captures ont également été rapportés
entre des syllabes visuelles et auditives ayant des lieux d'articulation plus
éloignés. Ainsi, bien que dans le cas d'un /ga/ auditif doublé d'un /ba/ visuel
la réponse attendue soit une combinaison (/bga/), il arrive fréquemment
que la réponse fournie soit /ba/ ; de même, avec un /ga/ visuel doublé d'un
/ba/ auditif, des réponses /ga/ sont parfois observées (McGurk et MacDon
ald, 1976 ; Colin, Radeau, Deltenre, Demolin et Soquet, 2002).
Enfin, l'effet McGurk peut aussi être mis en évidence sous forme de
biais de catégorisation au sein de continua auditifs ou visuels synthétiques.
Ainsi, par exemple, dans certaines études de Massaro (1987 ; 1998 a), neuf
pas le long d'un continuum auditif /ba-da/ sont combinés avec un visage
articulant /ba/ ou /da/. Les participants doivent décider s'ils perçoivent /ba/
ou /da/. On constate que la contribution du signal visuel est d'autant plus
importante que la source auditive est ambiguë.
Depuis les premières études de McGurk et MacDonald, l'effet McGurk
a été reproduit et réexaminé par de nombreuses équipes de recherche. Un
aperçu de ces différentes études et des pourcentages d'illusions auxquels
elles ont donné lieu est présenté dans le tableau I. I. — Revue synthétique de différentes études de l'effet McGurk TABLEAU
Synthetic review of different studies of the McGurk effect
Étude Langue Matériel Consonnes Voyelles Intensité Taille Distance % de % de com
écran écran fusions binaisons
9 9 Amano et Sekivama, 1998 japonais CV /p/ lx.1 IVI /a/ 55 dB '
m/lnl
9 14 * 11 cm Bertelson et al., 1994 néerlandais VCV /m/ lui lai ? / 80
9 9 VCV 14 * 11 cm et al., 1997 /m/ Inl lai 30 40
9 9 9 Burnham et Lau, 1998 cantonais CV /b//g/ lai 60
9 9 9 23 Cathiard et al., 2001 français VCV /b/ /g/ IAI lui 73
Colin et al., 1998 a VCV 33 * 25 cm /b/ /g/ lai 70 dB 75 cm 3 41
CV m
33 * 25 cm Colin et al,, 1998 b français VCV /b/ /g/ lai 70 dB 75 cm 3 41
CV m 40 dB 18 49
44 * 31 cm Colin et al, 2001 français CV /b/ /g/ /y 40 dB 100 cm 77 74
33 * 25 cm Colin et al, 2002 français CV /b/ /g/ lai 70 dB 75 cm 53 8
/y 40 dB 64 20
9 9 9 Dekle et al., 1992 anglais mots /b/ /v/ IAI vari-able 79
/m/
9 9 9 Fixmer et Hawkins, 1998 VCV 40 anglais /b/ /g/ lai 1
9 9 9 Fuster-Duran, 1996 allemand CV /b/ /d/ /n/ Id 8 16
espagnol CCV /g/ /m/ /!/ 7 7 Langue Matériel Consonnes Voyelles Intensité Taille Distance %de % de comÉtude
écran écran fusions binaisons
mots M IRI /rr/
Green et Gerdeman, 1995 anglais CV /b//g/ /a//i/ 68 dB 14 pouces 105 cm 69 54
Green et al., 1991 anglais CV /b//g/ /aiiy 65 dB 13 pouces 115 cm 77 66
/p/ /k/ Itl anglais cv lai 70 dB 24 pouces 122 cm 20 44 Hardison, 1996
CV Ihl Ipl /m/ lai 70 dB 14 pouces 50 cm 34 0 Hayashi et Sekiyama, 1998 japonais et mandarin /n//d/ Itl 45 0
/g/ /k/
20 pouces 200 cm 90 / Jones et Munhall, 1997 anglais vcv /b//g/ lad l\l 70 dB
9 CV 75 Jordan et Be van, 1997 /b/ /g/ Itl laIN 70
/m/
Jordan et Sergeant, 1998 anglais CV /b//g/ lai IV 55 dB 210 cm 100 cm 30 /
de haut
■> 9 MacDonald et McGurk, anglais CV /b/ /g/ /p/ lai 19 pouces 21 55
1978 /k/ làl Itl
Inl Irai
MacDonald et al., 1999 anglais CV /b/ /g/ làl lai 20 pouces 100 cm 50 10
/p/ /k/ /t/
Massaro et Cohen, 1993 anglais CV Ihl 1 AI lai 12 pouces ? 67 dB / 52
9 et al., 1996 anglais CV Ihl H làl lai 67 dB 50 cm 5 5
IÖI
McGurk et MacDonald, anglais cvcv Ihllgl lai 19 pouces ? 89 49
1976 l-pllkl Étude Langue Matériel Consonnes Voyelles Intensité Taille Distance % de % de com
écran écran fusions binaisons
9 V Mills et Thiem, 1980 allemand CV Ih/lgl lai ? 61 79
Munhall et al., 1996 exp. I anglais VCV /b/ /g/ lai lil ? 20 pouces 200 cm 55 / et al., exp. II lael 45 /
9 9 Sams et al., 1997 finnois CV /p//k/ lai ? 32 86
mots 50 /
Sekiyama et Tohkura, 1991 japonais CV /b/ /g/ IAI lai ? 20 pouces 100 cm 5 0
/p/ l\d Kl
Irai lui Itl
9 Sekiyama et Tohkura, 1993 japonais CV idem lai taille réelle 100 cm 7 0
anglais de visage 26 1
9 9 9 Sekiyama, 1998 japonais CV Ibllgl lai 33 5
9 / TillmanetaZ., 1984 allemand Mots /b/ /g/ lid ? ? 70
CV mibi lai / 90
Walker et ai, 1995 anglais CV ibiigi lai N ? 22 pouces 150 cm 44 38
? lai Werkeret al., 1992 anglais CV /b/ M IAI 10 pouces 100 cm 36 /
loi ItJ Igl
Tableau I : Synthèse des études McGurk ayant en commun :
— l'utilisation de stimuli de parole naturelle ;
— la participation d'adultes jeunes sans pathologie particulière connue ;
— l'emploi de la langue maternelle des participants comme langue de test ;
— la présentation de stimuli audiovisuels,
• articulés à un débit « normal »,
• présentés face aux participants sur un visage apparaissant à l'endroit,
• synchronisés,
• présentés dans des conditions normales d'écoute,
• congruents au niveau vocalique.
Note : les deux dernières colonnes indiquent les pourcentages d'illusions. Le signe « / » signifie que le type d'illusion considéré n'a pas été
étudié par les auteurs ou que les pourcentages d'illusions n'ont pas été mentionnés. 504 C. Colin et M. Radeau
L'examen du tableau I montre que pour certaines des études présent
ées, un grand nombre d'informations méthodologiques manquent. Cela
s'explique probablement par le fait qu'une partie importante des études
citées ont été publiées sous forme de « proceedings », format imposant des
limitations d'espace et ne permettant pas de donner tous les détails métho
dologiques ou de présenter les analyses de résultats complètes. En ce qui
concerne le texte, bien que nous citions dans la mesure du possible tous les
articles de « proceedings » disponibles, il nous a souvent été difficile
d'intégrer complètement les données faute d'information suffisante.
Pour une revue des travaux relatifs à la perception audiovisuelle de la
parole, nous renvoyons les lecteurs aux livres, thèses et articles suivants :
Benoît et Campbell (1997), Burnham, Robert-Ribès et Vatikiotis-Bateson
(1998), Campbell, Dodd et Burham (1998), Cathiard (1988/1989 ; 1994),
Colin (2001), Dodd et Campbell (1987), Massaro (1987 ; 1998 a), Massaro,
Light et Geraci (2001), Robert-Ribès (1995), Stork et Hennecke (1996) et
Vroomen (1992).
En dépit du nombre important d'études consacrées à l'effet McGurk,
les mécanismes sous-jacents à cet effet ne sont toujours pas complètement
élucidés. Les différentes théories de perception de la parole que nous déve
lopperons plus loin ne fournissent pas de cadre détaillé d'explication de la
phénoménologie complexe des différents types d'illusions observées.
Une première tentative, partielle, d'explication a été avancée par
MacDonald et McGurk (1978) eux-mêmes dans leur théorie VPAM (Visual
Place — Auditory Manner theory ou théorie du lieu visuel - mode auditif).
Suivant cette théorie, le mode d'articulation serait identifié à partir de
l'entrée auditive uniquement, tandis que le lieu d'articulation serait fourni
par le signal visuel uniquement. Dans une situation de conflit audiovisuel,
la perception résultante serait le stimulus s'accordant le mieux avec ces
données. A titre d'exemple, lorsqu'un Ihl auditif est combiné à un /g/
visuel, le làl qui en résulte partage le mode d'articulation du stimulus
auditif et le lieu postérieur (donc peu visible) de la consonne visuelle.
Cependant, cette théorie ne rend pas compte de la situation inverse où
un /g/ auditif doublé d'un Ihl visuel entraîne la perception d'un groupe
consonantique : /bg/.
Un peu plus tard, Summerfield (1987) a précisé et complété l'hypothèse
VPAM. Selon sa théorie de fonction de transfert du tractus vocal, le per
cept illusoire qui surviendra le plus probablement en cas de conflit audiovi
suel sera la consonne se confondant auditivement le plus facilement avec la
consonne acoustique effectivement présentée et étant la plus compatible
visuellement avec la consonne visuelle présentée. Ainsi, lorsque qu'un Ihl
auditif est doublé d'un /g/ visuel, la fonction de filtre la plus
avec les signaux des deux modalités correspondra au percept IAI (ou loi
pour les anglophones). Comme l'illustrent les données de Miller et Nicely
(1955), un Ihl acoustique se confond aisément avec un /d/. D'autre part,
le /g/ visuel est similaire à IAI. En effet, pour un /g/, l'observateur peut voir
que la langue se dirige vers l'arrière de la bouche mais ne peut voir la locali- L'effet Me Gurk 505
sation précise. Dans le cas de la présentation inverse (Ibl visuel sur /g/ audit
if), les données visuelles de fermeture de la bouche sont très fortes et sup
plantent la faible donnée acoustique d'une montée de fréquence du
deuxième formant. La fonction moyenne sera interprétée comme Ibl. Au
seuil d'ouverture de la bouche, les données visuelles de la fonction de filtre
deviennent ambiguës. Les données acoustiques indiquent que les fréquenc
es des deuxième et troisième formants divergent ; d'où, la perception
d'une consonne vélaire, /g/. La perception globale qui en résulte sera
donc Ibgl.
L'interprétation de Summerfield peut être reliée à la notion de saillance
perceptive. Selon Colin et al. (2002), l'obtention de l'une ou l'autre forme
d'illusion semble dépendre du poids perceptif plus ou moins grand de
l'information visuelle et acoustique. Visuellement, la saillance serait plus
importante pour les consonnes bilabiales que pour les vélaires (pour des
données en anglais : Waiden, Prosek, Montgomery, Scherr et Jones, 1977 ;
Benguerel et Pichora-Fuller, 1982 ; pour le français : Mourand-Dournier,
1980 ; Gentil, 1981 ; Colin, Radeau, Demolin et Soquet, 2000). Phonétique
ment cependant, la saillance augmente à mesure que le point d'occlusion
recule dans la bouche, l'énergie de l'explosion étant plus importante pour
les consonnes vélaires que pour les bilabiales (Dorman, Studdert- Kennedy
et Raphael, 1977). Dans le cas des combinaisons, où l'on perçoit à la fois la
composante acoustique et la composante visuelle, l'information visuelle
d'une bilabiale /p/ ou Ibl est tellement saillante qu'elle ne peut être ignorée ;
il en est de même pour l'information phonétique fournie par /k/ ou /g/. Les
deux modalités sont donc naturellement combinées. Pour les fusions,
l'information visuelle de la consonne vélaire et l'information acoustique de
la bilabiale sont plus ambiguës. Les « visèmes » /g/ et /k/ sont associés à
plusieurs lieux d'articulation possibles, tandis que, sur le plan acoustique,
l'explosion des bilabiales est peu saillante. Cette double ambiguïté mènerait
à un percept intermédiaire entre le son et l'image (/d/). Notons cepen
dant que l'hypothèse présentée ci-dessus n'explique pas l'obtention par
Cathiard, Schwartz et Abry (2001) d'un nombre plus important de percepts
/d/ en doublant un Ibl auditif d'un /g/ visuel qu'en doublant un Ibl auditif
d'un /d/ visuel.
CONDITIONS D'OCCURRENCE DE L'EFFET MCGURK
L'effet McGurk est un effet robuste, se produisant dans un grand
nombre de contextes. Il ne se manifeste pas uniquement pour des conson
nes dans un contexte CV, mais peut aussi se produire au sein d'autres struc
tures syllabiques. Il peut prendre place dans un contexte de mots ou de
phrases et se produire avec des voyelles. En outre, les stimuli de parole ne
doivent pas obligatoirement être naturels.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.