UNIVERSITE DE PROVENCE Faculté de lettres et sciences humaines d'Aix en Provence Diplôme d'Etudes Approfondies Langage et Parole Option Phonétique - Mention : Pathologie RESUME DE LECTURE The Acoustics Of Speech Communication : Fundamentals, Speech Perception Theory, And Technology. Boston, MA, USA : Allyn and Bacon, Inc., 1999 J.M Pickett Septembre 2001 Frédéric Facon L’ouvrage « The acoustics of speech communication » écrit par J.M Pickett et publié en 1999 traite des principales caractéristiques de l’acoustique dans la communication orale. Il y est regroupé un ensemble de références nécessaires à l’appréhension globale de la communication orale. Comme le souligne l'auteur, le but de cet ouvrage est d'enseigner l'acoustique de la parole et sa perception à des non techniciens. Ainsi JM Pickett, ou plutôt, les auteurs, vont au travers des différents concepts et théories, regroupés en dix sept chapitres et deux appendices, nous conduire de la très fondamentale production de la parole au monde contemporain représenté par les synthétiseurs vocaux et décodeurs de parole. Nous résumerons dans un premier temps ces différentes parties et tenterons, ensuite, une critique de l’ouvrage. La diversité des sujets abordés, la culture et les connaissances des auteurs limitent cette dernière tâche. Notre regard critique se portera sur la forme plus que sur le fond, eu égard au manque de recul et par soucis d’honnêteté intellectuelle. Les ...
UNIVERSITE DE PROVENCE Faculté de lettres et sciences humaines d'Aix en Provence Diplôme d'Etudes Approfondies Langage et Parole Option Phonétique -Mention : Pathologie
RESUME DE LECTURE
The Acoustics Of Speech Communication : Fundamentals, Speech Perception Theory, And Technology. Boston, MA, USA : Allyn and Bacon, Inc., 1999 J.M Pickett
Septembre 2001
Frédéric Facon
Louvrage « The acoustics of speech communication » écrit par J.M Pickett et publié en 1999 traite des principales caractéristiques de lacoustique dans la communication orale. Il y est regroupé un ensemble de références nécessaires à lappréhension globale de la communication orale. Comme le souligne l'auteur, le but de cet ouvrage est d'enseigner l'acoustique de la parole et sa perception à des non techniciens. Ainsi JM Pickett, ou plutôt, les auteurs, vont au travers des différents concepts et théories, regroupés en dix sept chapitres et deux appendices, nous conduire de la très fondamentale production de la parole au monde contemporain représenté par les synthétiseurs vocaux et décodeurs de parole. Nous résumerons dans un premier temps ces différentes parties et tenterons, ensuite, une critique de louvrage. La diversité des sujets abordés, la culture et les connaissances des auteurs limitent cette dernière tâche. Notre regard critique se portera sur la forme plus que sur le fond, eu égard au manque de recul et par soucis dhonnêteté intellectuelle. Les différents chapitres abordés : Le livre est composé de deux parties : la première rédigée par Pickett, porte sur la production acoustique de la parole. La seconde, écrite par un collège dauteurs prend pour axe lanalyse de la parole abordant respectivement la production acoustique de la parole et son analyse de la parole pour sa compréhension et ses applications. Première partie : Elle aborde lacoustique de la parole et lencodage nécessaire du flux dair aboutissant à la production de la parole. Chapitre premier - Langage, phonétique et production de la parole : JM Pickett sattarde sur la vision anatomique de la parole et pose les principes de sa production. Celle-ci requiert un organe producteur dun courant aérien, un articulateur et un rythme. En fin de chapitre, lauteur résume les caractéristiques des sons qui peuvent être : voisé, turbulent ou transitoire. La parole est une succession de structures acoustiques ou phonèmes et de syllabes produites par le déplacement dair induit par la respiration. Toute modification de ce flux dair par les différents articulateurs permet la production de lentité acoustique de la parole. Chapitre deux Son, résonances et analyse spectrale :
2
Lauteur aborde les caractéristiques physiques de lacoustique de la parole. Ainsi les articulateurs « sculptent » londe acoustique initiale pour créer un son. Les critères requis pour la production de londe sonore ou de tous phénomènes oscillatoires sont exposés : source sonore, propagation, amplitude et périodicité de londe sinusoïdale. Enfin, est évoqué le formant dont la définition sera donnée dans le chapitre trois. Dans un second temps lauteur caractérise les artifices mathématiques nécessaires à lanalyse spectrale (fréquence fondamentale et harmonique). Enfin, il oppose les caractéristiques des sons périodiques de ceux dits turbulents ou explosifs. Les premiers, sinusoïdaux, sont produit sous laction de la glotte et des autres articulateurs. Les seconds, apériodiques, sont le résultat de lécoulement de lair turbulent au sein des articulateurs.Ce chapitre aborde donc la physique de la production sonore et pose les définitions des caractéristiques du son. Chapitre Trois - Formation des voyelles et leurs formants. Le chapitre a pour but détablir la relation entre la forme du conduit vocal et le spectre des différentes voyelles; pour ce faire Pickett utilise les travaux de modélisation du tractus vocal et met en évidence, à partir de modifications du modèle, les relations possibles entre conduit et spectre. Lauteur revient sur la notion de formant pour en donner une définition plus précise. Ce dernier doit être considéré comme les caractéristiques de résonances dune structure susceptible dentraîner la formation de pics fréquentiels. Enfin, certains facteurs comme la longueur du tractus, leurs localisations et limportance de la constriction ont une influence significative sur le dit formant justifiant leur prise en considération. Chapitre quatre - La source glottique et le spectre des voyelles. Il sagit pour lauteur de sattarder sur le rôle des voyelles et limportance de la glotte dans le processus de production des voyelles. Après un rappel anatomique réduit, Pickett décrit le rôle de la glotte dans la production de sons voisés. Pour ce faire il utilise les travaux de Titze et Hirano ainsi que les différents modèles mécaniques décrits. Ce point théorique sera clos avec la théorie dite « source filtre » proposée par Fant. Il va, tour à tour, décrire la formation des
3
voyelles nasalisées et nasales en expliquant leurs différences quant à leur formation et leur spectre. Lauteur donne, au travers dexemples les caractéristiques spectrales induites par les phénomènes de couplage pour le français et le guajarati. Nous noterons le choix limitatif du champ détude. Ainsi, les caractéristiques spectrales des voyelles résultent du spectre glottique modulé par les résonances pharyngées et buccales. Chapitre Cinq - Caractéristiques tonales et prosodiques Après des chapitres orientés vers la production vocale et acoustique, lauteur se consacre aux informations tonales et prosodiques de la parole. Deux sortes dinformations sont véhiculées : lune, objective, contrôlée par les codes syntaxiques et lautre, subjective, régie par des codes sociaux. Ainsi, nous pouvons considérer que les codes grammaticaux sont modulés par les codes sociaux. Dans ce chapitre lauteur éclairci les rôles du larynx et des articulateurs lors de la création de ces modulations. Les rythmes et intonations d'une langue sont soumis à des règles bien définies. En effet, la prosodie est une fonction fondamentale dans le code propre de la langue. Ces modulations sont produites par modifications sélectives de londe glottique induites par l'enchaînement des différents mouvements articulatoires. Les facteurs liés à la source glottique sont déterminés par les muscles respiratoires et des cordes vocales. Par contre les facteurs temporels dépendent des articulateurs pharyngés et buccaux. Les deux facteurs glottiques pour la prosodie sont : • La tension des cordes vocales. • La pression d'air sous glottique. Il en résulte des modifications de la fréquence fondamentale, de l'amplitude et du spectre de la source. Par exemple, l'accroissement de la pression sous glottique, lié au débit pulmonaire et à la glotte, augmente la fréquence fondamentale et lintensité du son crée. Lautre source de modulation est le temps entre les syllabes. Ainsi le français, langue « syllable-paced » comporte peu de modulation des syllabes mais sattache surtout à la durée comprise entre chacune delle. La prosodie va influer sur la durée des voyelles et des consonnes, devenant sujettes toutes les deux à des variations. La théorie du groupe de respiration suppose donc que l'intonation diminue à mesure que la fin de l'expiration approche ceci malgré une augmentation de la tension des cordes vocales.
4
L'intensité et la balance spectrale entre les basses et hautes fréquences du spectre glottique est un autre facteur de modulation. L'accroissement de la pression sous glottique augmente l'intensité de la source glottique et rase la partie haute du spectre source. Les caractéristiques des consonnes influent sur la durée de la voyelle qui précède. Au sein d'un mot, la voyelle principale peut être modulée afin de modifier l'importance du mot. Plus la phrase contient de sous unités plus elles sont compressées jusqu'à atteindre une valeur plateau. Chapitre six - Les caractéristiques des consonnes. Après des chapitres sur les voyelles, lauteur porte son attention sur les caractéristiques des consonnes. Les consonnes sont classées en fonction de leurs types darticulation, afin de faciliter leur étude acoustique. Ainsi, lauteur analyse les consonnes glissées, diphtongues et occlusives. Il termine le chapitre avec un tableau regroupant les caractéristiques de temps, de spectre et de transition des formants pour les trois types de consonnes. Chapitre sept - Consonnes nasales, occlusives et fricative. Ce chapitre fait suite au précédent dans létude des consonnes. Lauteur se concentre sur les consonnes nasales, fricatives et occlusives qui jouent un rôle important dans la distinction entre les mots. Dans un premier temps, Pickett décrit larticulation nécessaire à la production des consonnes nasales. Celle-ci nécessite une fermeture du tractus oral et un abaissement du voile permettant une mise en communication du conduit nasal et oropharyngé. Cette modification anatomique va engendrer la création dun phénomène acoustique : le couplage. Dans un second temps Il sattache à mettre en évidence les différences acoustiques entre consonnes nasales, glissées et occlusives. La nasalisation des voyelles fait lobjet dun sous chapitre où Pickett aborde sa réalisation. Dans un dernier sous chapitre, il décrit les différences entre consonnes fricatives et occlusives. Pour lauteur, les modifications anatomiques sont liées à locclusion tractus oral. Pour les fricatives, il y a fermeture partielle du conduit oral ce qui conduit à la formation dun régime turbulent. Tandis que pour les occlusives il y a fermeture complète du tractus et apparition dun phénomène de « burst » lors de la reperméabilisation de larticulateur.
5
Ceci est consigné dans le tableau suivant : Caractères Nasales Glissées Occlusives Fricatives Articulation Rapide Moyenne Rapide Rapide Orale Fermeture brève Fermeture brève Fermeture brève Fermeture brève Ouverture vélaire antérieure à la Articulation fermeture orale Voile fermé Voile fermé Voile fermé vélaire Fermeture vélaire en retard sur louverture vélaire Intensité du forte forte faible Turbulence sur les murmure hautes fréquences RésonancedesimBpaosrsteafnrtéeqjuuesnqcueàTrèsba sses SpectredublaosrssesdfurépqasuseangceesStru8c0tu0reHzàmi(fofnrdéaqumeenncteasles)Fortedanslesnasale jusqu'à 300 fréquence plus peu dénergie en hautes fréquences murmure Hz;dfeasisbulseaufortequepourlesf2-f3ouplushaut.(>2.5kHz)nasales Nasalisation lors Transition longue deTsrafonrsimtiaonntsdestransitionspeutdaensstclaéeldséarfpaottréiemsaànltasTransitioncourteTransitionplusentratténuercellelacon,e attendues ; voyellesF1desvoyellesréptrloafclee,xeitondesformantslongueduformantadjacentes adjacente est affaiblie.(seulemeRnt)pourlesChangement dun système périodique - en un système dification On set et off-set t turbulent aléatoire MddoeunsspeemctbrleeraeblprâaucsphsteasgmaeernnstChgarnagdeumelentArberlpuâapcsthsaeavgmeeercnunedsotnmtlodaumlépe;tupdaesli de relâchement passager Tableau 1 : résumé des caractères principaux des nasales, glissée, occlusive et fricative.
Chapitre huit - Les consonnes et le voisement. Dans ce chapitre lauteur expose les différences acoustiques apportées par le voisement. Cet état, sous la dépendance du larynx, permet la production dune onde périodique par la glotte. A linverse un phénomène découlement de friction du à lair lors de son passage dans le tractus vocal est responsable de la formation dun son non voisé donc non périodique. Pour cela, il décrit les consonnes voisées puis il souligne les différences acoustiques et aérodynamiques rencontrées. Par ailleurs, le voisement peut aussi être influencé par la position de la consonne. Cest ainsi, quen présence dune voyelle longue, une consonne finale sera voisée. Enfin, il reprend une explication physiologique de la production des sons voisés.
6
Voisé Non v Caractéristiques oisé Stop Fricative Stop Fricative Voyelle précédée longue longue courte courte constriction Fermeture orale Constriction Fermeture orale Constriction brève orale brève allongée orale allongée relâchement Bref relâchement, Pas deffet au Relâchement Pas deffet au 10-20 ms relâchement éphémère mais relâchement intense et aspiration constriction Son en basse Son de très silence Milieu et fréquence durant faible fréquence hautes la fermeture, mais durant la fréquences peut être absent constriction et fortes fluctuation à mi et haute fréquence, ceci peut être absent relâchement affaiblissement Pas deffet au Relâchement Pas deffet au éphémère sur le relâchement important relâchement relâchement de la fermeture,mais sans aspiration Tableau 2 : résumé des caractéristiques du contraste voisé non voisé sur les occlusives et fricatives.
Chapitre neuf : consonnes : caractéristiques liées à larticulation. Lauteur après avoir décrit les caractéristiques des voyelles, des consonnes puis de la source vocale, évalue le rôle de larticulation au niveau du tractus oral. Ainsi, différents lieus darticulation sont possibles : labiale, vélaire, alvéolaire ou palatale. Ils sont responsables de modifications du spectre qui respectent la théorie dite de « Fant ». La deuxième partie du chapitre aborde les modifications spectrales engendrées par les transitions des articulations nécessaires à la réalisation des phonèmes. Pour les consonnes, il prend lexemple de la transition entre larticulation alvéolaire et celle labiale. Les modifications portent alors principalement sur le deuxième formant. La constriction alvéolaire laugmente et celle labiale est responsable dune baisse. Pickett sattache ensuite à linfluence des consonnes sur les voyelles des langues anglo-saxonnes. Les consonnes nasales entraînent, lors du phénomène de couplage, la formation de zéro qui influent sur le spectre des voyelles suivantes en modifiant la place et lintensité des formants. Enfin il reprend les caractéristiques liées aux consonnes fricatives. Après un rappel sur la formation des dites fricatives, il insiste sur limportance du lieu de constriction, de la forme et de la taille de la cavité buccale ainsi que la longueur du conduit labial.
7
Classe de Place de l’articulation consonne Labial dentale alvéolaire palatal vélaire pharyngé glottique [fawi]ble/[j]ConGsltirsiscéteion/F2F2haut/chutede[j]Transition de ascension voyelles F2F2[ ?] formant [b]transitoire/trOacvncosliiutssoéiivree/fdaififbulese/,frdéiqffuuesn[edc,]e/hacuhtuetecofrnédqe[unges]nécàe/miidentiqueaugmentati à celui de o ivergence la dtersavnosiyteilolnesn de F2 de F2 d voyelle entre F2 et F3 suivante [k] occlusive non [p] [t] fort, voisé diffus/ fort, haute compacte, mi Transitoire/augmentatio fréquence / chute fréquence/ aspiration n de F2 de F2 divergence F2 / F3 [m] [n] [ η ] Nasale zéro à 800 zéro à haute Murmure/ fréquence/voyelle aHszc/ennsaisoanlisdéefréqczuhéeurntoceeà/nmais-alisénasliséa transition de F2 divergence F2 F2F3[ð, θ ]s[p З e,c ∫ t]r[h]speffcutrseefortspectreFricative di à 3 affaibli à « Frication » [v, f] plus kHz et dure pour les spectrepfoorutrspect[rze,fso]rtà4au1kaHuzetnon voisées diffus, plus dessus et plus forte frléeqsueksHouzveetnatuabdseesnscues//fodorenstmsaluensstsfort autour pour les de5-7kHz/n5ckeHdzedevoyelledenstoupvasedoeyllalevoisées/ augmentatioetautransitiondve transition de n de F2 e voyelles voyell dcehssuuts/esdetsrupaianvssaitnditeoe/netransit de F2 ion Tableau 3 : résumé des caractères spectraux selon la place de l'articulation des consonnes. Chapitre dix : le flux de la parole. Lauteur étudie les interactions entre consonnes et voyelles lors des modifications du débit de parole. Les sons dépendent des caractéristiques de ceux précédents et suivants. Deux facteurs sous-tendent cela :
8
• La forme du tractus devant être atteinte, dès lors la production dun son se fait à partir de larticulation du son en cours de production • La séquence des unités de la parole (consonnes, syllabes et phrases) requiert une nécessaire programmation motrice. Pour ce dernier point, il est démontré que la programmation est très antérieure à la réalisation du son. Les modèles de programmation décrits par Lindblom et Klatt, dénommés STM (Short Term Memory), reposent sur un stockage court de cette programmation. Ceci sous-tend que les parties finales des phrases sont moins sujettes au raccourcissement que les parties initiales. Bien entendu, le taux démission influe sur la vitesse de parole. La compression nécessaire augmente avec le débit démission. Si on assiste à une réduction proportionnelle des consonnes et voyelles jusquà un certain débit, à partir dune certaine valeur seules les voyelles augmentent leur compression. Par ailleurs, dans une suite de consonnes il y a progressivement disparition de la deuxième consonne à mesure que le débit augmente.
Deuxième partie : Après une première partie sur la production vocale, lauteur aborde la finalité de la parole, à savoir le dialogue. En effet, outre la production de la parole, le décodage de cette suite de codes sonores en mots est nécessaire à la compréhension. Cette partie, contrairement à la première est soumise à de nombreuses variations de styles décritures puisque plusieurs auteurs y contribuent. Ceux-ci décrivent les mécanismes de ce décodage et les méthodes actuelles de réalisation automatique de codages et de décodages par les ordinateurs. Les auteurs débutent par létude de la perception des voyelles puis des consonnes pour enfin aboutir aux théories de décodage de la parole. Dans une dernière partie il sera fait état des recherches de la perception et de la production automatique de la parole et de son intérêt dans notre société actuelle. La compréhension et la reconnaissance de la parole, du sens, du mot de la syllabe ou du phonème nécessitent des caractéristiques essentielles contenues dans la parole ou « cues » pour lauteur.
9
Chapitre onze - Perception des voyelles : constance dynamique. Dans ce chapitre, W. Strange pose la question de lintégration des caractéristiques du spectre dans la perception des voyelles : comment les voyelles sont-elles perçues quand elles sont produites par des orateurs différents. En effet, il est surprenant quune voyelle prononcée par un enfant, une femme ou un homme soit intégrée de la même manière alors que les caractéristiques spectrales sont différentes. Les voyelles, pour leur réalisation, nécessitent une articulation plus lente que les consonnes. Dautre part, elles constituent le noyau des syllabes et leur durée est une partie des informations de la prosodie. Lévolution du profil des formants dune voyelle dans une succession « consonne voyelle consonne » est remarquable par trois points : • Lon-glide : transition du formant entre c v -• Le target : zone stable • Loff-glide zone de transition v-c Lamplitude et lintensité des 3 ou 4 premiers formants constituent la première signature acoustique de la perception de la voyelle stable. Lidentification dune voyelle par différentes personnes fait alors appel à lécart qui sépare les formants de leurs valeurs. Ainsi, F1/F2 et les valeurs de F1 et F2 sont notables comme éléments de reconnaissance. Pour les voyelles stables, lharmonisation de la perception des différences interindividuelles est expliquée par deux types de spécificités : • Les spécificités intrinsèques : cest dire les informations contenues dans le modèle spectral. • Les Spécificités extrinsèques : informations sur lage, le sexe, le contexte fournis par lorateur. Enfin lauteur explique les méthodes de reconnaissance des voyelles coarticulées. Dans ce cas, les différences de durées intrinsèques et les paramètres spectraux dynamiques (spectro-temporaux) informent lauditeur, communiquent sur lidentité des voyelles. Chapitre douze - Perception des consonnes : de la variance à linvariance :
10
W. Strange aborde les méthodes employées afin détablir une reconnaissance des différentes consonnes : il définit donc, comment les caractéristiques des consonnes sont perçues. La perception acoustique des consonnes fait appel à un système de catégorisation immédiate, ce qui permet à lauditeur de reconnaître rapidement la consonne. En effet, contrairement aux voyelles, les consonnes présentent un taux darticulation rapide. Lauteur tente de mettre en exergue les caractéristiques du décodage des consonnes et linfluence du débit de la parole. Dans un second temps lauteur porte son attention sur la perception du signal acoustique de la consonne. A cette fin des paroles synthétiques ont été utilisé et travaillés soit isolément soit en combinaison. Les modifications de ces signaux révèlent des limites nettes entre les consonnes. Lauteur sattache à appréhender la perception de signaux acoustiques multiples. Ainsi les modèles acoustiques qui contiennent différentes valeurs de signaux acoustiques combinés sont perceptuellement équivalent et ne peuvent être distingués isolement. Ce qui conduit lauteur à conclure : -Que lauditeur intègre des signaux multiples Et répond sur la base dune perception unique du phonème -La perception des phonèmes se fonde alors sur la « gestuelle de la parole » plutôt que sur le système général discrimination/identification. Cette idée dite théorie motrice est décrite plus loin. Chapitre treize - Les capacités auditives et le développement phonologique : animaux, enfants et les étrangers. Le chapitre réalisé par S. Hawkins présente les théories de la perception des unités phonétiques de la parole. Dans un premier temps lauteur examine la perception phonétique des enfants, afin dapprécier la part innée des capacités auditives nécessaires pour le processus de perception de la parole. Pour cela lauteur présente les techniques détude de la perception de la parole chez lenfant et leurs résultats. Chez les bébés (inférieure à 9 mois), la perception catégorielle témoigne que ces enfants entendent phonétiquement des informations acoustiques pertinentes en terme de catégorie phonétique. Par contre, ils ne sont pas capables de discriminer des contrastes phonémiques. Ainsi la plupart des capacités de discrimination perceptuelle précèdent les capacités de production de la parole. Dans un second temps, lauteur défini les modes de classification des sons de la parole par les bébés. Elle expose les effets de prototypes et daimants perceptifs.