comment 10

Thyas - Fred

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

19 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

UNIVERSITE DE PROVENCE Faculté de lettres et sciences humaines d'Aix en Provence Diplôme d'Etudes Approfondies Langage et Parole Option Phonétique - Mention : Pathologie RESUME DE LECTURE The Acoustics Of Speech Communication : Fundamentals, Speech Perception Theory, And Technology. Boston, MA, USA : Allyn and Bacon, Inc., 1999 J.M Pickett Septembre 2001 Frédéric Facon L’ouvrage « The acoustics of speech communication » écrit par J.M Pickett et publié en 1999 traite des principales caractéristiques de l’acoustique dans la communication orale. Il y est regroupé un ensemble de références nécessaires à l’appréhension globale de la communication orale. Comme le souligne l'auteur, le but de cet ouvrage est d'enseigner l'acoustique de la parole et sa perception à des non techniciens. Ainsi JM Pickett, ou plutôt, les auteurs, vont au travers des différents concepts et théories, regroupés en dix sept chapitres et deux appendices, nous conduire de la très fondamentale production de la parole au monde contemporain représenté par les synthétiseurs vocaux et décodeurs de parole. Nous résumerons dans un premier temps ces différentes parties et tenterons, ensuite, une critique de l’ouvrage. La diversité des sujets abordés, la culture et les connaissances des auteurs limitent cette dernière tâche. Notre regard critique se portera sur la forme plus que sur le fond, eu égard au manque de recul et par soucis d’honnêteté intellectuelle. Les ...

Informations

Publié par	Thyas
Nombre de lectures	21
Langue	Français

Extrait

UNIVERSITE DE PROVENCE Faculté de lettres et sciences humaines d'Aix en Provence Diplôme d'Etudes Approfondies Langage et Parole Option Phonétique - Mention : Pathologie

RESUME DE LECTURE

The Acoustics Of Speech Communication : Fundamentals, Speech Perception Theory, And Technology. Boston, MA, USA : Allyn and Bacon, Inc., 1999 J.M Pickett

Septembre 2001

Frédéric Facon

Louvrage « The acoustics of speech communication » écrit par J.M Pickett et publié en 1999 traite des principales caractéristiques de lacoustique dans la communication orale. Il y est regroupé un ensemble de références nécessaires à lappréhension globale de la communication orale. Comme le souligne l'auteur, le but de cet ouvrage est d'enseigner l'acoustique de la parole et sa perception à des non techniciens. Ainsi JM Pickett, ou plutôt, les auteurs, vont au travers des différents concepts et théories, regroupés en dix sept chapitres et deux appendices, nous conduire de la très fondamentale production de la parole au monde contemporain représenté par les synthétiseurs vocaux et décodeurs de parole. Nous résumerons dans un premier temps ces différentes parties et tenterons, ensuite, une critique de louvrage. La diversité des sujets abordés, la culture et les connaissances des auteurs limitent cette dernière tâche. Notre regard critique se portera sur la forme plus que sur le fond, eu égard au manque de recul et par soucis dhonnêteté intellectuelle. Les différents chapitres abordés : Le livre est composé de deux parties : la première rédigée par Pickett, porte sur la production acoustique de la parole. La seconde, écrite par un collège dauteurs prend pour axe lanalyse de la parole abordant respectivement la production acoustique de la parole et son analyse de la parole pour sa compréhension et ses applications. Première partie : Elle aborde lacoustique de la parole et lencodage nécessaire du flux dair aboutissant à la production de la parole. Chapitre premier - Langage, phonétique et production de la parole : JM Pickett sattarde sur la vision anatomique de la parole et pose les principes de sa production. Celle-ci requiert un organe producteur dun courant aérien, un articulateur et un rythme. En fin de chapitre, lauteur résume les caractéristiques des sons qui peuvent être : voisé, turbulent ou transitoire. La parole est une succession de structures acoustiques ou phonèmes et de syllabes produites par le déplacement dair induit par la respiration. Toute modification de ce flux dair par les différents articulateurs permet la production de lentité acoustique de la parole. Chapitre deux  Son, résonances et analyse spectrale :

Lauteur aborde les caractéristiques physiques de lacoustique de la parole. Ainsi les articulateurs « sculptent » londe acoustique initiale pour créer un son. Les critères requis pour la production de londe sonore ou de tous phénomènes oscillatoires sont exposés : source sonore, propagation, amplitude et périodicité de londe sinusoïdale. Enfin, est évoqué le formant dont la définition sera donnée dans le chapitre trois. Dans un second temps lauteur caractérise les artifices mathématiques nécessaires à lanalyse spectrale (fréquence fondamentale et harmonique). Enfin, il oppose les caractéristiques des sons périodiques de ceux dits turbulents ou explosifs. Les premiers, sinusoïdaux, sont produit sous laction de la glotte et des autres articulateurs. Les seconds, apériodiques, sont le résultat de lécoulement de lair turbulent au sein des articulateurs. Ce chapitre aborde donc la physique de la production sonore et pose les définitions des caractéristiques du son. Chapitre Trois - Formation des voyelles et leurs formants. Le chapitre a pour but détablir la relation entre la forme du conduit vocal et le spectre des différentes voyelles; pour ce faire Pickett utilise les travaux de modélisation du tractus vocal et met en évidence, à partir de modifications du modèle, les relations possibles entre conduit et spectre. Lauteur revient sur la notion de formant pour en donner une définition plus précise. Ce dernier doit être considéré comme les caractéristiques de résonances dune structure susceptible dentraîner la formation de pics fréquentiels. Enfin, certains facteurs comme la longueur du tractus, leurs localisations et limportance de la constriction ont une influence significative sur le dit formant justifiant leur prise en considération. Chapitre quatre - La source glottique et le spectre des voyelles. Il sagit pour lauteur de sattarder sur le rôle des voyelles et limportance de la glotte dans le processus de production des voyelles. Après un rappel anatomique réduit, Pickett décrit le rôle de la glotte dans la production de sons voisés. Pour ce faire il utilise les travaux de Titze et Hirano ainsi que les différents modèles mécaniques décrits. Ce point théorique sera clos avec la théorie dite « source filtre » proposée par Fant. Il va, tour à tour, décrire la formation des

voyelles nasalisées et nasales en expliquant leurs différences quant à leur formation et leur spectre. Lauteur donne, au travers dexemples les caractéristiques spectrales induites par les phénomènes de couplage pour le français et le guajarati. Nous noterons le choix limitatif du champ détude. Ainsi, les caractéristiques spectrales des voyelles résultent du spectre glottique modulé par les résonances pharyngées et buccales. Chapitre Cinq - Caractéristiques tonales et prosodiques Après des chapitres orientés vers la production vocale et acoustique, lauteur se consacre aux informations tonales et prosodiques de la parole. Deux sortes dinformations sont véhiculées : lune, objective, contrôlée par les codes syntaxiques et lautre, subjective, régie par des codes sociaux. Ainsi, nous pouvons considérer que les codes grammaticaux sont modulés par les codes sociaux. Dans ce chapitre lauteur éclairci les rôles du larynx et des articulateurs lors de la création de ces modulations. Les rythmes et intonations d'une langue sont soumis à des règles bien définies. En effet, la prosodie est une fonction fondamentale dans le code propre de la langue. Ces modulations sont produites par modifications sélectives de londe glottique induites par l'enchaînement des différents mouvements articulatoires. Les facteurs liés à la source glottique sont déterminés par les muscles respiratoires et des cordes vocales. Par contre les facteurs temporels dépendent des articulateurs pharyngés et buccaux. Les deux facteurs glottiques pour la prosodie sont : • La tension des cordes vocales. • La pression d'air sous glottique. Il en résulte des modifications de la fréquence fondamentale, de l'amplitude et du spectre de la source. Par exemple, l'accroissement de la pression sous glottique, lié au débit pulmonaire et à la glotte, augmente la fréquence fondamentale et lintensité du son crée. Lautre source de modulation est le temps entre les syllabes. Ainsi le français, langue « syllable-paced » comporte peu de modulation des syllabes mais sattache surtout à la durée comprise entre chacune delle. La prosodie va influer sur la durée des voyelles et des consonnes, devenant sujettes toutes les deux à des variations. La théorie du groupe de respiration suppose donc que l'intonation diminue à mesure que la fin de l'expiration approche ceci malgré une augmentation de la tension des cordes vocales.

L'intensité et la balance spectrale entre les basses et hautes fréquences du spectre glottique est un autre facteur de modulation. L'accroissement de la pression sous glottique augmente l'intensité de la source glottique et rase la partie haute du spectre source. Les caractéristiques des consonnes influent sur la durée de la voyelle qui précède. Au sein d'un mot, la voyelle principale peut être modulée afin de modifier l'importance du mot. Plus la phrase contient de sous unités plus elles sont compressées jusqu'à atteindre une valeur plateau. Chapitre six - Les caractéristiques des consonnes. Après des chapitres sur les voyelles, lauteur porte son attention sur les caractéristiques des consonnes. Les consonnes sont classées en fonction de leurs types darticulation, afin de faciliter leur étude acoustique. Ainsi, lauteur analyse les consonnes glissées, diphtongues et occlusives. Il termine le chapitre avec un tableau regroupant les caractéristiques de temps, de spectre et de transition des formants pour les trois types de consonnes. Chapitre sept - Consonnes nasales, occlusives et fricative. Ce chapitre fait suite au précédent dans létude des consonnes. Lauteur se concentre sur les consonnes nasales, fricatives et occlusives qui jouent un rôle important dans la distinction entre les mots. Dans un premier temps, Pickett décrit larticulation nécessaire à la production des consonnes nasales. Celle-ci nécessite une fermeture du tractus oral et un abaissement du voile permettant une mise en communication du conduit nasal et oropharyngé. Cette modification anatomique va engendrer la création dun phénomène acoustique : le couplage. Dans un second temps Il sattache à mettre en évidence les différences acoustiques entre consonnes nasales, glissées et occlusives. La nasalisation des voyelles fait lobjet dun sous chapitre où Pickett aborde sa réalisation. Dans un dernier sous chapitre, il décrit les différences entre consonnes fricatives et occlusives. Pour lauteur, les modifications anatomiques sont liées à locclusion tractus oral. Pour les fricatives, il y a fermeture partielle du conduit oral ce qui conduit à la formation dun régime turbulent. Tandis que pour les occlusives il y a fermeture complète du tractus et apparition dun phénomène de « burst » lors de la reperméabilisation de larticulateur.

Ceci est consigné dans le tableau suivant : Caractères Nasales Glissées Occlusives Fricatives Articulation Rapide Moyenne Rapide Rapide Orale Fermeture brève Fermeture brève Fermeture brève Fermeture brève Ouverture vélaire antérieure à la Articulation fermeture orale Voile fermé Voile fermé Voile fermé vélaire Fermeture vélaire en retard sur louverture vélaire Intensité du forte forte faible Turbulence sur les murmure hautes fréquences Résonance des imBpaosrstea fnrtée qjuuesnqcue à Très ba sses Spectre du blaosrsse sd fur épqasuseangcee s Stru8c0tu0 reH zà mi (fofnrdéaqumeenncteasl es) Forte dans les nasale jusqu'à 300 fréquence plus peu dénergie en hautes fréquences murmure Hz ;d feasisbulse au forte que pour les f2-f3 ou plus haut. (>2.5kHz) nasales Nasalisation lors Transition longue deTsr afonrsimtiaonnt s des transitions peut daensstc laéeldséa rfpaottréiemsa ànl tas Transition courte Transition plus entratténuer celle lacon, e attendues ; voyelles F1 des voyelles réptrloafclee, xeito n des formants longue du formant adjacentes adjacente est affaiblie. (seulemeRnt) pour les Changement dun système périodique - en un système dification On set et off-set t turbulent aléatoire Mddoeu nsspeemctbrlee raeblprâaucsphstea sgmaeern nst Chgarnagdeumele nt Arberlpuâapcsths aeavgmeeerc n un edsot nmt lodaumlépe ;t updaes li de relâchement passager Tableau 1 : résumé des caractères principaux des nasales, glissée, occlusive et fricative.

Chapitre huit - Les consonnes et le voisement. Dans ce chapitre lauteur expose les différences acoustiques apportées par le voisement. Cet état, sous la dépendance du larynx, permet la production dune onde périodique par la glotte. A linverse un phénomène découlement de friction du à lair lors de son passage dans le tractus vocal est responsable de la formation dun son non voisé donc non périodique. Pour cela, il décrit les consonnes voisées puis il souligne les différences acoustiques et aérodynamiques rencontrées. Par ailleurs, le voisement peut aussi être influencé par la position de la consonne. Cest ainsi, quen présence dune voyelle longue, une consonne finale sera voisée. Enfin, il reprend une explication physiologique de la production des sons voisés.

Voisé Non v Caractéristiques oisé Stop Fricative Stop Fricative Voyelle précédée longue longue courte courte constriction Fermeture orale Constriction Fermeture orale Constriction brève orale brève allongée orale allongée relâchement Bref relâchement, Pas deffet au Relâchement Pas deffet au 10-20 ms relâchement éphémère mais relâchement intense et aspiration constriction Son en basse Son de très silence Milieu et fréquence durant faible fréquence hautes la fermeture, mais durant la fréquences peut être absent constriction et fortes fluctuation à mi et haute fréquence, ceci peut être absent relâchement affaiblissement Pas deffet au Relâchement Pas deffet au éphémère sur le relâchement important relâchement relâchement de la fermeture, mais sans aspiration Tableau 2 : résumé des caractéristiques du contraste voisé non voisé sur les occlusives et fricatives.

Chapitre neuf : consonnes : caractéristiques liées à larticulation. Lauteur après avoir décrit les caractéristiques des voyelles, des consonnes puis de la source vocale, évalue le rôle de larticulation au niveau du tractus oral. Ainsi, différents lieus darticulation sont possibles : labiale, vélaire, alvéolaire ou palatale. Ils sont responsables de modifications du spectre qui respectent la théorie dite de « Fant ». La deuxième partie du chapitre aborde les modifications spectrales engendrées par les transitions des articulations nécessaires à la réalisation des phonèmes. Pour les consonnes, il prend lexemple de la transition entre larticulation alvéolaire et celle labiale. Les modifications portent alors principalement sur le deuxième formant. La constriction alvéolaire laugmente et celle labiale est responsable dune baisse. Pickett sattache ensuite à linfluence des consonnes sur les voyelles des langues anglo-saxonnes. Les consonnes nasales entraînent, lors du phénomène de couplage, la formation de zéro qui influent sur le spectre des voyelles suivantes en modifiant la place et lintensité des formants. Enfin il reprend les caractéristiques liées aux consonnes fricatives. Après un rappel sur la formation des dites fricatives, il insiste sur limportance du lieu de constriction, de la forme et de la taille de la cavité buccale ainsi que la longueur du conduit labial.

Classe de Place de l’articulation consonne Labial dentale alvéolaire palatal vélaire pharyngé glottique [fawi]b le/ [j] ConGsltirsiscétei on/ F2 F2 haut/ chute de [j] Transition de ascension voyelles F2 F2 [ ?] formant [b] transitoire /trOacvncosliiutssoéii vree / fdaififbules e/, frdéiqffuuesn[edc,]e /h acuhtuet e cofrnédqe[unges]né càe / mi identique augmentati à celui de o ivergence la dtersa vnosiyteilolne s n de F2 de F2 d voyelle entre F2 et F3 suivante [k] occlusive non [p] [t] fort, voisé diffus/ fort, haute compacte, mi Transitoire/ augmentatio fréquence / chute fréquence/ aspiration n de F2 de F2 divergence F2 / F3 [m] [n] [ η ] Nasale zéro à 800 zéro à haute Murmure/ fréquence/ voyelle aHszc/e nnsaisoanli sdée fréqczuhéeurntoce eà/ nmais-alisé naslisé a transition de F2 divergence F2 F2 F3 [ð, θ ] s[p З e, c ∫ t]r [h] speffcutrse e fort spectre Fricative di à 3 affaibli à « Frication » [v, f] plus kHz et dure pour les spectre pfoorutr spect[rze, fso]r t à 4 au 1 kaHuz et non voisées diffus, plus dessus et plus forte frléeqsu eksHouz veetn at ua bdseesnscues / / fodorenstm saluensst s fort autour pour les de 5-7 kHz/ n5c ke Hdze de voyelle densto upvase doey llal e voisées/ augmentatioet autransition dve transition de n de F2 e voyelles voyell dcehssuuts / es de tsrupaianvssa itnditeoe /n etransit de F2 ion Tableau 3 : résumé des caractères spectraux selon la place de l'articulation des consonnes. Chapitre dix : le flux de la parole. Lauteur étudie les interactions entre consonnes et voyelles lors des modifications du débit de parole. Les sons dépendent des caractéristiques de ceux précédents et suivants. Deux facteurs sous-tendent cela :

• La forme du tractus devant être atteinte, dès lors la production dun son se fait à partir de larticulation du son en cours de production • La séquence des unités de la parole (consonnes, syllabes et phrases) requiert une nécessaire programmation motrice. Pour ce dernier point, il est démontré que la programmation est très antérieure à la réalisation du son. Les modèles de programmation décrits par Lindblom et Klatt, dénommés STM (Short Term Memory), reposent sur un stockage court de cette programmation. Ceci sous-tend que les parties finales des phrases sont moins sujettes au raccourcissement que les parties initiales. Bien entendu, le taux démission influe sur la vitesse de parole. La compression nécessaire augmente avec le débit démission. Si on assiste à une réduction proportionnelle des consonnes et voyelles jusquà un certain débit, à partir dune certaine valeur seules les voyelles augmentent leur compression. Par ailleurs, dans une suite de consonnes il y a progressivement disparition de la deuxième consonne à mesure que le débit augmente.

Deuxième partie : Après une première partie sur la production vocale, lauteur aborde la finalité de la parole, à savoir le dialogue. En effet, outre la production de la parole, le décodage de cette suite de codes sonores en mots est nécessaire à la compréhension. Cette partie, contrairement à la première est soumise à de nombreuses variations de styles décritures puisque plusieurs auteurs y contribuent. Ceux-ci décrivent les mécanismes de ce décodage et les méthodes actuelles de réalisation automatique de codages et de décodages par les ordinateurs. Les auteurs débutent par létude de la perception des voyelles puis des consonnes pour enfin aboutir aux théories de décodage de la parole. Dans une dernière partie il sera fait état des recherches de la perception et de la production automatique de la parole et de son intérêt dans notre société actuelle. La compréhension et la reconnaissance de la parole, du sens, du mot de la syllabe ou du phonème nécessitent des caractéristiques essentielles contenues dans la parole ou « cues » pour lauteur.

Chapitre onze - Perception des voyelles : constance dynamique. Dans ce chapitre, W. Strange pose la question de lintégration des caractéristiques du spectre dans la perception des voyelles : comment les voyelles sont-elles perçues quand elles sont produites par des orateurs différents. En effet, il est surprenant quune voyelle prononcée par un enfant, une femme ou un homme soit intégrée de la même manière alors que les caractéristiques spectrales sont différentes. Les voyelles, pour leur réalisation, nécessitent une articulation plus lente que les consonnes. Dautre part, elles constituent le noyau des syllabes et leur durée est une partie des informations de la prosodie. Lévolution du profil des formants dune voyelle dans une succession « consonne voyelle consonne » est remarquable par trois points : • Lon-glide : transition du formant entre c v -• Le target : zone stable • Loff-glide zone de transition v-c Lamplitude et lintensité des 3 ou 4 premiers formants constituent la première signature acoustique de la perception de la voyelle stable. Lidentification dune voyelle par différentes personnes fait alors appel à lécart qui sépare les formants de leurs valeurs. Ainsi, F1/F2 et les valeurs de F1 et F2 sont notables comme éléments de reconnaissance. Pour les voyelles stables, lharmonisation de la perception des différences interindividuelles est expliquée par deux types de spécificités : • Les spécificités intrinsèques : cest dire les informations contenues dans le modèle spectral. • Les Spécificités extrinsèques : informations sur lage, le sexe, le contexte fournis par lorateur. Enfin lauteur explique les méthodes de reconnaissance des voyelles coarticulées. Dans ce cas, les différences de durées intrinsèques et les paramètres spectraux dynamiques (spectro-temporaux) informent lauditeur, communiquent sur lidentité des voyelles. Chapitre douze - Perception des consonnes : de la variance à linvariance :

W. Strange aborde les méthodes employées afin détablir une reconnaissance des différentes consonnes : il définit donc, comment les caractéristiques des consonnes sont perçues. La perception acoustique des consonnes fait appel à un système de catégorisation immédiate, ce qui permet à lauditeur de reconnaître rapidement la consonne. En effet, contrairement aux voyelles, les consonnes présentent un taux darticulation rapide. Lauteur tente de mettre en exergue les caractéristiques du décodage des consonnes et linfluence du débit de la parole. Dans un second temps lauteur porte son attention sur la perception du signal acoustique de la consonne. A cette fin des paroles synthétiques ont été utilisé et travaillés soit isolément soit en combinaison. Les modifications de ces signaux révèlent des limites nettes entre les consonnes. Lauteur sattache à appréhender la perception de signaux acoustiques multiples. Ainsi les modèles acoustiques qui contiennent différentes valeurs de signaux acoustiques combinés sont perceptuellement équivalent et ne peuvent être distingués isolement. Ce qui conduit lauteur à conclure : - Que lauditeur intègre des signaux multiples Et répond sur la base dune perception unique du phonème -La perception des phonèmes se fonde alors sur la « gestuelle de la parole » plutôt que sur le système général discrimination/identification. Cette idée dite théorie motrice est décrite plus loin. Chapitre treize - Les capacités auditives et le développement phonologique : animaux, enfants et les étrangers. Le chapitre réalisé par S. Hawkins présente les théories de la perception des unités phonétiques de la parole. Dans un premier temps lauteur examine la perception phonétique des enfants, afin dapprécier la part innée des capacités auditives nécessaires pour le processus de perception de la parole. Pour cela lauteur présente les techniques détude de la perception de la parole chez lenfant et leurs résultats. Chez les bébés (inférieure à 9 mois), la perception catégorielle témoigne que ces enfants entendent phonétiquement des informations acoustiques pertinentes en terme de catégorie phonétique. Par contre, ils ne sont pas capables de discriminer des contrastes phonémiques. Ainsi la plupart des capacités de discrimination perceptuelle précèdent les capacités de production de la parole. Dans un second temps, lauteur défini les modes de classification des sons de la parole par les bébés. Elle expose les effets de prototypes et daimants perceptifs.