La parole numérique, analyse, reconnaissance et synthèse du signal vocal

La parole numérique, analyse, reconnaissance et synthèse du signal vocal

-

Livres
152 pages

Description

La reconnaissance automatique de la parole donne lieu à un ensemble d’applications de nature et de difficulté très variées, concernant quotidiennement des millions de personnes. Elle fait appel à des notions variées allant des mathématiques, du traitement du signal, de l’informatique et de l’intelligence artificielle jusqu’à la phonétique, la linguistique, les sciences cognitives et les neurosciences.
L’ouvrage présente les fondements du domaine ainsi que les différents modèles et algorithmes utilisés (statistiques, neuromimétiques, symboliques).
Les domaines d’application sont également étudiés : dictée, commandes, télématique, traduction, etc.

Jean-Paul Haton, agrégé de l’Université (Ecole Normale Supérieure de Saint-Cloud) et Docteur d’état ès Sciences, est professeur émérite à l’Université de Lorraine à Nancy et chercheur au LORIA/INRIA. Il est membre senior de l’Institut Universitaire de France, Vice-Président de l’Académie Lorraine des Sciences et membre associé de l’Académie Royale de Belgique.


Sujets

Informations

Publié par
Ajouté le 22 août 2016
Nombre de lectures 0
EAN13 9782803105298
Licence : Tous droits réservés
Langue Français
Signaler un problème
Couverture


LA PAROLE NUMÉRIQUE



Jean-Paul Haton



La parole numérique
Analyse, reconnaissance et synthèse du signal vocal




logo


logo

Académie royale de Belgique

rue Ducale, 1 - 1000 Bruxelles, Belgique

www.academieroyale.be


Informations concernant la version numérique

ISBN : 978-2-8031-0529-8

© 2016, Académie royale de Belgique


Collection L’Académie en poche

Sous la responsabilité académique de Véronique Dehant

Volume 79


Diffusion

Académie royale de Belgique

www.academie-editions.be


Crédits

Conception et réalisation : Laurent Hansen, Académie royale de Belgique


Couverture : © Aniwhite, Shutterstock


Publié en collaboration avec


logo

Introduction

Le traitement automatique de la parole recouvre un vaste ensemble d’activités, souvent complémentaires, que l’on peut classer en six grands thèmes :

  • codage et compression de la parole, intervenant en transmission et en restitution de la parole,
  • synthèse de la parole, produisant un signal vocal à partir d’un dictionnaire d’éléments phonétiques et/ou de règles,
  • reconnaissance de la parole, revenant à faire interpréter par une machine des mots ou des phrases prononcés par un locuteur humain dans le but de réaliser une action précise,
  • reconnaissance et vérification du locuteur, problème dual du précédent dans lequel on cherche à authentifier une personne par sa voix,
  • identification de la langue dans laquelle une personne s’exprime,
  • détermination de l’état émotionnel d’un locuteur.

Ces différents thèmes ne sont pas indépendants les uns des autres. Ils se trouvent souvent utilisés simultanément au sein d’une application.

Ainsi, un système de dialogue oral comporte des modules de reconnaissance, de synthèse et éventuellement d’identification des locuteurs ou de la langue dans laquelle ces derniers s’expriment. Ces techniques permettent de mettre en œuvre des interfaces homme-machine (IHM) dans lesquelles une part importante de l’interaction utilise la voix.

Chapitre 1

La communication parlée

La communication parlée permet le transfert d’informations d’une personne à une autre par le biais de la parole. Ce mode de communication est primordial pour l’être humain. Cela le distingue des autres animaux et, en outre, langage et développement culturel sont inséparables. Les moyens technologiques ont étendu la portée de cette communication, d’une part en proposant de nouveaux vecteurs tels que téléphone, radio, télévision, Internet, et d’autre part en introduisant la communication orale homme-machine en complément de la communication entre humains.

Le signal acoustique de parole résulte des variations de pression de l’air au niveau de la bouche et du nez d’un locuteur. Ce signal transporte un ensemble d’informations linguistiques relatives au message que le locuteur veut faire parvenir, ainsi que des informations sur son identité, son état, etc. On peut distinguer quatre grandes étapes dans le processus de la communication parlée :

  • Intention : le locuteur transforme l’idée qu’il désire transmettre en une structure linguistique formée des mots adéquats.
  • Articulation : la structure linguistique est transformée en une suite de commandes motrices pour les organes articulateurs.
  • Émission : l’onde vocale est produite par le mouvement des muscles articulateurs et se propage dans l’air depuis la bouche du locuteur.
  • Perception : l’onde vocale parvient aux oreilles d’un auditeur. Elle est alors transformée en impulsions nerveuses transmises au cerveau de façon à être comprise par l’auditeur.

L’ensemble des processus ci-dessus constitue la chaîne de communication parlée.

  1. 1. La production de la parole

La parole est produite par les mouvements de l’appareil phonatoire. Cet appareil se compose de deux parties distinctes, une source et un canal. La source d’énergie utilisée pour produire les sons est l’air contenu dans les poumons. Le flux d’air sous pression passe à travers la trachée et parvient au conduit vocal qui comprend le larynx avec les cordes vocales, des cavités résonantes plus ou moins déformables (pharynx ; cavité buccale et fosses nasales pouvant être mises en communication grâce au voile du palais) et des organes d’articulation (langue, lèvres, mâchoires, etc.) permettant d’obturer le canal vocal ou d’en modifier la forme.

  1. 2. Les sons élémentaires du français

Les sons élémentaires de parole peuvent être classés en fonction de trois variables : le voisement (activité des cordes vocales), le mode d’articulation (type de mécanisme de production) et le lieu d’articulation (endroit de resserrement maximal du conduit vocal).

L’unité minimale d’une langue est le phonème, entité formelle qui peut être définie à l’aide de la notion de paire minimale : deux sons correspondent à deux phonèmes distincts s’ils peuvent définir une paire minimale dans la langue (par exemple, en français, /p/ et /t/ dans la paire par-tare). Le phonème est ainsi la plus petite unité fonctionnelle distinctive du système phonologique d’une langue. Il s’agit d’une entité abstraite non observable et un phonème donné peut être réalisé acoustiquement sous des formes allophoniques multiples.

Les phonèmes successifs sont liés entre eux par les phénomènes de coarticulation et s’influencent mutuellement, de sorte que les réalisations d’un même phonème peuvent largement différer sur le plan acoustique en fonction du contexte, mais aussi de la vitesse d’élocution, du style, du dialecte et du locuteur.

Les phonèmes d’une langue peuvent être regroupés en grandes classes dont les éléments partagent certains traits distinctifs, par exemple articulatoires ou acoustiques. On distingue deux grandes classes de phonèmes, les voyelles et les consonnes.

Les voyellessont des sons voisés, ou sonores, mettant en jeu la vibration des cordes vocales et correspondant à une configuration assez stable du conduit vocal, propre à chaque voyelle, et à un passage libre de l’air dans le conduit. La langue française utilise 12 voyelles orales (émises seulement par la bouche), ainsi que 4 voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la cavité buccale par abaissement du voile du palais.


fig_1-1.jpg

Figure 1-1 — Principe de production d’une voyelle (en haut [a] et en bas [i]) - De gauche à droite : coupe IRM de la configuration du conduit vocal, fonction de transfert du conduit (avec les pics correspondant aux fréquences de résonance du conduit) et spectre fréquentiel montrant les pics (formants)


Lorsque l’onde glottale résultant de la vibration des cordes vocales se propage à travers le conduit vocal, ses harmoniques proches des fréquences de résonance du conduit sont amplifiées tandis que les autres fréquences sont atténuées. Le spectre fréquentiel d’une voyelle présente ainsi un certain nombre de pics, appelés formants, caractéristiques de cette voyelle. La figure 1-1 résume ce processus. Les voyelles peuvent être caractérisées acoustiquement par la fréquence de leurs deux premiers formants F1 et F2, le formant F3 étant beaucoup moins discriminant et plutôt lié à la « couleur » de la voyelle. Dans le plan F1-F2,les voyelles cardinales /a/, /i/ et /u/ sont disposées aux sommets d’un triangle analogue au triangle articulatoire représentant approximativement la position de la langue selon deux axes nommés « antérieur — postérieur » et « ouvert — fermé ».

En pratique, la variabilité acoustique des voyelles est très grande. Cette variabilité a trois origines principales :

  • une variabilité physiologique liée au conduit vocal. Ainsi le conduit vocal féminin est en moyenne de 15 % plus court que le conduit masculin ;
  • une variabilité de coarticulation, liée au fait qu’en contexte un son exerce une influence sur un son voisin ;
  • une variabilité liée à la latitude de réalisation dont dispose le locuteur sur le plan linguistique.

De ce fait, la dispersion dans le plan F1-F2 est importante.

Les consonnes se prononcent avec un rétrécissement local ou une fermeture du conduit vocal. Il existe des consonnes sonores et des consonnes sourdes, ou non voisées, selon que l’air provenant des poumons est ou n’est pas modulé par les cordes vocales. Les autres facteurs de classement des consonnes sont le mode d’articulation et le lieu d’articulation. Le français comporte 21 consonnes :

  • les fricatives sont produites par un rétrécissement local du conduit vocal. Il existe trois fricatives sourdes : /f/ /s/ /∫/, et trois fricatives sonores : /v/ /z/ /ʒ/,
  • les occlusives sont des sons transitoires résultant de l’ouverture brusque du conduit vocal après son obstruction. Une consonne occlusive est ainsi constituée acoustiquement de trois parties successives : un silence correspondant à l’occlusion totale du conduit vocal (dans le cas des occlusives sonores, ou voisées, le silence n’est pas complet, la vibration des cordes vocales provoquant une faible énergie autour de la fréquence fondamentale de vibration des cordes vocales), une explosion (burst) résultant du relâchement de l’air lors de l’ouverture des cordes vocales et enfin une zone de transition vers les sons vocaliques qui suivent. Il existe en français trois occlusives sourdes : /p/ /t/ /k/ et trois occlusives sonores : /b/ /d/ /g/,
  • les consonnes nasales sont produites par une excitation glottale du conduit nasal, le conduit vocal étant totalement fermé. Il existe trois consonnes nasales en français : /m/ /n/ /ɲ/,
  • les liquides (/l/ /r/) sont des sons sonores produits avec une légère constriction du conduit vocal. /l/ est une consonne latérale produite par blocage du conduit vocal par la pointe de la langue. Il existe un seul phonème /r/ en français. En revanche, les réalisations acoustiques sont très variées selon les locuteurs et les contextes, compliquant encore la tâche de reconnaissance.

En plus des deux grandes classes, voyelles et consonnes, il existe une autre classe de phonèmes, les semi-voyelles ou semi-consonnes (/w/ /ɥ/ /j/) qui se trouvent à la frontière entre les voyelles et les consonnes, d’où leur nom.

  1. 3. Audition

Les sons de parole, comme tous les autres sons audibles, sont transmis au cerveau par les oreilles et le nerf auditif. Le système auditif humain est chargé de deux tâches distinctes. La première est de reconnaître un son et de lui attacher une signification. La seconde est de localiser ce son dans l’espace environnant l’auditeur. Ces deux tâches sont menées de façon progressive par une architecture neuronale à la fois hiérarchique et parallèle. Notre connaissance est en fait encore très fragmentaire, même si des progrès importants ont été réalisés au cours des dernières décennies.

  1. 1. Anatomie et physiologie de l’oreille

L’oreille se compose de trois parties :

  • l’oreille externe, formée du pavillon et du conduit auditif, assure la transmission aérienne du signal acoustique jusqu’au tympan ;
  • l’oreille moyenne contenant la chaîne des osselets, chargée de la transmission mécanique du signal jusqu’à la fenêtre ovale ;
  • l’oreille interne contenant la cochlée, ou limaçon, qui transforme les vibrations mécaniques en influx nerveux au niveau de la membrane basilaire. Cette transformation est assurée par l’organe de Corti composé de cellules ciliées reliées au nerf auditif. La membrane basilaire possède une largeur et une épaisseur qui croissent régulièrement depuis sa base jusqu’à l’apex, de sorte que sa fréquence de résonance varie selon la position. On peut donc dire en simplifiant que la cochlée effectue une analyse spectrale à large bande des signaux acoustiques captés par l’oreille. Le résultat de cette analyse est ensuite transmis au cerveau au niveau de l’organe de Corti, via les transducteurs que sont les cellules ciliées, et aboutit dans l’aire corticale de projection auditive située dans le lobe temporal.

Des avancées importantes ont eu lieu depuis les années 1980 sur le traitement de l’information auditive par le cerveau. Il apparaît que le système auditif, tout comme le système visuel, est organisé de façon hiérarchique avec une complexité croissante de l’organisation des relais auditifs dans le cortex. Il est remarquable qu’à chaque étape du traitement d’un stimulus sonore il se conserve une propriété de tonotopie, analogue à la rétinotopie rencontrée en vision : les fréquences sonores restent associées de façon régulière à des positions géographiques des fibres nerveuses au sein des cartes neuronales. On verra que cette propriété a été mise à profit pour concevoir des réseaux neuromimétiques pour la reconnaissance de la parole.

  1. 2. Psychoacoustique

Si le traitement de l’information auditive par le cerveau est encore incomplètement connu, les relations entre les stimuli acoustiques et les sensations et perceptions auditives sont en revanche bien cernées grâce à la psychoacoustique. Nous donnons ci-dessous les résultats intéressants pour le traitement automatique de la parole, en renvoyant le lecteur à des ouvrages complets tels que [Zwicker, 1981] pour plus de détails.

Tout d’abord, l’oreille répond de façon sélective en fonction de la fréquence d’un son. Le champ auditif humain est ainsi délimité par les courbes du seuil d’audition (qui varie de 0 à 40 dB selon la fréquence) et du seuil de douleur (qui se situe vers 120 dB). Les fréquences limites, variables selon l’âge et l’individu, se situent autour de 20 Hz et 20 kHz (soit près de 10 octaves, à comparer au champ de la vision humaine, inférieur à une octave). Selon le théorème de Shannon, il est donc inutile d’échantillonner un signal sonore à une fréquence supérieure à environ 40 kHz (44 kHz pour les disques compacts audio). Dans cette plage de fréquences, l’oreille présente une sensibilité très variable selon la fréquence.

Un aspect important de l’audition humaine est relatif au phénomène de masquage par lequel la perception d’un son est perturbée par la présence d’un autre son. Plus précisément, le seuil d’audibilité d’un son est accru en présence d’un autre son de fréquence adjacente (étude de Fletcher en 1937) lorsque les deux sons sont perçus simultanément ou avec un léger décalage temporel. Si la différence des fréquences des deux sons devient supérieure à un certain seuil critique, ce phénomène disparaît. L’étude expérimentale a conduit à la notion de bande critique : des signaux dont la fréquence se situe à l’intérieur d’une bande critique influent sur la perception de signaux situés dans la même bande, mais pas à l’extérieur de cette bande. Une bande critique peut être considérée comme un filtre...