Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques

52 lecture(s)
Domaine: Informatique
Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par l'Homme ne suffit pas en elle-même pour élaborer effectivement les dites applications. Les conditions de laboratoire qui ont prévalues lors de l'enregistrement des premiers corpus de parole utilisés à des fins de recherches sont en effet très différentes des conditions réelles que l'on rencontre généralement dans les lieux de travail ou de vie. Ayant le plus souvent été enregistrés en chambre anéchoïde, ces corpus ne permettaient pas plus d'appréhender les dégradations que le milieu peut engendrer sur le signal de parole que de constater quelles pouvaient être les modifications provoquées sur ce signal par un locuteur essayant de s'adapter à son milieu. Certaines des recherches actuelles en RAP essaient donc d'améliorer les capacités de résistance au bruit des systèmes existants. Pour ce faire, il est possible d'utiliser un système d'abord défini pour la reconnaissance de la parole non bruitée en lui ajoutant un mécanisme lui permettant de s'adapter à certaines conditions de bruit. Il est également possible de définir un système ab-nihilo qui soit tout aussi bien adapté aux conditions non bruitées qu'aux conditions bruitées. Le sujet de cette thèse porte sur la reconnaissance de petits vocabulaires, tels que les lettres ou les chiffres, prononcés de manière continue en milieu bruité. Pour mener à bien cette étude, différentes architectures connexionnistes ont été étudiées. L'utilisation de modèles connexionnistes nous a permis de mettre au point, grâce au mécanisme d'apprentissage, des systèmes qui sont immédiatement adaptés à différentes conditions de bruit. Un premier système a été mis en place qui permet, en trois étapes, de reconnaître les mots du vocabulaire étudié. Une première étape identifie des points d'ancrage dans le signal, ces points d'ancrage correspondant à une segmentation des parties vocaliques du signal. Une deuxième étape permet de reconnaître les voyelles contenues dans les segments retenus alors qu'une troisième étape permet de distinguer les différents mots du vocabulaire qui possèdent les mêmes voyelles. Cette architecture, basée sur des perceptrons multicouches, a prouvé être de bonne qualité mais l'étape de segmentation s'est révélée être de moindre qualité à des rapports signal sur bruit faible c'est à dire de l'ordre de 6 décibels ou moins. Ceci nous a poussé à étudier des modèles connexionnistes dynamiques, à l'opposé des perceptrons multicouches qui sont des modèles statiques. Les modèles dynamiques ont la particularité de mettre en place des mécanismes de récurrence qui permettent de mieux appréhender les phénomènes temporels tel que peut l'être un problème de segmentation de la parole. Le modèle gamma, un modèle connexionniste à récurrence locale, a ainsi été choisi tout autant pour ses capacités à modéliser les évènements temporels que pour la facilité avec laquelle il peut être analysé. Il a été appliqué à des problèmes de reconnaissance de séquences, ce qui a permis d'explorer ses capacités, ainsi qu'à des tâches de segmentation, pour tenter de résoudre les problèmes posés par les perceptrons multicouches lors de l'utilisation de notre premier système.

lire la suite replier

Télécharger la publication

  • Format PDF
Commenter Intégrer Stats et infos du document Retour en haut de page
profil-informatique-2012
publié par

suivre

Vous aimerez aussi

Université Henri Poincaré - Nancy 1
UFR STMIA
Centre de Recherche INRIA Lorraine
en Informatique de Nancy École Doctorale IAE+M
CNRS URA 262 DFD Informatique
Traitement automatique de la parole
en milieu bruité :
étude de modèles connexionnistes
statiques et dynamiques
THÈSE
présentée et soutenue publiquement le
lundi 10 février 1997
par
Laurent BUNIET
pour l’obtention du
Doctorat de l’Université Henri Poincaré - Nancy 1
spécialité informatique
Composition du Jury :
Rapporteurs : Jean-Claude JUNQUA DR, Panasonic Corp., STL, Santa-Barbara, ÉUA
Dominique MÉRY Pr., IUF, UHP & CRIN-CNRS, Nancy
Jean-Luc SCHWARTZ CR, ICP-INPG, Grenoble
Examinateurs : Frédéric ALEXANDRE CR, INRIA Lorraine, Nancy
Dominique FOHR CR, CRIN-CNRS, Nancy
Jean-Marie PIERREL Pr., UHP & CRIN-CNRS, Nancy
tel-00629285, version 1 - 5 Oct 2011ii
tel-00629285, version 1 - 5 Oct 2011Je dédis cette thèse à ma mère et à la mémoire de mon père
qui m’ont tous deux permis de la réaliser
et à ma femme, Anne-Caroline, pour son amour et son soutien.
iii
tel-00629285, version 1 - 5 Oct 2011iv
tel-00629285, version 1 - 5 Oct 2011“I’ve seen things you people wouldn’t believe,
attack ships on fire off the shoulder of Orion,
I watch C-beams glitter in the dark near the Tannhauser gate.
All those moments will be lost in time like tears in rain.”
Épitaphe de Roy Batty,
in Blade Runner, film de Ridley Scott
v
tel-00629285, version 1 - 5 Oct 2011vi
tel-00629285, version 1 - 5 Oct 2011REMERCIEMENTS
Au terme de cette thèse et en préambule au mémoire rédigé, je tiens à remercier tous les membres
du jury qui ont accepté de juger le travail effectué tout au long de ces années :
Jean-Marie Pierrel, professeur de l’Université Henri Poincaré - Nancy 1, directeur du Centre de
Recherche en Informatique de Nancy (CNRS UMR 262) et responsable de l’équipe Dialogue
commune au CRIN et à l’INRIA Lorraine, qui m’a encadré tout au long de ces années de recherche
malgré la charge qui était la sienne,
Jean-Claude Junqua, chargé de recherche chez Matsushita, au Speech Technology Laboratory de
la Panasonic Corp. à Santa Barbara, en Californie, qui est en partie à l’origine de ces recherches et
qui me fait aujourd’hui le plaisir de juger un travail proche du sien après avoir dû survoler le tiers de
la circonférence du globe,
Jean-Luc Schwartz, chargé de recherche à l’Institut de la Communication Parlée de l’Institut
National Polytechnique de Grenoble, qui m’aura permis de soutenir cette thèse à la date et à l’heure
prévues en acceptant au pied levé d’être rapporteur de ce travail, merci beaucoup,
Dominique Méry, membre de l’Institut Universitaire de France, professeur de l’Université Henri
Poincaré - Nancy 1 et directeur de recherches au CRIN, qui a bien voulu participer à ce jury après
avoir dû me supporter comme ATER,
Frédéric Alexandre, chargé de recherche INRIA à l’INRIA Lorraine et responsable du groupe
Cortex au sein de l’équipe RFIA/SYCO commune au CRIN et à l’INRIA Lorraine, avec lequel j’ai
pû avoir de bons contacts au cours de cette thèse bien qu’aucune hiérarchie officielle n’ait existée,
Dominique Fohr, chargé de recherche CNRS au CRIN au sein de l’équipe RFIA/SYCO, qui aura,
pendant toutes ces années, suivi mon travail de thèse au pas de charge et m’aura véritablement
accordé toute sa confiance.
Je tiens également à remercier trois chercheurs du CRIN pour leurs activités et leur passion
paraprofessionnelles. Je tiens ainsi à remercier Jean-Pierre Finance, président de l’université Henri
Poincaré, qui préside également l’Aéro-Club de Lorraine à Lunéville dont je suis un heureux
membre. Je remercie également Jacques Guyard pour m’avoir fait connaître l’ACL et, last but not
least, je tiens à remercier très chaleureusement Jean-François Mari qui m’a, patiemment, très
patiemment, appris à voler et m’a conduit jusqu’au TT et a toujours, ou presque, gardé son calme
bien que des manœuvres aient quelques fois été exotiques. Pour continuer à suivre le fil de l’air, je
tiens à remercier le Père Gilles Silvy-Leligois, aumônier de TAT-BA, de m’avoir marié à ma chère et
tendre et Patrick “doudou” Doucet, pour ce qui reste, aujourd’hui encore, la frayeur de ma vie...
Ma vie dans ce laboratoire ne serait pas ce qu’elle est sans les membres de l’équipe Dialogue, de
l’équipe RFIA/SYCO et de son groupe Cortex et de toutes les personnes qui fourmillent, le jour et la
nuit, dans le bâtiment Loria. Qu’ils en soient tous vivement remerciés de même que, hors de ce
campus, les Supélec de Metz et Rennes, Ludo et Gilles, Monseigneur Stéphane 1er et Madame, ainsi
que tous les membres de l’ACTH.
Je tiens également à remercier les membres de ma famille qui m’ont soutenu tout au long de ces
années et tous les membres de ma toute nouvelle belle famille pour leur amour et leur amitié. Ma vie
extraprofessionnelle aurait par ailleurs été bien terne sans toutes les personnes qui m’ont offert leur
amitié : Christelle, Christophe, Corinne, Emmanuel, Éric, Fabrice, Frédérique, Jean-Baptiste,
Jean-Luc, Jean-Paul, Jean-Philippe, Laurence, Sophie, Stéphanie, ... et tous ceux que j’oublie. Mes
amitiés à vous tous ! J’adresse également un petit clin d’œil à Loukhoum pour son sens de la vie...
Enfin, je remercie tout particulièrement les relecteurs hors du domaine et j’adresse une mention
spéciale au découvreur des néologismes bunietiens...
vii
tel-00629285, version 1 - 5 Oct 2011viii
tel-00629285, version 1 - 5 Oct 2011TABLE DES MATIÈRES
Dédicace iii
Citation v
Remerciements vii
Table des matières ix
Liste des figures xvii
Liste des tables xxi
Résumé introductif xxiii
PARTIE1É TATDEL’ART 1
CHAPITRE1P AROLE 3
1.1 Introduction 3
1.2 Le traitement automatique de la langue 4
1.2.1 Les règles de la langue 4
1.2.2 Le dialogue homme-machine 5
1.3 L’appareil phonatoire 6
1.3.1 L’appareil phonatoire humain 6
1.3.2 Modèles articulatoires 7
1.3.3 Systèmes de synthèse de parole 7
1.4 L’appareil auditif 8
1.4.1 L’appareil auditif humain 8
1.4.2 Courbes psycho-acoustiques 9
1.5 Taxonomie des sons 11
1.5.1 Phonétique 11
1.5.1.1 Classes phonétiques 11
1.5.1.2 Classifications phonétiques existantes 12
1.6 Les problèmes de variabilité de la parole 16
1.6.1 Introduction 16
1.6.2 Variabilité intra-locuteur 16
1.6.3 Variabilité inter-locuteur 17
1.6.4 Variabilité due à l’environnement 17
1.6.5 Spectrogrammes 18
1.7 Les représentations du signal de parole 20
1.7.1 Problèmes posés par la transformée de Fourier 20
1.7.2 Méthodes adaptées à la parole 20
1.7.2.1 Représentations cepstrales 21
1.7.2.2 Codage prédictif linéaire 21
1.7.2.3 Codage dit de Modulation par Impulsion et Codage 22
1.7.2.4 PLP 23
1.7.2.5 Rasta PLP 23
1.7.2.6 Modèles d’audition 24
1.7.3 Méthodes modernes de représentation temps-fréquence 24
1.7.4 Méthodes résistantes aux bruits 25
ix
tel-00629285, version 1 - 5 Oct 2011Table des matières
CHAPITRE2C ONNEXIONNISME 27
2.1 Le pandémonium de la reconnaissance des formes 27
2.1.1 Étendue de notre étude bibliographique 27
2.1.2 Alignement temporel 28
2.1.3 Modèles de Markov et Modèles de Markov à états cachés 30
2.1.4 Évolutions de la modélisation 32
2.2 Neurobiologie 32
2.2.1 Modélisation du neurone 33
2.2.2 Les aires cérébrales 36
2.2.3 La colonne corticale 37
2.3 Modélisation connexionniste 38
2.4 Modèles connexionnistes statiques 38
2.4.1 Les perceptrons multicouches 39
2.4.1.1 Architecture 39
2.4.1.2 Applications possibles des perceptrons multicouches 40
2.4.1.3 Extensions des perceptrons avec la notion de poids partagés 41
2.4.2 Modèles à auto-organisation 43
2.4.3 Autres architectures 44
2.4.4 Apprentissage dans les modèles statiques 45
2.4.4.1 Apprentissage supervisé 45
2.4.4.2 Apprentissage non supervisé 46
2.5 Modèles connexionnistes dynamiques 47
2.5.1 Modèles connexionnistes totalement récurrents 47
2.5.2 Modèles connexionnistes à récurrence par plaque 48
2.5.3 Modèles connexionnistes à récurrence locale 49
2.5.4 L’apprentissage dans les modèles dynamiques 49
PARTIE2C ONTRIBUTION 51
CHAPITRE3P ROBLÉMATIQUE DU BRUIT EN RAP 53
3.1 Objectif 53
3.1.1 Mise en œuvre d’un système de Reconnaissance Automatique de la Parole 53
3.1.2 Existence du besoin d’un système fiable 54
3.1.3 Ambitions relatives au système à développer 54
3.1.4 Contraintes imposées 55
3.2 Résistance de la parole au bruit 56
3.2.1 L’influence du bruit dans la communication 56
3.2.2 Qualité d’un message 56
3.2.2.1 Critères de qualité 56
3.2.2.2 Critères objectifs de qualité 57
3.2.2.3 Critères subjectifs de qualité 58
3.2.3 Les différents types de bruit 58
3.2.3.1 Les bruits additifs 59
3.2.3.2 Les bruits convolutionnels 59
3.2.3.3 Les bruits physiologiques 60
3.2.4 Capacités humaines 60
3.2.4.1 Robustesse de la perception humaine 60
3.2.4.2 Limites des capacités auditives humaines 64
3.2.5 Intégration dans les systèmes de RAP 64
3.2.6 Résistance des voyelles 64
x
tel-00629285, version 1 - 5 Oct 2011

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

 
Lisez à volonté, où que vous soyez
1 mois offert, Plus d'infos