INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE THESE pour obtenir le grade de DOCTEUR DE L'INPG Spécialité : Sciences Cognitives préparée au laboratoire Institut de la Communication Parlée dans le cadre de l'Ecole Doctorale Ingénierie pour le Vivant : Santé, Cognition, Environnement présentée et soutenue publiquement par Laurent Varin le 21 Septembre 2001 Titre : Séparation de sources et analyse de scènes auditives : Contribution à la modélisation de la séparation des double-voyelles _______ Directeur de thèse : Frédéric Berthommier _______ JURY M. Jeanny Hérault , Président Mme Hélène Paugam-Moisy , Rapporteur M. Christian Lorenzi , Rapporteur M. Frédéric Berthommier , Directeur de thèse M. Gang Feng , Examinateur 2 Remerciements De nombreuses personnes ont contribué à l'élaboration de cette thèse.
En tout premier lieu, je remercie Pierre Escudier pour m'avoir accueilli dans son laboratoire, et Frédéric Berthommier, qui a été présent tout au long de mon travail.
Je tiens à remercier toutes les personnes, permanents ou thésards de l'ICP, qui m'ont aidé et soutenu.
Un grand merci également à ma famille et mes amis, sans qui rien n'aurait été possible.
Enfin, je dédie ce mémoire à Carole, ma moitié. 3 4 Table des Matières 1 INTRODUCTION.............................................................................................................9 2 DE LA PERCEPTION DES SONS À L’IDENTIFICATION DE LA PAROLE .....13 2.1 FONDEMENTS PSYCHOACOUSTIQUES .. ...
INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE
THESE
pour obtenir le grade de
DOCTEUR DE L'INPG
Spécialité : Sciences Cognitives
préparée au laboratoire Institut de la Communication Parlée
dans le cadre de l'Ecole Doctorale
Ingénierie pour le Vivant : Santé, Cognition, Environnement
présentée et soutenue publiquement
par
Laurent Varin
le 21 Septembre 2001
Titre :
Séparation de sources et analyse de scènes auditives :
Contribution à la modélisation de la séparation des double-voyelles
_______
Directeur de thèse :
Frédéric Berthommier
_______
JURY
M. Jeanny Hérault , Président
Mme Hélène Paugam-Moisy , Rapporteur
M. Christian Lorenzi , Rapporteur
M. Frédéric Berthommier , Directeur de thèse
M. Gang Feng , Examinateur
2 Remerciements
De nombreuses personnes ont contribué à l'élaboration de cette thèse.
En tout premier lieu, je remercie Pierre Escudier pour m'avoir accueilli dans son
laboratoire, et Frédéric Berthommier, qui a été présent tout au long de mon travail.
Je tiens à remercier toutes les personnes,
permanents ou thésards de l'ICP,
qui m'ont aidé et soutenu.
Un grand merci également à ma famille et mes amis,
sans qui rien n'aurait été possible.
Enfin, je dédie ce mémoire à Carole, ma moitié.
3 4 Table des Matières
1 INTRODUCTION.............................................................................................................9
2 DE LA PERCEPTION DES SONS À L’IDENTIFICATION DE LA PAROLE .....13
2.1 FONDEMENTS PSYCHOACOUSTIQUES ..............................................................................13
2.1.1 L’Analyse de Scènes Auditives (ASA).....................................................................13
2.1.1.1 Introduction ............................................................................................................................ 13
2.1.1.2 La vision et la psychologie gestaltiste .................................................................................... 13
2.1.1.3 Les flux auditifs...................................................................................................................... 16
2.1.2 La perception de la parole .....................................................................................23
2.1.2.1 Introduction......... 23
2.1.2.2 Utilisation des indices primitifs.............................................................................................. 23
2.1.2.3 ion des schémas .......................................................................................................... 24
2.1.3 L’effet cocktail party : séparation au niveau primitif ou basée sur les schémas ? 27
2.2 RÉALISATIONS................................................................................................................30
2.2.1 L'Analyse de Scènes Auditives Computationnelle (CASA).....................................30
2.2.1.1 Introduction......... 30
2.2.1.2 Représentation périphérique du signal.................................................................................... 31
2.2.1.3 Représentations intermédiaires............................................................................................... 34
2.2.1.4 Traitements dirigés par les données........................................................................................ 35
2.2.1.5 Traitements dirigés schémas ....................................................................................... 37
2.2.2 La reconnaissance automatique de la parole en milieu interférent.......................39
2.2.2.1 Introduction ............................................................................................................................ 39
2.2.2.2 Représentations robustes ........................................................................................................40
2.2.2.3 Rehaussement de la parole...................................................................................................... 41
2.2.2.4 Compensation du modèle de parole 43
2.2.2.5 Traitements sur des données partielles ................................................................................... 45
2.2.3 Utilisation dans le cadre du problème du « cocktail party ».................................49
3 LE PARADIGME DES DOUBLE-VOYELLES..........................................................53
3.1 PRÉSENTATION DE LA PROBLÉMATIQUE..........................................................................53
3.2 LA PÉRIODICITÉ ..............................................................................................................55
3.2.1 Etudes psychoacoustiques......................................................................................55
3.2.1.1 L'influence de la différence de fréquence fondamentale ........................................................ 55
3.2.1.2 La perception des voyelles et l'intensité relative..................................................................... 57
3.2.1.3 Les voyelles inharmoniques ................................................................................................... 58
3.2.2 Modélisation...........................................................................................................61
3.2.3 Discussion66
3.3 AUTRES INDICES PRIMITIFS.............................................................................................68
3.3.1 La Différence Interaurale de Temps et d'Intensité (DIT et DII) ............................68
3.3.1.1 Etudes psychoacoustiques ...................................................................................................... 68
3.3.1.2 Modélisation........................................................................................................................... 70
3.3.2 La modulation d’amplitude et la modulation fréquentielle....................................71
3.3.3 Conclusion..............................................................................................................72
3.4 CONCLUSION ET DISCUSSION ..........................................................................................72
4 LA SÉPARATION DIRIGÉE PAR LES SCHÉMAS .................................................75
4.1 NOTRE APPROCHE...........................................................................................................75
4.2 PRINCIPE DE BASE DES MODÈLES DE DOUBLE-IDENTIFICATION.......................................76
4.2.1 Représentation périphérique..................................................................................76
4.2.2 Utilisation des connaissances a priori sur les prototypes......................................77
4.2.2.1 Représentation statistique des classes..................................................................................... 77
4.2.2.2 Représentation par un réseau connexionniste......................................................................... 79
4.2.3 Partage de l’énergie...............................................................................................79
4.2.4 L’effet de dominance ..............................................................................................80
5 4.2.5 Schéma général ......................................................................................................81
4.2.6 Bases de voyelles et représentation statistique des classes....................................82
4.2.6.1 Paramètres de synthèse........................................................................................................... 82
4.2.6.2 Constitution de la base............................................................................................................ 83
4.3 DOUBLE-IDENTIFICATION PAR SUPPRESSION DU DOMINANT ...........................................83
4.3.1 Principe ..................................................................................................................83
4.3.2 Méthode de suppression.........................................................................................84
4.3.3 Simulations.............................................................................................................84
4.4 DOUBLE-IDENTIFICATION PAR DÉCOMPOSITION DE L’ENTRÉE ........................................86
4.4.1 Principe86
4.4.2 Méthode de décomposition.....................................................................................87
4.4.2.1 Problème lié aux déterminants trop faibles............................................................................. 89
4.4.3 Le coefficient de mélange.......................................................................................90
4.4.3.1 Définition................................................................................................................................ 90
4.4.3.2 Comment l'obtenir ? ............................................................................................................... 90
4.4.3.3 Estimation par une méthode centrale...................................................................................... 91
4.4.3.4 Estimation au niveau primitif : le couplage entre les niveaux ................................................ 91
4.4.4 Simulations.............................................................................................................92
4.4.4.1 Exemple.................................................................................................................................. 92
4.4.4.2 Les performances du modèle .................................................................................................. 93
4.4.4.3 Les méthodes d'évaluation du coefficient de mélange............................................................ 97
4.5 DOUBLE-IDENTIFICATION PAR UN RÉSEAU DE NEURONES...............................................99
4.5.1 Principe ................................................................................................