Analyse de la qualité vocale appliquée à la parole expressive, Voice quality analysis applied to expressive speech

Thesee - Nicolas Sturmel

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

232 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sous la direction de Christophe D'Alessandro
Thèse soutenue le 02 mars 2011: Paris 11
L’analyse des signaux de parole permet de comprendre le fonctionnement de l’appareil vocal, mais aussi de décrire de nouveaux paramètres permettant de qualifier et quantifier la perception de la voix. Dans le cas de la parole expressive, l'intérêt se porte sur des variations importantes de qualité vocales et sur leurs liens avec l’expressivité et l’intention du sujet. Afin de décrire ces liens, il convient de pouvoir estimer les paramètres du modèle de production mais aussi de décomposer le signal vocal en chacune des parties qui contribuent à ce modèle. Le travail réalisé au cours de cette thèse s’axe donc autour de la segmentation et la décomposition des signaux vocaux et de l’estimation des paramètres du modèle de production vocale : Tout d’abord, la décomposition multi-échelles des signaux vocaux est abordée. En reprenant la méthode LoMA qui trace des lignes suivant les amplitudes maximum sur les réponses temporelles au banc de filtre en ondelettes, il est possible d’y détecter un certain nombre de caractéristiques du signal vocal : les instants de fermeture glottique, l’énergie associée à chaque cycle ainsi que sa distribution spectrale, le quotient ouvert du cycle glottique (par l’observation du retard de phase du premier harmonique). Cette méthode est ensuite testée sur des signaux synthétiques et réels. Puis, la décomposition harmonique + bruit des signaux vocaux est abordée. Une méthode existante (PAPD - Périodic/APériodic Décomposition) est adaptée aux variations de fréquence fondamentale par le biais de la variation dynamique de la taille de la fenêtre d’analyse et est appelée PAP-A. Cette nouvelle méthode est ensuite testée sur une base de signaux synthétiques. La sensibilité à la précision d’estimation de la fréquence fondamentale est notamment abordée. Les résultats montrent des décompositions de meilleures qualité pour PAP-A par rapport à PAPD. Ensuite, le problème de la déconvolution source/filtre est abordé. La séparation source/filtre par ZZT (zéros de la transformée en Z) est comparée aux méthodes usuelles à base de prédiction linéaire. La ZZT est utilisée pour estimer les paramètres du modèle de la source glottique via une méthode simple mais robuste qui permet une estimation conjointe de deux paramètres du débit glottique : le quotient ouvert et l'asymétrie. La méthode ainsi développée est testée et combinée à l’estimation du quotient ouvert par ondelettes. Finalement, ces trois méthodes d’estimations sont appliquées à un grand nombre de fichiers d’une base de données comportant différents styles d’élocution. Les résultats de cette analyse sont discutés afin de caractériser le lien entre style, valeur des paramètres de la production vocale et qualité vocale. On constate notamment l’émergence très nette de groupes de styles.
-Analyse de la parole
-Qualité vocale
-Ondelettes
-Filtrage inverse
-Lpc
-Zzt
-Décomposition périodique/apériodique
-Jitter
-Shimmer
-Modèle LF
-Parole expressive
-Interactions source/filtre
Analysis of speech signals is a good way of understanding how the voice is produced, but it is also important as a way of describing new parameters in order to define the perception of voice quality. This study focuses on expressive speech, where voice quality varies a lot and is explicitly linked to the expressivity or intention of the speaker. In order to define those links, one has to be able to estimate a high number of parameters of the speech production model, but also be able to decompose the speech signal into each parts that contributes to this model. The work presented in this thesis addresses the segmentation of speech signals, their decomposition and the estimation of the voice production model parameters. At first, multi-scale analysis of speech signals is studied. Using the LoMA method that traces lines across scales from one maximum to the other on the time domain response of a wavelet filter bank, it is possible to detect a number of features on voiced speech, namely : the glottal closing instants, the energy associated to each glottal cycle, the open quotient (by estimating the time delay of the first harmonic). This method is then tested on both synthetic and real speech. Secondly, harmonic plus noise decomposition of speech signals is studied. An existing method (PAPD standing for Periodic/Aperiodic Decomposition) is modified to dynamically adapt the analysis window length to the fundamental frequency (F0) of the signal. The new method is then tested on synthetic speech where the sensibility to the estimation error on F0 is also discussed. Decomposition on real speech, along with their audio files, are also discussed. Results shows that this new method provides better quality of decomposition. Thirdly, the problem of source/filter deconvolution is addressed. The ZZT (Zeros of the Z Transform) method is compared to classical methods based on linear prediction. ZZT is then used for the estimation of the glottal flow parameters with a simple but robust method based on the joint estimation of both the open quotient and the asymmetry. The later method is then combined to the estimation of the open quotient using wavelet analysis. Finally, the three estimation methods developed in this thesis are used to analyze a large number of files from a database presenting different speaking styles. Results are discussed in order to characterize the link between style, model parameters and voice quality. We especially notice the neat appearance of speaking style groups
-Speech analysis
-Voice quality
-Wavelets
-Inverse filtering
-Lpc
-Zzt
-Periodic/aperiodic decomposition
-Jitter
-Shimmer
-LF model
-Expressive speech
-Source/filter interactions
Source: http://www.theses.fr/2011PA112021/document

Sujets

Ondelette

Gigue (électronique)

Informations

Publié par	Thesee
Nombre de lectures	57
Langue	Français
Poids de l'ouvrage	10 Mo

Extrait

N° D’ORDRE
THÈSE DE DOCTORAT
SPECIALITE : PHYSIQUE
Ecole Doctorale « Sciences et Technologies de l’Information des
Télécommunications et des Systèmes »
Présentée par : Nicolas Sturmel
Sujet :
Analyse de la qualité vocale appliquée à la parole expressive
Soutenue le 2 Mars 2011 devant les membres du jury :
M. Thierry Dutoit (président)
M. Christophe d’Alessandro (directeur de thèse)
M. Yves Laprie (rapporteur)
M. Gaël Richard (rapporteur)
M. Boris Doval (examinateur)
M. Olivier Rosec (examinateur)
tel-00591638, version 1 - 9 May 2011tel-00591638, version 1 - 9 May 2011Page 3
Remerciements
Une thèse est un travail de longue haleine, et sans l’aide de mes proches, de mes collègues
et de mes mentors, elle n’aurait pas lieu d’être. Il suﬃt parfois d’un conseil, d’une main tendue,
d’une porte ouverte pour faire germer une idée, une ambition. Pendant cette thèse, et plus que
jamais, j’ai apprécié les vertus de l’approfondissement, de la rigueur, du travail d’équipe et du
partage scientiﬁque.
J’aimerais tout d’abord remercier Christophe d’Alessandro pour son encadrement sans faille.
Il aura su me guider tout au long de cette thèse aﬁn qu’elle ait la forme que vous trouverez
aujourd’hui en lisant ce document. Merci à Boris Doval qui m’aura encadré au LIMSI pendant
les premières années de ce travail; sa rigueur aura toujours été d’une grande aide pour préciser
ma pensée scientiﬁque.
Merci ensuite à Gaël Richard et Yves Laprie qui ont accepté de rapporter sur ce travail,
leurs remarques et conseils ont permis de pousser plus loin la qualité du document ﬁnal. Merci
à Thierry Dutoit et Olivier Rosec d’avoir accepté d’assister à cette soutenance et pour leurs
remarques a posteriori. C’est un grand honneur et un grand plaisir de présenter son travail
devant les personnes qui font activement partie de la communauté scientiﬁque de l’analyse des
signaux vocaux.
Merci à mes collègues du LIMSI pour cette agréable ambiance de travail, et en particulier au
groupe Audio et Acoustique. Merci à Albert Rilliard et Sylvain Le Beux pour leur investissement
dans la relecture et la critique du manuscrit. Merci à Tifanie, Lionel, Marc, Gaëtan et David
pour leurs remarques qui m’ont aidé à perfectionner ma soutenance.
Merci aux personnes qui m’ont accompagné pendant les années de monitorat : à Guy
Demoment, Patrick Gonord, Thomas Rodet, Frédérique Giorgiutti, Alexandre Renaux, Clarisse
Hamadache et Delphine Monnier qui m’ont guidés dans mes premiers pas d’enseignement et
mont donné les outils pour transmettre et partager mes connaissances.
Merci au personnel technique et administratif du LIMSI, de l’Université Paris Sud et de
l’école doctorale STITS.
Merci à Thomas Helie et Bertrand David qui m’ont donné lors de mes tous premiers stages,
dans une période charnière, le goût du traitement du signal audio et merci pour leur soutien
qui a contribué au commencement de cette thèse. Merci à Cécile Durieu qui, durant mon cursus
à l’ENS de Cachan, m’aura donné les bases et la rigueur que j’utilise quotidiennement en
traitement des signaux.
Et comment ne pas remercier ma famille toute entière mais spécialement mon père,
ma mère, mes soeurs et ma compagne, Charlotte et nos amis qui m’ont tous permis de
traverser ces années de thèse sans faillir de leurs soutiens et de leurs encouragements. Une
penséeparticulièrepourAndréqui,j’ensuissûr,auraitétéﬁerdemevoirréussircetteentreprise.
tel-00591638, version 1 - 9 May 2011"La physique ressemble à la plus exigeante et parfois à la plus destructive des
maîtresses. Nuit et jour, été, hiver, matin et soir, elle vous poursuit, vous
envahit, vous comble ou vous désespère" - Georges Charpak
tel-00591638, version 1 - 9 May 2011Table des matières
Introduction 9
IModélisationetÉtatdel’art 15
1Modèledelaproductionvocale 17
1.1 Le signal vocal : production et modélisation . . . . . . . . . . . . . . . . . . . . . 19
1.2 Les diﬀérentes échelles du signal vocal . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Le cycle glottique et sa caractérisation . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4 Le modèle du point de vue signal . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Qualités vocales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2Étatdel’artdel’estimationdesparamètresdelasource 39
2.1 La détection des instants de fermeture glottique . . . . . . . . . . . . . . . . . . . 41
2.2 Filtrage inverse et caractérisation de la source . . . . . . . . . . . . . . . . . . . . 46
2.3 Périodicités, Apériodicités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.4 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
II Outils pour l’analyse de la qualité vocale 71
3 Ondelettes pour l’analyse des signaux vocaux 73
3.1 Méthode multi-échelles et application aux signaux vocaux. . . . . . . . . . . . . . 75
3.2 Etude prospective : ondelettes appliquées aux signaux de parole . . . . . . . . . . 77
3.3 Méthode LoMA pour la détection de GCI . . . . . . . . . . . . . . . . . . . . . . 82
3.4 LOMA pour la mesure de l’énergie relative . . . . . . . . . . . . . . . . . . . . . . 90
3.5 Shimmer et jitter par les ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.6 Quotient ouvert et ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.7 Parallèle avec Mean Square Phase. . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.8 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4DécompositionPériodique/Apériodique 109
4.1 Amélioration de l’algorithme PAP . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Application à des signaux de tests . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3 Application à des signaux réels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4 Impact de la décomposition sur l’estimation des LoMA . . . . . . . . . . . . . . . 123
4.5 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
tel-00591638, version 1 - 9 May 20115Estimationdesparamètresdelasourceglotique 129
5.1 Validation des Zéros de la Transformée en Z comme technique de séparation
source/ﬁltre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.2 Précision nécessaire pour l’estimation de O et α .................143q m
5.3 Formalisation du modèle pour l’extraction des paramètres . . . . . . . . . . . . . 143
5.4 Mesures préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.5 Protocole d’analyse sur signaux naturels . . . . . . . . . . . . . . . . . . . . . . . 152
5.6 Méthode hybride combinant ZZT et LoMA pour l’estimation du quotient ouvert. 155
5.7 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
III Application à de la parole expressive 163
6Analysed’ungrandcorpus 165
6.1 Constitution de la base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6.2 Analyse et Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
6.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
6.4 Conﬁrmation des tendances par analyse statistique . . . . . . . . . . . . . . . . . 175
6.5 Interactions source-ﬁltre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.6 Corrélation entre les estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6.7 Caractérisation des styles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.8 Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7 Conclusion 189
Références 195
IV Annexes 203
AAnalysescomplémentairesdugrandcorpusdeparolenatureleetexpresive205
tel-00591638, version 1 - 9 May 2011Table des ﬁgures
1.1 Vue des éléments du larynx. Issu de Gray’s Anatomy, 20ème édition (1918). . . . 19
1.2 Modélisation de la production vocale comme une succession de ﬁltres linéaires.
En parallèle est donné un modèle source/ﬁltre comme celui utilisé en prédiction
linéaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Décomposition d’un signal de parole en temps au niveau de la phrase et de la
période, et en fréquence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Représentation du cycle glottique par vidéo ultra rapide, électroglottographie
(EGG) et dérivée de l’EGG, extrai