ED SMAER Sujet de thèse 2010 Laboratoire : LAM-IJLRA Etablissement de rattachement : UPMC Directeur de thèse et section CNU ou CNRS : Jean-Dominique POLACK, CNU 60 Codirection et section CNU et CNRS : Boris DOVAL, CNU 61 Codirection et section CNU et CNRS : Nathalie HENRICH, GIPSA-LAB, CNRS 34 Titre de la thèse : Voix de substitution, voix augmentée : étude de la source de débit glottique par injection acoustique et analyse par la synthèse in vivo Collaborations dans le cadre de la thèse : Rattachement à un programme : Le sujet peut être publié sur le site web de l’EDSMAE : OUI Résumé du sujet : Contexte : L’une des difficultés majeures de l’étude des productions vocales est l’impossibilité d’étudier séparément la source de débit glottique et le résonateur acoustique constitué par le conduit vocal. De plus, il existe de fortes interactions entre les deux, en particulier en voix chantée. L’étude de la source glottique est donc particulièrement difficile. Objectifs : L’approche envisagée consiste dans un premier temps à mettre au point un dispositif d’excitation du conduit vocal par une source acoustique synthétique dont les caractéristiques seront proches des ondes de débit glottiques, et dont les paramètres pourront être choisis librement. Une phase délicate de calibration sera nécessaire pour pouvoir déterminer quel signal d’entrée appliquer au dispositif afin de générer la source acoustique adéquate. Un tel dispositif est en ...
ED SMAER Sujet de thèse 2010 Laboratoire :LAM-IJLRAEtablissement de rattachement :UPMCDirecteur de thèse et section CNU ou CNRS :Jean-Dominique POLACK, CNU 60Codirection et section CNU et CNRS :Boris DOVAL, CNU 61Codirection et section CNU et CNRS :Nathalie HENRICH, GIPSA-LAB, CNRS 34Titre de la thèse :Voix de substitution, voix augmentée : étude de la source de débit glottique par injection acoustique et analyse par la synthèse in vivo Collaborations dans le cadre de la thèse : Rattachement à un programme : Le sujet peut être publié sur le site web de lEDSMAE :OUIRésumé du sujet : Contexte :Lune des difficultés majeures de létude des productions vocales est limpossibilité détudier séparément la source de débit glottique et le résonateur acoustique constitué par le conduit vocal. De plus, il existe de fortes interactions entre les deux, en particulier en voix chantée. Létude de la source glottique est donc particulièrement difficile. Objectifs :Lapproche envisagée consiste dans un premier temps à mettre au point un dispositif dexcitation du conduit vocal par une source acoustique synthétique dont les caractéristiques seront proches des ondes de débit glottiques, et dont les paramètres pourront être choisis librement. Une phase délicate de calibration sera nécessaire pour pouvoir déterminer quel signal dentrée appliquer au dispositif afin de générer la source acoustique adéquate. Un tel dispositif est en cours délaboration. Dans un deuxième temps, grâce à ce dispositif, de nouveaux protocoles détude de la production vocale pourront être mis en place. En particulier, une première étude permettra deffectuer une analyse-par-la-synthèse in vivo de la source glottique, réalisant une forme de filtrage inverse où le conduit vocal est réel. Une autre étude testera dans quelle mesure les modèles actuels de signaux donde de débit glottique (LF, R++, CALM) permettent dintégrer certains aspects de linteraction source-filtre (comme lasymétrie de limpulsion glottique). Enfin, lensemble du dispositif sera destiné à terme à être contrôlé en temps-réel avec pour objectif un contrôle gestuel expressif de la source vocale synthétique associé à un contrôle naturel des articulateurs de la bouche. Résultats : Des résultats sont attendus en terme de compréhension de la production vocale, de modélisation de la source glottique, et des interactions entre source glottique et conduit vocal. Parmi les retombées, le dispositif complet a un intérêt pédagogique pour lapprentissage des gestes articulatoires en voix chantée. Il a aussi un intérêt musical puisquun dispositif similaire mais beaucoup plus simple, la TalkBox, a été utilisé pour donner une qualité vocalique » à des sons de synthèse ou de guitare. Enfin, ce dispositif pourrait donner lieu à une version à usage médical pour les personnes ayant perdu temporairement ou définitivement lusage de leurs cordes vocales.
Sujet de these 2010- fiche francais.doc
Sujet développéContexte Depuis plus dun demi-siècle, la production vocale humaine est modélisée par la théorie source-filtre (Fant, 1960). Lors de la production de sons voisés, le mouvement vibratoire des cordes vocales génère une source de débit acoustique, qui charge le conduit vocal. Celui-ci se comporte comme un résonateur acoustique, caractérisé par sa fonction de transfert. Londe acoustique ainsi filtrée est ensuite rayonnée par les lèvres vers le milieu extérieur. Une hypothèse très forte de cette théorie est labsence dinteraction entre la source glottique et le filtre du conduit vocal. Cest cette hypothèse qui permet en particulier deffectuer une séparation de la source et du filtre par prédiction linéaire, méthode utilisée notamment en analyse, en synthèse, en reconnaissance, en codage et en transmission de la parole. Pourtant, des études récentes montrent limportance de prendre en compte ces interactions pour létude de la voix chantée et de la qualité vocale en parole. Cependant, létude de ces interactions est rendue délicate par le fait que linstrument vocal fait partie intégrante de lhumain. Très rares sont les dispositifs ou méthodes expérimentales permettant destimer des paramètres de la source ou du filtre séparément, la plupart étant invasifs, et les protocoles associés souvent très lourds. De plus aucun dispositif actuel ne permet de mesurer londe de débit directement à la sortie des cordes vocales in vivo, la source vocale nétant toujours estimée que de façon indirecte. Concernant la caractérisation du filtre, un dispositif tout à fait intéressant est limpédancemétrie développé par Epps et al. (1997) permettant de mesurer les fréquences de résonances du conduit vocal par injection dune source calibrée aux lèvres du chanteur durant la phonation. Cette approche ne permet que létude de voyelles tenues. Il nexiste à ce jour rien déquivalent pour caractériser la source glottique. ObjectifsLobjectif de la thèse est détudier et de modéliser la source glottique en confrontant la théorie source-filtre linéaire avec la réalité des productions vocales humaines. Pour cela, nous proposons de reprendre lidée de linjection de source mais de ladapter à une production semi-synthétique de voix : une source acoustique reconstituée injectée dans un conduit vocal réel. Plus précisément, le dispositif consiste à injecter une source acoustique calibrée dans le conduit vocal d'un chanteur et à enregistrer la réponse à cette charge acoustique par un microphone extérieur placé en sortie des lèvres. Par rapport au dispositif de Epps et al. où le signal injecté est un signal calibré destiné à exciter toutes les fréquences, notre dispositif permettra de générer nimporte quelle source acoustique simulant une onde de débit glottique. Et par rapport aux systèmes danalyse ou de synthèse traditionnels, lintérêt est ici dutiliser le conduit vocal réel comme résonateur avec toute sa complexité plutôt que de lestimer ou de le modéliser selon la théorie source filtre, plutôt simplificatrice (qui néglige les ondes stationnaires transversales, les pertes visco-thermiques, ). Déroulement de la thèseLa première étape du travail de thèse sera consacrée à calibrer le dispositif (actuellement en cours de réalisation) : il faudra déterminer le signal dentrée à appliquer au dispositif pour que celui-ci génère en sortie la source de débit souhaitée. Ce travail est en soi beaucoup plus complexe quune simple calibration »de type filtrage adapté, car la structure temporelle
Sujet de these 2010- fiche francais.doc
fine, les transitoires et les relations de phase sont primordiales dans le signal donde de débit glottique et doivent être préservées. De plus, la source glottique générée doit pouvoir être modifiée selon divers paramètres (fréquence fondamentale, quotient ouvert, etc.) et cela en temps-réel. Parmi les sources de débit à étudier, sont visés en priorité les signaux synthétiques correspondant aux modèles paramétriques donde de débit glottique utilisés en analyse et en synthèse de la parole et du chant (LF, R++, CALM). Il faudra sassurer que le dispositif est capable de générer ces sources de débit. Il faudra aussi vérifier, et cest un point clé, que limpédance de la source générée sera suffisamment grande pour ne pas interagir avec une charge acoustique (comme le conduit vocal ou un tube rigide). Cette partie du travail sera réalisée principalement au GIPSA-LAB. Une fois le dispositif calibré, la deuxième étape de la thèse consistera à définir et explorer de nouveaux protocoles détude de la production vocale. Lidée de ces protocoles est de comparer une production vocale réelle avec une production où la source glottique générée par le dispositif remplace la source glottique réelle. Lintérêt est deffectuer une estimation de la source glottique équivalente à la source réelle grâce à lanalyse du son résultant: il sagit donc de protocoles danalyse par la synthèse in vivo. Deux types de sources de débit peuvent être envisagées: soit les modèles donde de débit glottique, soit une source estimée itérativement pour que le son semi synthétique» approche au mieux le son naturel. La comparaison des deux mettra en évidence dans quelle mesure les modèles donde de débit glottique intègre certains aspects de linteraction source-filtre. On sintéressera en particulier à lasymétrie de londe de débit glottique qui reflète leffet du conduit vocal sur la source. Enfin, la dernière étape de la thèse consistera à relier ce dispositif à une interface de contrôle en temps-réel avec pour objectif un contrôle gestuel expressif de la source vocale synthétique associé à un contrôle naturel des articulateurs de la bouche. La partie de contrôle gestuel temps-réel sera traitée en collaboration avec Christophe dAlessandro du LIMSI-CNRS. Résultats attendus et applications
Les résultats attendus sont les suivants : - une meilleure compréhension des interactions source-filtre - une meilleure modélisation de la source glottique - la mise au point dun dispositif de synthèse de voix semi-synthétique contrôlée par le geste - un brevet sur ce dispositif Parmi les retombées, le dispositif complet a un intérêt pédagogique pour lapprentissage des gestes articulatoires en voix chantée, en particulier pour les aspects de qualité vocale, dajustement phono-résonantiel et defficacité vocale. Il a aussi un intérêt musical puisque lidée même dinjecter une source acoustique dans la bouche est née de la TalkBox », interface utilisée par certains musiciens des années 70 pour donner une qualité vocalique » à des sons de synthèse ou de guitare, qualité vocalique plus réaliste que les filtres wah-wah. Enfin, ce dispositif pourrait donner lieu à une version à usage médical pour les personnes ayant perdu temporairement ou définitivement lusage de leurs cordes vocales. Cest en particulier le cas des laryngectomisés qui ont à disposition des laryngophones ou électrolarynx (TruTone de Ceredas), systèmes actuels de type buzzer » étant plutôt limités du point de vue du contrôle de lexpressivité et de la qualité de timbre de la source.
Sujet de these 2010- fiche francais.doc
Références bibliographiques
Epps, J., Smith, J.R. & Wolfe, J. (1997) A novel instrument to measure acoustic resonances of the vocal tract during speech,Measurement Science and Technology8, 1112-1121.
Fant G. (1960)Acoustic theory of speech production, Mouton, La Hague.
Fant G., Liljencrants J., Lin Q. (1985) A four-parameter model of glottal flow, STL-QPSR vol.4, pp.1-13
Henrich N. (2001), Etude de la source glottique en voix parlée et chantée : modélisation et estimation, mesures acoustiques et électroglottographiques, perception, Thèse de doctorat de l'Université Paris 6.
Veldhuis R. (1998) A computationally efficient alternative for the liljencrants-Fant model and its perceptual evaluation. J. Acous. Soc. Am Vol. 103, pp. 566-571