Sujet de these 2010- fiche francais-DOVAL-envoyé-ED-modif-site-LAM

De
Publié par

ED SMAER Sujet de thèse 2010 Laboratoire : LAM-IJLRA Etablissement de rattachement : UPMC Directeur de thèse et section CNU ou CNRS : Jean-Dominique POLACK, CNU 60 Codirection et section CNU et CNRS : Boris DOVAL, CNU 61 Codirection et section CNU et CNRS : Nathalie HENRICH, GIPSA-LAB, CNRS 34 Titre de la thèse : Voix de substitution, voix augmentée : étude de la source de débit glottique par injection acoustique et analyse par la synthèse in vivo Collaborations dans le cadre de la thèse : Rattachement à un programme : Le sujet peut être publié sur le site web de l’EDSMAE : OUI Résumé du sujet : Contexte : L’une des difficultés majeures de l’étude des productions vocales est l’impossibilité d’étudier séparément la source de débit glottique et le résonateur acoustique constitué par le conduit vocal. De plus, il existe de fortes interactions entre les deux, en particulier en voix chantée. L’étude de la source glottique est donc particulièrement difficile. Objectifs : L’approche envisagée consiste dans un premier temps à mettre au point un dispositif d’excitation du conduit vocal par une source acoustique synthétique dont les caractéristiques seront proches des ondes de débit glottiques, et dont les paramètres pourront être choisis librement. Une phase délicate de calibration sera nécessaire pour pouvoir déterminer quel signal d’entrée appliquer au dispositif afin de générer la source acoustique adéquate. Un tel dispositif est en ...
Publié le : samedi 24 septembre 2011
Lecture(s) : 66
Nombre de pages : 4
Voir plus Voir moins
ED SMAER Sujet de thèse 2010 Laboratoire :LAM-IJLRAEtablissement de rattachement :UPMCDirecteur de thèse et section CNU ou CNRS :Jean-Dominique POLACK, CNU 60Codirection et section CNU et CNRS :Boris DOVAL, CNU 61Codirection et section CNU et CNRS :Nathalie HENRICH, GIPSA-LAB, CNRS 34Titre de la thèse :Voix de substitution, voix augmentée : étude de la source de débit glottique par injection acoustique et analyse par la synthèse in vivo Collaborations dans le cadre de la thèse : Rattachement à un programme : Le sujet peut être publié sur le site web de lEDSMAE :OUIRésumé du sujet : Contexte :Lune des difficultés majeures de létude des productions vocales est limpossibilité détudier séparément la source de débit glottique et le résonateur acoustique constitué par le conduit vocal. De plus, il existe de fortes interactions entre les deux, en particulier en voix chantée. Létude de la source glottique est donc particulièrement difficile. Objectifs :Lapproche envisagée consiste dans un premier temps à mettre au point un dispositif dexcitation du conduit vocal par une source acoustique synthétique dont les caractéristiques seront proches des ondes de débit glottiques, et dont les paramètres pourront être choisis librement. Une phase délicate de calibration sera nécessaire pour pouvoir déterminer quel signal dentrée appliquer au dispositif afin de générer la source acoustique adéquate. Un tel dispositif est en cours délaboration. Dans un deuxième temps, grâce à ce dispositif, de nouveaux protocoles détude de la production vocale pourront être mis en place. En particulier, une première étude permettra deffectuer une analyse-par-la-synthèse in vivo de la source glottique, réalisant une forme de filtrage inverse où le conduit vocal est réel. Une autre étude testera dans quelle mesure les modèles actuels de signaux donde de débit glottique (LF, R++, CALM) permettent dintégrer certains aspects de linteraction source-filtre (comme lasymétrie de limpulsion glottique). Enfin, lensemble du dispositif sera destiné à terme à être contrôlé en temps-réel avec pour objectif un contrôle gestuel expressif de la source vocale synthétique associé à un contrôle naturel des articulateurs de la bouche. Résultats : Des résultats sont attendus en terme de compréhension de la production vocale, de modélisation de la source glottique, et des interactions entre source glottique et conduit vocal. Parmi les retombées, le dispositif complet a un intérêt pédagogique pour lapprentissage des gestes articulatoires en voix chantée. Il a aussi un intérêt musical puisquun dispositif similaire mais beaucoup plus simple, la TalkBox, a été utilisé pour donner une qualité  vocalique » à des sons de synthèse ou de guitare. Enfin, ce dispositif pourrait donner lieu à une version à usage médical pour les personnes ayant perdu temporairement ou définitivement lusage de leurs cordes vocales.
Sujet de these 2010- fiche francais.doc
Sujet développéContexte Depuis plus dun demi-siècle, la production vocale humaine est modélisée par la théorie source-filtre (Fant, 1960). Lors de la production de sons voisés, le mouvement vibratoire des cordes vocales génère une source de débit acoustique, qui charge le conduit vocal. Celui-ci se comporte comme un résonateur acoustique, caractérisé par sa fonction de transfert. Londe acoustique ainsi filtrée est ensuite rayonnée par les lèvres vers le milieu extérieur. Une hypothèse très forte de cette théorie est labsence dinteraction entre la source glottique et le filtre du conduit vocal. Cest cette hypothèse qui permet en particulier deffectuer une séparation de la source et du filtre par prédiction linéaire, méthode utilisée notamment en analyse, en synthèse, en reconnaissance, en codage et en transmission de la parole. Pourtant, des études récentes montrent limportance de prendre en compte ces interactions pour létude de la voix chantée et de la qualité vocale en parole. Cependant, létude de ces interactions est rendue délicate par le fait que linstrument vocal fait partie intégrante de lhumain. Très rares sont les dispositifs ou méthodes expérimentales permettant destimer des paramètres de la source ou du filtre séparément, la plupart étant invasifs, et les protocoles associés souvent très lourds. De plus aucun dispositif actuel ne permet de mesurer londe de débit directement à la sortie des cordes vocales in vivo, la source vocale nétant toujours estimée que de façon indirecte. Concernant la caractérisation du filtre, un dispositif tout à fait intéressant est limpédancemétrie développé par Epps et al. (1997) permettant de mesurer les fréquences de résonances du conduit vocal par injection dune source calibrée aux lèvres du chanteur durant la phonation. Cette approche ne permet que létude de voyelles tenues. Il nexiste à ce jour rien déquivalent pour caractériser la source glottique. ObjectifsLobjectif de la thèse est détudier et de modéliser la source glottique en confrontant la théorie source-filtre linéaire avec la réalité des productions vocales humaines. Pour cela, nous proposons de reprendre lidée de linjection de source mais de ladapter à une production semi-synthétique de voix : une source acoustique reconstituée injectée dans un conduit vocal réel. Plus précisément, le dispositif consiste à injecter une source acoustique calibrée dans le conduit vocal d'un chanteur et à enregistrer la réponse à cette charge acoustique par un microphone extérieur placé en sortie des lèvres. Par rapport au dispositif de Epps et al. où le signal injecté est un signal calibré destiné à exciter toutes les fréquences, notre dispositif permettra de générer nimporte quelle source acoustique simulant une onde de débit glottique. Et par rapport aux systèmes danalyse ou de synthèse traditionnels, lintérêt est ici dutiliser le conduit vocal réel comme résonateur avec toute sa complexité plutôt que de lestimer ou de le modéliser selon la théorie source filtre, plutôt simplificatrice (qui néglige les ondes stationnaires transversales, les pertes visco-thermiques, ). Déroulement de la thèseLa première étape du travail de thèse sera consacrée à calibrer le dispositif (actuellement en cours de réalisation) : il faudra déterminer le signal dentrée à appliquer au dispositif pour que celui-ci génère en sortie la source de débit souhaitée. Ce travail est en soi beaucoup plus complexe quune simple calibration »de type filtrage adapté, car la structure temporelle
Sujet de these 2010- fiche francais.doc
fine, les transitoires et les relations de phase sont primordiales dans le signal donde de débit glottique et doivent être préservées. De plus, la source glottique générée doit pouvoir être modifiée selon divers paramètres (fréquence fondamentale, quotient ouvert, etc.) et cela en temps-réel. Parmi les sources de débit à étudier, sont visés en priorité les signaux synthétiques correspondant aux modèles paramétriques donde de débit glottique utilisés en analyse et en synthèse de la parole et du chant (LF, R++, CALM). Il faudra sassurer que le dispositif est capable de générer ces sources de débit. Il faudra aussi vérifier, et cest un point clé, que limpédance de la source générée sera suffisamment grande pour ne pas interagir avec une charge acoustique (comme le conduit vocal ou un tube rigide). Cette partie du travail sera réalisée principalement au GIPSA-LAB. Une fois le dispositif calibré, la deuxième étape de la thèse consistera à définir et explorer de nouveaux protocoles détude de la production vocale. Lidée de ces protocoles est de comparer une production vocale réelle avec une production où la source glottique générée par le dispositif remplace la source glottique réelle. Lintérêt est deffectuer une estimation de la source glottique équivalente à la source réelle grâce à lanalyse du son résultant: il sagit donc de protocoles danalyse par la synthèse in vivo. Deux types de sources de débit peuvent être envisagées: soit les modèles donde de débit glottique, soit une source estimée itérativement pour que le son semi synthétique» approche au mieux le son naturel. La comparaison des deux mettra en évidence dans quelle mesure les modèles donde de débit glottique intègre certains aspects de linteraction source-filtre. On sintéressera en particulier à lasymétrie de londe de débit glottique qui reflète leffet du conduit vocal sur la source. Enfin, la dernière étape de la thèse consistera à relier ce dispositif à une interface de contrôle en temps-réel avec pour objectif un contrôle gestuel expressif de la source vocale synthétique associé à un contrôle naturel des articulateurs de la bouche. La partie de contrôle gestuel temps-réel sera traitée en collaboration avec Christophe dAlessandro du LIMSI-CNRS. Résultats attendus et applications
Les résultats attendus sont les suivants : - une meilleure compréhension des interactions source-filtre - une meilleure modélisation de la source glottique - la mise au point dun dispositif de synthèse de voix semi-synthétique contrôlée par le geste - un brevet sur ce dispositif Parmi les retombées, le dispositif complet a un intérêt pédagogique pour lapprentissage des gestes articulatoires en voix chantée, en particulier pour les aspects de qualité vocale, dajustement phono-résonantiel et defficacité vocale. Il a aussi un intérêt musical puisque lidée même dinjecter une source acoustique dans la bouche est née de la  TalkBox », interface utilisée par certains musiciens des années 70 pour donner une qualité  vocalique » à des sons de synthèse ou de guitare, qualité vocalique plus réaliste que les filtres wah-wah. Enfin, ce dispositif pourrait donner lieu à une version à usage médical pour les personnes ayant perdu temporairement ou définitivement lusage de leurs cordes vocales. Cest en particulier le cas des laryngectomisés qui ont à disposition des laryngophones ou électrolarynx (TruTone de Ceredas), systèmes actuels de type buzzer » étant plutôt limités du point de vue du contrôle de lexpressivité et de la qualité de timbre de la source.
Sujet de these 2010- fiche francais.doc
Références bibliographiques
Epps, J., Smith, J.R. & Wolfe, J. (1997) A novel instrument to measure acoustic resonances of the vocal tract during speech,Measurement Science and Technology8, 1112-1121.
Fant G. (1960)Acoustic theory of speech production, Mouton, La Hague.
Fant G., Liljencrants J., Lin Q. (1985) A four-parameter model of glottal flow, STL-QPSR vol.4, pp.1-13
Henrich N. (2001), Etude de la source glottique en voix parlée et chantée : modélisation et estimation, mesures acoustiques et électroglottographiques, perception, Thèse de doctorat de l'Université Paris 6.
Veldhuis R. (1998) A computationally efficient alternative for the liljencrants-Fant model and its perceptual evaluation. J. Acous. Soc. Am Vol. 103, pp. 566-571
Sujet de these 2010- fiche francais.doc
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.