INGE_SYNTHESE_2010-2011_TH_LG

icon

1

page

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

1

page

icon

Français

icon

Ebook

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Département Parole & Cognition
Equipe MAGIC
Synthèse de parole à partir du texte :
Approche statistique sur grands corpus
Contexte
La synthèse de parole à partir du texte permet de faire prononcer du texte libre à un ordinateur. Un système de
synthèse est généralement composé de 4 composants essentiels :
1. Un analyseur de texte qui extrait de la suite de caractères des connaissances sur la structure linguistique :
segmentation en mots, analyse morphologique, structure syntaxique, etc.
2. Un module de passage entre structure textuelle et structure phonologique : conversion graphème-phonème,
syllabation, accentuation et marquage prosodique, etc.
3. Un module de synthèse qui produit une représentation paramétrique du signal à partir de la structure
phonologique (notamment durée des sons, intensité, et fréquence fondamentale pour la mélodie de la parole)
4. Un vocodeur qui génère un signal acoustique audible respectant la paramétrisation de l’étape précédente
La méthode de synthèse la plus populaire jusqu’à ces dernières années repose sur l’utilisation de tronçons de signaux
préenregistrés, puisés dans des bases de signaux importantes, comprenant les multiples prononciations en contexte
de tous les sons d’une langue. Pour une structure phonologique donnée, fournie par l’étape 2, le système sélectionne
les meilleurs tronçons correspondants et les concatène, en respectant au mieux la paramétrisation fournie par l’étape
3. Des techniques de traitement du ...
Voir icon arrow

Publié par

Nombre de lectures

74

Langue

Français

Département Parole & Cognition Equipe MAGIC
Synthèse de parole à partir du texte : Approche statistique sur grands corpus
Contexte La synthèse de parole à partir du texte permet de faire prononcer du texte libre à un ordinateur. Un système de synthèse est généralement composé de 4 composants essentiels : 1.Un analyseur de texte qui extrait de la suite de caractères des connaissances sur la structure linguistique: segmentation en mots, analyse morphologique, structure syntaxique, etc. 2.Un module de passage entre structure textuelle et structure phonologique : conversion graphème-phonème, syllabation, accentuation et marquage prosodique, etc. 3.Un module de synthèse qui produit une représentation paramétrique du signal à partir de la structure phonologique (notamment durée des sons, intensité, et fréquence fondamentale pour la mélodie de la parole) 4.Un vocodeur qui génère un signal acoustique audible respectant la paramétrisation de l’étape précédente La méthode de synthèse la plus populaire jusqu’à ces dernières années repose sur l’utilisation de tronçons de signaux préenregistrés, puisés dans des bases de signaux importantes, comprenant les multiples prononciations en contexte de tous les sons d’une langue. Pour une structure phonologique donnée, fournie par l’étape 2, le système sélectionne les meilleurs tronçons correspondants et les concatène, en respectant au mieux la paramétrisation fournie par l’étape 3. Des techniques de traitement du signal de type lissage viennent éventuellement affiner le résultat. Le gros problème de cette approche est l’inhomogénéité de la qualité des productions vocales du locuteur (notamment fatigue du locuteur résultant de la durée des enregistrements étalés sur plusieurs jours), la segmentation automatique des signaux, et les critères de sélection de segments multi-représentés. Récemment, les techniques de modélisation statistique empruntées au domaine de la reconnaissance de parole ont fait leur apparition. Chaque tronçon est vu comme la suite d’observations générées par un processus Markovien ergodique. Les paramètres de chaque chaîne de Markov Cachée sont optimisés par l’algorithme EM (Expectation Maximisation). Des outils d’analyse statistique permettent alors de mettre en commun des paramètres, et de trier entre critères de sélection de manière homogène. Dans le challenge Blizzard (http://festvox.org/blizzard/) qui évalue annuellement la qualité des systèmes de synthèse de parole, les techniques de modélisation statistique commencent à prendre le pas sur les méthodes par sélection d’unités. Sujet Le but de ce stage est d’implémenter une première version d’un système de synthèse du français par modélisation statistique en exploitant les divers outils libres et gratuits déjà disponibles (HTK, HTS, etc). L’originalité de ce projet est de travailler dès le départ sur de grosses bases de données orales : les livres audio. En effet, des centaines de locuteurs amateurs ou professionnels ont enregistrés des heures de parole (voir par exemple les 7h 42min de Romy Riaud disponibles sur http://www.litteratureaudio.com/livre-audio-gratuit-mp3) avec des textes souvent bien écrits et faciles à lire. Le travail comporte 4 phases principales : ·Mise en œuvre de techniques semi-automatiques de segmentation et d’alignement de textes sur de l’audio. On exploitera la boîte à outils HTK développée à l’université d’Edimbourg. Le principal problème est le traitement des pauses, souvent non alignées avec la ponctuation. L’objectif est de disposer d’un corpus aligné relativement propre d’une heure de parole pour commencer. ·Mise en œuvre d’un premier système de synthèse statistique exploitant la boîte à outils HTS développée par l’équipe de Keiichi Tokuda au Nitech (Japon). ·Test de divers vocodeurs, divers critères de sélection, et divers critères d’optimisation (MLE, MSE, etc.) ·Evaluation perceptive de la synthèse en fin de stage Thématiques abordées dans le stage ·Traitement du signal, traitement automatique de la langue, modélisation statistique, chaînes de Markov Compétences requises ·Traitement du signal, notions de statistique, maitrise de Matlab Contacts Gérard BaillyGIPSA-lab 0476 57 47 11Gerard.Bailly@gipsa-lab.inpg.fr Laurent GirinGIPSA-lab 0476 57 45 37Laurent.Girin@gipsa-lab.inpg.fr Thomas HueberGIPSA-lab 0476 57 49 40Thomas.Hueber@gipsa-lab.inpg.frIndemnités de stage Ce stage fait l’objet d’une indemnité fixée annuellement par le conseil de laboratoire, de l’ordre de 400€ mensuels.
Voir icon more
Alternate Text