INGE_SYNTHESE_2010-2011_TH_LG

Fusec - Bailly

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

1 page

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Département Parole & Cognition
Equipe MAGIC
Synthèse de parole à partir du texte :
Approche statistique sur grands corpus
Contexte
La synthèse de parole à partir du texte permet de faire prononcer du texte libre à un ordinateur. Un système de
synthèse est généralement composé de 4 composants essentiels :
1. Un analyseur de texte qui extrait de la suite de caractères des connaissances sur la structure linguistique :
segmentation en mots, analyse morphologique, structure syntaxique, etc.
2. Un module de passage entre structure textuelle et structure phonologique : conversion graphème-phonème,
syllabation, accentuation et marquage prosodique, etc.
3. Un module de synthèse qui produit une représentation paramétrique du signal à partir de la structure
phonologique (notamment durée des sons, intensité, et fréquence fondamentale pour la mélodie de la parole)
4. Un vocodeur qui génère un signal acoustique audible respectant la paramétrisation de l’étape précédente
La méthode de synthèse la plus populaire jusqu’à ces dernières années repose sur l’utilisation de tronçons de signaux
préenregistrés, puisés dans des bases de signaux importantes, comprenant les multiples prononciations en contexte
de tous les sons d’une langue. Pour une structure phonologique donnée, fournie par l’étape 2, le système sélectionne
les meilleurs tronçons correspondants et les concatène, en respectant au mieux la paramétrisation fournie par l’étape
3. Des techniques de traitement du ...

Sujets

Modélisation des données

Traitement du signal

Segmentation (informatique)

Durée maximale d'interruption admissible

Sonsoles Espinosa

Paramétrage

Informations

Publié par	Fusec
Nombre de lectures	74
Langue	Français

Extrait

Département Parole & Cognition Equipe MAGIC

Synthèse de parole à partir du texte : Approche statistique sur grands corpus

Contexte La synthèse de parole à partir du texte permet de faire prononcer du texte libre à un ordinateur. Un système de synthèse est généralement composé de 4 composants essentiels : 1.Un analyseur de texte qui extrait de la suite de caractères des connaissances sur la structure linguistique: segmentation en mots, analyse morphologique, structure syntaxique, etc. 2.Un module de passage entre structure textuelle et structure phonologique : conversion graphème-phonème, syllabation, accentuation et marquage prosodique, etc. 3.Un module de synthèse qui produit une représentation paramétrique du signal à partir de la structure phonologique (notamment durée des sons, intensité, et fréquence fondamentale pour la mélodie de la parole) 4.Un vocodeur qui génère un signal acoustique audible respectant la paramétrisation de l’étape précédente La méthode de synthèse la plus populaire jusqu’à ces dernières années repose sur l’utilisation de tronçons de signaux préenregistrés, puisés dans des bases de signaux importantes, comprenant les multiples prononciations en contexte de tous les sons d’une langue. Pour une structure phonologique donnée, fournie par l’étape 2, le système sélectionne les meilleurs tronçons correspondants et les concatène, en respectant au mieux la paramétrisation fournie par l’étape 3. Des techniques de traitement du signal de type lissage viennent éventuellement affiner le résultat. Le gros problème de cette approche est l’inhomogénéité de la qualité des productions vocales du locuteur (notamment fatigue du locuteur résultant de la durée des enregistrements étalés sur plusieurs jours), la segmentation automatique des signaux, et les critères de sélection de segments multi-représentés. Récemment, les techniques de modélisation statistique empruntées au domaine de la reconnaissance de parole ont fait leur apparition. Chaque tronçon est vu comme la suite d’observations générées par un processus Markovien ergodique. Les paramètres de chaque chaîne de Markov Cachée sont optimisés par l’algorithme EM (Expectation Maximisation). Des outils d’analyse statistique permettent alors de mettre en commun des paramètres, et de trier entre critères de sélection de manière homogène. Dans le challenge Blizzard (http://festvox.org/blizzard/) qui évalue annuellement la qualité des systèmes de synthèse de parole, les techniques de modélisation statistique commencent à prendre le pas sur les méthodes par sélection d’unités. Sujet Le but de ce stage est d’implémenter une première version d’un système de synthèse du français par modélisation statistique en exploitant les divers outils libres et gratuits déjà disponibles (HTK, HTS, etc). L’originalité de ce projet est de travailler dès le départ sur de grosses bases de données orales : les livres audio. En effet, des centaines de locuteurs amateurs ou professionnels ont enregistrés des heures de parole (voir par exemple les 7h 42min de Romy Riaud disponibles sur http://www.litteratureaudio.com/livre-audio-gratuit-mp3) avec des textes souvent bien écrits et faciles à lire. Le travail comporte 4 phases principales : ·Mise en œuvre de techniques semi-automatiques de segmentation et d’alignement de textes sur de l’audio. On exploitera la boîte à outils HTK développée à l’université d’Edimbourg. Le principal problème est le traitement des pauses, souvent non alignées avec la ponctuation. L’objectif est de disposer d’un corpus aligné relativement propre d’une heure de parole pour commencer. ·Mise en œuvre d’un premier système de synthèse statistique exploitant la boîte à outils HTS développée par l’équipe de Keiichi Tokuda au Nitech (Japon). ·Test de divers vocodeurs, divers critères de sélection, et divers critères d’optimisation (MLE, MSE, etc.) ·Evaluation perceptive de la synthèse en fin de stage Thématiques abordées dans le stage ·Traitement du signal, traitement automatique de la langue, modélisation statistique, chaînes de Markov Compétences requises ·Traitement du signal, notions de statistique, maitrise de Matlab Contacts Gérard BaillyGIPSA-lab 0476 57 47 11Gerard.Bailly@gipsa-lab.inpg.fr Laurent GirinGIPSA-lab 0476 57 45 37Laurent.Girin@gipsa-lab.inpg.fr Thomas HueberGIPSA-lab 0476 57 49 40Thomas.Hueber@gipsa-lab.inpg.frIndemnités de stage Ce stage fait l’objet d’une indemnité fixée annuellement par le conseil de laboratoire, de l’ordre de 400€ mensuels.

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

INGE_SYNTHESE_2010-2011_TH_LG

Modélisation des données

Traitement du signal

Segmentation (informatique)

Durée maximale d'interruption admissible

Sonsoles Espinosa

Paramétrage

YouScribe

Le catalogue

Le service

Les conditions