Sujet de thèse Structuration statistique non supervisée de ...

2 pages

Français

Sujet de thèse Structuration statistique non supervisée de ...

Epsoe - Jf Bonastre

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

2 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujet de thèse
Structuration statistique non supervisée de l’espace acoustique
pour la reconnaissance de la langue parlée
Jean-François Bonastre
MCF (HDR) LIA, Université d’Avignon
Membre de l’Institut Universitaire de France

Description générale
La reconnaissance de la langue parlée consiste à détecter de manière automatique la langue dans
laquelle sont prononcés des messages vocaux. Bien entendu, seules les langues appartenant à un sous-
ensemble de langues déjà connues du système peuvent être reconnues. L’approche dominante en
reconnaissance de la langue consiste à construire un reconnaisseur de parole simplifié pour chacune
des langues recherchées, l’ensemble des reconnaisseurs de parole étant appliqué sur chaque message
vocal géré par le système [1]. Une langue est alors modélisée par la réaction de l’ensemble des
reconnaisseurs de parole lorsqu’ils sont en présence d’un enregistrement prononcé dans ladite langue.
Cette approche offre un niveau de performance très intéressant mais introduit également des
contraintes importantes. En effet, pour reconnaître une langue donnée, il est nécessaire de disposer des
ressources nécessaires à la création du reconnaisseur de parole associé, soit un corpus de parole
étiquetée de grande taille et relativement homogène au niveau des conditions d’enregistrement (parole
de qualité studio, parole téléphonique, données radiophoniques, enregistrements de réunions…) et du
type de parole employé (parole lue, parole ...

Sujets

Langage parlé complété

11e étape du Tour d'Espagne 2009

Usain Bolt

Normalisation des données postales

D'une ombre à l'autre

Cordiste

Informations

Publié par	Epsoe
Nombre de lectures	121
Langue	Français

Extrait

Sujet de thèse

Structuration statistique non supervisée de l’espace acoustique

pour la reconnaissance de la langue parlée

Jean-François Bonastre

MCF (HDR) LIA, Université d’Avignon

Membre de l’Institut Universitaire de France

Description générale

La reconnaissance de la langue parlée consiste à détecter de manière automatique la langue dans

laquelle sont prononcés des messages vocaux. Bien entendu, seules les langues appartenant à un sous-

ensemble de langues déjà connues du système peuvent être reconnues. L’approche dominante en

reconnaissance de la langue consiste à construire un reconnaisseur de parole simplifié pour chacune

des langues recherchées, l’ensemble des reconnaisseurs de parole étant appliqué sur chaque message

vocal géré par le système [1]. Une langue est alors modélisée par la réaction de l’ensemble des

reconnaisseurs de parole lorsqu’ils sont en présence d’un enregistrement prononcé dans ladite langue.

Cette approche offre un niveau de performance très intéressant mais introduit également des

contraintes importantes. En effet, pour reconnaître une langue donnée, il est nécessaire de disposer des

ressources nécessaires à la création du reconnaisseur de parole associé, soit un corpus de parole

étiquetée de grande taille et relativement homogène au niveau des conditions d’enregistrement (parole

de qualité studio, parole téléphonique, données radiophoniques, enregistrements de réunions…) et du

type de parole employé (parole lue, parole promptée, parole conversationnelle, parole spontanée…).

De même, un travail d’ingénierie non négligeable est nécessaire pour bâtir les différents

reconnaisseurs de parole, une foi que les corpus adaptés ont été réunis.

De plus, la richesse de l’information présente dans le signal de parole est peu exploitée par ce type de

méthode, car limitée aux informations que prennent en compte les moteurs sous-jacents de

reconnaissance de la parole.

Cette thèse propose une méthode s’inspirant des précédentes mais remplaçant les informations

supervisées, dites « de haut niveau » (comme les phonèmes ou les mots dépendants d’une langue

précise), par des unités issues d’un système de classification non supervisé. L’avantage majeur d’une

telle approche consiste en un ajout aisé et automatisé d’une nouvelle langue, même peu dotée en terme

de ressources disponibles ; seul un corpus de parole non étiquetée devient nécessaire (et sans travail

d’ingénierie spécifique). Cette approche autorise également une grande adaptabilité du système au

type de parole rencontrée, en facilitant les étapes de normalisation des données acoustiques, telle que

cela est réalisé en reconnaissance du locuteur (la normalisation est facilitée par le fait que l’ensemble

des complexes reconnaisseurs de parole est ici remplacé par un unique mécanisme non supervisé

d’extraction d’unités acoustiques). Enfin, l’approche proposée permet également de prendre en compte

des informations différentes, en n’étant plus liée à la structure des reconnaisseurs de parole.

Existant

Ce travail de thèse prolonge les travaux entrepris au LIA dans le cadre de la thèse de Nicolas Scheffer

(thèse DGA soutenue en Décembre 2006)[2][3]. Durant cette thèse, une approche du même type a été

employée avec succès pour la reconnaissance du locuteur. Différents travaux dans le domaine de la

reconnaissance de la langue [4] prouvent que cette démarche est bien adaptée au problème de la

reconnaissance de la langue parlée.

Le LIA dispose également d’une plateforme logicielle (distribuée en logiciel libre)[5][6] de

reconnaissance du locuteur dans laquelle les dernières avancées liées à la normalisation des données

ont été intégrées [7][8]. Le niveau de performance atteint par cette plateforme (au niveau des meilleurs

systèmes présentés durant la campagne NIST-SRE 2006) montre le potentiel de ces approches dans le

cadre de la reconnaissance de la langue.

Travail envisagé

De manière plus technique, le sujet se décompose en plusieurs étapes, réalisables pour certaines en

parallèle :

•

Tokenization – Cette étape consiste à construire un dictionnaire d’événements acoustiques

prenant simultanément en compte une définition variable au niveau cepstrale et des

informations séquentielles de longueur variable. La définition cepstrale variable est réalisée

par une classification issue d’une modélisation GMM suivie d’un regroupement hiérarchique

des symboles. La recherche des séquences sera effectuée soit à l’aide d’approches de type

ngram, soit à l’aide d’approches issues de la théorie de l’information, permettant de

représenter de la manière la plus concise possible l’information portée par les séquences des

symboles précédemment établis. L’ensemble de ces procédés restera non supervisé, i.e.

capable de prendre des données de toute langue et de toute nature en entrée.

•

Classification par SVM – Cette étape consiste à définir le noyau optimal pour le type

d’information à traiter dans le cadre de l’approche proposée. La normalisation des données

dans le « feature space » des SVM sera particulièrement mise en avant.

•

Apport des normalisations de type LFA (Latent Factor Analysis) / NAP (Nuisance Attenuation

Projection) pour la reconnaissance de la langue – Deux aspects seront traités dans cette partie.

D’une part, l’apport de LFA et de NAP pour diminuer les effets dus au locuteur et au canal

d’enregistrement sera mesuré. Enfin, l’influence de ces méthodes sur la constitution des

corpus nécessaire à l’apprentissage d’une nouvelle langue sera également prise en compte.

•

Validation - Les travaux proposés durant ce travail de thèse seront évalués régulièrement au

travers des différentes campagnes d’évaluation internationales, dont NIST/LRE

et SRE

(Speaker Recognition Evaluation).

Cadre de travail

Ce travail de thèse se déroulera au LIA, dans le cadre d’une convention entre le LIA et l’Université de

Fribourg. En cas d’accord de la DGA, les deux partenaires souhaitent que cette convention

corresponde à une thèse en cotutelle. Le LIA possède une grande maîtrise des approches récentes

utilisées en reconnaissance du locuteur alors que l’Université de Fribourg a une expérience de la

reconnaissance de la langue validée à travers la participation à la campagne NIST/LRE (Language

Recognition Evaluation).

Références

[1] C. Corredor-Ardoy. et al. Language Identification with Language-independent acoustic models. In Proc.

Eurospeech, Grèce, 1997.

[2] Nicolas Scheffer Structuration de l’espace acoustique par le modèle générique pour la vérification du

locuteur, thèse de Doctorat de l’Univeristé d’Avignon, 2006

[3] Nicolas Scheffer, Jean Francois Bonastre, UBM-driven discriminative approach for Speaker Verification,

2006 Puerto Rico, USA, Odyssey 06 "IBM best paper student award"

[4] Pedro A. Torres-Carrasquillo1, 2, Douglas A. Reynolds2 and J.R. Deller, Jr.

Language Identification usingGaussian Mixture Model Tokenization, Proceedings of International

Conference on Acoustics Speech and Signal Processing (ICASSP 2002), Volume 1. 59

[5] J.-F. Bonastre, F. Wils, et S. Meignier, 2005. Alize, a free toolkit for speaker recognition. Proceedings of

International Conference on Acoustics Speech and Signal Processing (ICASSP 2005), Philadelphia, USA,

Philadelphia, USA.

[6] http://www.lia.univ-avignon.fr/heberges/ALIZE/

[7] P. Kenny, G. Boulianne, P. Ouellet, et P. Dumouchel, 2005b. Factor Analysis Simplified. Proceedings of

International Conference on Acoustics Speech and Signal (ICASSP 2005), Philadelphia, USA, Volume 1. 32,

116, 119

[8] W. Campbell, D. Sturim, et D. Reynolds, 2006. Support Vector Machines Using GMM Supervectors for

Speaker Verification. Signal Processing Letters, IEEE 13(5), 308–311.

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

Livre audio en ligne - Développement personnel Livre en ligne Tout le catalogue Tous les Intérêts

Sujet de thèse Structuration statistique non supervisée de ...

Langage parlé complété

11e étape du Tour d'Espagne 2009

Usain Bolt

Normalisation des données postales

D'une ombre à l'autre

Cordiste

YouScribe

Le catalogue

Le service

Les conditions