Sujet de thèse Structuration statistique non supervisée de ...

De
Publié par

Sujet de thèse
Structuration statistique non supervisée de l’espace acoustique
pour la reconnaissance de la langue parlée
Jean-François Bonastre
MCF (HDR) LIA, Université d’Avignon
Membre de l’Institut Universitaire de France

Description générale
La reconnaissance de la langue parlée consiste à détecter de manière automatique la langue dans
laquelle sont prononcés des messages vocaux. Bien entendu, seules les langues appartenant à un sous-
ensemble de langues déjà connues du système peuvent être reconnues. L’approche dominante en
reconnaissance de la langue consiste à construire un reconnaisseur de parole simplifié pour chacune
des langues recherchées, l’ensemble des reconnaisseurs de parole étant appliqué sur chaque message
vocal géré par le système [1]. Une langue est alors modélisée par la réaction de l’ensemble des
reconnaisseurs de parole lorsqu’ils sont en présence d’un enregistrement prononcé dans ladite langue.
Cette approche offre un niveau de performance très intéressant mais introduit également des
contraintes importantes. En effet, pour reconnaître une langue donnée, il est nécessaire de disposer des
ressources nécessaires à la création du reconnaisseur de parole associé, soit un corpus de parole
étiquetée de grande taille et relativement homogène au niveau des conditions d’enregistrement (parole
de qualité studio, parole téléphonique, données radiophoniques, enregistrements de réunions…) et du
type de parole employé (parole lue, parole ...
Voir plus Voir moins
Sujet de thèse
Structuration statistique non supervisée de l’espace acoustique
pour la reconnaissance de la langue parlée
Jean-François Bonastre
MCF (HDR) LIA, Université d’Avignon
Membre de l’Institut Universitaire de France
Description générale
La reconnaissance de la langue parlée consiste à détecter de manière automatique la langue dans
laquelle sont prononcés des messages vocaux. Bien entendu, seules les langues appartenant à un sous-
ensemble de langues déjà connues du système peuvent être reconnues. L’approche dominante en
reconnaissance de la langue consiste à construire un reconnaisseur de parole simplifié pour chacune
des langues recherchées, l’ensemble des reconnaisseurs de parole étant appliqué sur chaque message
vocal géré par le système [1]. Une langue est alors modélisée par la réaction de l’ensemble des
reconnaisseurs de parole lorsqu’ils sont en présence d’un enregistrement prononcé dans ladite langue.
Cette approche offre un niveau de performance très intéressant mais introduit également des
contraintes importantes. En effet, pour reconnaître une langue donnée, il est nécessaire de disposer des
ressources nécessaires à la création du reconnaisseur de parole associé, soit un corpus de parole
étiquetée de grande taille et relativement homogène au niveau des conditions d’enregistrement (parole
de qualité studio, parole téléphonique, données radiophoniques, enregistrements de réunions…) et du
type de parole employé (parole lue, parole promptée, parole conversationnelle, parole spontanée…).
De même, un travail d’ingénierie non négligeable est nécessaire pour bâtir les différents
reconnaisseurs de parole, une foi que les corpus adaptés ont été réunis.
De plus, la richesse de l’information présente dans le signal de parole est peu exploitée par ce type de
méthode, car limitée aux informations que prennent en compte les moteurs sous-jacents de
reconnaissance de la parole.
Cette thèse propose une méthode s’inspirant des précédentes mais remplaçant les informations
supervisées, dites « de haut niveau » (comme les phonèmes ou les mots dépendants d’une langue
précise), par des unités issues d’un système de classification non supervisé. L’avantage majeur d’une
telle approche consiste en un ajout aisé et automatisé d’une nouvelle langue, même peu dotée en terme
de ressources disponibles ; seul un corpus de parole non étiquetée devient nécessaire (et sans travail
d’ingénierie spécifique). Cette approche autorise également une grande adaptabilité du système au
type de parole rencontrée, en facilitant les étapes de normalisation des données acoustiques, telle que
cela est réalisé en reconnaissance du locuteur (la normalisation est facilitée par le fait que l’ensemble
des complexes reconnaisseurs de parole est ici remplacé par un unique mécanisme non supervisé
d’extraction d’unités acoustiques). Enfin, l’approche proposée permet également de prendre en compte
des informations différentes, en n’étant plus liée à la structure des reconnaisseurs de parole.
Existant
Ce travail de thèse prolonge les travaux entrepris au LIA dans le cadre de la thèse de Nicolas Scheffer
(thèse DGA soutenue en Décembre 2006)[2][3]. Durant cette thèse, une approche du même type a été
employée avec succès pour la reconnaissance du locuteur. Différents travaux dans le domaine de la
reconnaissance de la langue [4] prouvent que cette démarche est bien adaptée au problème de la
reconnaissance de la langue parlée.
Le LIA dispose également d’une plateforme logicielle (distribuée en logiciel libre)[5][6] de
reconnaissance du locuteur dans laquelle les dernières avancées liées à la normalisation des données
ont été intégrées [7][8]. Le niveau de performance atteint par cette plateforme (au niveau des meilleurs
systèmes présentés durant la campagne NIST-SRE 2006) montre le potentiel de ces approches dans le
cadre de la reconnaissance de la langue.
Travail envisagé
De manière plus technique, le sujet se décompose en plusieurs étapes, réalisables pour certaines en
parallèle :
Tokenization – Cette étape consiste à construire un dictionnaire d’événements acoustiques
prenant simultanément en compte une définition variable au niveau cepstrale et des
informations séquentielles de longueur variable. La définition cepstrale variable est réalisée
par une classification issue d’une modélisation GMM suivie d’un regroupement hiérarchique
des symboles. La recherche des séquences sera effectuée soit à l’aide d’approches de type
ngram, soit à l’aide d’approches issues de la théorie de l’information, permettant de
représenter de la manière la plus concise possible l’information portée par les séquences des
symboles précédemment établis. L’ensemble de ces procédés restera non supervisé, i.e.
capable de prendre des données de toute langue et de toute nature en entrée.
Classification par SVM – Cette étape consiste à définir le noyau optimal pour le type
d’information à traiter dans le cadre de l’approche proposée. La normalisation des données
dans le « feature space » des SVM sera particulièrement mise en avant.
Apport des normalisations de type LFA (Latent Factor Analysis) / NAP (Nuisance Attenuation
Projection) pour la reconnaissance de la langue – Deux aspects seront traités dans cette partie.
D’une part, l’apport de LFA et de NAP pour diminuer les effets dus au locuteur et au canal
d’enregistrement sera mesuré. Enfin, l’influence de ces méthodes sur la constitution des
corpus nécessaire à l’apprentissage d’une nouvelle langue sera également prise en compte.
Validation - Les travaux proposés durant ce travail de thèse seront évalués régulièrement au
travers des différentes campagnes d’évaluation internationales, dont NIST/LRE
et SRE
(Speaker Recognition Evaluation).
Cadre de travail
Ce travail de thèse se déroulera au LIA, dans le cadre d’une convention entre le LIA et l’Université de
Fribourg. En cas d’accord de la DGA, les deux partenaires souhaitent que cette convention
corresponde à une thèse en cotutelle. Le LIA possède une grande maîtrise des approches récentes
utilisées en reconnaissance du locuteur alors que l’Université de Fribourg a une expérience de la
reconnaissance de la langue validée à travers la participation à la campagne NIST/LRE (Language
Recognition Evaluation).
Références
[1] C. Corredor-Ardoy. et al. Language Identification with Language-independent acoustic models. In Proc.
Eurospeech, Grèce, 1997.
[2] Nicolas Scheffer Structuration de l’espace acoustique par le modèle générique pour la vérification du
locuteur, thèse de Doctorat de l’Univeristé d’Avignon, 2006
[3] Nicolas Scheffer, Jean Francois Bonastre, UBM-driven discriminative approach for Speaker Verification,
2006 Puerto Rico, USA, Odyssey 06 "IBM best paper student award"
[4] Pedro A. Torres-Carrasquillo1, 2, Douglas A. Reynolds2 and J.R. Deller, Jr.
Language Identification usingGaussian Mixture Model Tokenization, Proceedings of International
Conference on Acoustics Speech and Signal Processing (ICASSP 2002), Volume 1. 59
78
[5] J.-F. Bonastre, F. Wils, et S. Meignier, 2005. Alize, a free toolkit for speaker recognition. Proceedings of
International Conference on Acoustics Speech and Signal Processing (ICASSP 2005), Philadelphia, USA,
Philadelphia, USA.
[6] http://www.lia.univ-avignon.fr/heberges/ALIZE/
[7] P. Kenny, G. Boulianne, P. Ouellet, et P. Dumouchel, 2005b. Factor Analysis Simplified. Proceedings of
International Conference on Acoustics Speech and Signal (ICASSP 2005), Philadelphia, USA, Volume 1. 32,
116, 119
[8] W. Campbell, D. Sturim, et D. Reynolds, 2006. Support Vector Machines Using GMM Supervectors for
Speaker Verification. Signal Processing Letters, IEEE 13(5), 308–311.
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.