THÈSE Surveillance de réseaux professionnels de communication par ...
197 pages
Français

THÈSE Surveillance de réseaux professionnels de communication par ...

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
197 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 166 I2S « Mathématiques et Informatique»
Laboratoire d’Informatique d’Avignon (EA 4128)
Surveillance de réseaux professionnels de
communication par la reconnaissance du locuteur
par
Alexandre PRETI
Thèse soutenue publiquement le 10 décembre 2008 devant un jury composé de :
M. Patrick VERLINDE Professeur, Royal Military Academy, Bruxelles Président du jury
M. Frédéric BIMBOT DR/CNRS, IRISA/INRIA, Rennes Rapporteur
M. Sébastien MARCEL Senior Researcher, IDIAP, Martigny, Suisse
M. John MASON Professeur, UWS, Swansea, Royaume Uni Examinateur
M. Claude BARRAS Maître de Conférences, LIMSI, Orsay
M. Jean-François BONASTRE Professeur, LIA, Avignon Directeur de thèse
M. François CAPMAN Ingénieur, THALES, Colombes Co-Encadrant
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon Résumé
Ce travail de thèse s’intéresse à la reconnaissance automatique du locuteur (RAL)
dans les réseaux professionnels de communication (Private Mobile Radio networks : PMR).
Plus précisément, nous nous intéressons à la surveillance des utilisateurs en cours de
communication pour détecter un changement de locuteur, issu du vol ou du prêt d’un
terminal de communication. Les systèmes « état de l’art » de RAL présentent aujour-
d’hui de très bonnes performances sur des ...

Sujets

Informations

Publié par
Nombre de lectures 424
Langue Français
Poids de l'ouvrage 4 Mo

Extrait

ACADÉMIED’AIX-MARSEILLE UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE THÈSE présentée à l’Université d’Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 166 I2S « Mathématiques et Informatique» Laboratoire d’Informatique d’Avignon (EA 4128) Surveillance de réseaux professionnels de communication par la reconnaissance du locuteur par Alexandre PRETI Thèse soutenue publiquement le 10 décembre 2008 devant un jury composé de : M. Patrick VERLINDE Professeur, Royal Military Academy, Bruxelles Président du jury M. Frédéric BIMBOT DR/CNRS, IRISA/INRIA, Rennes Rapporteur M. Sébastien MARCEL Senior Researcher, IDIAP, Martigny, Suisse M. John MASON Professeur, UWS, Swansea, Royaume Uni Examinateur M. Claude BARRAS Maître de Conférences, LIMSI, Orsay M. Jean-François BONASTRE Professeur, LIA, Avignon Directeur de thèse M. François CAPMAN Ingénieur, THALES, Colombes Co-Encadrant Laboratoire d'Informatique Laboratoire d’Informatique d’Avignon Université d'Avignon Résumé Ce travail de thèse s’intéresse à la reconnaissance automatique du locuteur (RAL) dans les réseaux professionnels de communication (Private Mobile Radio networks : PMR). Plus précisément, nous nous intéressons à la surveillance des utilisateurs en cours de communication pour détecter un changement de locuteur, issu du vol ou du prêt d’un terminal de communication. Les systèmes « état de l’art » de RAL présentent aujour- d’hui de très bonnes performances sur des signaux de conversations téléphoniques. Néanmoins, l’application envisagée entraine différentes contraintes liées au fonction- nement du réseau PMR et à l’ergonomie particulière d’une telle application. En effet, la RAL doit être effectuée en continue et les réseaux PMR offrent une qualité du si- gnal de parole plus faible que les réseaux de téléphonie classique. Dans ce travail, nous évaluons l’impact de ces contraintes applicatives sur les performances d’un système de RAL et nous proposons des solutions pour pallier les différents problèmes énoncés. Plus particulièrement, nous nous intéressons à la phase de paramétrisation qui doit être réalisée en ligne et dans l’environnement des réseaux PMR, ainsi qu’à l’adaptation non supervisée des modèles de locuteurs. Cette technique permet d’utiliser des données de test pour améliorer les modèles de locuteur ; elle répond au problème des durées courtes d’apprentissage et permet de mieux modéliser les variabilités intra-locuteur et inter-session. Mots-clé: reconnaissance du locuteur, adaptation non supervisée, paramétrisation, milieux bruités, réseaux professionnels de communication. Abstract This thesis work deals with automatic speaker recognition for professional telecom- munication networks (PMR). More precisely, the targeted application is the online mo- nitoring of communications on this kind of networks. State of the art speaker recogni- tion systems show good performance on telephonic data. Therefore, the targeted ap- plication introduces specific constaints. We evaluate the impact of these constraints on a baseline speaker recognition system and propose solutions to limit their influence on recognition error rates. Firstly, we propose an optimised speech parameterization. Some technics are introduced to compensate the effects of noisy environments, low bit- rate voice coding and channel transmission variations. Moreover, this parameterization is compliant with the online recognition processing needed by the targeted application. Then, we introduce a new approach for unsupervised speaker model adaptation to re- duce the issue of the poor quantity of learning data. Unsupervised is also a way to reduce the impact of the intra-speaker and inter-session variabilities. We pro- pose a continuous progressive speaker model adaptation able to take into account all the test data withdrawing threshold based data selection. Keywords : automatic speaker recognition, unsupervised speaker model adapta- tion, parameterization, noisy environments, professional telecommunication networks. 2 Remerciements Ces remerciements s’adressent tout d’abord à mon directeur de thèse, le profes- seur Jean-François Bonastre. J’ai bénéficié tout au long de ces trois années de sa grande connaissance du domaine et de ses conseils avisés pour proposer les contributions de ce travail. J’ai été très heureux de travailler sous sa direction. Un grand merci à Fran- çois Capman, mon encadrant au sein de l’entreprise Thales Communications, qui lui aussi m’a guidé dans mes travaux de recherche. Merci à Bruno Sourdillat, directeur du laboratoire MMP de Thales Communications, qui a toujours encouragé mon travail. Merci à tous les membres du jury pour avoir évalué mon travail et m’avoir offert cette belle journée qu’à été celle de ma soutenance de thèse, quel beau souvenir ! Ce travail est aussi le fruit de collaborations, partagées avec les membres du LIA et du laboratoire MMP de Thales Communications. Merci à mes amis Nico et Driss pour leur patience et leur pédagogie et à Bertrand pour son dynamisme. Je n’oublie pas les pros de la programmation et amis qui ont toujours su me dépanner, c’est facile il s’agit de Ben(oit) (le grand), de Ben(jamin) (le petit) et de Ben(jamin) (le moyen). Il y a aussi Fred W., je l’ai beaucoup agacé au début, merci pour sa patience. Et puis pour faire du bon travail il faut une bonne ambiance, alors merci à tout ceux qui font régner la joie et la bonne humeur (et ils sont nombreux !), merci à Will, Corinne, JP, Georges, Pascal, Cyril (même avec son humour...), Rachid, Gwen (merci pour les relectures), les Christophe, Nathalie,...une page ne suffirait pas, j’arrête. Merci à tous. Je garde le meilleur pour la fin, je tiens à remercier et à dédier ce document à mes parents et à ma bonne étoile. Merci pour ce merveilleux soutien et pour avoir toujours fait en sorte que tout se passe dans les meilleures conditions possibles. Merci enfin à celle qui m’a soutenu (supporté ?), ma belle Camille. 3 4 Table des matières Avant propos 9 1 Introduction 11 1.1 La biométrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2 Application visée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.3 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5 Cadre de travail de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6 Organisation du document . . . . . . . . . . . . . . . . . . . . . . . . . . 16 I Principes généraux de la reconnaissance du locuteur 19 2 Reconnaissance automatique du locuteur 21 2.1 La parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.1 La production de la parole . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.2 Les variabilités du signal de parole . . . . . . . . . . . . . . . . . . 23 2.1.3 Analyse numérique du signal de parole . . . . . . . . . . . . . . . 25 2.2 La Reconnaissance Automatique du Locuteur . . . . . . . . . . . . . . . . 32 2.2.1 Les différentes tâches . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2.2 Scénarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3 Les approches classiques pour la RAL . . . . . . . . . . . . . . . . . . . . 34 2.3.1 La prise de décision . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4 Evaluation d’un système de VAL . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.1 Le score de vérification . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.2 Mesures de performances . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.3 Les courbes DET . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.4 Les points de fonctionnement . . . . . . . . . . . . . . . . . . . . . 39 2.4.5 Les corpus utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 L’approche statistique GMM-UBM pour la vérification du locuteur 41 3.1 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.2 La paramétrisation du signal de parole . . . . . . . . . . . . . . . . . . . . 42 3.2.1 L’extraction des coefficients cepstraux . . . . . . . . . . . . . . . . 43 3.2.2 La détection d’activité vocale . . . . . . . . . . . . . . . . . . . . . 43 5 3.2.3 La normalisation des paramètres pour la compensation canal . . 45 3.3 Modèles statistiques pour la VAL . . . . . . . . . . . . . . . . . . . . . . . 47 3.3.1 L’apprentissage des modèles GMM . . . . . . . . . . . . . . . . . 48 3.3.2 Le modèle du non locuteur ou modèle du monde . . . . . . . . . 49 3.3.3 Estimation des modèles de locuteur . . . . . . . . . . . . . . . . . 50 3.3.4 robuste des modèles de locuteurs . . . . . . . . . . . . 51 3.4 Le test de vérification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.4.1 Calcul du score vérification . . . . . . . . . . . . . . . . . . . . . . 55 3.4.2 La normalisation des scores . . . . . . . . . . . . . . . . . . . . . . 56 3.4.3 La fusion des scores . . . . . . . . . . . . . . . . . . . . . . . . . . 60 II Adaptation d’un système de RAL à la surveillance de réseaux profes- sionnels de communication 63 4 Présentation du système GMM-UBM de référence SPKDET 67 4.1 Historique du projet ALIZE . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2 Le système de RAL SpkDet . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2.1 Le système GMM-UBM . . . . . . . . . . . . . . . . . . . . . . . . 68 4.2.2 L’extraction des paramètres acoustiques . . . . . . . . . . . . . . . 68 4.2.3 La détection d’activité vocale . . . . . . . . . . . . . . . . . . . . . 68 4.2.4 La compensation de canal . . . . . . . . . . . . . . . . . . . . . . . 69 4.2.5 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3 Evaluation des performances du système . . . . . . . . . . . . . . . . . . 70 4.3.1 Les corpus d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 71 4.3.2 L
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents