Modélisation statistique du langage à partir d'Internet pour la reconnaissance automatique de la parole continue

5 lecture(s)
Domaine: Informatique, Informatique
Les ressources textuelles sont celles qui font le plus défaut dans les recherches sur la modélisation statistique du langage, surtout pour l'apprentissage de modèles adaptés au dialogue. Cette thèse propose d'utiliser les documents en provenance d'Internet pour l'apprentissage de tels modèles. La collecte de plusieurs corpus a permis la mise en évidence de certaines propriétés intéressantes. Celles-ci concernent la quantité de texte, le nombre de vocables différents mais surtout la possibilité de trouver des formes propres à l'expression orale. Ces formes ne se trouvent pas dans les corpus journalistiques qui sont pourtant très largement employés. L'évolution de ces documents au cours des dernières années a encore accru cette adéquation. La thèse introduit alors une nouvelle méthode, entièrement automatique, de calcul de modèles de langage à partir de ces données. Elle commence par un filtrage dit par blocs minimaux basé sur le vocabulaire de l'application visée. Ensuite, le calcul du modèle de langage statistique, type n-gramme, se fait au prix d'une légère adaptation des algorithmes standards dans le domaine. Les résultats de cette méthode sont de l'ordre de 90% de taux de reconnaissance pour des petits vocabulaires et de 80% pour de plus larges vocabulaires. De plus, les résultats obtenus, sans aucune adaptation, sur une base sonore état de l'art de l'AUPELF sont du même ordre que ceux des autres laboratoires ayant participé à l'évaluation. La thèse présente aussi d'autres applications d'Internet. Ainsi, L'utilisation de la hiérarchie des newsgroups permet la mise au point d'un détecteur de thème fondé sur une normalisation de modèles unigrammes. Ses performances sont d'environ 70%. L'intégration de ce détecteur au sein des algorithmes de reconnaissance de la parole permet un gain de 5% en taux de reconnaissance. Enfin, une adaptation de la méthode des blocs minimaux a été utilisée pour faciliter la définition d'un ensemble de phrases pour l'enregistrement d'un corpus sonore.

lire la suite replier

Télécharger la publication

  • Format PDF
Commenter Intégrer Stats et infos du document Retour en haut de page
profil-informatique-2012
publié par

suivre

Vous aimerez aussi

UNIVERSITÉ JOSEPH FOURIER - GRENOBLE I
SCIENCES & GÉOGRAPHIE
N° attribué par la bibliothèque
/__/__/__/__/__/__/__/__/__/__/
THÈSE
pour obtenir le grade de
DOCTEUR DE L'UNIVERSITÉ JOSEPH FOURIER - GRENOBLE I
Discipline : Informatique Système et Communication
présentée et soutenue publiquement
par
Dominique Vaufreydaz
le 7 janvier 2002
Titre :
Modélisation statistique du langage à partir
d'Internet pour la reconnaissance
automatique de la parole continue
Directeur de thèse : Jean Caelen
JURY
M. Christian Boitet Président
M. Renato De Mori Rapporteur
M. Kamel Smaïlieur
M. Laurent Besacier Examinateur
M. Célestin Sedogbo
tel-00326151, version 1 - 1 Oct 2008tel-00326151, version 1 - 1 Oct 2008Remerciements
Tout d'abord je voudrais remercier Jean Caelen, mon directeur de thèse, pour m'avoir
accueilli au sein de l'équipe GEOD du laboratoire CLIPS pendant ces années d'études et pour
m'avoir encadré pendant cette thèse. Je remercie aussi Laurent Besacier pour sa participation
active à cette thèse en tant que co-encadrant.
Je remercie tous les membres de mon jury, c'est-à-dire Renato De Mori et Kamel Smaïli
pour avoir accepté d'être rapporteurs de ma thèse, Célestin Sedogbo et Laurent Besacier pour
en avoir été examinateurs et Christian Boitet pour sa présidence.
Toute ma gratitude à toutes les personnes ayant relu, corrigé et commenté mon
manuscrit et ayant ainsi participéàson amélioration.
Je remercie mes parents pour m'avoir toujours poussé dans mes études. Je remercie
aussi ma grand-mère, mon frère Franck, ma belle-soeur Christine, Harmonie et aussi la petite
Tiphaine pour leur soutien au cours de ces années.
Je profite de cette page pour remercier l'ensemble des membres du laboratoire pour leur
accueil, et plus particulièrement les membres des équipes GEOD et MULTICOM que j'ai
côtoyés quotidiennement avec un réel plaisir pendant ces années. Je remercie également le
personnel administratif du laboratoire pour son efficacité et sa bonne humeur.
Je tiens à saluer aussi toutes les personnes de l'IUP Métiers du livre, à savoir Lysiane,
Rose, Cécile, Évelyne, Éric et Jean-Marc,où j'ai le plaisir d'avoir été ATER en informatique.
Je remercie Jean-François Serignat pour m'avoir délégué certaines responsabilités pour
lesquelles j'espère avoir étéàla hauteur. Je tiens à remercier Mohammad Akbar pour avoir su
distiller son savoir et pour la somme colossale de connaissances qu'il m'a transmises. Il en est
de même pour Bernard Cassagne. Je n'oublie pas non plus la contribution de Christian Boitet
par les très nombreuses discussions que nous avons eues au cours de ces années et pour
m'avoir souvent éclairé de ses connaissances encyclopédiques.
Je remercie la « Dream Team » c'est-à-dire Mohammad, « pépé » et Hervé avec qui j'ai
passé de si bonnes soirées pour préparer les démonstrations des projets, ainsi que les autres
membres du laboratoire participant activement à CSTAR et Nespole!, Laurent et Jean-
Philippe (dont la prose n'a d'égale que la très grande sagesse philosophique).
Une mention trèssp éciale à tous mes amis du laboratoire c'est-à-dire Anne, Jean-
1
tel-00326151, version 1 - 1 Oct 2008François, Laurent, Richard (et Daphné), Carole, Solange, Mathias, Hatem, Yannick,
Brigitte, Éric avec qui j'ai énormément apprécié de travailler mais aussi de ne pas travailler !
Je remercie Hélène, Marie-Laure, Bruno dit « papy », Marika, Mireille, Vincent, Yann et
d'autres qui m'ont soutenu et accompagné au cours de ces années.
J'exprime toute ma reconnaissance à Bernard et Nicolas sans lesquels je n'aurais très
certainement pas pu terminer ce doctorat. Il en est de même pour les familles Ginet et
Bonnardon dont le soutien a très fortement contribuéàla réussite de cette thèse. Je souhaite à
tout le monde de pouvoir compter sur le soutien sans faille de personnes de cette qualité.
Côté musical, je remercie aussi mes amis de l'orchestre inter-école et Monsieur
Bernard Sémino, son chef. J'ai eu la chance de ne pas apprendre que la musique de ce
dernier. Je remercie aussi Nicolas et Yves avec qui j'ai pris un réel plaisir à animer des
soirées, des bals et des mariages pendant très longtemps. Je n'oublie pas mes amis de Titch
Ka Ra, c'est-à-dire Séverine, Lionel et Franck, pour leur bonne humeur et le plaisir que je
prends à jouer et composer des morceaux avec eux. Cette dédicace s'adresse aussi aux
anciens membres du groupe comme Annabelle, Claire, Laurent et Michel.Jelesfélicite
d'avoir su supporter mon humour pendant nos très nombreuses répétitions.
Enfin, pour leur soutien musical tout au long de cette thèse et de sa rédaction, je
remercie en vrac Eric Clapton, Zazie, Eddy Mitchell, Claude Nougaro, Sting, Queen, The
Corrs, Popa Chubby, et de trop nombreux autres...
2
tel-00326151, version 1 - 1 Oct 2008Dédicace
Cette thèse est dédiée à ma maman, Jany, décédée
lors de ma première année de thèse, qui m'a toujours
poussé et motivé dans mes études. Sans elle, je n'aurais
certainement pas fait d'études longues. Cette thèse
représente donc l'aboutissement du soutien et des
encouragements qu'elle m'a prodigués tout au long de
ma scolarité. Qu'elle en soit remerciée par cette trop
modeste dédicace.
tel-00326151, version 1 - 1 Oct 2008tel-00326151, version 1 - 1 Oct 2008Préambule

Cette thèse a été rédigéeenHTMLà l'aide d'un éditeur de texte simple. L'utilisation de
Cascading Style Sheets (feuilles de styles) a permis l'obtention d'un rendu similaire aux
documents réalisésavecdeséditeurs avancés. Ce choix, volontaire, avait pour but de fournir
une version correcte, au niveau présentation, de notre manuscrit de thèse pour l'exposé sur la
Toile. Grâce à notre expérience du langage HTML, nous avons écrit plusieurs outils de
numérotation automatique des titres, de construction automatique de tables des matières, etc.
Cependant, pour des raisons techniques indépendantes de notre volonté, nous n'avons pu
empêcher certains problèmes de mise en page comme par exemple les veuves et les
orphelines. Nous tenons à nous en excuser auprès des lecteurs de ce manuscrit.
5
tel-00326151, version 1 - 1 Oct 20086
tel-00326151, version 1 - 1 Oct 2008Table des matières
Remerciements 1
Dédicace 3
Préambule 5
Introduction 23
Partie I : Contexte d'étude et état de l'art 29
Chapitre I : Contexte d'étude 31
Présentation du chapitre 33
I. Communication 33
I.1. Entre humains 33
I.2. Cas de la communication homme/machine ou 35
homme/homme médiatisée
II. Communication homme/homme médiatisée multilingue 36
II.1. CSTAR phase II et III 36
II.2. Nespole! 37
II.3. Intérêts de ces projets 38
III. Définition du cadre de notre étude 38
III.1. Corpus 38
III.2. Objectifs 40
III.3. Choix d'une approche de modélisation 40
Chapitre II : Reconnaissance de la parole 43
Présentation du chapitre 45
45I. Principe général
II. Du signal de parole à l'observation acoustique 47
II.1. Modules acoustiques 47
II.2. Acquisition et modélisationdusignal 48
II.2.a. Numérisation 48
II.2.b. TransforméedeFourier 48
II.3. Prise en compte du canal de transmission 49
49II.4. Extraction de paramètres
II.4.a. Énergie du signal 50
50II.4.b. Mel-scaled Frequency Cepstral Coefficients (MFCC)
7
tel-00326151, version 1 - 1 Oct 2008II.4.c. Taux de passage par zéro 51
52II.4.d. Autres paramétrisations du signal
II.4.e. Dérivées première et seconde 52
52II.4.f. Réduction de l'espace de représentation
II.5. Reconnaissance acoustique par Modèles de Markov Cachés 53
53II.5.a. Description
II.5.b. Modèles d'allophones 54
II.5.c. Problème de l'apprentissage 55
III. De l'observation acoustique à la forme lexicale finale 55
III.1. Dictionnaire phonétique et modèles d'unités plus longues 55
III.2. Algorithmes de recherche 56
III.2.a. Généralités 57
* 57III.2.b. Algorithme A ou A étoile
III.2.c. Algorithme à base de modélisation arborescente 58
III.2.d. Algorithme de résolution de treillis de mots 59
Conclusion 60
Chapitre III : Modélisation statistique du langage 61
63Présentation du chapitre
I. Modèles probabilistes 63
63I.1. Généralités
I.2. Modèles n-grammes 64
I.2.a. Présentation 64
I.2.b. Variantes des modèles n-grammes 65
I.2.b.1. N-grammes distants 65
I.2.b.2. Modèles cache et trigger 65
I.2.b.3. Autres variantes 66
I.3. Modèles n-classes 66
I.3.a. Variantes des modèles n-classes 68
68II. Problème du manque de données d'apprentissage
II.1. Énoncé du problème 68
68II.2. Good-Turing discounting et approche de Katz
II.3. Autres méthodes 69
Conclusion 70
Partie II : Modélisation automatique du langage à partir d'Internet 71
Chapitre IV : Corpus tirés d'Internet 73
75Présentation du chapitre
I. Historique 75
II. Observations et prévisions 77
II.1. Intérêt d'Internet 77
II.2. Quantification de la part françaisedelaToile 77
II.3. Types de données disponibles 78
II.3.a. Données statiques 78
8
tel-00326151, version 1 - 1 Oct 2008

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.

Lisez à volonté, où que vous soyez
1 mois offert, sans engagement Plus d'infos