ACADÉMIE D'AIX MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE

profil-zyak-2012 - Benoit Favre

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

183 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Niveau: Supérieur, Doctorat, Bac+8
ACADÉMIE D'AIX-MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE THÈSE présentée à l'Université d'Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 380 «Sciences et Agronomie» Laboratoire d'Informatique (EA 931) Résumé automatique de parole pour un accès efficace aux bases de données audio par Benoît FAVRE Soutenue publiquement le 19 mars 2007 devant un jury composé de : Mme Catherine BERRUT Professeur, LIG, Grenoble Présidente du jury M. Guy LAPALME Professeur, RALI, Montréal Rapporteur M. François YVON Maître de Conférences, ENST, Paris Rapporteur M. Patrick GALLINARI Professeur, LIP6, Paris Examinateur M. François CAPMAN Ingénieur, Thales, Colombes Examinateur M. Jean-François BONASTRE Maître de Conférences, LIA, Avignon Directeur de thèse M. Patrice BELLOT Maître de Conférences, LIA, Avignon Co-directeur de thèse Laboratoire d'Informatique Université d'Avignon Laboratoire d'Informatique d'Avignon te l-0 04 44 10 5, v er sio n 1 - 5 J an 2 01 0

accès efficace aux bases de données audio

avignon co

université d'avignon et des pays de vaucluse

segmentation en phrases

démonstrateur facilitant l'accès aux émissions radiophoniques de la campagne

démonstrateur

Sujets

Bellot

Parole

Bonastre

Thalès

Académie d'Aix-Marseille

Lapalme

Informations

Publié par	profil-zyak-2012
Publié le	01 mars 2007
Nombre de lectures	88
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire d’Informatique (EA 931)
Résumé automatique de parole pour un accès
efﬁcace aux bases de données audio
par
Benoît FAVRE
Soutenue publiquement le 19 mars 2007 devant un jury composé de :
meM Catherine BERRUT Professeur, LIG, Grenoble Présidente du jury
M. Guy LAPALME Pr, RALI, Montréal Rapporteur
M. François YVON Maître de Conférences, ENST, Paris Rapporteur
M. Patrick GALLINARI Professeur, LIP6, Paris Examinateur
M. François CAPMAN Ingénieur, Thales, Colombes
M. Jean-François BONASTRE Maître de Conférences, LIA, Avignon Directeur de thèse
M. Patrice BELLOTe de LIA, A Co-directeur de thèse
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon
tel-00444105, version 1 - 5 Jan 20102
tel-00444105, version 1 - 5 Jan 2010Remerciements
Je tiens tout d’abord à remercier Jean-François Bonastre, Patrice Bellot et François
Capman pour leur encadrement, leurs nombreux conseils et leur soutien constant tout
au long de ma thèse. Je remercie Catherine Berrut pour avoir accepté d’être présidente
de mon jury. J’ai également été très honoré par Guy Lapalme et François Yvon qui
ont accepté d’être rapporteurs de ma thèse. Ils m’ont apporté de précieux conseils sur
l’ensemble de mon travail. J’exprime ma profonde gratitude à Patrick Gallinari pour sa
participation à mon jury.
Je dédie ce document à mes proches Laure, Floriane, Martine et Roger et à la
mémoire de mon frère Julien. Leur soutien tout au long de ce travail a été inestimable.
Je tiens aussi à remercier ceux qui m’ont tant apporté durant mes journées et mes
soirées par leur joie, leur gentillesse et leur amitié. Par ordre alphabétique, ça donne
quelque chose comme : Alex, Anakin, Andrea, Annypog, Antho, Audrey, Ben, Bertrand,
Cathy, Christophe, Cissou, Corinne, Denz, Dju, Domi, Driss, Eric, Florian, Fred B., Fred
D., Fred W., Gayp, Georges, Gilles, J.-P., Joce, Jocelyne, Lapo, Laurent, Laurianne, Lolo,
Louisa, M.-J., Maman Ours, Marc P., Max, Med, Mimi, Nanou, Nath, Nenex, Neug,
Nick, Nico, Nicolas F., Nicole, Nimaan, Olivier, Ourselin, Papa Ours, Pascal, Phanou,
Phillou, Pierrot, Quang, Ralph, Rico, Riton, Romane, Sarah, Simone, Stan, Steph, Tania,
Ted, Thierry S., Thierry V., Tom, Virginie, et Will.
3
tel-00444105, version 1 - 5 Jan 20104
tel-00444105, version 1 - 5 Jan 2010Résumé
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste
difﬁcile d’exploiter les documents à cause du temps nécessaire pour les écouter. Nous
tentons d’atténuer cet inconvénient en produisant un résumé automatique parlé à
partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par
extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La
transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA.
Nous complétons cette chaîne de structuration par une segmentation en phrases et une
détection des entités nommées, deux caractéristiques importantes pour le résumé par
extraction. La méthode de résumé proposée prend en compte les contraintes imposées
par des données audio et par des interactions avec l’utilisateur. De plus, cette méthode
intègre une projection dans un espace pseudo-sémantique des phrases. Les différents
modules mis en place aboutissent à un démonstrateur complet facilitant l’étude des
interactions avec l’utilisateur. En l’absence de données d’évaluation sur la parole, la
méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons
l’impact d’un contenu parlé en dégradant artiﬁciellement les données de cette même
campagne. Enﬁn, l’ensemble de la chaîne de traitement est mise en œuvre au sein d’un
démonstrateur facilitant l’accès aux émissions radiophoniques de la campagne ESTER.
Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive
complémentaire au résumé parlé.
Mots-clés
Résumé Automatique de Parole, Recherche d’Information Parlée, Reconnaissance
Automatique de la Parole, Transcription Enrichie, Frontière de Phrase, Entité Nommée,
Maximal Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic
Analysis, LSA, Document Understanding Conference, DUC.
5
tel-00444105, version 1 - 5 Jan 20106
tel-00444105, version 1 - 5 Jan 2010Abstract
The digital era has revealed new ways to store great quantities of speech at a low
cost. Whereas recent advances in spoken document retrieval, exploiting audio
documents is still difﬁcult because of the time necessary to listen to them. We try to attenuate
this disadvantage by producing an automatic spoken abstract from the most important
information. For that purpose, an extractive summarization algorithm is applied to the
spoken content thanks to automatic speech structuring. The rich transcription is carried
out thanks to Speeral and Alize toolkits developed at LIA. We complement this
structuring chain by sentence segmentation and named entities detection, two important
features for extractive summarization. The proposed summarization approach includes
constraints imposed by audio data and interactions with the user. Moreover, the
method integrates a projection of sentences in pseudo-semantic-space. We integrated the
various modules in a coherent prototype that ease the study of user interactions. Due
to the lack of evaluation data for the speech summarization task, we evaluate our
approach on the textual documents from the DUC 2006 campaign. We simulate the impact
of spoken content structuring by artiﬁcially degrading the textual content provided for
DUC. Finally, the whole processing sequence is implemented within a demonstrator
facilitating the access radio broadcasts from the ESTER evaluation campain. Within the
framework of this prototype, we present an interactive timeline that aims at
recontextualizing the spoken summary.
Keywords
Automatic speech summarization, Spoken Document Retrieval, Automatic Speech
Recognition, Rich Transcription, Sentence Boundaries, Named Entities, Maximal
Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic Analysis,
LSA, Document Understanding Conference, DUC.
7
tel-00444105, version 1 - 5 Jan 20108
tel-00444105, version 1 - 5 Jan 2010Résumé long
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Aﬁn de les exploiter, la recherche documentaire audio tire parti de la
transcription automatique du discours parlé. Malgré la compensation des erreurs de
transcription, les moteurs de recherche sur la parole nécessitent une écoute des
documents car il est plus difﬁcile d’obtenir un aperçu d’un contenu audio que d’un contenu
écrit ou visuel. Cette caractéristique provoque une réduction de la quantité
d’information perçue par l’utilisateur à cause de longues et fastidieuses écoutes limitant
l’efﬁcacité des moteurs de recherche audio. Pour répondre à cette difﬁculté, nous proposons
de générer un résumé parlé des informations les plus importantes retrouvées par le
moteur de recherche. Pour y parvenir, une méthode de résumé par extraction est appliquée
au contenu parlé, transcrit et structuré automatiquement.
La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au
LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et
une détection des entités nommées, deux caractéristiques importantes pour le résumé
par extraction. Les frontières de phrases sont retrouvées par étiquetage de séquence
grâce à une modélisation Conditional Random Fields (CRF) fondée sur des
caractéristiques prosodiques et linguistiques. L’approche est validée sur le corpus radiophonique
ESTER (précision de 0.77). Par ailleurs, les entités nommées sont détectées directement
dans le graphe d’hypothèses de transcription pour essayer d’atténuer l’inﬂuence des
erreurs commises lors de la phase de transcription. Le cadre des transducteurs
pondérés (Weighted Finite State Transducers, WFST) permettent l’application de grammaires
locales au treillis d’hypothè