183
pages
Français
Documents
2007
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
183
pages
Français
Ebook
2007
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Publié par
Publié le
01 mars 2007
Nombre de lectures
60
Langue
Français
Poids de l'ouvrage
2 Mo
Publié par
Publié le
01 mars 2007
Nombre de lectures
60
Langue
Français
Poids de l'ouvrage
2 Mo
ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire d’Informatique (EA 931)
Résumé automatique de parole pour un accès
efficace aux bases de données audio
par
Benoît FAVRE
Soutenue publiquement le 19 mars 2007 devant un jury composé de :
meM Catherine BERRUT Professeur, LIG, Grenoble Présidente du jury
M. Guy LAPALME Pr, RALI, Montréal Rapporteur
M. François YVON Maître de Conférences, ENST, Paris Rapporteur
M. Patrick GALLINARI Professeur, LIP6, Paris Examinateur
M. François CAPMAN Ingénieur, Thales, Colombes
M. Jean-François BONASTRE Maître de Conférences, LIA, Avignon Directeur de thèse
M. Patrice BELLOTe de LIA, A Co-directeur de thèse
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon
tel-00444105, version 1 - 5 Jan 20102
tel-00444105, version 1 - 5 Jan 2010Remerciements
Je tiens tout d’abord à remercier Jean-François Bonastre, Patrice Bellot et François
Capman pour leur encadrement, leurs nombreux conseils et leur soutien constant tout
au long de ma thèse. Je remercie Catherine Berrut pour avoir accepté d’être présidente
de mon jury. J’ai également été très honoré par Guy Lapalme et François Yvon qui
ont accepté d’être rapporteurs de ma thèse. Ils m’ont apporté de précieux conseils sur
l’ensemble de mon travail. J’exprime ma profonde gratitude à Patrick Gallinari pour sa
participation à mon jury.
Je dédie ce document à mes proches Laure, Floriane, Martine et Roger et à la
mémoire de mon frère Julien. Leur soutien tout au long de ce travail a été inestimable.
Je tiens aussi à remercier ceux qui m’ont tant apporté durant mes journées et mes
soirées par leur joie, leur gentillesse et leur amitié. Par ordre alphabétique, ça donne
quelque chose comme : Alex, Anakin, Andrea, Annypog, Antho, Audrey, Ben, Bertrand,
Cathy, Christophe, Cissou, Corinne, Denz, Dju, Domi, Driss, Eric, Florian, Fred B., Fred
D., Fred W., Gayp, Georges, Gilles, J.-P., Joce, Jocelyne, Lapo, Laurent, Laurianne, Lolo,
Louisa, M.-J., Maman Ours, Marc P., Max, Med, Mimi, Nanou, Nath, Nenex, Neug,
Nick, Nico, Nicolas F., Nicole, Nimaan, Olivier, Ourselin, Papa Ours, Pascal, Phanou,
Phillou, Pierrot, Quang, Ralph, Rico, Riton, Romane, Sarah, Simone, Stan, Steph, Tania,
Ted, Thierry S., Thierry V., Tom, Virginie, et Will.
3
tel-00444105, version 1 - 5 Jan 20104
tel-00444105, version 1 - 5 Jan 2010Résumé
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste
difficile d’exploiter les documents à cause du temps nécessaire pour les écouter. Nous
tentons d’atténuer cet inconvénient en produisant un résumé automatique parlé à
partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par
extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La
transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA.
Nous complétons cette chaîne de structuration par une segmentation en phrases et une
détection des entités nommées, deux caractéristiques importantes pour le résumé par
extraction. La méthode de résumé proposée prend en compte les contraintes imposées
par des données audio et par des interactions avec l’utilisateur. De plus, cette méthode
intègre une projection dans un espace pseudo-sémantique des phrases. Les différents
modules mis en place aboutissent à un démonstrateur complet facilitant l’étude des
interactions avec l’utilisateur. En l’absence de données d’évaluation sur la parole, la
méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons
l’impact d’un contenu parlé en dégradant artificiellement les données de cette même
campagne. Enfin, l’ensemble de la chaîne de traitement est mise en œuvre au sein d’un
démonstrateur facilitant l’accès aux émissions radiophoniques de la campagne ESTER.
Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive
complémentaire au résumé parlé.
Mots-clés
Résumé Automatique de Parole, Recherche d’Information Parlée, Reconnaissance
Automatique de la Parole, Transcription Enrichie, Frontière de Phrase, Entité Nommée,
Maximal Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic
Analysis, LSA, Document Understanding Conference, DUC.
5
tel-00444105, version 1 - 5 Jan 20106
tel-00444105, version 1 - 5 Jan 2010Abstract
The digital era has revealed new ways to store great quantities of speech at a low
cost. Whereas recent advances in spoken document retrieval, exploiting audio
documents is still difficult because of the time necessary to listen to them. We try to attenuate
this disadvantage by producing an automatic spoken abstract from the most important
information. For that purpose, an extractive summarization algorithm is applied to the
spoken content thanks to automatic speech structuring. The rich transcription is carried
out thanks to Speeral and Alize toolkits developed at LIA. We complement this
structuring chain by sentence segmentation and named entities detection, two important
features for extractive summarization. The proposed summarization approach includes
constraints imposed by audio data and interactions with the user. Moreover, the
method integrates a projection of sentences in pseudo-semantic-space. We integrated the
various modules in a coherent prototype that ease the study of user interactions. Due
to the lack of evaluation data for the speech summarization task, we evaluate our
approach on the textual documents from the DUC 2006 campaign. We simulate the impact
of spoken content structuring by artificially degrading the textual content provided for
DUC. Finally, the whole processing sequence is implemented within a demonstrator
facilitating the access radio broadcasts from the ESTER evaluation campain. Within the
framework of this prototype, we present an interactive timeline that aims at
recontextualizing the spoken summary.
Keywords
Automatic speech summarization, Spoken Document Retrieval, Automatic Speech
Recognition, Rich Transcription, Sentence Boundaries, Named Entities, Maximal
Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic Analysis,
LSA, Document Understanding Conference, DUC.
7
tel-00444105, version 1 - 5 Jan 20108
tel-00444105, version 1 - 5 Jan 2010Résumé long
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Afin de les exploiter, la recherche documentaire audio tire parti de la
transcription automatique du discours parlé. Malgré la compensation des erreurs de
transcription, les moteurs de recherche sur la parole nécessitent une écoute des
documents car il est plus difficile d’obtenir un aperçu d’un contenu audio que d’un contenu
écrit ou visuel. Cette caractéristique provoque une réduction de la quantité
d’information perçue par l’utilisateur à cause de longues et fastidieuses écoutes limitant
l’efficacité des moteurs de recherche audio. Pour répondre à cette difficulté, nous proposons
de générer un résumé parlé des informations les plus importantes retrouvées par le
moteur de recherche. Pour y parvenir, une méthode de résumé par extraction est appliquée
au contenu parlé, transcrit et structuré automatiquement.
La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au
LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et
une détection des entités nommées, deux caractéristiques importantes pour le résumé
par extraction. Les frontières de phrases sont retrouvées par étiquetage de séquence
grâce à une modélisation Conditional Random Fields (CRF) fondée sur des
caractéristiques prosodiques et linguistiques. L’approche est validée sur le corpus radiophonique
ESTER (précision de 0.77). Par ailleurs, les entités nommées sont détectées directement
dans le graphe d’hypothèses de transcription pour essayer d’atténuer l’influence des
erreurs commises lors de la phase de transcription. Le cadre des transducteurs
pondérés (Weighted Finite State Transducers, WFST) permettent l’application de grammaires
locales au treillis d’hypothè