ACADÉMIE D'AIX MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE

De
Publié par

Niveau: Supérieur, Doctorat, Bac+8
ACADÉMIE D'AIX-MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE THÈSE présentée à l'Université d'Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 380 «Sciences et Agronomie» Laboratoire d'Informatique (EA 931) Résumé automatique de parole pour un accès efficace aux bases de données audio par Benoît FAVRE Soutenue publiquement le 19 mars 2007 devant un jury composé de : Mme Catherine BERRUT Professeur, LIG, Grenoble Présidente du jury M. Guy LAPALME Professeur, RALI, Montréal Rapporteur M. François YVON Maître de Conférences, ENST, Paris Rapporteur M. Patrick GALLINARI Professeur, LIP6, Paris Examinateur M. François CAPMAN Ingénieur, Thales, Colombes Examinateur M. Jean-François BONASTRE Maître de Conférences, LIA, Avignon Directeur de thèse M. Patrice BELLOT Maître de Conférences, LIA, Avignon Co-directeur de thèse Laboratoire d'Informatique Université d'Avignon Laboratoire d'Informatique d'Avignon te l-0 04 44 10 5, v er sio n 1 - 5 J an 2 01 0

  • accès efficace aux bases de données audio

  • avignon co

  • université d'avignon et des pays de vaucluse

  • segmentation en phrases

  • démonstrateur facilitant l'accès aux émissions radiophoniques de la campagne

  • démonstrateur


Publié le : jeudi 1 mars 2007
Lecture(s) : 85
Source : univ-avignon.fr
Nombre de pages : 183
Voir plus Voir moins

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire d’Informatique (EA 931)
Résumé automatique de parole pour un accès
efficace aux bases de données audio
par
Benoît FAVRE
Soutenue publiquement le 19 mars 2007 devant un jury composé de :
meM Catherine BERRUT Professeur, LIG, Grenoble Présidente du jury
M. Guy LAPALME Pr, RALI, Montréal Rapporteur
M. François YVON Maître de Conférences, ENST, Paris Rapporteur
M. Patrick GALLINARI Professeur, LIP6, Paris Examinateur
M. François CAPMAN Ingénieur, Thales, Colombes
M. Jean-François BONASTRE Maître de Conférences, LIA, Avignon Directeur de thèse
M. Patrice BELLOTe de LIA, A Co-directeur de thèse
Laboratoire d'Informatique
Laboratoire d’Informatique d’Avignon
Université d'Avignon
tel-00444105, version 1 - 5 Jan 20102
tel-00444105, version 1 - 5 Jan 2010Remerciements
Je tiens tout d’abord à remercier Jean-François Bonastre, Patrice Bellot et François
Capman pour leur encadrement, leurs nombreux conseils et leur soutien constant tout
au long de ma thèse. Je remercie Catherine Berrut pour avoir accepté d’être présidente
de mon jury. J’ai également été très honoré par Guy Lapalme et François Yvon qui
ont accepté d’être rapporteurs de ma thèse. Ils m’ont apporté de précieux conseils sur
l’ensemble de mon travail. J’exprime ma profonde gratitude à Patrick Gallinari pour sa
participation à mon jury.
Je dédie ce document à mes proches Laure, Floriane, Martine et Roger et à la
mémoire de mon frère Julien. Leur soutien tout au long de ce travail a été inestimable.
Je tiens aussi à remercier ceux qui m’ont tant apporté durant mes journées et mes
soirées par leur joie, leur gentillesse et leur amitié. Par ordre alphabétique, ça donne
quelque chose comme : Alex, Anakin, Andrea, Annypog, Antho, Audrey, Ben, Bertrand,
Cathy, Christophe, Cissou, Corinne, Denz, Dju, Domi, Driss, Eric, Florian, Fred B., Fred
D., Fred W., Gayp, Georges, Gilles, J.-P., Joce, Jocelyne, Lapo, Laurent, Laurianne, Lolo,
Louisa, M.-J., Maman Ours, Marc P., Max, Med, Mimi, Nanou, Nath, Nenex, Neug,
Nick, Nico, Nicolas F., Nicole, Nimaan, Olivier, Ourselin, Papa Ours, Pascal, Phanou,
Phillou, Pierrot, Quang, Ralph, Rico, Riton, Romane, Sarah, Simone, Stan, Steph, Tania,
Ted, Thierry S., Thierry V., Tom, Virginie, et Will.
3
tel-00444105, version 1 - 5 Jan 20104
tel-00444105, version 1 - 5 Jan 2010Résumé
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste
difficile d’exploiter les documents à cause du temps nécessaire pour les écouter. Nous
tentons d’atténuer cet inconvénient en produisant un résumé automatique parlé à
partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par
extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La
transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA.
Nous complétons cette chaîne de structuration par une segmentation en phrases et une
détection des entités nommées, deux caractéristiques importantes pour le résumé par
extraction. La méthode de résumé proposée prend en compte les contraintes imposées
par des données audio et par des interactions avec l’utilisateur. De plus, cette méthode
intègre une projection dans un espace pseudo-sémantique des phrases. Les différents
modules mis en place aboutissent à un démonstrateur complet facilitant l’étude des
interactions avec l’utilisateur. En l’absence de données d’évaluation sur la parole, la
méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons
l’impact d’un contenu parlé en dégradant artificiellement les données de cette même
campagne. Enfin, l’ensemble de la chaîne de traitement est mise en œuvre au sein d’un
démonstrateur facilitant l’accès aux émissions radiophoniques de la campagne ESTER.
Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive
complémentaire au résumé parlé.
Mots-clés
Résumé Automatique de Parole, Recherche d’Information Parlée, Reconnaissance
Automatique de la Parole, Transcription Enrichie, Frontière de Phrase, Entité Nommée,
Maximal Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic
Analysis, LSA, Document Understanding Conference, DUC.
5
tel-00444105, version 1 - 5 Jan 20106
tel-00444105, version 1 - 5 Jan 2010Abstract
The digital era has revealed new ways to store great quantities of speech at a low
cost. Whereas recent advances in spoken document retrieval, exploiting audio
documents is still difficult because of the time necessary to listen to them. We try to attenuate
this disadvantage by producing an automatic spoken abstract from the most important
information. For that purpose, an extractive summarization algorithm is applied to the
spoken content thanks to automatic speech structuring. The rich transcription is carried
out thanks to Speeral and Alize toolkits developed at LIA. We complement this
structuring chain by sentence segmentation and named entities detection, two important
features for extractive summarization. The proposed summarization approach includes
constraints imposed by audio data and interactions with the user. Moreover, the
method integrates a projection of sentences in pseudo-semantic-space. We integrated the
various modules in a coherent prototype that ease the study of user interactions. Due
to the lack of evaluation data for the speech summarization task, we evaluate our
approach on the textual documents from the DUC 2006 campaign. We simulate the impact
of spoken content structuring by artificially degrading the textual content provided for
DUC. Finally, the whole processing sequence is implemented within a demonstrator
facilitating the access radio broadcasts from the ESTER evaluation campain. Within the
framework of this prototype, we present an interactive timeline that aims at
recontextualizing the spoken summary.
Keywords
Automatic speech summarization, Spoken Document Retrieval, Automatic Speech
Recognition, Rich Transcription, Sentence Boundaries, Named Entities, Maximal
Marginal Relevance, MMR, Conditional Random Fields, CRF, Latent Semantic Analysis,
LSA, Document Understanding Conference, DUC.
7
tel-00444105, version 1 - 5 Jan 20108
tel-00444105, version 1 - 5 Jan 2010Résumé long
L’avènement du numérique permet de stocker de grandes quantités de parole à
moindre coût. Afin de les exploiter, la recherche documentaire audio tire parti de la
transcription automatique du discours parlé. Malgré la compensation des erreurs de
transcription, les moteurs de recherche sur la parole nécessitent une écoute des
documents car il est plus difficile d’obtenir un aperçu d’un contenu audio que d’un contenu
écrit ou visuel. Cette caractéristique provoque une réduction de la quantité
d’information perçue par l’utilisateur à cause de longues et fastidieuses écoutes limitant
l’efficacité des moteurs de recherche audio. Pour répondre à cette difficulté, nous proposons
de générer un résumé parlé des informations les plus importantes retrouvées par le
moteur de recherche. Pour y parvenir, une méthode de résumé par extraction est appliquée
au contenu parlé, transcrit et structuré automatiquement.
La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au
LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et
une détection des entités nommées, deux caractéristiques importantes pour le résumé
par extraction. Les frontières de phrases sont retrouvées par étiquetage de séquence
grâce à une modélisation Conditional Random Fields (CRF) fondée sur des
caractéristiques prosodiques et linguistiques. L’approche est validée sur le corpus radiophonique
ESTER (précision de 0.77). Par ailleurs, les entités nommées sont détectées directement
dans le graphe d’hypothèses de transcription pour essayer d’atténuer l’influence des
erreurs commises lors de la phase de transcription. Le cadre des transducteurs
pondérés (Weighted Finite State Transducers, WFST) permettent l’application de grammaires
locales au treillis d’hypothèses, puis sa pondération par un modèle d’étiquetage HMM.
Testée lors de la tâche expérimentale de la campagne ESTER, la méthode obtient les
meilleurs résultats (F -mesure de 0.63).1
Le modèle proposé pour le résumé de parole prend en compte la nature du contenu
parlé et les contraintes imposées par les interactions avec l’utilisateur. Ce modèle est
implémenté dans Maximal Marginal Relevance (MMR), sous la forme d’une séparation
des caractéristiques d’une phrase en une partie indépendante du besoin de l’utilisateur
(pouvant être calculée en temps différé) et une partie dépendante de ce besoin (soumise
à des contraintes de complexité). La longueur des phrases ou les scores de confiance de
la structuration peuvent être considérés comme indépendants du besoin. La similarité
d’une phrase avec le besoin de l’utilisateur est calculée après projection des phrases
dans un espace pseudo-sémantique construit par Latent Semantic Analysis (LSA).
9
tel-00444105, version 1 - 5 Jan 2010Évaluée sur le résumé de texte, au travers d’une soumission conjointe LIA-Thales,
lors de la campagne Document Understanding Conference (DUC 2006), la méthode
obtient des résultats au niveau de l’état de l’art (avec un rang de 6/34, selon l’évaluation
automatique Rouge). Aucune donnée d’évaluation n’existant pour la parole, nous
simulons l’impact d’un contenu parlé sur les données textuelles de DUC. Les erreurs de
structuration sont simulées à l’aide d’insertions, de suppressions et de substitutions de
mots dans les documents. Ces erreurs sont introduites uniformément pour limiter la
tendance du système de résumé à sélectionner des phrases contenant moins d’erreurs.
Une limitation du vocabulaire aux mots les plus fréquents n’a pas d’impact
significatif sur le critère d’évaluation Rouge. Par contre, la dégradation systématique des
entités nommées provoque une chute de ce critère. Une étude de l’évolution de Rouge
par rapport au taux d’erreurs de mots dans les documents d’origine montre que dans
une condition où le résumé est « écouté », le système est robuste jusqu’à environ 40%
d’erreurs. Au contraire, lorsque le résumé est « lu », les performances chutent dès 10%
d’erreurs. Ces résultats sont à relativiser car le comportement du critère Rouge lorsque
les données sont dégradées reste encre peu étudié.
La chaîne de structuration et le système de résumé sont mis en œuvre sur les
données radiophoniques de la campagne ESTER. Le prototype ainsi conçu démontre la
faisabilité des méthodes proposées et permettra une évaluation directe auprès
d’utilisateurs. Une première étude à été réalisée pour valider l’ergonomie du démonstrateur
et tester le concept de frise chronologique interactive, une vue complémentaire au
résumé parlé. Cette vue permet d’améliorer la perception, par l’utilisateur, de
l’organisation temporelle des informations retrouvées et ouvre la voie vers de nouveaux outils de
navigation fondés sur le résumé.
10
tel-00444105, version 1 - 5 Jan 2010

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.