//img.uscri.be/pth/ea9fb4ca051490aa9c06d8f0a8e1eb55832e8f77
Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Département d'informatique Institut Galilée

De
228 pages
Niveau: Supérieur, Doctorat, Bac+8
Département d'informatique Institut Galilée École doctorale Galilée Contribution au résumé automatique multi-documents THÈSE présentée et soutenue publiquement le 12/07/2010 pour l'obtention du Doctorat de l'Université Paris-Nord – Paris 13 (spécialité informatique) par Aurélien Bossard Composition du jury Rapporteurs : Guy Lapalme, Professeur, Université de Montréal Juan-Manuel Torres Moreno, Maître de conférences HDR, Université d'Avignon Examinateurs : Anne Vilnat, Professeur, IUT d'Orsay Céline Rouveirol, Professeur, Université Paris 13 Daniel Kayser, Professeur, Université Paris 13 Directeur : Thierry Poibeau, Chargé de recherche CNRS, LaTTiCe Laboratoire d'Informatique de Paris-Nord – CNRS UMR 7030

  • méthode statistique pour le résumé automatique par extraction

  • classification des phrases

  • résumé de dépêches

  • apport de l'anno- tation en entités nommées et de la résolution d'anaphores pour le résumé automatique

  • catégorisation des dépêches de presse

  • classes sémantiques


Voir plus Voir moins

Département d informatique École doctorale Galilée
Institut Galilée
Contribution au résumé
automatique multi-documents
THÈSE
présentée et soutenue publiquement le 12/07/2010
pour l obtention du
Doctorat de l Université Paris-Nord Paris 13
(spécialité informatique)
par
Aurélien Bossard
Composition du jury
Rapporteurs : Guy Lapalme, Professeur, Université de Montréal
Juan-Manuel Torres Moreno, Maître de conférences HDR, Université d Avignon
Examinateurs : Anne Vilnat, Professeur, IUT d Orsay
Céline Rouveirol, Université Paris 13
Daniel Kayser, Professeur, Université Paris 13
Directeur : Thierry Poibeau, Chargé de recherche CNRS, LaTTiCe
Laboratoire d Informatique de Paris-Nord CNRS UMR 7030Remerciements
Je tiens à remercier tout d abord Thierry Poibeau, qui m a encadré depuis le Master
2, soit plus de 4 années, pour ses conseils, sa présence et son suivi qui m ont permis de
suivre ma propre voie tout en veillant à ce que je ne m égare pas. Il a contribué à faire de
mes années de thèse une expérience enrichissante. Je n oublie pas Daniel Kayser, dont
l expérience, les conseils et les relectures attentives ont été une aide précieuse.
Je remercie Juan-Manuel Torres Moreno et Guy Lapalme pour avoir accepté d être
les rapporteurs de cette thèse, ainsi qu Anne Vilnat et Céline Rouveirol pour leur
participation au jury.
Mes remerciements vont également aux personnes de mon équipe, RCLN, qui ont su
me guider depuis mes premiers pas en recherche. De plus, la qualité des formations
qu ils ont su mettre en place dans le master MICR m ont fourni les outils nécessaires à
la réalisation d une thèse dans un domaine aussi ouvert que le traitement automatique
du langage naturel. Je remercie également le LIPN, pour m avoir fait con ance et permis
d accomplir une thèse dans d aussi bonnes conditions de travail.
Comment ne pas citer mes collègues de bureau et amis, Christophe et Thibault, qui
ont réussi à rendre l atmosphère de travail à la fois saine et joviale. Merci à eux!
Je tiens aussi à exprimer toute ma gratitude à ma famille, notamment mes parents qui
m ont toujours soutenu durant mes études et dans toutes mes activités, ma petite sœur
dont la rigueur a été d une graide aide lorsqu elle a relu ma thèse d un œil extérieur
au TAL, et à la dernière venue, Maroussia, dont la patience a été rudement mise à
l épreuve.
Je nirai par remercier mes amis pour leur joie de vivre et les aventures que l on aura
pu vivre ensemble : Jeff, Christophe, Charlotte et tous les autres qui ont contribué et
contribueront encore, je l espère, à rendre la vie plus agréable.
iiiRésumé
Résumer un texte consiste à réduire ce texte en un nombre limité de mots. Le texte
ainsi réduit doit rester dèle aux informations et idées du texte original. Que ce soit
pour des professionnels qui doivent prendre connaissance du contenu de documents en
un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans
disposer du temps nécessaire pour lire l intégralité des textes qui en traitent, le résumé
est une aide contextuelle importante. Avec l augmentation de la masse documentaire
disponible électroniquement, résumer des textes automatiquement est devenu un axe
de recherche important dans le domaine du traitement automatique de la langue. La
productionautomatiquederésumésposeleproblèmedeladétectionetdelamodélisation
des informations contenues dans les textes. Elle suppose également la hiérarchisation de
ces a n d intégrer au résumé les plus importantes. Cette thèse de doctorat
propose une méthode statistique pour le résumé automatique par extraction ainsi que
l intégration d analyses linguistiques au processus de sélection de phrases.
La méthode que nous proposons est fondée sur une classi cation des phrases à résumer
en classes sémantiques en utilisant des calculs de similarité entre les phrases. Cette étape
nous permet d identi er les phrases qui risquent de présenter des éléments d
information similaires et ainsi de supprimer toute redondance du résumé généré. Une seconde
étape vise à sélectionner une phrase par classe, en tenant compte de la similarité des
phrases à une éventuelle requête utilisateur, de la longueur des phrases ainsi que de la
centralité dans leur classe. Les résumés ainsi générés doivent maximiser la centralité et la
diversité des informations. Cette méthode a été évaluée sur deux tâches de la campagne
d évaluation TAC 2008 : le résumé de dépêches et le résumé d opinions issues de blogs.
Les résultats mitigés sur la première tâche et encourageants sur la deuxième nous ont
poussé à prendre en compte des critères de sélection de phrases spéci ques aux types de
documents traités. Nous avons alors proposé d établir une catégorisation des dépêches
de presse ainsi que l annotation automatique de leur structure a n d améliorer la qualité
des résumés générés par notre système. Nous avons également étudié l apport de l
annotation en entités nommées et de la résolution d anaphores pour le résumé automatique.
Le système et ces trois derniers modules ont été évalués sur la tâche de résumé et mise à
jour de résumé de dépêches de la campagne TAC 2009, se classant dans le premier quart
des participants. Notre méthode de résumé a également fait l objet d une intégration à
un système applicatif plus large visant à aider un possesseur de corpus à visualiser les
axes essentiels et à en retirer automatiquement les informations importantes.
vAbstract
Summarizing a textual document consists in compressing the text in a limited number
of words. The compressed text must remain faithful to the information and ideas from
the initial text. Professionals who have to peruse documents in a limited amount of time
or private individuals who want to be informed about a speci c topic without having
the time to read all the texts about it both need summaries. The increase in electronic
documents available have made the research in automatic summarization an important
domain in the eld of natural language processing. Producing automatic summaries
depends on textual information detection and modelling. Generating good automatic
summaries also depends on information hierarchization in order to put only the most
important information in the summaries. This PhD Thesis proposes a statistical method
to generate automatic extracts, and the integration of linguistic analysis to the sentences
selection process.
The method we propose is based on a sentence classi cation in semantic clusers, using
similarity calculation between sentences. This step allows us to identify the sentences
which convey the same information and to remove redundancy from the automatically
generated summaries. A second step aims to select one sentence per cluster, taking into
account the similarity to a user query, the sentences length and the centrality within
their cluster. The generated summaries must maximize the centrality and diversity of
the information they convey. This method has been evaluated on two different tasks of
the evaluation campaign TAC 2008 : news summarization and opinion summarization.
The mixed results on the rst task led us all the more to take in account sentences
selection criterion speci c to the documents to summarize, since the results on the second
task were encouraging. We then proposed to establish a newswire articles categorization
as well as automatic structure tagging in order to improve the quality of the summaries
produced by CBSEAS. We also studied the named entity tagging and anaphora
resolution contribution to the summaries quality. CBSEAS and the three modules described
above have been evaluated on the Update summarization task for newswire articles
of the TAC 2009 evaluation campaign, ranking itself among the the rst quarter of the
TAC 2009 participating systems. Our summarization method has also been integrated
to a larger application which aims to help the user to visualize the main topics of a
corpus and to automatically extract the essential information.
viiTable des matières
Introduction 1
Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Apports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Plan de thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I. État de l art 5
1. État de l art du résumé automatique 9
1.1. Types de résumés visés dans la thèse . . . . . . . . . . . . . . . . . . . . 10
1.1.1. Le résumé indicatif . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.2. Le informatif . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3. Le résumé synthétique . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.4. L Extrait . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2. Domaines d application et enjeux du résumé automatique . . . . . . . . . 12
1.3. Méthodes d analyse de surface . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Résumé et apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5. Minimiser la redondance tout en maximisant la pertinence . . . . . . . . 18
1.6. Méthodes à base de graphe . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7. Résumé automatique et structure rhétorique . . . . . . . . . . . . . . . . 20
1.8. Extraction et fusion d information . . . . . . . . . . . . . . . . . . . . . . 21
1.9. Post-traitements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.9.1. Compression de phrases . . . . . . . . . . . . . . . . . . . . . . . 21
1.9.2. Réordonnancement . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.10.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2. L Evaluation de résumés informatifs 25
2.1. ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1. ROUGE-n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2. ROUGE-L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.3. ROUGE-SUn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2. BE-HM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3. Evaluation de résumés et théorie de l information . . . . . . . . . . . . . 29
2.4. La méthode Pyramide . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5. Évaluation de la forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
ixTable des matières
2.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
II. Approche 33
3. CBSEAS, Une Approche Générique pour le Résumé Automatique 37
3.1. Intuitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2. Le système CBSEAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1. Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.2. Préparation des documents . . . . . . . . . . . . . . . . . . . . . . 42
Annotation morpho-syntaxique . . . . . . . . . . . . . . . . . . . 42
Découpage des documents en phrases . . . . . . . . . . . . . . . . 42 en entités nommées . . . . . . . . . . . . . . . . . . . 43
Calcul d un score requête . . . . . . . . . . . . . . . . . . . . . . . 43 d un score centroïde . . . . . . . . . . . . . . . . . . . . . . 43
Pré-sélection de phrases . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.3. Calcul des Similarités entre Phrases . . . . . . . . . . . . . . . . . 44
3.2.4. Classi cation des Phrases en Classes Sémantiques . . . . . . . . . 45
3.2.5. Sélection des Phrases . . . . . . . . . . . . . . . . . . . . . . . . . 46
Centralité locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Cen globale . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Taille des phrases . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.6. Réordonnancement . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3. Apprentissage Automatique de Paramètres pour le Résumé Automatique 52
3.3.1. Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.2. Choix d un algorithme d optimisation . . . . . . . . . . . . . . . . 53
3.3.3. Notre algorithme génétique . . . . . . . . . . . . . . . . . . . . . 53
Méthode de sélection des individus . . . . . . . . . . . . . . . . . 53
Opérateur de mutation . . . . . . . . . . . . . . . . . . . . . . . . 54
Op de croisement . . . . . . . . . . . . . . . . . . . . . . . 54
Création d une nouvelle génération . . . . . . . . . . . . . . . . . 54
3.3.4. Paramètres expérimentaux . . . . . . . . . . . . . . . . . . . . . . 54
3.3.5. Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.6. Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Evaluation automatique . . . . . . . . . . . . . . . . . . . . . . . 57
Ev manuelle . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.7. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5. Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4. Analyse discursive de documents pour le résumé automatique 63
4.1. Reconnaissance des entités nommées, résolutions d anaphore et de
coréférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.1. Enjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
x