Département d'informatique Institut Galilée

mijec - Aurélien Bossard

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

228 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Niveau: Supérieur, Doctorat, Bac+8
Département d'informatique Institut Galilée École doctorale Galilée Contribution au résumé automatique multi-documents THÈSE présentée et soutenue publiquement le 12/07/2010 pour l'obtention du Doctorat de l'Université Paris-Nord – Paris 13 (spécialité informatique) par Aurélien Bossard Composition du jury Rapporteurs : Guy Lapalme, Professeur, Université de Montréal Juan-Manuel Torres Moreno, Maître de conférences HDR, Université d'Avignon Examinateurs : Anne Vilnat, Professeur, IUT d'Orsay Céline Rouveirol, Professeur, Université Paris 13 Daniel Kayser, Professeur, Université Paris 13 Directeur : Thierry Poibeau, Chargé de recherche CNRS, LaTTiCe Laboratoire d'Informatique de Paris-Nord – CNRS UMR 7030

méthode statistique pour le résumé automatique par extraction

classification des phrases

résumé de dépêches

apport de l'anno- tation en entités nommées et de la résolution d'anaphores pour le résumé automatique

catégorisation des dépêches de presse

classes sémantiques

Sujets

Université de Montréal

Frank Bossard

Institut Galilée

Kayser

Al-Tall

Torres

Lapalme

Informations

Publié par	mijec
Nombre de lectures	81
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

Département d informatique École doctorale Galilée
Institut Galilée
Contribution au résumé
automatique multi-documents
THÈSE
présentée et soutenue publiquement le 12/07/2010
pour l obtention du
Doctorat de l Université Paris-Nord Paris 13
(spécialité informatique)
par
Aurélien Bossard
Composition du jury
Rapporteurs : Guy Lapalme, Professeur, Université de Montréal
Juan-Manuel Torres Moreno, Maître de conférences HDR, Université d Avignon
Examinateurs : Anne Vilnat, Professeur, IUT d Orsay
Céline Rouveirol, Université Paris 13
Daniel Kayser, Professeur, Université Paris 13
Directeur : Thierry Poibeau, Chargé de recherche CNRS, LaTTiCe
Laboratoire d Informatique de Paris-Nord CNRS UMR 7030Remerciements
Je tiens à remercier tout d abord Thierry Poibeau, qui m a encadré depuis le Master
2, soit plus de 4 années, pour ses conseils, sa présence et son suivi qui m ont permis de
suivre ma propre voie tout en veillant à ce que je ne m égare pas. Il a contribué à faire de
mes années de thèse une expérience enrichissante. Je n oublie pas Daniel Kayser, dont
l expérience, les conseils et les relectures attentives ont été une aide précieuse.
Je remercie Juan-Manuel Torres Moreno et Guy Lapalme pour avoir accepté d être
les rapporteurs de cette thèse, ainsi qu Anne Vilnat et Céline Rouveirol pour leur
participation au jury.
Mes remerciements vont également aux personnes de mon équipe, RCLN, qui ont su
me guider depuis mes premiers pas en recherche. De plus, la qualité des formations
qu ils ont su mettre en place dans le master MICR m ont fourni les outils nécessaires à
la réalisation d une thèse dans un domaine aussi ouvert que le traitement automatique
du langage naturel. Je remercie également le LIPN, pour m avoir fait con ance et permis
d accomplir une thèse dans d aussi bonnes conditions de travail.
Comment ne pas citer mes collègues de bureau et amis, Christophe et Thibault, qui
ont réussi à rendre l atmosphère de travail à la fois saine et joviale. Merci à eux!
Je tiens aussi à exprimer toute ma gratitude à ma famille, notamment mes parents qui
m ont toujours soutenu durant mes études et dans toutes mes activités, ma petite sœur
dont la rigueur a été d une graide aide lorsqu elle a relu ma thèse d un œil extérieur
au TAL, et à la dernière venue, Maroussia, dont la patience a été rudement mise à
l épreuve.
Je nirai par remercier mes amis pour leur joie de vivre et les aventures que l on aura
pu vivre ensemble : Jeﬀ, Christophe, Charlotte et tous les autres qui ont contribué et
contribueront encore, je l espère, à rendre la vie plus agréable.
iiiRésumé
Résumer un texte consiste à réduire ce texte en un nombre limité de mots. Le texte
ainsi réduit doit rester dèle aux informations et idées du texte original. Que ce soit
pour des professionnels qui doivent prendre connaissance du contenu de documents en
un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans
disposer du temps nécessaire pour lire l intégralité des textes qui en traitent, le résumé
est une aide contextuelle importante. Avec l augmentation de la masse documentaire
disponible électroniquement, résumer des textes automatiquement est devenu un axe
de recherche important dans le domaine du traitement automatique de la langue. La
productionautomatiquederésumésposeleproblèmedeladétectionetdelamodélisation
des informations contenues dans les textes. Elle suppose également la hiérarchisation de
ces a n d intégrer au résumé les plus importantes. Cette thèse de doctorat
propose une méthode statistique pour le résumé automatique par extraction ainsi que
l intégration d analyses linguistiques au processus de sélection de phrases.
La méthode que nous proposons est fondée sur une classi cation des phrases à résumer
en classes sémantiques en utilisant des calculs de similarité entre les phrases. Cette étape
nous permet d identi er les phrases qui risquent de présenter des éléments d
information similaires et ainsi de supprimer toute redondance du résumé généré. Une seconde
étape vise à sélectionner une phrase par classe, en tenant compte de la similarité des
phrases à une éventuelle requête utilisateur, de la longueur des phrases ainsi que de la
centralité dans leur classe. Les résumés ainsi générés doivent maximiser la centralité et la
diversité des informations. Cette méthode a été évaluée sur deux tâches de la campagne
d évaluation TAC 2008 : le résumé de dépêches et le résumé d opinions issues de blogs.
Les résultats mitigés sur la première tâche et encourageants sur la deuxième nous ont
poussé à prendre en compte des critères de sélection de phrases spéci ques aux types de
documents traités. Nous avons alors proposé d établir une catégorisation des dépêches
de presse ainsi que l annotation automatique de leur structure a n d améliorer la qualité
des résumés générés par notre système. Nous avons également étudié l apport de l
annotation en entités nommées et de la résolution d anaphores pour le résumé automatique.
Le système et ces trois derniers modules ont été évalués sur la tâche de résumé et mise à
jour de résumé de dépêches de la campagne TAC 2009, se classant dans le premier quart
des participants. Notre méthode de résumé a également fait l objet d une intégration à
un système applicatif plus large visant à aider un possesseur de corpus à visualiser les
axes essentiels et à en retirer automatiquement les informations importantes.
vAbstract
Summarizing a textual document consists in compressing the text in a limited number
of words. The compressed text must remain faithful to the information and ideas from
the initial text. Professionals who have to peruse documents in a limited amount of time
or private individuals who want to be informed about a speci c topic without having
the time to read all the texts about it both need summaries. The increase in electronic
documents available have made the research in automatic summarization an important
domain in the eld of natural language processing. Producing automatic summaries
depends on textual information detection and modelling. Generating good automatic
summaries also depends on information hierarchization in order to put only the most
important information in the summaries. This PhD Thesis proposes a statistical method
to generate automatic extracts, and the integration of linguistic analysis to the sentences
selection process.
The method we propose is based on a sentence classi cation in semantic clusers, using
similarity calculation between sentences. This step allows us to identify the sentences
which convey the same information and to remove redundancy from the automatically
generated summaries. A second step aims to select one sentence per cluster, taking into
account the similarity to a user query, the sentences length and the centrality within
their cluster. The generated summaries must maximize the centrality and diversity of
the information they convey. This method has been evaluated on two diﬀerent tasks of
the evaluation campaign TAC 2008 : news summarization and opinion summarization.
The mixed results on the rst task led us all the more to take in account sentences
selection criterion speci c to the documents to summarize, since the results on the second
task were encouraging. We then proposed to establish a newswire articles categorization
as well as automatic structure tagging in order to improve the quality of the summaries
produced by CBSEAS. We also studied the named entity tagging and anaphora
resolution contribution to the summaries quality. CBSEAS and the three modules described
above have been evaluated on the Update summarization task for newswire articles
of the TAC 2009 evaluation campaign, ranking itself among the the rst quarter of the
TAC 2009 participating systems. Our summarization method has also been integrated
to a larger application which aims to help the user to visualize the main topics of a
corpus and to automatically extract the essential information.
viiTable des matières
Introduction 1
Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Apports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Plan de thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I. État de l art 5
1. État de l art du résumé automatique 9
1.1. T