ACADÉMIE D'AIX MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE

profil-zyak-2012 - Florian Boudin

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

105 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Niveau: Supérieur, Doctorat, Bac+8
ACADÉMIE D'AIX-MARSEILLE UNIVERSITÉ D'AVIGNON ET DES PAYS DE VAUCLUSE THÈSE présentée à l'Université d'Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 380 «Sciences et Agronomie» Laboratoire Informatique (EA 931) Exploration d'approches statistiques pour le résumé automatique de texte par Florian BOUDIN Soutenue publiquement le jour mois année devant un jury composé de : M. Guy Lapalme Professeur, RALI, Montréal Rapporteur M. Horacio Saggion Research Fellow, NLPG, Sheffield Rapporteur M. Patrick Gallinari Professeur, LIP6, Paris Examinateur M. Thierry Poibeau Docteur, LIPN, Paris Examinateur M. Marc El-Bèze Professeur, LIA, Avignon Co-Directeur de thèse M. Juan-Manuel Torres Moreno MdC HDR, LIA, Avignon Directeur de thèse Laboratoire d'Informatique Université d'Avignon Laboratoire Informatique d'Avignon te l-0 04 19 46 9, v er sio n 1 - 2 4 Se p 20 09

volume croissant de textes disponibles

pré-traitement linguistique

université d'avignon et des pays de vaucluse

résumé automatique

déjà– sur le résumé automa- tique

avignon co-directeur de thèse

Sujets

Laboratoire Informatique d'Avignon

Boudin

Horacio

Torres

Académie d'Aix-Marseille

Lapalme

Informations

Publié par	profil-zyak-2012
Nombre de lectures	71
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentée à l’Université d’Avignon et des Pays de Vaucluse
pour obtenir le diplôme de DOCTORAT
SPÉCIALITÉ : Informatique
École Doctorale 380 «Sciences et Agronomie»
Laboratoire Informatique (EA 931)
Exploration d’approches statistiques pour le résumé
automatique de texte
par
Florian BOUDIN
Soutenue publiquement le jour mois année devant un jury composé de :
M. Guy Lapalme Professeur, RALI, Montréal Rapporteur
M. Horacio Saggion Research Fellow, NLPG, Shefﬁeld Rapporteur
M. Patrick Gallinari Professeur, LIP6, Paris Examinateur
M. Thierry Poibeau Docteur, LIPN, Parisr
M. Marc El-Bèze Professeur, LIA, Avignon Co-Directeur de thèse
M. Juan-Manuel Torres Moreno MdC HDR, LIA, A Directeur de thèse
Laboratoire d'Informatique
Laboratoire Informatique d’Avignon
Université d'Avignon
tel-00419469, version 1 - 24 Sep 20092
tel-00419469, version 1 - 24 Sep 2009Remerciements
Mes remerciements s’adressent tout d’abord à mon co-directeur de thèse, Juan-
Manuel Torres-Moreno pour son soutien constant, sa conﬁance et sa générosité sans
pareille. C’est à l’issue d’un stage de recherche portant –déjà– sur le résumé automa-
tique que j’ai fait sa connaissance. De cette première collaboration est né chez moi un
profond respect ainsi qu’une totale admiration envers ce globe-trotter.
Je remercie vivement mon autre directeur de thèse, Marc El-Bèze pour sa disponibi-
lité et ses conseils plus qu’avisés.
Je tiens à exprimer mes remerciements à Guy Lapalme et Horacio Saggion pour
m’avoir fait l’honneur de rapporter cette thèse.
Je tiens aussi à remercier tous ceux, et ils sont nombreux, qui ne m’ont pas cru ca-
pable de mener cette thèse à son terme. C’est en partie grâce à eux que j’ai pu trou-
ver la motivation nécessaire. Merci à toi, monsieur jeu-de-carte pour qui le respect me
manque. Je tiens par conséquent à m’excuser auprès des personnes concernées pour
avoir créé un précédent...
Je remercie également ma famille et mes amis pour leur soutien durant cette thèse.
Voici une liste, bien sur non exhaustive, des personnes que je souhaite remercier tout
particulièrement : Patricia, Peter, Eric, Silvia & Pedro, Simone, Jocelyne, Thierry, Nico-
las, Ruth, Ralph, Zack.
Je souhaiterais ﬁnalement remercier Kim qui m’a patiemment supporté, et qui main-
tenant sait beaucoup plus de choses sur le traitement automatique de la langue qu’elle
n’aurait probablement jamais voulu savoir. Grâce à sa présence, ses encouragements,
son inﬁnie patience et son amour, cette thèse est à présent terminée.
À ma famille...
3
tel-00419469, version 1 - 24 Sep 2009
À
mon
coeur
...4
tel-00419469, version 1 - 24 Sep 2009Résumé
Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec
un minimum de mots le contenu essentiel d’un document. Son but est d’aider le lec-
teur à repérer les informations qui peuvent l’intéresser sans pour autant devoir lire le
document en entier. Mais pourquoi avons-nous tant besoin de résumés ? Simplement
parce que nous ne disposons pas d’assez de temps et d’énergie pour tout lire. La masse
d’information textuelle sous forme électronique ne cesse d’augmenter, que ce soit sur
Internet ou dans les réseaux des entreprises. Ce volume croissant de textes disponibles
rend difﬁcile l’accès à l’information désirée sans l’aide d’outils spéciﬁques. Produire un
résumé est une tâche très complexe car elle nécessite des connaissances linguistiques
ainsi que des connaissances du monde qui restent très difﬁciles à incorporer dans un
système automatique. Dans cette thèse de doctorat, nous explorons la problématique
du résumé automatique par le biais de trois méthodes statistiques permettant chacune
la production de résumés répondant à une tâche différente.
Nous proposons une première approche pour la production de résumé dans le do-
maine spécialisé de la Chimie Organique. Un prototype nommé YACHS a été déve-
loppé pour démontrer la viabilité de notre approche. Ce système est composé de deux
modules, le premier applique un pré-traitement linguistique particulier aﬁn de tenir
compte de la spéciﬁcité des documents de Chimie Organique tandis que le second
sélectionne et assemble les phrases à partir de critères statistiques dont certains sont
spéciﬁques au domaine. Nous proposons ensuite une approche répondant à la problé-
matique du résumé automatique multi-documents orienté par une thématique. Nous
détaillons les adaptations apportées au système de résumé générique Cortex ainsi que
les résultats observés sur les données des campagnes d’évaluation DUC. Les résultats
obtenus par la soumission du LIA lors des participations aux campagnes d’évaluations
DUC 2006 et DUC 2007 sont discutés. Nous proposons ﬁnalement deux méthodes pour
la génération de résumés « mis-à-jour ». La première approche dite de maximisation-
minimisation a été évaluée par une participation à la tâche pilote de DUC 2007. La
seconde méthode est inspirée de Maximal Marginal Relevance (MMR), elle a été évaluée
par plusieurs soumissions lors de la campagne TAC 2008.
Mots clés
Traitement Automatique du Langage Naturel, Résumé Automatique, Méthodes Sta-
tistiques, Chimie Organique, Maximal Marginal Relevance, Document Understanding
Conference, Text Analysis Conference.
5
tel-00419469, version 1 - 24 Sep 20096
tel-00419469, version 1 - 24 Sep 2009Abstract
A summary is a text rephrased in a smaller space. It should express the essential
content of a document with a minimum of words. Its purpose is to help the reader
to locate information which may be of interest without having to read the entire do-
cument. But why do we need so much summaries ? Simply because we do not have
enough time and energy to read everything. The mass of textual information in electro-
nic format is increasing, whether on the Internet or in private networks. This increasing
volume of available textual documents makes it difﬁcult to access a desired information
without using speciﬁc tools. Producing a summary is a very complex task because it re-
quires linguistic knowledge as well as world knowledge which remain very difﬁcult to
build into an automated system. In this Ph.D. thesis, we explore the issue of automa-
tic text summarization through three statistical approaches, each designed to handle a
different task.
We ﬁrst propose an efﬁcient stratedy for summarizing documents in a speciali-
zed domain which is the Organic Chemistry. We present its implementation named
YACHS (Yet Another Chemistry Summarizer) that combines a speciﬁc document pre-
processing with a sentence scoring method relying on the statistical properties of do-
cuments. Next, we propose an approach to tackle the issue of topic-oriented multi-
document text summarization. We give details on the adjustments made to the generic
text summarization system Cortex and we evaluate our method on the DUC evaluation
data. Results obtained by the LIA during the DUC 2006 and DUC 2007 campaigns are
discussed. Finally, two approaches for the update summarization task are introduced.
We evaluate the ﬁrst, named maximisation-minimisation, by participating to the pilot
task of the DUC 2007 campaign. The second approach is based on the Maximal Margi-
nal Relevance (MMR) and assessed by two submissions to the TAC 2008 summarization
task.
Mots clés
Natural Language Processing, Text Summarization, Statistical Approaches, Organic
Chemistry, Maximal Marginal Relevance, Document Understanding Conference, Text
Analysis Conference.
7
tel-00419469, version 1 - 24 Sep 20098
tel-00419469, version 1 - 24 Sep 2009Table des matières
1 Introduction 11
1.1 Le résumé automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Problématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Plan de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Le résumé automatique 15
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Déﬁnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Les extraits et les résumés . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 Les résumés indicatifs et informatifs . . . . . . . . . . . . . . . . . 17
2.2.3 Le taux de compression . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Les méthodes de résumé par extraction . . . .