Réordonnancement de candidats reponses pour un système de questions-réponses, Re-ranking of candidates answers of a question-answering system.

Thesee - Guillaume Bernard

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

225 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sous la direction de Martine Adda-decker, Sophie Rosset
Thèse soutenue le 06 juin 2011: Paris 11
L’objectif de cette thèse a été de proposer une approche robuste pour traiter le problème de la recherche dela réponse précise à une question.Notre première contribution a été la conception et la mise en œuvre d’un modèle de représentation robuste de l’informationet son implémentation. Son objectif est d’apporter aux phrases des documents et aux questions de l’informationstructurelle, composée de groupes de mots typés (segments typés) et de relations entre ces groupes. Ce modèle a été évalué sur différents corpus (écrits, oraux, web) et a donné de bons résultats, prouvant sa robustesse.Notre seconde contribution a consisté en la conception d’une méthode de réordonnancement des candidats réponsesretournés par un système de questions-réponses. Cette méthode a aussi été conçue pour des besoins de robustesse, ets’appuie sur notre première contribution. L’idée est de comparer une question et le passage d’où a été extraite une réponse candidate, et de calculer un score de similarité, en s’appuyant notamment sur une distance d’édition.Le réordonnanceur a été évalué sur les données de différentes campagnes d’évaluation. Les résultats obtenus sontparticulièrement positifs sur des questions longues et complexes. Ces résultats prouvent l’intérêt de notre méthode, notreapproche étant particulièrement adaptée pour traiter les questions longues, et ce quel que soit le type de données. Leréordonnanceur a ainsi été évalué sur l’édition 2010 de la campagne d’évaluation Quaero, où les résultats sont positifs.
-Question-Réponse
-Oral
-Réordonnancement
-Domaine ouvert
The objective of this work is to introduce a new robust approach to treat the problem of finding the correctanswer to a question.Our first contribution is the design and implementation of a robust representation model for information. The aim is torepresent the structural information of sentences of documents and questions structural information. This representation iscomposed of typed groups of words (typed segments) and relations between these groups. This model has been evaluatedon several corpus (written, oral, web) and achieved good resultats, which proves his robustness.Our second contribution consisted is the design of a re-ranking method of a set of the candidate answers output by thequestion-answering system. This re-ranking method is based on the structural information representation. The general ideais to compare a question and a passage from where a candidate answer was extracted, and to compute a similarity score by using a modified edit distance we proposed.Our re-ranking method has been evaluated on the data of several evaluation campaigns. The results are quite goodon long and complex questions. These results show the interest of our method : our approach is quite adapted to treatlong question, whatever the type of the data. The re-ranker has been officially evaluated on the 2010 edition of the Quaeroevaluation campaign, with positives results.
-Question-Answering
-Oral
-Re-ranking
-Open domain
Source: http://www.theses.fr/2011PA112071/document

Informations

Publié par	Thesee
Nombre de lectures	27
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

oNOTES et DOCUMENTS LIMSI N : 2011 - 06
Juin 2011
RÉORDONNANCEMENT D’HYPOTHÈSES DANS UN
SYSTÈME DE QUESTIONS-RÉPONSES
Guillaume BERNARD
Thèse soutenue le 6 Juin 2011 devant le jury composé de :
Rapporteurs Patrice BELLOT
Kamel SMAILI
Directrice Martine ADDA–DECKER
Co-Directrice Sophie ROSSET
Président du Jury Pierre ZWEIGENBAUM
Examinateurs Frédéric BÉCHET
Jeanne VILLANEAU
tel-00606025, version 1 - 5 Jul 2011oNotes et Documents LIMSI N : 2011 - 06 Juin 2011
Auteurs (Authors) : Guillaume Bernard
Titre : Réordonnancement d’hypothèses dans un système de questions-
réponses.
Title : Re-ranking of hypotheses in a question-answering system.
Nombre de pages (Number of pages) : 225
Résumé : L’objectif de cette thèse a été de proposer une approche robuste pour traiter le problème de la recherche de
la réponse précise à une question.
Notre première contribution a été la conception et la mise en oeuvre d’un modèle de représentation robuste de l’in-
formation et son implémentation. Son objectif est d’apporter aux phrases des documents et aux questions de l’information
structurelle, composée de groupes de mots typés (segments typés) et de relations entre ces groupes. Ce modèle a été évalué
sur différents corpus (écrits, oraux, web) et a donné de bons résultats, prouvant sa robustesse.
Notre seconde contribution a consisté en la conception d’une méthode de réordonnancement des candidats réponses
retournés par un système de questions-réponses. Cette méthode a aussi été conçue pour des besoins de robustesse, et
s’appuie sur notre première contribution. L’idée est de comparer une question et le passage d’où a été extraite une réponse
candidate, et de calculer un score de similarité, en s’appuyant notamment sur une distance d’édition.
Le réordonnanceur a été évalué sur les données de différentes campagnes d’évaluation. Les résultats obtenus sont
particulièrement positifs sur des questions longues et complexes. Ces résultats prouvent l’intérêt de notre méthode, notre
approche étant particulièrement adaptée pour traiter les questions longues, et ce quel que soit le type de données. Le
réordonnanceur a ainsi été évalué sur l’édition 2010 de la campagne d’évaluation Quaero, où les résultats sont positifs.
Mots clés : Question-Réponse, Oral, Réordonnancement, Domaine ouvert
Abstract : The objective of this work is to introduce a new robust approach to treat the problem of ﬁnding the correct
answer to a question.
Our ﬁrst contribution is the design and implementation of a robust representation model for information. The aim is to
represent the structural information of sentences of documents and questions structural information. This representation is
composed of typed groups of words (typed segments) and relations between these groups. This model has been evaluated
on several corpus (written, oral, web) and achieved good resultats, which proves his robustness.
Our second contribution consisted is the design of a re-ranking method of a set of the candidate answers output by the
question-answering system. This re-ranking method is based on the structural information representation. The general idea
is to compare a question and a passage from where a candidate answer was extracted, and to compute a similarity score by
using a modiﬁed edit distance we proposed.
Our re-ranking method has been evaluated on the data of several evaluation campaigns. The results are quite good
on long and complex questions. These results show the interest of our method : our approach is quite adapted to treat
long question, whatever the type of the data. The re-ranker has been ofﬁcially evaluated on the 2010 edition of the Quaero
evaluation campaign, with positives results.
Keywords : Question-Answering, Oral, Re-ranking, Open domain
tel-00606025, version 1 - 5 Jul 20113
Remerciements
Une thèse est un travail de longue durée : outre ma modeste personne, un nombre élevé de personnes
a participé à mon travail, des fois indirectement. C’est la raison pour laquelle je m’excuse par avance
des oublis potentiels dans ces remerciements.
Je remercie tout d’abord mes deux directeurs de thèse, Martine Adda-Decker et Sophie Rosset qui
m’ont soutenu tout au long de ces quatre longues années. Je retiens particulièrement toutes les dis-
cussions de travail enrichissantes, ainsi que le soutien moral apporté lors des moments de doutes qui
m’ont assailli.
Je remercie Patrice Bellot et Kamel Smaili d’avoir accepté d’être les rapporteurs de ma thèse, et
pour les rapports détaillés soulevant des questions très pertinentes.
Je remercie aussi l’ensemble des examinateurs de mon jury : Frédéric Béchet, Jeanne Villaneau et
Pierre Zweigenbaum. Les questions posées à la suite de ma présentation et les divers échanges ont
été particulièrement intéressants et enrichissants.
Je remercie aussi Aurélien Max, qui m’a encadré dans mon stage de Master Recherche qui préﬁ-
gurera mes différents travaux de thèse.
Je remercie spécialement Anne Vilnat, qui m’a donné le virus du TAL et des systèmes de questions-
réponses à la suite d’un projet TER en Licence, et qui est donc une des origines principales de ma
thèse.
Je tiens aussi à remercier l’ensemble du personnel du LIMSI, et plus particulièrement les membres
du groupe TLP de m’avoir accueilli et intégré.
Enﬁn, je remercie ma famille et tous mes amis de m’avoir soutenu tout au long de ce long travail
de thèse.
tel-00606025, version 1 - 5 Jul 20114
tel-00606025, version 1 - 5 Jul 2011Table des matières
Introduction 13
I Contexte du travail 19
Introduction 21
1 Les systèmes de Questions-Réponses 25
1.1 Présentation générale des systèmes de questions-réponses . . . . . . . . . . . . . . . 25
1.2 CHAUCER, un système linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3 Un système fortement statistique : le système des ATR Spoken Language Communi-
cation Research Laboratories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4 QALC, un système intermédiaire de LIMSI-ILES . . . . . . . . . . . . . . . . . . . 31
1.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2 Ritel : un système de questions-réponses oral en domaine ouvert 37
2.1 Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2 Analyse des documents et des questions . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Système de questions-réponses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.1 Déﬁnition Descripteurs De Recherche (DDR) . . . . . . . . . . . . . . . . . 40
2.3.2 Recherche des réponses candidates . . . . . . . . . . . . . . . . . . . . . . 41
2.3.2.1 Sélection des documents . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.2.2 Sélection des passages . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.2.3 Sélection et extraction des réponses . . . . . . . . . . . . . . . . . 44
2.3.3 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3.4 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5
tel-00606025, version 1 - 5 Jul 20116 TABLE DES MATIÈRES
Discussion 51
II Contributions 53
Introduction 55
3 Approches pour le réordonnancement de réponses 57
3.1 Etude de différentes méthodes applicables pour le réordonnancement . . . . . . . . . 58
3.1.1 Utilisation de dépendances syntaxiques dans le cadre du web : le système FIDJI 59
3.1.2 Utilisation de dépendances syntaxiques et de méthode par apprentissage pour
des transcriptions orales : le système de l’UPC . . . . . . . . . . . . . . . . 60
3.1.3 Utilisation de rôles sémantiques pour l’extraction des réponse : QASR . . . . 63
3.1.4 Noyaux syntaxiques et sémantiques pour l’extraction de réponses dans le
cadre du système YourQA . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.5 Implication textuelle par distance d’édition : le système EDITS . . . . . . . 66
3.1.6 Conclusions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Modèles de représentation des questions et des documents . . . . . . . . . . . . . . 69
3.2.1 Segmentation et annotation de groupes de mots . . . . . . . . . . . . . . . . 70
3.2.2 Relations entre groupes de mots . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.2.1 XIP, un analyseur de dépendances syntaxiques . . . . . . . . . . . 71
3.2.2.2 Assert, un annotateur de rôles sémantiques . . . . . . .