These Final 090605
162 pages
Français

These Final 090605

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
162 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

UNIVERSITE JOSEPH FOURIER – GRENOBLE I U.F.R. EN INFORMATIQUE ET MATHEMATIQUES APPLIQUES THESE Pour obtenir le grade de DOCTEUR DE L’UNIVERSITE JOSEPH FOURIER – GRENOBLE I Discipline : Informatique Présentée et soutenue publiquement par HO Bao-Quoc le 18 novembre 2004 TITRE Vers une indexation structurée basée sur des syntagmes nominaux (impact sur un SRI en vietnamien et la RI multilingue) Composition du jury : Présidence : M. Christian BOITET Rapporteurs : M. Patrick GALLINARI M. Mohand BOUGHANEM Examinateur : M. Jean-Pierre GIRAUDIN Directeurs de thèse : Mme. Marie-France BRUANDET Mme. DONG Thi Bich Thuy M. Jean-Pierre CHEVALLET Thèse préparée au sein du laboratoire CLIPS-IMAG (Communication Langagière et Interaction Personne Système) Université Joseph Fourier – Grenoble I Remerciements Bien des personnes ont contribué, de près ou de loin, à ce travail, que ce soit par leurs conseils, leur contribution ou leurs encouragements. Je leur exprime ma profonde gratitude. Il me serait difficile de toutes les remercier sur cette page. J’espère qu’elles comprendront. Je tiens à remercier : M. Christian BOITET, Professeur à l’Université Joseph Fourier, qui m’a fait l’honneur de présider le jury, pour ses renseignements et ses critiques constructives. Cela m’a permis d’améliorer la qualité du manuscrit. M. Patrick GALLINARI, Professeur de l’UPMC, LIP6, et M. Mohand BOUGHANEM, ...

Informations

Publié par
Nombre de lectures 62
Langue Français

Extrait

UNIVERSITE JOSEPH FOURIER – GRENOBLE I
U.F.R. EN INFORMATIQUE ET MATHEMATIQUES APPLIQUES

THESE
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE JOSEPH FOURIER – GRENOBLE I
Discipline : Informatique

Présentée et soutenue publiquement
par
HO Bao-Quoc
le 18 novembre 2004

TITRE
Vers une indexation structurée basée sur des
syntagmes nominaux
(impact sur un SRI en vietnamien et la RI multilingue)






Composition du jury :
Présidence : M. Christian BOITET
Rapporteurs : M. Patrick GALLINARI
M. Mohand BOUGHANEM
Examinateur : M. Jean-Pierre GIRAUDIN
Directeurs de thèse : Mme. Marie-France BRUANDET
Mme. DONG Thi Bich Thuy
M. Jean-Pierre CHEVALLET


Thèse préparée au sein du laboratoire CLIPS-IMAG
(Communication Langagière et Interaction Personne Système)
Université Joseph Fourier – Grenoble I

Remerciements

Bien des personnes ont contribué, de près ou de loin, à ce travail, que ce soit par leurs conseils,
leur contribution ou leurs encouragements. Je leur exprime ma profonde gratitude. Il me serait
difficile de toutes les remercier sur cette page. J’espère qu’elles comprendront.

Je tiens à remercier :

M. Christian BOITET, Professeur à l’Université Joseph Fourier, qui m’a fait l’honneur de
présider le jury, pour ses renseignements et ses critiques constructives. Cela m’a permis
d’améliorer la qualité du manuscrit.

M. Patrick GALLINARI, Professeur de l’UPMC, LIP6, et M. Mohand BOUGHANEM,
Professeur à l’Université Paul Sabatier de Toulouse, pour avoir accepté d’être rapporteurs et
pour leurs remarques, et pour l’intérêt qu’ils ont manifesté pour ce travail.

M. Jean-Pierre GIRAUDIN, Professeur à l’Université Pierre Mendès France, pour son
amiable participation à ce jury.

Mme Marie-France BRUANDET, Professeur à l’Université Joseph Fourier, et M. Jean-Pierre
CHEVALLET, Maître de Conférence à l’Université Pierre Mendès-France, qui ont dirigé ce
travail, pour le temps qu’ils m’ont consacré durant toutes ces années, pour leurs remarques
attentives, leur gentillesse, leur patience et leur écoute pour la correction de mes fautes de
français, ainsi que pour toute leur aide durant mes séjours en France.

Mme Thi Bich Thuy DONG, Professeur à l’Université Nationale du Vietnam à Ho Chi Minh
Ville, co-directrice de ma thèse, pour son soutien et ses encouragements pendant toutes ces
années.

Je remercie tous les membres du laboratoire CLIPS, en particulier Lizbeth, Razan et Jean qui
ont partagé le même bureau que moi, pour leur disponibilité et la gentillesse avec laquelle ils
m’ont beaucoup aidé dans la vie quotidienne.

Pour terminer, je tiens à remercier ma famille qui a eu confiance en moi, ma grande mère,
mes parents qui ont toujours été là quand j’ai eu besoin d’eux, et qui m’ont appris à porter un
regard ouvert sur le monde. Je remercie enfin ma femme, mes beaux parents et mes deux
petits « Anh » qui ont fait bien des sacrifices pour moi.



Table de matière

Chapitre 1 Introduction générale ....................................... 7
1.1 Motivations.................................................................................................................7
1.2 Objectif de la thèse.............................................................................. 8
1.3 Problématique.............................................................................................................9
1.3.1 Choix de la nature des termes d’indexation ............................... 9
1.3.2 Structuration du terme d’indexation................................................... 9
1.3.3 Fonction de correspondance.............................10
1.3.4 Passage de la barrière des langues...................................................... 10
1.4 Recherches connexes........................................................................11
1.5 Contribution de la thèse............................................................................................ 12
1.6 Organisation de la thèse ................................................................... 13
Chapitre 2 Système de recherche d’information ........... 14
2.1 Définition d’un système de recherche d’information............................................... 14
2.2 Modèle de recherche d'information.................................... 16
2.3 Evaluation d’un système de recherche d’information.............................................. 17
2.4 Traitement automatique des langues pour la recherche d’information .................... 18
2.4.1 Techniques morphologiques..............................................................18
2.4.2 Variation lexicale, synonymie..................................................20
2.4.3 Variation syntaxique..........................................................................20
2.4.4 Variation sémantique...............21
Chapitre 3 Recherche d’information multilingue............ 25
3.1 Définition................................................................................................................. 25
3.2 Problématique............................................................25
3.3 Evaluation................................................................................................................. 27
3.4 Classification des approches ...................... 27
3.5 Traduction de document...........................................................................................29
3.6 Tradde la requête.... 29
3.6.1 Utilisation d’un logiciel de traduction automatique......................................... 30
3.6.2 Utilisation d’un dictionnaire bilingue ........................ 30
3.6.3 Utilisation de corpus parallèles ou comparables .............................................. 36
3.6.4 Utilisation d’un pseudo langage pivot...................................... 39
13.7 Résumé..................................................................................................................... 44
3.8 Modèle pour la SRI multilingue................ 45
3.8.1 Modèle de langue (language modelling) pour la recherche d’information...... 45
3.8.2 Vers un modèle unifié pour la recherche d’information multilingue............... 47
3.9 Conclusion................................................................................................................48
Chapitre 4 Modèle de recherche d’information basé sur
un réseau bayésien des expressions d’indexation........... 49
4.1 Un modèle logique pour la recherche d’information ............................................... 49
4.1.1 Introduction........................................................................................49
4.1.2 Modèle et système de recherche d’information : définitions ........................... 49
4.1.3 Notion de dérivation......................................................................................... 50
4.1.4 Inférence et pertinence ..................................................................................... 50
4.2 Réseau bayésien.................................................................51
4.2.1 Notions de base d’un graphe acyclique orienté................................................ 51
4.2.2 Définition d’un réseau bayésien....................................................................... 51
4.3 Inférence probabiliste sur un réseau bayésien............................................ 55
4.3.1 Langage d’indexation..............................................................55
4.3.2 Treillis des termes d’indexation ......................................................... 57
4.3.3 Règle d’inférence.............................................................................................59
4.3.4 Réseau bayésien des termes d’indexation .......................................... 59
4.3.5 Calcul de la pertinence ............................................................. 61
4.4 Conclusion................................................................................................................65
Chapitre 5 Un modèle de recherche d’information....... 69
5.1 Terme d’Indexation Syntagmatique (TIS) ............................................................... 69
5.1.1 Définition (terme d’indexation syntagmatique : TIS) ...................................... 69
5.1.2 Règles de décomposition d’un TIS .................................................................. 71
Règle 1 : Distribution de la tête........................................................................................ 72
Règle 3 : Eclatement des atomes.............................................................. 73
5.1.3 Relation d

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents