Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Modèles statistiques pour l’accès à l'information textuelle

De
483 pages
Cet ouvrage présente les modèles statistiques récemment développés au sein de diverses communautés pour accéder à l'information contenue dans des collections textuelles. Les problématiques considérées sont liées aux applications visant à faciliter l'accès à l'information : recherche et extraction d'information , catégorisation et classification de textes , détection et classification d'opinions , aide à la compréhension : résumé automatique, traduction automatique, visualisation.
Afin de donner au lecteur une description aussi complète que possible, l'accent est mis sur les modèles probabilistes utilisés dans les applications concernées, en exposant la relation entre modèles et applications et en illustrant le comportement de chaque modèle sur des collections réelles.
Modèles statistiques pour l'accès à l'information textuelle est organisé autour de quatre thématiques : la recherche d'information et les modèles d'ordonnancement, la classification et le clustering (régression logistique, méthodes à noyaux, champ markoviens, etc.), le multilinguisme et la traduction automatique et les applications émergentes comme l'exploration d'information.
Introduction - Éric GAUSSIER et François YVON. RECHERCHE D'INFORMATION. Chapitre 1. Modèles probabilistes pour la recherche d'information. Chapitre 2. Modèles d'ordonnancement pour le résumé automatique et la recherche d'information. CLASSIFICATION ET PARTITIONNEMENT. Chapitre 3. Régression logistique et catégorisation de textes. Chapitre 4. Méthodes à noyaux pour les tâches d'accès à l'information textuelle. Chapitre 5. Modèles génératifs à base de thèmes pour l'accès à l'information textuelle. Chapitre 6. Champs markoviens conditionnels pour l'extraction d'information. MULTILINGUISME. Chapitre 7. Méthodes statistiques pour la traduction automatique. APPLICATIONS ÉMERGENTES. Chapitre 8. Exploration d'information : méthodes et interfaces pour l'accès à des informations élaborées. Chapitre 9. Peut-on voir la détection d'opinions comme un problème de classification thématique ? Annexes. Bibliographie. Index.
Voir plus Voir moins








Modèles statistiques pour l’accès à l’information textuelle



































© LAVOISIER, 2011
LAVOISIER
11, rue Lavoisier
75008 Paris

www.hermes-science.com
www.lavoisier.fr

ISBN 978-2-7462-2497-1
ISSN 1968-8008


Le Code de la propriété intellectuelle n’autorisant, aux termes de l’article L. 122-5, d’une
part, que les "copies ou reproductions strictement réservées à l’usage privé du copiste et non
destinées à une utilisation collective" et, d’autre part, que les analyses et les courtes citations
dans un but d’exemple et d’illustration, "toute représentation ou reproduction intégrale, ou
partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause, est
illicite" (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce
soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du
Code de la propriété intellectuelle.
Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins
d’identification et sont des marques de leurs détenteurs respectifs.


Printed and bound in England by Antony Rowe Ltd, Chippenham, May 2011.





Modèles statistiques

pour l’accès


à l’information textuelle









sous la direction de

Eric Gaussier
François Yvon








Direction éditoriale Jean-Charles Pomerol



COLLECTION RECHERCHE D’INFORMATION ET WEB
SOUS LA DIRECTION DE BERNADETTE BOUCHON-MEUNIER Liste des auteurs

Alexandre ALLAUZEN Stéphane CLINCHANT
LIMSI Xerox Research Centre Europe
Université Paris 11 LIG
Orsay Université Grenoble 1

Massih-Réza AMINI Yves DENNEULIN
LIP6 LIG
Université Paris 6 Grenoble INP

Anestis ANTONIADIS Marc EL-BÈZE
LJK LIA
Université Grenoble 1 Université d’Avignon
et des Pays du Vaucluse
Sujeevan ASEERVATHAM
LIG Patrick GALLINARI
Université Grenoble 1 LIP6
Université Paris 6
Frédéric BÉCHET
LIA Eric GAUSSIER
Université d’Avignon LIG
et des Pays du Vaucluse Université Grenoble 1

Patrice BELLOT Josiane MOTHE
LIA Institut de Recherche en Informatique
Université d’Avignon de Toulouse
et des Pays du Vaucluse IUFM
Université de Toulouse
David BUFFONI
LIP6 Jean-Michel RENDERS
Université Paris 6 Xerox Research Centre Europe
Meylan
Michel BURLET
G-SCOP Isabelle TELLIER
Université Grenoble 1 LIFO
Université d’Orléans
Jean-Cédric CHAPPELIER
Faculté Informatique Marc TOMMASI
et Communications Université de Lille
École Polytechnique Fédérale INRIA Lille Nord Europe
de Lausanne

Juan-Manuel TORRES-MORENO Nicolas USUNIER
LIA LIP6
Université d’Avignon Université Paris 6
et des Pays du Vaucluse
François YVON
Tuong Vinh TRUONG LIMSI
LIP6 Université Paris 11
Université Paris 6
Table des matières
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Éric GAUSSIER et François YVON
PREMIÈRE PARTIE. RECHERCHE D’INFORMATION . . . . . . . . . . . . . 25
Chapitre 1. Modèles probabilistes pour la recherche d’information . . . . 27
Stéphane CLINCHANT, Eric GAUSSIER
1.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.1.1. Contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.2. Modèle 2-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.3. Principe d’ordonnancement probabiliste (Probability ranking principle
(PRP)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.3.1. Reformulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.1.1. Binary Independence Model . . . . . . . . . . . . . . . . . . 36
1.3.2. BM25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.4. Modèles de langue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.4.1. Méthodes de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.4.1.1. Lissage de Jelinek-Mercer . . . . . . . . . . . . . . . . . . . 41
1.4.1.2. de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . 42
1.4.2. Modèle de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . 44
1.4.3. de rétro-pertinence . . . . . . . . . . . . . . . . . . . . . . 45
1.4.3.1. Modèle de mélange . . . . . . . . . . . . . . . . . . . . . . . 45
1.4.3.2. Modèles de pertinence (Relevance Model) . . . . . . . . . . 46
1.4.4. Modèle du canal bruité . . . . . . . . . . . . . . . . . . . . . . . . 47
1.4.5. Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.5. Approches informationnelles . . . . . . . . . . . . . . . . . . . . . . . . 49
1.5.1. Déviation à l’aléatoire (Divergence from Randomness (DFR)) . . 49
1.5.1.1. Normalisation de fréquences . . . . . . . . . . . . . . . . . . 51
1.5.1.2. ModèleInf . . . . . . . . . . . . . . . . . . . . . . . . . . . 51110 MSAIT
1.5.1.3. ModèleProb . . . . . . . . . . . . . . . . . . . . . . . . . . 522
1.5.1.4. Combinaison des ModèlesInf etProb . . . . . . . . . . . 521 2
1.5.1.5. Critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1.5.2. Modèles fondés sur l’information . . . . . . . . . . . . . . . . . . 53
1.5.2.1. Deux instanciations . . . . . . . . . . . . . . . . . . . . . . . 56
1.5.2.2. Extension au PRF . . . . . . . . . . . . . . . . . . . . . . . . 57
1.5.2.3. Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.6. Comparaison expérimentale . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.7. Outils pour la recherche d’information . . . . . . . . . . . . . . . . . . . 60
1.8. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
1.9. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Chapitre 2. Modèles d’ordonnancement pour le résumé automatique et la
recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Massih-Réza AMINI, David BUFFONI, Patrick GALLINARI, Tuong Vinh
TRUONG, Nicolas USUNIER
2.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.1.1. Ordonnancement d’instances . . . . . . . . . . . . . . . . . . . . . 66
2.1.1.1. Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.1.2. Classification de paires critiques . . . . . . . . . . . . . . . . 68
2.1.1.3. Application avec un modèle linéaire . . . . . . . . . . . . . . 69
2.1.1.4. Ordonnancement induit par la sortie d’un classifieur . . . . . 71
2.1.1.5. Autres critères . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.1.1.6. Cas particulier : l’ordonnancement biparti . . . . . . . . . . . 73
2.1.2. Ordonnancement d’alternatives . . . . . . . . . . . . . . . . . . . . 75
2.1.2.1. Formalisme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.1.2.2. Modèle linéaire pour l’ordonnancement d’alternatives . . . . 76
2.1.3. Relation avec les cadres existants . . . . . . . . . . . . . . . . . . . 77
2.1.3.1. Régression ordinale . . . . . . . . . . . . . . . . . . . . . . . 78
2.1.3.2. Apprentissage de relations de préférence . . . . . . . . . . . 79
2.2. Application au résumé automatique de textes . . . . . . . . . . . . . . . 79
2.2.1. Présentation de l’application . . . . . . . . . . . . . . . . . . . . . 79
2.2.1.1. Forme de résumés . . . . . . . . . . . . . . . . . . . . . . . . 81
2.2.2. Résumé automatique et apprentissage . . . . . . . . . . . . . . . . 82
2.3. Application à la recherche d’information . . . . . . . . . . . . . . . . . 83
2.3.1. Présentation de l’application . . . . . . . . . . . . . . . . . . . . . 83
2.3.2. Moteurs de recherche et apprentissage . . . . . . . . . . . . . . . . 85
2.3.2.1. Constitution d’une base d’apprentissage . . . . . . . . . . . . 85
2.3.2.2. Favoriser le haut de la liste de documents renvoyés . . . . . 86
2.3.3. Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 87
2.4. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.5. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89Table des matières 11
DEUXIÈME PARTIE. CLASSIFICATION ET PARTITIONNEMENT . . . . . . 95
Chapitre 3. Régression logistique et catégorisation de textes . . . . . . . . . 97
Sujeevan ASEERVATHAM, Eric GAUSSIER, Anestis ANTONIADIS, Michel
BURLET et Yves DENNEULIN
3.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.2. Modèle linéaire généralisé . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.3. Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.4. La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.4.1. Régression multinomiale . . . . . . . . . . . . . . . . . 106
3.5. Sélection de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.5.1. Régularisation Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.5.2. LASSO . . . . . . . . . . . . . . . . . . . . . . . . 108
3.5.3. Selected Ridge . . . . . . . . . . . . . . . . . . . . 110
3.6. Régression logistique appliquée à la catégorisation de textes . . . . . . 111
3.6.1. Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.6.2. Préparation des données . . . . . . . . . . . . . . . . . . . . . . . . 112
3.6.3. Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 114
3.6.3.1. Expérience sur Reuters-21587 . . . . . . . . . . . . . . . . . 116
3.6.3.2. sur Ohsumed . . . . . . . . . . . . . . . . . . . . 116
3.6.3.3. Expérience sur 20-Newsgroups . . . . . . . . . . . . . . . . . 117
3.6.3.4. Expériences sur DMOZ . . . . . . . . . . . . . . . . . . . . . 118
3.7. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Chapitre 4. Méthodes à noyaux pour les tâches d’accès à l’information
textuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Jean-Michel RENDERS
4.1. Les méthodes à noyaux : contexte et intuitions . . . . . . . . . . . . . . 123
4.2. Principes généraux des méthodes à noyaux . . . . . . . . . . . . . . . . 126
4.3. De la problématique générale du choix des noyaux (ingénierie des
noyaux) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.4. Version à noyau d’algorithmes linéaires standards : les solveurs
généralistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.4.1. Régression logistique à noyau . . . . . . . . . . . . . . . . . . . . 137
4.4.2. Séparateur à vaste marge . . . . . . . . . . . . . . . . . . . . . . . 138
4.4.3. Analyse en composantes principales à noyau . . . . . . . . . . . . 141
4.4.4. Autres techniques d’AIT dans leur version noyau . . . . . . . . . 142
4.5. Noyaux pour entités textuelles . . . . . . . . . . . . . . . . . . . . . . . 143
4.5.1. Noyaux pour « sac de mots » . . . . . . . . . . . . . . . . . . . . . 144
4.5.2. Noyaux sémantiques . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.5.3. Noyaux de diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.5.4. Noyaux de séquence . . . . . . . . . . . . . . . . . . . . . . . . . . 14812 MSAIT
4.5.4.1. Noyau « p-spectre » . . . . . . . . . . . . . . . . . . . . . . . 149
4.5.4.2. Noyau « toutes sous-séquences » . . . . . . . . . . . . . . . . 149
4.5.4.3. Noyau « de longueur fixe » . . . . . . . . . . 150
4.5.5. Noyaux d’arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
4.5.6. Noyau pour graphes . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.5.7. Noyaux dérivés de modèles génératifs . . . . . . . . . . . . . . . . 159
4.5.7.1. Noyau à indépendance conditionnelle marginalisée . . . . . 160
4.5.7.2. Noyau à variables latentes marginalisées . . . . . . . . . . . 162
4.5.7.3. Noyau de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 162
4.6. Résumé du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
4.7. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Chapitre 5. Modèles génératifs à base de thèmes pour l’accès à
l’information textuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Jean-Cédric CHAPPELIER
5.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
5.1.1. Modèles génératifs et discriminants . . . . . . . . . . . . . . . . . 170
5.1.2. Cas des documents textuels . . . . . . . . . . . . . . . . . . . . . . 171
5.1.3. Estimation, prédiction et lissage . . . . . . . . . . . . . . . . . . . 173
5.1.4. Terminologie et notations (locales) . . . . . . . . . . . . . . . . . . 175
5.2. Modèles à base de thèmes . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.2.1. Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.2.2. Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.2.3. Cadre formel général . . . . . . . . . . . . . . . . . . . . . . . . . 178
5.2.4. Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . 180
5.2.5. Utilisation en classification . . . . . . . . . . . . . . . . . . . . . . 182
5.3. Modèles de thèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
5.3.1. Indexation sémantique latente probabiliste . . . . . . . . . . . . . 184
5.3.1.1. Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
5.3.1.2. Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.3.1.3. Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
5.3.2. Analyse par distributions de Dirichlet latentes . . . . . . . . . . . 187
5.3.2.1. Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
5.3.2.2. Interprétation géométrique de LDA . . . . . . . . . . . . . . 192
5.3.2.3. Estimation par approximation variationnelle . . . . . . . . . 194
5.3.2.4. par échantillonnage de Gibbs . . . . . . . . . . . 196
5.3.2.5. Estimation des méta-paramètres . . . . . . . . . . . . . . . . 199
5.3.2.6. Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
5.3.3. Conclusion sur les modèles de thèmes . . . . . . . . . . . . . . . . 202
5.3.3.1. Lien entre PLSI et LDA . . . . . . . . . . . . . . . . . . . . . 202
5.3.3.2. Autres modèles de thèmes . . . . . . . . . . . . . . . . . . . . 203
5.4. Modèles de termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
5.4.1. Limites de la loi multinomiale . . . . . . . . . . . . . . . . . . . . 204Table des matières 13
5.4.2. Multinomiales à composantes de Dirichlet . . . . . . . . . . . . . 205
5.4.3. DCM–LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.5. Mesures de similarité entre documents . . . . . . . . . . . . . . . . . . . 207
5.5.1. Modèles de langues . . . . . . . . . . . . . . . . . . . . . . . . . . 207
5.5.2. Similarité entre distributions sur les thèmes . . . . . . . . . . . . . 208
5.5.3. Noyaux de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
5.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
5.7. Annexe : logiciels de modèles à base de thèmes . . . . . . . . . . . . . . 213
5.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Chapitre 6. Champs markoviens conditionnels pour l’extraction
d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Isabelle TELLIER et Marc TOMMASI
6.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
6.2. L’extraction d’information . . . . . . . . . . . . . . . . . . . . . . . . . 224
6.2.1. La nature de la tâche . . . . . . . . . . . . . . . . . . . . . . . . . . 224
6.2.2. Les variantes du problème . . . . . . . . . . . . . . . . . . . . . . . 226
6.2.3. Evaluations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
6.2.4. Méthodes utilisées hors apprentissage . . . . . . . . . . . . . . . . 227
6.3. Apprentissage automatique pour l’extraction d’information . . . . . . . 228
6.3.1. Intérêts et limites de l’apprentissage automatique . . . . . . . . . . 228
6.3.2. Quelques méthodes d’apprentissage applicables . . . 230
6.3.3. Annoter pour extraire . . . . . . . . . . . . . . . . . . . . . . . . . 231
6.4. Introduction aux CRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
6.4.1. Formalisation d’un problème d’étiquetage . . . . . . . . . . . . . . 232
6.4.2. Approche par les modèles de maximum d’entropie . . . . . . . . . 233
6.4.3. Approche par les de Markov cachés . . . . . . . . . . . . 235
6.4.4. Modèles graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 237
6.5. Les champs markoviens conditionnels . . . . . . . . . . . . . . . . . . . 239
6.5.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
6.5.2. Factorisation et modèles graphiques . . . . . . . . . . . . . . . . . 241
6.5.3. Arbre de jonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
6.5.4. Inférence dans les CRF . . . . . . . . . . . . . . . . . . . . . . . . 244
6.5.5. Algorithme d’inférence . . . . . . . . . . . . . . . . . . . . . . . . 245
6.5.6. Entraînement des CRF . . . . . . . . . . . . . . . . . . . . . . . . . 247
6.6. Les champs markoviens conditionnels et leurs applications . . . . . . . 250
6.6.1. Les champs markoviens linéaires . . . . . . . . . . . 250
6.6.2. Liens entre CRF linéaires et modèles de Markov cachés . . . . . . 252
6.6.3. Intérêts et applications des CRF . . . . . . . . . . . . . . . . . . . 255
6.6.4. Au-delà des CRF linéaires . . . . . . . . . . . . . . . . . . . . . . 258
6.6.5. Les bibliothèques existantes . . . . . . . . . . . . . . . . . . . . . 259
6.7. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
6.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26314 MSAIT
TROISIÈME PARTIE. MULTILINGUISME . . . . . . . . . . . . . . . . . . . . 269
Chapitre 7. Méthodes statistiques pour la traduction automatique . . . . . 271
Alexandre ALLAUZEN et François YVON
7.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.1.1. La traduction automatique à l’heure de l’Internet . . . . . . . . . 271
7.1.2. Organisation du chapitre . . . . . . . . . . . . . . . . . . . . . . . . 274
7.1.2.1. Quelques remarques terminologiques . . . . . . . . . . . . . 275
7.2. La traduction probabiliste, une vue d’ensemble . . . . . . . . . . . . . 276
7.2.1. Traduction probabiliste : le modèle standard . . . . . . . . . . . . 276
7.2.2. La traduction mot-à-mot et ses difficultés . . . . . . . . . . . . . . 279
7.2.2.1. Ambiguités lexicales . . . . . . . . . . . . . . . . . . . . . . . 279
7.2.2.2. Un mot pour un mot . . . . . . . . . . . . . . . . . . . . . . . 280
7.2.2.3. Restructurations syntaxiques . . . . . . . . . . . . . . . . . . 282
7.2.3. Vers les modèles à base de segments . . . . . . . . . . . . . . . . 283
7.3. Modéliser les traductions de segments . . . . . . . . . . . . . . . . . . . 284
7.3.1. Construire des alignements mots-à-mots . . . . . . . . . . . . . . 286
7.3.1.1. Le modèle IBM1 . . . . . . . . . . . . . . . . . . . . . . . . . 288
7.3.1.2. Aligner avec des modèles de Markov cachés . . . . . . . . . 290
7.3.1.3. Modéliser la fertilité, les modèles IBM3, 4 et 5 . . . . . . . 292
7.3.1.4. Symétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
7.3.2. Point de vue synthétique et pratique sur les modèles d’alignement 295
7.3.3. L’extraction de bisegments . . . . . . . . . . . . . . . . . . . . . . 296
7.3.3.1. Cohérence d’un bisegment . . . . . . . . . . . . . . . . . . . 297
7.3.3.2. Algorithme d’extraction de bisegment . . . . . . . . . . . . . 298
7.3.3.3. Evaluation des bisegments . . . . . . . . . . . . . . . . . . . 299
7.4. Modéliser les déplacements . . . . . . . . . . . . . . . . . . . . . . . . . 301
7.4.1. L’espace des réordonnancements possibles . . . . . . . . . . . . . 301
7.4.1.1. Les permutations locales . . . . . . . . . . . . . . . . . . . . 302
7.4.1.2. Les contraintes « IBM » . . . . . . . . . . . . . . . . . . . . . 303
7.4.1.3. Contraintes fondées sur la distance en source . . . . . . . . . 304
7.4.1.4. Les réordonnancements hiérarchiques . . . . . . . . . . . . . 305
7.4.1.5. Généralisation à des segments . . . . . . . . . . . . . . . . . 306
7.4.2. Evaluer les permutations . . . . . . . . . . . . . . . . . . . . . . . 307
7.4.2.1. Modélisation du langage cible . . . . . . . . . . . . . . . . . 308
7.4.2.2. Distorsion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
7.4.2.3. Réordonnancement lexicalisé . . . . . . . . . . . . . . . . . . 309
7.5. Traduire : un problème de recherche . . . . . . . . . . . . . . . . . . . . 310
7.5.1. Combiner les modèles . . . . . . . . . . . . . . . . . . . . . . . . . 311
7.5.1.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . 311
7.5.1.2. Réglage des coefficients par minimisation de l’erreur de
traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
7.5.2. Le problème du décodage . . . . . . . . . . . . . . . . . . . . . . . 313Table des matières 15
7.5.3. Algorithmes de recherche exacte . . . . . . . . . . . . . . . . . . . 314
7.5.3.1. Traduire sans réordonnancement . . . . . . . . . . . . . . . . 314
7.5.3.2. T avec des réordonnancements locaux . . . . . . . . . 318
7.5.4. Algorithmes de recherche heuristique . . . . . . . . . . . . . . . . 319
7.5.4.1. Recherche « meilleur d’abord » . . . . . . . . . . . . . . . . 320
7.5.4.2. gloutone et exploration locale . . . . . . . . . . . 323
7.5.5. Décoder, un problème de recherche ? . . . . . . . . . . . . . . . . 324
7.6. Evaluer la traduction automatique . . . . . . . . . . . . . . . . . . . . . 325
7.6.1. Les évaluations subjectives . . . . . . . . . . . . . . . . . . . . . . 326
7.6.1.1. Les métriques automatiques . . . . . . . . . . . . . . . . . . . 327
7.6.2. La métriqueBLEU . . . . . . . . . . . . . . . . . . . . . . . . . . 328
7.6.3. Les alternatives àBLEU . . . . . . . . . . . . . . . . . . . . . . . 330
7.6.4. Évaluer : un problème non résolu . . . . . . . . . . . . . . . . . . . 332
7.7. L’état de l’art et ses développements . . . . . . . . . . . . . . . . . . . . 332
7.7.1. Utilisation du contexte en source . . . . . . . . . . . . . . . . . . . 332
7.7.1.1. Exploiter le micro-contexte . . . . . . . . . . . . . . . . . . . 333
7.7.1.2. Macro-contexte . . . . . . . . . . . . . . . . . . . . . . . . . . 334
7.7.2. Les modèles hiérarchiques . . . . . . . . . . . . . . . . . . . . . . 335
7.7.3. Traduire avec des ressources linguistiques . . . . . . . . . . . . . 337
7.7.3.1. Dictionnaires et terminologies bilingues . . . . . . . . . . . . 337
7.7.3.2.Analysemorphologiqueentraductionautomatiquestatistique 338
7.7.3.3. Modélisation des congruences syntaxiques . . . . . . . . . . 339
7.8. Ressources utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
7.8.1.Basesbibliographiquesetressourcesenligne. . . . . . . . . . 342
7.8.2.Lescorpusparallèles. . . . . . . . . . . . . . . . . . . . . . . . 342
7.8.3.Outilspourlatraductionautomatiquestatistique . . . . . . . . 342
7.8.4.Evaluationdela . . . . . . . . . . . . . 343
7.9. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
7.10. Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
7.11. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
QUATRIÈME PARTIE. APPLICATIONS ÉMERGENTES . . . . . . . . . . . . . 357
Chapitre 8. Exploration d’information : méthodes et interfaces pour
’l accès à des informations élaborées . . . . . . . . . . . . . . . . . . . . . . . . 359
Josiane MOTHE
8.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
8.2. Visualisation multi-dimensionnelle de l’information . . . . . . . . . . . 361
8.2.1. Accès à l’information basé sur une connaissance de domaine
structurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
8.2.2. Visualisation d’un ensemble de documents via leur contenu . . . . 364
8.2.3. Principes OLAP appliqués à des ensembles de documents . . . . 368
8.3. Cartographie d’un domaine via l’utilisation de réseaux sociaux . . . . 37216 MSAIT
8.4. Analyse de la variabilité des recherches et fusion de données . . . . . . 375
8.4.1. Analyse des résultats des moteurs de RI . . . . . . . . . . . . . . . 375
8.4.2. Utilisation en fusion de données . . . . . . . . . . . . . . . . . . . 377
8.5. Les 7 familles de mesures d’évaluation de la RI . . . . . . . . . . . . . . 379
8.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
8.7. Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
8.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
Chapitre 9. Peut-on voir la détection d’opinions comme un problème de
classification thématique ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
Juan-Manuel TORRES-MORENO, Marc EL-BÈZE, Patrice BELLOT et Fréderic
BÉCHET
9.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
9.2. Les campagnes TREC et TAC . . . . . . . . . . . . . . . . . . . . . . . . 392
9.2.1. Questions-Réponses orientées opinions . . . . . . . . . . . . . . . 392
9.2.2. Résumé automatique d’opinions . . . . . . . . . . . . . . . . . . . 394
9.2.3. Le défi DEFT sur la classification d’opinions . . . . . . . . . . . . 395
9.2.3.1. Fusion de systèmes . . . . . . . . . . . . . . . . . . . . . . . 396
9.3. Poids de cosinus revisités . . . . . . . . . . . . . . . . . . . . . . . . . . 398
9.4. Quelles composantes pour les vecteurs d’opinions ? . . . . . . . . . . . 401
9.4.1. Comment passer des mots aux termes ? . . . . . . . . . . . . . . . 402
9.5. Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
9.5.1. Performances, analyse et visualisation des résultats sur le corpus
IMDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
9.5.1.1. Performances IMDB . . . . . . . . . . . . . . . . . . . . . . . 408
9.5.1.2. Présentation et analyse d’un exemple 857_17527 IMDB . . 409
9.6. Extraire des opinions exprimées vocalement : analyse automatique de
sondages téléphoniques . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
9.6.1. Corpus d’enquêtes d’opinions France Télécom . . . . . . . . . . . 412
9.6.2. Reconnaissance automatique de la parole spontanée dans les
corpus d’opinions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
9.6.2.1. Segmentation des messages en supports d’opinions . . . . . 416
9.6.2.2. Se des avec des Champs conditionnels
aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
9.6.2.3. Modèles de langage spécifiques à l’expression d’opinions . . 417
9.6.2.4. Classification des opinions . . . . . . . . . . . . . . . . . . . 418
9.6.3. Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
9.7. Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
9.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Table des matières 17
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
A. Introduction aux modèles probabilistes
pour la fouille de texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
A.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
A.2. Le modèle le plus simple : catégorisation supervisée . . . . . . . . 424
A.2.1. La tâche et sa modélisation . . . . . . . . . . . . . . . . . . . 425
A.2.2. Le modèle de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 426
A.2.3. Le multinomial . . . . . . . . . . . . . . . . . . . . . . 431
A.2.4. Évaluer un système de catégorisation . . . . . . . . . . . . . . 433
A.2.5. Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
A.2.6. Un premier bilan . . . . . . . . . . . . . . . . . . . . . . . . . . 438
A.3. Apprentissage non-supervisé : mélange de lois multinomiales . . . 438
A.3.1. Modèles de mélange . . . . . . . . . . . . . . . . . . . . . . . 439
A.3.2. Estimation des paramètres . . . . . . . . . . . . . . . . . . . . 440
A.3.3. Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
A.4. Modèles de Markov : modélisation statistique des séquences . . . 446
A.4.1. Modéliser des séquences . . . . . . . . . . . . . . . . . . . . . 446
A.4.2. Estimation du modèle . . . . . . . . . . . . . . . . . . . . . . 449
A.4.3. Application aux modèles de langue . . . . . . . . . . . . . . . 450
A.5. Modèles de Markov cachés : application à la segmentation de
documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
A.5.1. Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
A.5.2. Algorithmes pour les modèles de Markov cachés . . . . . . . 455
A.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
A.7. Rappels de théorie des probabilités . . . . . . . . . . . . . . . . . . 467
A.7.1. Espace de probabilité, événement . . . . . . . . . . . . . . . . 467
A.7.2. Probabilité conditionnelle et indépendance . . . . . . . . . . . 468
A.7.3. Variable aléatoire, moments . . . . . . . . . . . . . . . . . . . 469
A.7.4. Quelques lois utiles . . . . . . . . . . . . . . . . . . . . . . . . 475
A.8. Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 Introduction
La société de l’information dans laquelle nous vivons produit un flot sans cesse
croissant de données, de types divers, qu’il importe de traiter rapidement et efficacement,
que ce soit pour nos activités professionnelIes ou de loisir. Notre capacité à évoluer
dans cette société se trouve dépendre de plus en plus de notre capacité à trouver
l’information la plus adaptée pour nos besoins, de notre capacité à filtrer cette information,
à en extraire les thèmes principaux, les pépites, les tendances et opinions, mais aussi
à la visualiser, à la résumer et à la traduire. L’ensemble de ces problématiques
soulève deux défis importants : d’une part, le développement de modèles mathématiques
riches, qui rendent compte des données à traiter ; d’autre part, le développement
d’algorithmes robustes associés à ces modèles, capables de traiter de grandes quantités de
données et de fournir des solutions opérationnelles aux problématiques ci-dessus.
Pour répondre à ces exigences, plusieurs communautés de recherche se sont
tournées vers l’étude de modèles probabilistes et de méthodes statistiques qui apportent à
la fois richesse de modélisation et robustesse dans le traitement de grandes quantités
de données, et permettent, de surcroît, d’adapter modèles et applications au rythme
des évolutions des sources de données. Les communautés scientifiques travaillant sur
1des données textuelles ne sont pas restées à l’écart de ce mouvement , et les méthodes
et outils du traitement automatique des langues et de la recherche d’information font
aujourd’hui largement appel à des modèles statistiques complexes, résultats de
nombreuses années de développement.
Introduction rédigée par Éric GAUSSIER et François YVON.
1. Quand elles ne l’ont pas anticipé : il existe une longue tradition française d’études en
lexicométrie, en statistique textuelle, et en analyse quantitative du discours, qui, depuis Charles
Muller jusqu’à Ludovic Lebart et André Salem, en passant par Jean-Paul Benzécri, Maurice
Tournier, Pierre Lafon, et bien d’autres, a, depuis les années cinquante, contribué au
développement de méthodes d’analyse statistique ainsi que des premiers programmes informatiques
d’analyse statistique des textes.
1920 MSAIT
L’étudiant, l’ingénieur ou le chercheur nouvellement confronté au domaine de
l’accès à l’information textuelle fait ainsi face à une littérature fournie, qui exploite
différents modèles statistiques, parfois difficiles à appréhender et qui ne sont pas toujours
présentés dans le plus grand détail. Le but de cet ouvrage est précisément de présenter
de la façon la plus explicite possible les modèles statistiques utilisés pour accéder à
l’information textuelle. Les problématiques qui sont abordées dans le présent ouvrage
sont liées aux applications traditionnelles de l’accès à l’information, à savoir :
– la recherche et extraction d’information ;
– la catégorisation de documents et le partitionnement (clustering) de collections
documentaires ;
– l’aide à la compréhension par le biais de résumé automatique, de traduction
automatique, ou encore d’outils de visualisation des données ;
– la détection d’opinions.
Au delà de ces applications, qui chacune a pu faire l’objet d’ouvrages plus
spécifiquement consacrés à la recherche d’information, à la fouille de données, à
l’apprentissage automatique ou encore au traitement automatique des langues, nous avons tenté
ici de mettre l’accent sur les principaux modèles statistiques et probabilistes qui
soustendent ces applications afin de proposer une vue homogène, synthétique et complète
des fondements méthodologiques des outils d’accès à l’information textuelle. Une
telle synthèse nous semble d’autant plus souhaitable, on le verra au long des
différents chapitres qui composent cet ouvrage, que les points de convergence entre les
différentes communautés concernées sont nombreux. Ils touchent aussi bien aux
re2présentations numériques qui dérivent des données textuelles et constituent l’objet de
la modélisation qu’aux méthodologies de développement de très grands modèles, qui
reposent en grande partie sur l’évaluation empirique des performances sur des jeux
de test standardisés ou pendant des campagnes d’évaluation. La portée des modèles
présentés ici s’étend même, en réalité, au-delà des applications au texte, et le lecteur
attentif apprendra donc, à son insu, bien des choses sur l’analyse statistique et la
modélisation probabiliste de collections d’images, de vidéos, et plus généralement de
données multimédia, sur les méthodes de filtrage et de recommandation collaboratifs,
etc.
Pour autant, nous avons souhaité maintenir une association forte entre les
modèles et leurs principales applications. C’est pourquoi chaque chapitre de cet ouvrage
présente ainsi, pour une ou plusieurs problématiques, un ensemble de modèles et
d’algorithmes (d’apprentissage et/ou d’inférence) associés. Les liens entre applications
d’une part et modèles de l’autre sont donc explicités et illustrés, autant que faire se
peut, sur des collections réelles.
2. Souvent exagérément simplistes !Introduction 21
Dans un souci de meilleure lisibilité, l’ensemble de contributions à cet ouvrage
est organisé en quatre parties. La première partie concerne la Recherche
d’information et comporte deux chapitres. Le premier, intitulé « Modèles probabilistes pour la
recherche d’information » et rédigé par S. Clinchant et E. Gaussier, présente un
panorama des modèles probabilistes utilisés en recherche d’information, depuis les
modèles d’indépendance binaires jusqu’aux modèles plus récents fondés sur les concepts
de la théorie de l’information. Les fondements mathématiques et les hypothèses sur
lesquels ces modèles reposent sont décrits en détail et le chapitre se conclut sur une
comparaison expérimentale des performances de ces modèles. Le second chapitre
de cette partie, intitulé « Modèles d’ordonnancement pour le résumé automatique
et la recherche d’information » et rédigé par M.-R. Amini, D. Buffoni, P. Gallinari,
T.V. Truong et N. Usunier, présente les modèles d’apprentissage de fonctions
d’ordonnancement, qui ont récemment retenu l’attention de plusieurs communautés de
recherche, à la fois parce qu’ils modélisent au mieux certains problèmes de l’accès à
l’information, et parce qu’ils permettent atteindre de très bonnes performances. Ces
modèles sont ici présentés en relation avec deux applications : le résumé automatique
et la recherche d’information.
3La deuxième partie de l’ouvrage concerne la Catégorisation et le Clustering et
comprend quatre chapitres. Le premier, intitulé « Régression logistique » et rédigé par
S. Aseervatham, E. Gaussier, A. Antoniadis, M. Burlet et Y. Denneulin, s’intéresse à
une famille de modèles dont le plus simple et le plus populaire des représentants est le
modèle de régression logistique. Après un rappel des modèles linéaires généralisés et
de l’algorithme IRLS, la régression logistique (sous forme binomiale et multinomiale)
est présentée en détail, tout comme les méthodes de régularisation associées (ridge,
LASSO et selected ridge). Ce modèle est illustré sur une tâche de catégorisation de
documents mettant en jeu un grand nombre de catégories. Le deuxième chapitre de
cette partie, intitulé « Méthodes à noyaux pour les tâches d’accès à l’information
textuelle », est rédigé par J.-M. Renders. Il fournit une description des différents noyaux
qui ont été proposés pour le texte. Après un rappel des fondements des méthodes à
noyaux et des contextes dans lesquels les noyaux sont utilisés (régression logistique,
séparateurs à vaste marge, analyse en composante principale), ce chapitre décrit les
noyaux associés à différentes représentations des textes : noyaux pour les sacs de
mots, pour les chaînes (de caractères ou de mots), pour les arbres, les graphes ou
encore les distributions de probabilités. Le chapitre suivant, intitulé « Modèles
génératifs à base de thèmes pour l’accès à l’information textuelle » est une contribution de
J.-C. Chappelier. Il décrit les modèles de thèmes, en mettant l’accent sur les modèles
PLSI (Probabilistic Latent Semantic Indexing) et LDA (Latent Dirichlet Allocation),
qui constituent la base de la plupart des modèles de thèmes aujourd’hui utilisés. Les
3. Pour coller au mieux à l’usage et limiter tout risque de confusion, nous conservons ici le
terme de clustering que l’on trouve sous différentes variantes dans la littérature : classification,
catégorisation non supervisée, partitionnement ou encore classement.22 MSAIT
modèles de thèmes visent à découvrir automatiquement les thématiques sous-jacentes
(d’où le terme latent) à une collection de documents et trouvent des applications en
clustering, en catégorisation et en extraction d’information. Le chapitre fournit
plusieurs illustrations des thèmes découverts par ces modèles, ainsi qu’une description
détaillée de deux méthodes (génériques) pour estimer les paramètres de ces modèles :
par approximations variationnelles d’une part, par échantillonnage de Gibbs, d’autre
part. Le dernier chapitre de cette partie, intitulé « Champs markoviens conditionnels
pour l’extraction d’information » et rédigé par I. Tellier et M. Tommasi, fournit une
description détaillée d’un modèle graphique particulier, les champs markoviens
conditionnels. Ce modèle a été récemment introduit dans le domaine de l’apprentissage
automatique et du traitement automatique des langues afin de tenir compte de
dépendances complexes entre éléments constitutifs d’une séquence, ou plus généralement
d’un objet muni d’une structure interne. Les champs markoviens conditionnels
généralisent les modèles de Markov cachées qui ont été (et sont encore) largement
exploités pour réaliser l’étiquetage de séquences de mots. L’application ciblée dans ce
chapitre est l’extraction d’information et la reconnaissance d’entités nommées, mais
ces modèles trouvent également des applications en recherche d’information dans des
documents structurés tels que, par exemple, dans des documents XML.
La troisième partie de l’ouvrage concerne le Multilinguisme. Le lecteur y
trouvera un unique, mais conséquent, chapitre dédié aux « Méthodes statistiques pour la
traduction automatique« rédigé par A. Allauzen et F. Yvon. Les principaux modèles
probabilistes employés dans les systèmes de la traduction automatique sont décrits
dans le détail, tout comme les différents modules qui composent un système de
traduction statistique : module d’apprentissage, de réordonnancement et de décodage.
Les auteurs y discutent également de la question de l’évaluation de la traduction à
travers la présentation des principales mesures d’évaluation, ainsi que des pistes de
recherche récemment explorées.
Enfin, la dernière partie de cet ouvrage est consacrée aux Applications émergentes,
et comporte deux chapitres. Le premier, intitulé « Exploration d’information :
méthodes et interfaces pour l’accès à des informations élaborées » est rédigé par J. Mothe.
Il présente un tour d’horizon d’outils permettant de visualiser l’information, de
cartographier des jeux de données selon différents aspects et d’analyser la variabilité de
différents résultats (pour la fusion de données par exemple ou pour analyser les
dépendances entre différentes mesures d’évaluation telles que celles utilisées en recherche
d’information). Le second chapitre, intitulé « Détection et classification d’opinions »
est une contribution rédigée par J.-M. Torres-Moreno, M. El-Bèze, P. Bellot et F.
Béchet. Il décrit en détail la tâche de détection d’opinions dans les documents textuels.
Après un rappel des problèmes rencontrés dans cette tâche et des campagnes
d’évaluation associées, les auteurs présentent plusieurs systèmes développés par différentes
équipes. Les performances de la plupart des systèmes sur des jeux de données
standard sont également fournies. Enfin, les auteurs s’intéressent à la même problématiqueIntroduction 23
mais portant cette fois sur des données vocales, élargissant ainsi quelque peu le sujet
de ce livre.
En plus de ces contributions ciblées, qui visent à présenter en détail les principaux
modèles statistiques utilisés pour accéder à l’information textuelle, le lecteur
trouvera en annexe une introduction générale aux modèles probabilistes pour la fouille de
textes, rédigée par F. Yvon. Cette annexe présente de manière très détaillée les plus
élémentaires des modèles probabilistes utilisés pour l’analyse statistique de textes,
avec pour objectif de (re)donner un socle de connaissances de base concernant la
modélisation probabiliste, à partir desquelles il sera possible d’étudier les modèles plus
avancés qui font l’objet du corps de l’ouvrage.
Comme on le voit, ce livre rassemble des contributions riches et variées, issues
d’un ensemble très représentatif de laboratoires des communautés francophones
travaillant sur ces thèmes. Même si les modèles considérés sont parfois sophistiqués,
nous avons essayé de les présenter avec un souci constant de précision et de les
illustrer dans le cadre des applications standard de l’accès à l’information. Les rappels
fournis en annexe devraient, nous l’espérons, permettre aux lecteurs peu familiers
avec les modèles probabilistes d’acquérir les bases nécessaires à la lecture de
différents chapitres. Nous espérons ainsi être en mesure de fournir une référence qui sera
utile aussi bien pour des chercheurs et ingénieurs désireux de faire le point sur les
méthodes utilisées pour accéder à l’information textuelle, que pour des étudiants de
Masters et d’écoles d’ingénieur qui voudraient étudier plus avant certains modèles de
ce domaine.
Pour conclure, nous voudrions remercier chaleureusement l’ensemble des
contributeurs de ce livre pour nous avoir suivi dans cette entreprise et pour avoir consenti
un effort considérable, et à la rentabilité incertaine, pour exposer leur travaux de
recherche dans des termes qui permettent de mettre en évidence les proximités avec des
travaux conduits dans des domaines connexes. Nous sommes persuadés que le jeu en
valait la chandelle et que le résultat de ce travail de synthèse sera profitable au plus
grand nombre.Notations
Dans la mesure du possible, nous essayons de nous reposer sur les notations
suivantes. Toutefois, des notations alternatives sont utilisées dans certains des domaines
abordés dans cet ouvrage. Nous avons alors plutôt recours aux notations propres à
chaque domaine. Ces notations alternatives seront introduites dans chaque chapitre.
V un ensemble, souvent un ensemble de mots (un vocabulaire)
jVj le cardinal de l’ensembleV
A[B l’union deA et deB
A\B l’intersection deA et deB
AB le produit cartésien deA et deB :f(a;b);a2A;b2Bg
x un vecteur (en dimensionm)
Tx le transposé du vecteurx pP2 2kxk la normeL du vecteurx :kxk = x2 2 iiP1jxj la normeL du vecteurx :jxj = jxj1 1 ii
x une séquence d’observationsx =x :::x :::x[1:T] [1:T] 1 t T
x uneationsm-dimensionnelles[1:T]
A une matrice
TA la transposée deA
X une variable aléatoire (le plus souvent discrète)
X l’ensemble des réalisations possibles deX
P(X =x);P(x) la probabilité de la réalisationx deX
P(X =xjY =y);P(xjy) la conditionnelle deX =x sachantY =y
X une variable aléatoirem-dimensionnelle
X une séquence de variables aléatoires :X =X :::X :::X[1:T] [1:T] 1 t T
(1) (n)C un ensemble i.i.d d’observationsC =fx :::x g
L(C) la vraisemblance d’un corpus pour le modèle paramétré par
‘(C) la log-vraisemblance :‘(C) = log(L(C))
z(e) la fréquence de l’événemente
Tableau 1. Notations
24PREMIÈRE PARTIE
Recherche d’information
25 Chapitre 1
Modèles probabilistes pour la recherche
d’information
Nous voulons présenter dans ce chapitre les principaux modèles probabilistes de
recherche d’information. Rappelons qu’un système de recherche d’information est
caractérisé par trois éléments :
1) Un module d’indexation des requêtes ;
2) Un d’indexation des documents ;
3) Un module d’appariement entre et requêtes.
Nous ne nous intéressons pas ici aux modules d’indexation, qui peuvent faire l’objet de
développements plus ou moins poussés (voir par exemple [SAV 10]). Seul le module
d’appariement retient notre attention ici. De plus, parmi tous les modèles de recherche
d’information, nous nous concentrons ici sur les modèles probabilistes. En effet, ces
derniers sont considérés comme les plus performants en recherche d’information, et
ont fait l’objet d’un grand nombre de développements au cours des années passées
qu’il nous semble important de résumer dans un chapitre de ce livre.
1.1. Introduction
La recherche d’information (RI) s’intéresse à organiser des collections de
documents et à répondre à des requêtes utilisateurs en fournissant une liste de documents
censés être pertinents pour la demande utilisateur. Au contraire des bases de données,
Chapitre rédigé par Stéphane CLINCHANT, Eric GAUSSIER.
2728 MSAIT
les systèmes de recherche d’information traitent des informations non structurées,
comme le contenu textuel des documents. Le processus de recherche d’information
présente, à divers point de vue, plusieurs caractéristiques qui peuvent être
appréhendées d’une manière probabiliste. Les modèles probabilistes pour la recherche
d’information font tous l’hypothèse suivante :
Hypothèse 1. Les mots et leur fréquence, dans un document ou une collection de
documents, peuvent être considérés comme des variables aléatoires. Ainsi, il est possible
d’observer la fréquence d’un mot dans un corpus et de l’étudier comme un phénomène
aléatoire. De même, il est possible d’imaginer un document ou une requête, comme le
résultat d’un processus aléatoire.
Les premiers modèles en RI considéraient les mots comme des prédicats de la
logique du premier ordre. De ce point de vue, un document était pertinent s’il
impliquait, au sens logique, la requête. Plus tard, les modèles vectoriels représenteront
les documents dans des espaces vectoriels dont les bases (au sens algébrique)
correspondent aux différents termes d’indexation. Ainsi, la similarité entre un document et
une requête peut être calculée par l’angle entre les deux vecteurs associés dans cet
espace vectoriel. Au delà de la représentation booléenne et de la vision vectorielle, la
représentation probabiliste offre un paradigme très riche en modèles. Par exemple, il
est possible d’utiliser différentes lois de probabilités pour modéliser les fréquences de
mots.
Dans tous ces modèles, une étape de pré-traitement est nécessaire pour aboutir à
une représentation exploitable des documents. Ce pré-traitement consiste tout d’abord
à filtrer les mots trop fréquents (mots-vides), comme les articles, à normaliser
éventuellement la forme de surface des mots (enlever les conjugaisons, les pluriels) et au
final compter pour chaque terme son nombre d’occurrences dans un document.
Prenons par exemple le document suivant :
« Maître Corbeau, sur un arbre perché,
Tenait en son bec un fromage.
Maître Renard, par l’odeur alléché,
Lui tint à peu près ce langage :
Hé ! bonjour, Monsieur du Corbeau.
Que vous êtes joli ! que vous me semblez beau ! »
Le filtrage des mots vides conduit à supprimer les mots comme "ce", "un", . . . .
Ensuite, on compte les occurrences des mots : le terme Corbeau apparaît ainsi deux
fois dans ce document. De même, fromage apparaît une fois. On peut donc représenter
un document par un vecteur dont chaque dimension contient le nombre d’occurences
d’un terme particulier, et la collection de documents par un ensemble de tels vecteurs,
sous forme de matrice.Modèles probabilistes pour la recherche d’information 29
Dans tous les modèles que nous verrons, les nombres d’occurrences des différents
mots sont supposés être statistiquement indépendants. Ainsi, on supposera que la
variable aléatoire correspondant au nombre d’occurrences de fromage est indépendante
de la variable aléatoire pour corbeau. On notera X la variable aléatoire associéew
au motw. On notera par la suite un document par une variable multivariée
dX . Les notations utilisées dans ce chapitre sont résumées dans le tableau 1.1. Elles
diffèrent des notations générales pour se rapprocher de celles utilisées plus
communément (et plus récemment) en recherche d’information. Nous désignerons de plus
souvent les lois de probabilité régissant le nombre d’occurrences par lois de fréquences.
Notation Description
q Nombre d’occurrences du termew dans la requêteqw
dx du termew dans le documentdw
N Nombre de documents dans la collection
M de termes d’indexation P
dF Fréquence moyenne dew :F = x =Nw w wd
N documentaire dew :w P
dN = I(x > 0)w wd
l Longueur du documentdd
l de la collectionc
m Longueur moyenne des documents
X Variable aléatoire associée au motww
dX V multivariée associée au documentd
Tableau 1.1. Notations
Historiquement, on peut classer les modèles probabilistes en recherche
d’information sous 3 grandes catégories :
1) Principe d’ordonnancement probabiliste
Ces modèles supposent que pour une requête il existe une classe de documents
pertinents et une classe de documents non pertinents. Cette idée conduit à ordonner les
ddocuments selon la probabilité de pertinence du documentP (R = 1jX ). Ce prin-q
cipe sera présenté dans la section 1.3. Différentes lois de fréquences sur les classes de
documents engendrent alors différent modèles. Le modèle phare dans cette famille est
appelé BM25 ou Okapi. Nous verrons ce modèle dans la section 1.3.2 ;
2) Modèles de langue (LM)
L’idée au cœur des modèles de langue est d’estimer la probabilité P (qjd) : la
probabilité que la requête soit générée à partir d’un document. Les modèles de langue
figurent comme le modèle le plus connu et le plus utilisé de nos jours. Ces modèles
feront l’objet de la section 1.4 ;30 MSAIT
3) Approches informationnelles
Ces approches visent à quantifier l’importance d’un terme dans un document par
rapport à son comportement dans la collection. Ainsi le poids d’un terme dans un
document peut être mesuré grâce à une fonction de l’information de Shannon. Les modèles
relevant de ces approches ont obtenu de très bonnes performances dans diverses
campagnes d’évaluation, mais, introduits plus récemment, ils sont moins répandus. Ces
modèles seront présentés dans la section 1.5.
Il existe toute une littérature consacrée à la modélisation des fréquences des mots
dans une collection de documents. Une des toutes premières tentatives reposait sur une
loi de Poisson pour modéliser le nombre d’occurrences d’un mot dans un document.
Un mélange de deux lois de Poisson a connu ensuite un grand succès en recherche
d’information. Le mélange de deux lois de Poisson a été généralisé aux cas den
composantes, puis à une négative binomiale (mélange infini de lois de Poisson), ou a été
remplacé par des distributions géométriques. Un mélange de distributions
multinomiales pour représenter un corpus de document a par la suite été introduit par Nigam
[NIG 99]. Ce dernier modèle a été généralisé par l’analyse probabiliste latente (PLSA)
[HOF 99], ou l’allocation latente de Dirichlet (LDA) [BLE 03]. Enfin, des processus
stochastiques comme les processus de peuvent aussi servir à modéliser une
1corpus de textes . Il existe donc une littérature très riche dans ce domaine. Nous
reviendrons dans la suite sur le mélange de deux lois de Poisson très utilisé en recherche
d’information. Avant cela, nous présentons un certain nombre de contraintes que les
modèles de recherche d’information doivent satisfaire.
1.1.1. Contraintes
Nous considérons la famille des modèles de RI qui prennent la forme suivante :
X
dRSV (q;d) = a(q )h(x ;l ;z ;)w d ww
w2q
où est un ensemble de paramètres et h une fonction d’ordonnancement qui sera
2 + + +supposée de classeC et définie surR R R , où représente le domaine
des paramètres de.a est souvent la fonction identité etx,l etz sont données dans
le tableau 1.1. Les modèles de langue [ZHA 04], Okapi [ROB 94], les modèles DFR
[AMA 02] autant que les modèles vectoriels [SAL 83] appartiennent à cette famille
de modèles.
Fang et al. [FAN 04] ont proposé un ensemble de contraintes qui rendent compte
des heuristiques que les modèles de RI doivent satisfaire. Tout d’abord, il est
important que les documents avec plus d’occurrences des mots de requête obtiennent
1. Nous renvoyons le lecteur au chapitre 5 du présent volume pour un exposé détaillé de ces
modèles.Modèles probabilistes pour la recherche d’information 31
de plus grand score que des documents avec moins d’occurrences. Cependant,
l’augmentation du score doit être plus petite pour de plus grandes fréquences, puisque la
différence par exemple entre 110 et 111 n’est pas aussi importante que celle entre 1
et 2 (le nombre d’occurrences a doublé dans le deuxième cas, tandis que
l’augmentation est relativement marginale dans le premier cas). En outre, un long document,
comparé à un document plus court comportant exactement le même nombre
d’occurrences d’un mot de la requête, doit être pénalisé car il est susceptible de couvrir des
sujets additionnels à ceux traités dans la requête. Enfin, il est important de diminuer
l’importance des mots qui apparaissent dans beaucoup de documents, c’est-à-dire qui
ont une fréquence documentaire importante, car ces mots ont un faible pouvoir de
discrimination. L’ensemble de ces considérations conduit naturellement aux contraintes
suivantes (voir [CLI 10b] pour plus de détail) :
@h(x;l;z;)
8(l;z;); > 0 (condition 1)
@x
2@ h(x;l;z;)
8(l;z;); < 0 (condition 2)
2@x
@h(x;l;z;)
8(x;z;); < 0 (condition 3)
@l
@h(x;l;z;)
8(x;l;); < 0 (condition 4)
@z
Les conditions 1, 3 et 4 expriment le fait que h doit être croissante avec le nombre
d’occurrences du mot dans le document et décroissante avec la longueur du document
et la fréquence documentaire du mot (nombre d’occurrences du mot dans la
collection). La condition 2 montre queh, croissante avec le nombre d’occurrences du mot
dans le document, doit être concave, la concavité garantissant le fait que
l’augmentation du score décroît avec le nombre d’occurrences des mots dans le document. Même
si ces contraintes sont heuristiques, elles sont très largement admises en recherche
d’information, et tous les modèles de référence les vérifient. Nous pouvons désormais
commencer l’étude des de recherche d’information.
1.2. Modèle 2-Poisson
Nous voulons présenter ici un modèle d’indexation, connu sous le nom 2-Poisson
[HAR 75], qui a été introduit dans les années 1970 et a eu une influence importante
sur beaucoup de modèles de recherche d’information. L’idée générale est la suivante :
un bon descripteur d’un document est un mot à la fois assez fréquent dans le document
et relativement rare dans la collection. Ainsi, il décrirait relativement bien le contenu
d’un document et serait assez discriminant par rapport à d’autres termes de la
collection. L’intuition sous-jacente au modèle 2-Poisson peut être expliquée de la manière
suivante : beaucoup de mots apparaissent avec une fréquence relativement faible dans32 MSAIT
beaucoup de document et apparaissent avec une grande fréquence, ou plus densément,
seulement dans un ensemble restreint de documents. Ce dernier ensemble est appelé
ensemble « élite » (notéE) car il est censé contenir les documents qui traitent
principalement du mot en question. L’idée est donc de modéliser l’ensemble élite par une
loi de Poisson de paramètre , et l’ensemble non-élite par une autre loi de PoissonE
de paramètre , avec > . Le modèle 2-Poisson est alors un mélange de deuxG E G
lois de Poisson :
x x w wE Ge e E GP (X =x j; ; ) = + (1 )w w E G
x ! x !w w
On peut donc calculer la probabilité qu’un document appartienne à l’ensemble “élite”
par :
P (X =x ;d2E)w
P (d2EjX =x ) =w w
P (X =x )w w
xwEe E x !wP (d2EjX =x ) =w w x x w wE Ge e E G + (1 )
x ! x !w w
C’est principalement cette quantité qu’Harter utilisa pour trier les mots susceptibles
d’être les termes d’indexation d’un document. Cependant, ce modèle a pour chaque
mot 3 paramètres qu’il convient d’estimer. Or cette estimation est assez
problématique. Harter propose en effet une méthode d’estimation qui présente souvent des cas
dégénérés, car il n’y a parfois pas assez de données pour pourvoir bien séparer les
deux distributions de Poisson. Le graphique 1.1 montre deux mélanges de 2-Poisson :
la composante non-élite est représentée par une loi de Poisson de moyenne 3 et la élite par une loi de Poisson de moyenne 10. Ces deux mélanges diffèrent
par le paramètre de mélange entre ces deux lois de Poissons.
Dans un but de modélisation de fréquences, le modèle de mélange de deux
Poisson a été étendu aux cas den distributions de Poisson par Margulis [MAR 92]. Puis
Church et Gale se sont intéressés à la distribution négative binomiale [CHU 95], qui
est un mélange infini de distributions de Poisson. En particulier, il ont montré que
la distribution négative binomiale s’ajuste mieux aux données qu’un mélange fini
deutions de Poisson. Ensuite, Clinchant et Gaussier ont proposé la
distribution Beta négative binomiale, qui permet de s’affranchir d’un des paramètres du
modèle [CLI 08]. Pour résumer, même si les hypothèses du modèle 2-Poisson sont assez
naives (d’autres modèles s’ajustent mieux aux données), ce modèle a eu une influence
importante dans le développement des modèles de recherche d’information. Il est au
cœur des modèles Okapi (section 1.3.2) et a inspiré en partie les modèles fondés sur
l’information.Modèles probabilistes pour la recherche d’information 33
++ + Poisson(3)
o Poisson(10)
+ 0.8Poisson(3)+0.2Poisson(10)
o 0.3Poisson(3)+0.7P
++
+
+
+
+
+
+
++ +
+
+
+ + + ++
+
+
++ +
+ + + + + ++
0 5 10 15
x
Figure 1.1. Mélanges de deux lois de Poisson (2-Poisson)
1.3. Principe d’ordonnancement probabiliste (Probability ranking principle
(PRP))
Les modèles fondés sur le principe d’ordonnancement probabiliste [ROB 97]
re2posent tous l’hypothèse suivante :
Hypothèse 2. La pertinence d’un document par rapport à une requête peut être
encodée par une variable aléatoire. L’intérêt de cette formulation est qu’elle permet de
revenir sur certaines déficiences du concept de pertinence ; à savoir que la pertinence
est difficilement définissable et surtout partiellement observable.
L’hypothèse ci-dessus conduit à trier les documents, pour une requête donnée,
sedlon la probabilitéP (R = 1jX ), oùR représente la variable aléatoire de pertinenceq q
d(pour une requête q donnée) et X une représentation d’un document, sous forme
d dde vecteur de traits. En général, X est un vecteur de mots où la composante xw
2. Nous parlerons de PRP même en français, suivant l’usage en cours dans la communauté de
recherche d’information.
P(x)
0.00 0.05 0.10 0.15 0.2034 MSAIT
?
P(X | pertinent)
P(X | non pertinent)

Documents Pertinents Documents
Non Pertinents
Frontière de Decision
Figure 1.2. Principe d’ordonnancement probabiliste : une loi de probabilité modélise les
documents pour chacune des classes pertinentnon pertinent ; pour un nouveau document, les
probabilités des deux classes sont calculées afin de décider à quelle classe le document
appartient.
représente le nombre d’occurrences ou la présence du motw dans le documentd.
Robertson [ROB 77] attribue en fait ce principe à W. S Cooper, et l’énonce sous la forme
suivante :
The probability ranking principle « If a reference retrieval system’s
response to each request is a ranking of the documents in the collection in
order of decreasing probability of relevance to the user who submitted the
request, where the probabilities are estimated as accurately as possible
on the basis of whatever data have been made available to the system for
this purpose, the overall effectiveness of the system to its user will be the
best that is obtainable on the basis of those data. »
La figure 1.2 illustre le fonctionnement du principe d’ordonnancement
probabiliste, qui est en fait une conséquence directe de la loi de décision de Bayes. En effet,Modèles probabilistes pour la recherche d’information 35
supposons que la probabilité de prendre une mauvaise décision soit de la forme
suivante :
dP (R = 1jX ) si on choisit R = 0q qdP (erreurjX ) = dP (R = 0jX ) si on R = 1q q
d dAlors, si R = 0 (document non pertinent) et P (R = 1jX ) > P (R = 0jX ),q q q
cette décision conduit à une erreur plus grande que la décision contraire. Il suffit
ddonc de choisir l’hypothèse qui maximise P (RjX ) pour minimiser la probabilitéq
d’erreur. En supposant que les documents soient indépendants (statistiquement), cette
règle conduit à ordonner les par probabilité décroissante de pertinence.
Le PRP tel que nous venons de le présenter appelle un certain nombre de
remarques. Tout d’abord, l’erreur moyenne n’est pas la seule fonction que l’on pourrait
minimiser. Il est possible d’imaginer d’associer des coûts différents pour chaque type
d’erreur. Ensuite, l’hypothèse d’indépendance des documents est bien sûr discutable
(documents dupliqués, documents traitant du même sujet), mais sans cette hypothèse
la plupart des modèles probabilistes deviennent incalculables. Enfin, ce principe
supdpose que l’on puisse calculer les probabilitésP (RjX ) et ce avec une certaine pré-q
cision. Cette hypothèse est assez problématique. En géneral, on ne connaît pas les
documents pertinents, ni leur nombre. Il n’y a donc pas de méthodes directes pour
calculer ces probabilités. On peut, en pratique, les estimer par une méthode itérative
qui consiste à l’utilisateur d’annoter les documents issus d’une session de recherche.
Cette annotation est alors utilisée pour affiner l’estimation de pertinence des termes,
ce qui consuite à un nouvel ensemble de documents résutlats, que l’utilisateur peut
de nouveau annoter, et ainsi de suite jusqu’à stabilité des résultats ou satisfaction du
besoin d’information.
Le PRP peut prendre diverses formes. La forme que nous donnons ci-dessous est
l’une des plus utilisées.
1.3.1. Reformulation
La discussion que nous avons eue plus haut sur la règle de décision de Bayes montre
que l’on peut se reposer, au sein du principe d’ordonnancement probabiliste, sur la
quantité suivante pour ordonner les documents à l’issue d’une requête :
dP (X =xjR = 1)q
RSV(q,d) = log( )
dP (X =xjR = 0)q
où RSV(q,d) (Retrieval Status Value) désigne le score donné au documentd pour la
requêteq. Cette formulation permet de tenir compte de nouvelles hypothèses sur les
ddépendances entre les variables X et R . En particulier, on peut supposer l’indé-q
pendance entre les différents termes d’un document, ce qui est analogue à supposer
dl’orthogonalité des termes dans le modèle vectoriel. La quantitéP (X jR ) peut alorsq36 MSAIT
s’écrire comme un produit de probabilités et la fonction de score comme une somme
sur les termes communs entre la requête et les documents. Enfin, si l’on recentre cette
fonction de sorte qu’un document vide ait un score de 0, nous obtenons :
d dX P (X =xjR = 1)P (X = 0jR = 0)q qw wRSV(q,d) = log( )
d dP (X = 0jR = 1)P (X =xjR = 0)q qw ww2q\d
dIl reste bien sûr toujours à expliciter la probabilitéP (X jR ), ce que nous allons faireq
dans le modèle suivant.
1.3.1.1. Binary Independence Model
Le modèle Binary Independance Retrieval (BIR) suppose que les poids des termes
ddans les documents et requêtes sont binaires : (X = (1010 010 )). Chaque mot
est caractérisé par une variable binaire, A , qui indique la probabilité d’apparitionw
du mot dans un document (pertinent ou non), et est considéré comme indépendant
des autres mots conditionnellement à R . Notons a = P (A = 1jR = 1), laq w w q
probabilité que le mot w apparaisse dans un document pertinent et b = P (A =w
1jR = 0) celle qu’il apparaisse dans un document non pertinent. Nous avons :q
P (djR ;q) =P (d = (1010 010 )jq;R )q q
Y d dx (1x )d d d w wP (X = (x ;:::;x )jR = 1) = a aw wq1 M
w
Y d dx (1x )d d d w wP (X = (x ;:::;x )jR = 0) = b bw wq1 M
w
d d doùx désigne dans ce contexte la présence (x = 1) ou l’absence (x = 0) du motww w w
dans le documentd. En d’autres termes, les documents sont modélisés par des lois de
Bernoulli independantes. Le fait qu’un document soit pertinent ou non est caractérisé
par des valeurs differentes des paramètres de ces lois de probabilités (a oub ). Sousw w
ces hypothèses, le PRP s’exprime de la façon suivante :
d dX P (X = 1jR = 1)P (X = 0jR = 0)q qw w
RSV(q,d) = log( )
d dP (X = 0jR = 1)P (X = 1jR = 0)q qw ww2q\d
Nous obtenons comme fonction de score sous ces hypothèses :
X a 1 bw w
RSV(q,d) = log( )
1 a bw ww2q\d
L’estimation des probabilitésa etb se fait alors par procédés itératifs :w w
N0 0 w1) On définit des valeurs initiales (par exemplea = 0:5,b = ) ;w w N
2) On effectue une recherche avec la valeur courante des paramètres ;Modèles probabilistes pour la recherche d’information 37
3) On met à jour les paramètres en fonction des résultats retrouvés (éventuellement
pavec l’aide de l’utilisateur). Par exemple,N désignant le nombre de documents jugés
ppertinents pour la recherche courante etN le nombre de ces documents contenantw :w
p pN N Nww w
a = ; b =w wp pN N N
Les avantages de ce modèle sont une notion claire et théoriquement fondée du degré de
pertinence. De plus, le processus de recherche d’information est un processus itératif
qui implique l’utilisateur. Cependant, le modèle est assez sensible aux valeurs initiales
et son inconvenient majeur reste la représentation binaire des occurences des mots
dans les documents, ce qui limite grandement ses possibilités.
1.3.2. BM25
Le modèle BM25 [ROB 94], proposé par Robertson et Walker, revient sur certaines
déficiences du modèle BIR. Initialement, le modèle BM25 suppose que les fréquences
des mots sont distribuées selon un mélange de deux distributions de Poisson.
Cependant, il fait l’hypothèse que dans l’ensemble pertinent (R = 1), la distribution deq
Poisson représentant l’ensemble élite a un poids plus fort que dans la classe
nonpertinente. Plus formellement, ces hypothèses se traduisent par :
X =xjR = 1 2-Poisson(; ; )d E G
X =xjR = 0 (; ; )d q E G
avec> et > . Rappelons la forme simplifiée du PRP donnée plus haut :E G
d dX P (X =xjR = 1)P (X = 0jR = 0)q qw wRSV (q;d) = log( )
d dP (X = 0jR = 1)P (X =xjR = 0)q qw ww2q\d
ce qui donne, en ajoutant les hypothèses sur le modèle 2-Poisson :
x xw wE Ge e
E G X E G + (1 ) e + (1 )ex ! x !w wRSV (q;d) = log( )x w x G E w e E Ge E G e + (1 )e + (1 )w2q x ! x !w w
Ce modèle souffre des même problèmes que le modèle 2-Poisson, à savoir la difficulté
d’estimer ses paramètres. On peut alors s’intéresser aux propriétés de la fonction de
pondération :
x x w wE Ge e E G E G + (1 ) e + (1 )ex ! x !w wh(x ) = log( )w x x w wE G e e E Ge + (1 )eE G + (1 )x ! x !w w38 MSAIT
Sachant que >

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin