La lecture en ligne est gratuite
Télécharger
Recherche dinformation
Modèles en Recherche dInformation
Cours Master Recherche Paris 13 Recherche et extraction dinformation
A. Rozenknop source : Romaric Besançon CEA-LIST/LIC2M
1
Modèles en RI
Quest-ce quun modèle en RI ?
décrire le processus computationnel
e.g.comment les documents retournés sont ordonnés comment les documents sont stockés relève de limplémentation (index) décrire le processus humain
e.g.le besoin dinformation, linteraction Les variables: documents, requêtes, termes dindex, jugements de pertinence, utilisateurs, besoin dinformation
définition implicite ou explicite de la pertinence
2
Modèles en RI
Modèle booléen
Modèles vectoriels
Modèles probabilistes
Modèles de langue
Autres modèles
réseaux dinférences, modèles logiques, modèles neuronaux, modèles génétiques...
3
Exact ou meilleur
appariement exact ou meilleur appariement (exact matchvs. best match)
exact match
critères de pertinence précis
un document correspond ou nonàces critères
le résultat est un ensemble de documents non ordonnés
best match
la requte décrit le meilleur document voulu
le résultat est un ensemble de documents triés par pertinence
4
Exact ou meilleur
best-matcha en général de meilleurs performances (meilleurs documents en premier)
exact-matchencore souvent présent dans les systèmes commerciaux (avec des critères de tri supplémentaires)
exact-match
efficace prévisible, explicable requêtes structurées demandes précises
requêtes structurées difficilesà écrire la difficultésaccroît avec la taille de la collection lexique des requêtes=lexique dindexation précision correcterappel faible best-matchtoujours meilleur
5
Modèle booléen
le modèleexact matchle plus commun
une requête est une expression logique
termes
opérateurs booléens ET / OU / SAUF
« rechercheETinformationETmodèlesSAUFindexation »
Remarque:dautres modèles (non booléens) utilisent un formalisme booléen pour les requêtes (traitéde faon différente)
6
Modèle booléen
mode dappariement exact
R:fonction de pertinence(Relevance) dun couple (document,requête):
RD , t1si tD RD , t0si tD
R tD ,1ET t2RD , t1RD , t2RD , t1OU t2R tD ,1RD , t2RD , t1R tD ,2R tD ,1SAUF t2R tD ,1.1R tD ,2
7
Extensions du modèle booléen
?=> nimporte quel caractère  
« base? ETdonnées »
baser les données,bases de données
* => troncature
« ba* ETdonnées »
bases de données,banque de données
opérateur de proximité(ADJ ou NEAR)
« recherche ADJ(2) information »
rechercheautomatique dinformation
8
Exemple de modèle booléen
système WESTLAW (sur textes de lois)
« Are there any cases which discuss negligent maintenance or failure to maintain aids to navigation such as lights, buoys,  or channel markers? »
NEGLECT!FAIL!NEGLIG! /5MAINT!REPAIR! /PNAVIGAT! /5AID EQUIP!LIGHT BUOY "CHANNEL MARKER"
requêtes complexes et longues
pour des spécialistes
!troncature /n  proximité /Pmême paragraphe
9
Limites du modèle booléen
écrire une requête booléenne est difficile
le modèle ne permet pas de classer les documents retournés par le système
le modèle ne permet pas de retourner un document sil ne contient quune partie des mots de la requête (si le connecteur ET est utilisé)
10
Modèle booléen et logique floue
Logique floue (Lotfi Zadeh)
Valeurs de véritéentre 0 et 1
Fonction de pondération dun termetdans le documentD 
R tD ,0,1
RD , t1ET t2minRD , t1, R tD ,2 RD , t1OU t2maxR tD ,1, RD , t2 R NOTD , t11RD , t1
Permet de classer les documents
11