Recherche d'informationModèles en Recherche d'InformationCours Master Recherche Paris 13Recherche et extraction d'informationA. Rozenknopsource : Romaric Besan on CEA-LIST/LIC2M1Modèles en RIQu'est-ce qu'un modèle en RI ?décrire le processus computationnele.g. comment les documents retournés sont ordonnéscomment les documents sont stockés relève de l'implémentation (➝ index)décrire le processus humaine.g. le besoin d'information, l'interactionLes variables: documents, requ!tes, termes d'index, jugements de pertinence, utilisateurs, besoin d'informationdéfinition implicite ou explicite de la pertinence2Modèles en RIModèle booléenModèles vectorielsModèles probabilistesModèles de langueAutres modèlesréseaux d'inférences, modèles logiques, modèles neuronaux, modèles génétiques...3Exact ou meilleurappariement exact ou meilleur appariement (exact match vs. best match)exact matchcritères de pertinence précisun document correspond ou non à ces critèresle résultat est un ensemble de documents non ordonnésbest matchla requête décrit le meilleur document voulule résultat est un ensemble de documents triés par pertinence4Exact ou meilleurbest-match a en général de meilleurs performances (meilleurs documents en premier)exact-match encore souvent présent dans les systèmes commerciaux (avec des critères de tri supplémentaires)exact-matchefficace requêtes structurées difficiles à écrireprévisible, explicable la difficulté s'accroît avec la ...
requêtes structurées difficilesàécrire la difficultésaccroît avec la taille de la collection lexique des requêtes=lexique dindexation précision correcte➝rappel faible best-matchtoujours meilleur
5
Modèle booléen
le modèleexact matchle plus commun
une requête est une expression logique
termes
opérateurs booléens ET / OU / SAUF
«rechercheETinformationETmodèlesSAUFindexation»
Remarque:dautres modèles (non booléens) utilisent un formalisme booléen pour les requêtes (traitéde faon différente)
6
Modèle booléen
mode dappariement exact
R:fonction de pertinence(Relevance) dun couple (document,requête):