etude

etude

Documents
29 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

HES-SO / Ecole d’ingØnieurs de GenŁveLaboratoire didactique d’informatiqueProjet e-QuestThØsaurus et QuestionsJacky Wirzc Laboratoire didactique d’informatique 23 juin 2005http://www.infeig.unige.chTABLE DES MATI¨RES 1Table des matiŁresTables 3Table des gures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Liste des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 PrØsentation 51.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Mots-clØs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 ThØsaurus 72.1 Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Objets pour un thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Termes et PondØration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.4 DensitØ de termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5 ModŁles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.5.1 Taxonomie . . . . . . . . . . . . . . ...

Sujets

Informations

Publié par
Nombre de visites sur la page 23
Langue Français
Signaler un problème
HES-SO / Ecole d’ingénieurs de Genève Laboratoire didactique d’informatique
Jacky
Projet e-Quest
Thésaurus
Wirz
et
Questions
c
Laboratoire didactique d’informatique http://www.infeig.unige.ch
23
juin
2005
TABLE DES MATIÈRES1 Table des matières Tables 3 Table des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Liste des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1 Présentation 5 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Mots-clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Thésaurus 7 2.1 Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Objets pour un thesaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Termes et Pondération . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Densité de termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.5 Modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.5.1 Taxonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.5.2 Modèle vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.5.3 Pondération fréquentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.5.4 Listes à priorités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.5.5 Statistiques sur listes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Annexes 23 A Description logicielle 23 HES-SO / Ecole d’ingénieurs de Genève Jacky Wirz
2
Jacky
Wirz
HES-SO
/
TABLE
Ecole
DES
MATIÈRES
d’ingénieurs
de
Genève
TABLES
Tables
Table des figures
3
2.1 Thesaurus et code question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Vecteur de vraii. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Degrés de similitude des documentsi. . . . . . . . . . . . . . .  13. . . . . . . . . . . 2.4 Priorité thématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 A.1 Extrait d’un fichier de questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Liste des tableaux
2.1 Termes et qualification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Tables des vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Tables des vecteurs (fréquence et pondération) . . . . . . . . . . . . . . . . . . . . 15 2.4 Valeurs deFpourDSF S. . . . . . . . . . . . . . . . .  21. . . . . . . . . . . . . . . 2.5 Valeurs deFpourDF F S 22. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Liste des algorithmes 2.1 Algorithme SFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Algorithme FFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
HES-SO / Ecole d’ingénieurs de Genève
Jacky Wirz
4
Jacky
Wirz
HES-SO
/
Ecole
d’ingénieurs
TABLES
de
Genève
Chapitre 1
Présentation
5
1.1 Introduction L’objectif du travail qui suit est de mettre en forme des textes interrogatifs. Sur la base d’une collection de documents des mots seront choisis avec l’aide d’un être humain pour les extraire et les mettre dans un thesaurus. Le choix n’est pas réglementé, l’heureustique n’est pas décrite et il n’y a pas non plus de guide sémantique. Mots et syntagmes seront mis en thesaurus selon une appréciation de priorités ; une priorité de niveau et une priorité positionnelle déduite d’une relation d’ordre au sein de chaque niveau.
Les questions (ici nous parlons du contenu et non pas de la forme) seront passées au travers d’un analyseur ou crible pour obtenir un code unique, algorithme de hachage par exemple ou un cryptage sur données brutes qui aura pour but de réduire la taille de ce document. Ce code unique sera mémorisé et pourra être transmis à des noeuds documentaires coopératifs puisqu’il représente une "combinaison" de termes du thesaurus. Le thesaurus ne sera pas toujours générer automatiquement, il demandera une intervention par le biais d’une interface mise à disposition d’une personne qualifiée et capable de suivre un apprentissage supervisé. Il va sans dire qu’une autorisation d’accès au droit de modification sera requise pour valider cette intervention. Il est aussi envisagé que le thesaurus soit lui-même constitué de thesaurus. Rappelons que l’objectif que nous poursuivons dans ce travail de recherche est de mettre en place une stratégie pour avoir un accès d’identification rapide à l’information et éviter unparsinggénéralisé sur le texte sémantique interrogatif qui, en finalité, en fera une présentation exhaustive.
1.2 Mots-clés analyse FFS pondération proximité SALTON
SFS syntagme terme thesaurus variance
HES-SO / Ecole d’ingénieurs de Genève
Jacky Wirz
6
Jacky
Wirz
CHAPITRE
HES-SO
/
Ecole
1.
PRÉSENTATION
d’ingénieurs
de
Genève
Chapitre 2
Thésaurus
7
2.1 Thesaurus 2.1.1 Objectif Le thesaurus est souvent décrié par certains chercheurs qui trouvent qu’une machine a d’autres capacités de recherche que cet artifice. Il est important de remarquer que ce qui a fait son déclin pourrait devenir sa force. En effet, l’accès à l’information est de plus en plus globale (le nombre d’entrées augmente) ; par conséquent, la recherche nécessite des points d’ancrage afin d’améliorer la sélectivité (l’ensemble de satisfaction de la recherche).
Dans notre cas particulier le thesaurus est choisi et considéré comme une référence afin de fournir une collection de mots-clés qui vont nous permettre d’atteindre deux objectifs : – pouvoir qualifier au mieux un document, – pour retrouver des documents ayants des similitudes entre eux. Pour parvenir à nos fins, le thesaurus ne sera pas un simple index de termes ordonnés mais se verra enrichi de plusieurs attributs affectants chacun des termes qu’il contient.
Mais avant de décrire les particularités de ce thesaurus, examinons quelques points de définition qui permettent de concevoir un thesaurus.
2.1.2 Conception La conception d’un thesaurus doit satisfaire certaines règles quand il est destiné à fournir des listes de mots-clés. Regardons une définition d’un thesaurus [Can04]. Définition2.1 : Thesaurus Un thesaurus consiste en un vocabulaire contrôlé disposé selon un ordre préétabli dans lequel l’équivalence, l’homographie, la hiérarchie, l’association et les relations entre les termes sont clai-rement présentées et identifiées par des indicateurs de relation normalisés.
. . .Un thesaurus comprend également des synonymes ou des termesnon-préférésqui peuvent être utilisés comme point d’entrée conceptuel par les chercheurs ou les in-dexeurs, au lieu des termes d’indexation désignés. A ce titre, ilsdirigentles utilisateurs vers le termepréféréqui est constamment utilisé dans l’indexation des ressources en information qui comprennent le sujet ou le concept que recherche l’utilisateur. . . .
HES-SO / Ecole d’ingénieurs de Genève
Jacky Wirz
8
CHAPITRE 2. THÉSAURUS
2 1sélection Texte Texte filtré Thesaurus filtrage 3 0 Force brut 4 Appariement Code Le texte interrogatif 5 possède désormaisCode un code personnalisé
Fig.2.1 – Thesaurus et code question Le schéma 2.1 montre sommairement comment calculer un code unique. Le cheminement 0 est qualifié de force brut car il ne fait aucune analyse du texte ; par ailleurs, son code pourrait être le texte de la question mais, dans ce cas, la taille de l’information à transmettre aux noeuds de la distribution peut générer beaucoup de traffic. Ce schéma suggère aussi un processus de pro-duction alternatif. Un texte qui ne possède pas encore son code personnel sera d’abord filtré et éventuellement soumis comme entrée au thesaurus (chemin 1+2+(3,4)+5) qui discriminera la per-tinence d’une nouvelle entrée. Le résultat du filtrage peut aussi être directement soumis (chemin 1+2+4+5) au processus d’appariement (qui nécessite comme donnée d’entrée un thesaurus) en vue de produire son code personnalisé. Texte filtré et thesaurus seront tous deux ordonnés sur un critère commun. L’ordre préétabli est majoritairement alphabétique mais peut aussi se baser sur un autre système relationnel tel que l’attribution de priorités. Le mode lexicographique reste toutefois très confortable pour un être humain.C’est d’ailleurs le seul qui nous permet de faire une recherche séquentielle en ordre ou avec dichotomie. Nous disons toujourslede ce support. Mais, il sera envisagéthesaurus afin de cibler notre vision plus tard d’en élaborer plus d’un. Ceux-ci constitueront un corpus au sein duquel nous pourrons trouver des spécialités ou domaines de questions. La fusion de thesaurus sera aussi envisagée. Genre de termes Syntagme Niveau Cardinalité d’une liste Texte non sans 1 Epithètes oui sans n Génériques non sur 0..9 10*n Spécifiques non sur 0..9 10*n Associés oui sans n
Tab.2.1 – Termes et qualification En supposant une limite cardinale de28des quatre dernières listes, nous pouvons quantifier le nombre de distinguables en mode biarbre à 1 Tera noeuds environ. Un terme de genre acceptable pour le thesaurus doit encore satisfaire certaines conditions qui sont des contraintes d’acceptation ou CCA : Jacky Wirz HES-SO / Ecole d’ingénieurs de Genève
2.2. OBJETS POUR UN THESAURUS
9
– casse basse et haute ignorées – accentuation, union de mots composés retirée – longueur minimale – longueur maximale – distinction de correspondance en longueur Ces CCA sont des paramètres pour le thesaurus ; nous pouvons les regrouper dans un5-upleet pouvons en donner des exemples : 1.CCA={vrai, vrai,1,1,1} – seul 36 cas seront distingués 2.CCA={vrai, vrai,2,5,∞} – déjà 12 millions de cas sont accessibles1 3.CCA={vrai, vrai,2,5,4} – limite le cas précédent à 1 million Notons que toute CCA autre que{f aux, f aux,0,,∞}dégrade la qualité de l’information sans induire obligatoirement une perte de termes très significatifs pour la question.
2.2 Objets pour un thesaurus Le tableau 2.1 cite un genre de termes comme une particularité du thesaurus. C’est une abs-tractionGenreTermeThesauruspour dériver tous les genres faisant partie du thesaurus. Elle a pour but de fixer le cadre d’exploitation des objets qui en seront dérivés. Des constantes seront définies d’une part pour le niveau (par défaut égal à un) et pour la taille d’une liste. Parcourons les genres : texte ;identifiant unique pour un thesaurus (soit un énoncé, soit un numéro de série)c’est un épithètesliste qui va regrouper des termes qui relèvent davantage d’un attributc’est une plutôt que d’un mot-clé ; génériques ; ces termes ont un aspect hiérar-plusieurs niveaux contenant chacun une liste chique dans le processus de recherche de présence en thesaurus pour les termes généraux d’un document ; spécifiques ;plusieurs niveaux contenant chacun une liste ces termes ont un aspect hiérar-chique dans le processus de recherche de présence en thesaurus pour les termes spécialisés d’un document. Ces objets vont jouer un rôle majeur dans notre processus d’identification. Ils vont décrire au plus près un document (une question) afin de réaliser un bon score lors du calcul de l’appariement de documents ; associésde termes que l’on peut associer soit à des génériques soit à desc’est une liste spécifiques. Remarquons que les deux piliers de rechercheGénériquesetSpécifiquessont interdits aux syn-tagmes qui peuvent évoluer vers des formes longues et difficiles à retrouver à haute fréquence dans les documents.
2.3 Termes et Pondération La pondération des termes est un des supports dans la recherche d’information basée sur des documents textuels. Il existe beaucoup d’approches de catégorisation de ces textes, par exemple [BYRN99],[Jac04]. Parmi un grand choix, nous allons distinguer deux formes. La première dite force brute et la seconde dite de filtrage qui va nécessiter des mises en forme préparatoires ; ici pluralisées car elles peuvent constituer plusieurs séquences. Dans chacun de ces cas, il nous faut assigner par association des poids aux termes. 1les calculs sont des estimations
HES-SO / Ecole d’ingénieurs de Genève
Jacky Wirz