L

L'organisation des connaissances

-

Livres
270 pages
Lire un extrait
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

L'organisation des connaissances évoque irrésistiblement les grandes classifications des bibliothèques et des encyclopédies. A l'heure où le texte intégral règne sans partage sur le web, on peut se demander s'il y a encore une place pour les outils de catégorisation, les plans de classement ou les thésaurus? La reconfiguration actuelle qui met la logique formelle au centre de l'organisation des connaissances doit-elle prendre la place occupée jusqu'à présent par la philosophie des sciences et l'épistémologie.

Sujets

Informations

Publié par
Ajouté le 01 mai 2005
Nombre de lectures 275
EAN13 9782336260853
Signaler un abus

L'ORGANISATION

DES CONNAISSANCES

APPROCHES CONCEPTUELLES

Le « photocopillage )) tue le livre Le code de la propriété intellectuelle n'autorisant, aux termes de l'article L.122-5, 2e et 3e a, d'une part, que les « copies ou reproductions strictement réservées à l'usage privé du copiste et non destinées à une utilisation collective» et, d'autre part, que les analyses et les courtes citations dans un but d'exemple et d'illustration, « toute représentation ou reproduction intégrale ou partielle faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause est illicite» (art. L.122-4). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du code de la propriété in tellectuelle.

Textes réunis et édités par Yolla POLITY, Gérard HENNERON, Rosalba PALERMITI

L'ORGANISATION

DES CONNAISSANCES

APPROCHES CONCEPTUELLES

L'Harmattan 5-7, rue de l'École-Polytechnique 75005 Paris France

L'Harmattan Hongrie Hargita u. 3 1026 Budapest HONGRIE

L'Harmattan Italia Via Degli Artisti 1510214 Torino ITALIE

(Ç) L'Harmattan, 2005 ISBN: 2-7475-8274-4 EAN : 9782747582742

Liste des auteurs

Abascal Rocio, Arara Ahmed, Bachimont Bruno, Bautier Roger, Benslimane Djamal, Bouzidi Laïd, Dancette Jeanne, David Amos, Elkateb-Gara Faiza, Ertzscheid Olivier, Grau Brigitte, Hernandez Nicolas, Hudon Michèle, Hufschmitt Benoît, Ibekwe Fidelia, Ihadjadene Madjid, Kislin Philippe, I<.ovacs Suzan, Lecomte Alain, Léveillé Laurent, Link-Pezet Jo, Malaise Véronique, Periguiron Frédérique, Pinon Jean-Marie, Pirolli Fabrice, Polity Yolla, Roussey Catherine, Roy Richard, Rumpler Béatrice, Sanjuan Éric, Soubrie Thierry, Vangenot Christelle, Zweigenbaum Pierre,

LIRIS - INSA de Lyon LIRIS - Université Lyon 1 INA LABSIC - Université Paris 13 LIRIS Université Lyon 1 IAE Université Jean Moulin - Lyon 13 Université de Montréal et Université de Genève SITE-LORIA Nancy LIMSI - CNRS URFIST - Université des sciences sociales de Toulouse LIMSI CNRS LIMSI CNRS EBSI - Université de Montréal CDBP - Université de Franche Comté - Besançon ERSICO - Université Lyon 3 CRIS Université Paris X Nanterre SITE-LORIA - Nancy Université Lille 3 Université Pierre Mendès France Grenoble 2 École des sciences de la gestion, Université du Québec Montréal URFIST Université des sciences sociales de Toulouse INA et STIM / AP-HP SITE - LORIA - Nancy LIRIS - INSA de Lyon IAE - Université Jean Moulin - Lyon 3 RI3-IUT2 - Université Pierre Mendès France - Grenoble 2 LIRIS Université Lyon 1 BMVR - Reims LIRIS - INSA de Lyon LITA - Université de Metz Université Stendhal Grenoble 3 École polytechnique de Lausanne STIM / AP-HP

Sommaire
Avant-propos
11

Introduction
YOlla Poliry 13

Conférence invitée y a-t-il une logique de la classification? Alain Lecomte
ChaPitre « HISTOIRE 1 »

21

Penser, classer et la culture de l'imprimé:
Susan Kovacs

l'index du livre imprimé au XVIe siècle 39

Doctrinaires et saint-simoniens RogerBautier

sur l'organisation

des connaissances 49

ChaPitre 2 « LANGUE, TERMINOLOGIE ET FORMALISME»

Extraction et typage de termes significatifs pour la description de textes Nicolas Hernandez - Brigitte Grau Extraction d'identités nommées pour la recherche d'informations Faiza Elkateb-Gara précises

61

73

Les représentations lexico-sémantiques (RLS), moyen de structuration des connaissances dans les domaines spécialisés Jeanne Dancette Spatialisation des concepts-objets du langage naturel dans un thésaurus illustré multilingue dédié à la traduction semi automatique Laurent Léveillé

83

97

Term Watch: variations terminologiques Fidelia Ibekwe-Satljuan Eric Satljuan

et veille scientifique 111

Caractérisation des éléments de solutions en recherche d'information: conception d'un modèle dynamique dans un contexte décisionnel PhilippeKislin Amos David - FrédériquePéguiron

123

Chapitre 3
« MULTIDIMENSIONNALITÉ »

Terminologie et multi-terminologie en langue naturelle Benoît Hufschmitt

dans les écrits discursifs argumentatifs 139 la multi-représentation ChristeileVangenot

Contribution à l'interopérabilité dans les ontologies: CatherineRoussry- Djamal Benslimane Ahmed Arara

157

L'organisation des connaissances et la recherche d'informations dans une logithèque FabricePiroili Lait! BouZidi ChaPitre 4 « ONTOLOGIE ET THESAURI » Vers une combinaison de méthodologies pour la structuration de termes en corpus: premiers pas vers des ontologies dédiées à l'indexation de documents audiovisuels Bruno Bachimont- Véronique Malaise - Pierre Zweigenbaum Conception d'une ontologie dans le contexte d'une bibliothèque numérique Rodo Abascal- BéatriceRumpler - Jean-Marie Pinon De l'ingénierie des compétences à l'ingénierie des connaissances: construction d'une ontologie pour la recherche d'information
Olivier Ertzscheid

167

179

191

- Jo Link-Pezet
gouvernementaux accessibles au grand public

201
213

Macrothésauri et systèmes d'information MichèleHudon

ChaPitre 5 « BIBLIOTHÈQUE ET APPROPRIATION» Classifications encyclopédiques l\ladjid Ihadjadene et interface de recherche d'information 225 de l'accès à distance aux collections 235

Pour une approche « conviviale» des bibliothèques publiques Richard Rqy

L'apport d'Internet à l'organisation vers un encyclopédisme d'usage OlivierErtzscheid

des connaissances:

243
sur le Web:

AUKAPIWeb, auxilliaire pour l'appropriation de l'information du traitement automatique de l'information à sa manipulation Thierry Soubrié

253 267

Comité Scientifique

Avant-propos

La quatrième édition du Congrès d'ISIZO- France (InternationalS ocie!) or Knolvledge f organization)s'est tenue à Grenoble les 3 et 4 juillet 2003. Cet événement scientifique a été organisé avec le concours du groupe de recherche RI3 (Recherche interactive et intelligente de l'information) et de l'IUT2 de l'Université Pierre Mendès France de Grenoble. Il a rassemblé une centaine de chercheurs, d'experts et de praticiens, venus de France, de Suisse et du Canada. Les trois premiers congrès de Lille 1997, Lyon 1999 et Paris 2001 avaient eu respectivement pour thèmes « L'intégration des connaissances dans les systèmes de représentation et de recherche d'information », « L'indexation à l'heure d'Internet» et « Filtrage et résumé automatique de l'information sur les réseaux ». Le congrès de Grenoble a voulu privilégier un point de vue moins spécifique en traitant des « approches conceptuelles» de l'organisation des connaissances. Ce choix n'était pas facile car nous savions tous qu'actuellement les approches conceptuelles ne sont pas des approches dominantes. Il nous a cependant semblé utile d'ouvrir un espace d'expression, d'échange et de discussion à des chercheurs et des professionnels confrontés à des problèmes que ne résolvent qu'en partie les outils de catégorisation automatiques. Les trois précédents congrès d'ISIZO-France avaient largement exploré les voies de l'indexation et du filtrage, nous avions donc envie de revenir aux fondamentaux et d'aborder les questions théoriques posées par l'organisation des connaissances aujourd'hui. Nous voudrions ici remercier le Conseil d'administration d'ISIZO-France d'avoir accepté cette proposition et plus particulièrement son président Jean-Paul Metzger qui nous a toujours encouragé dans cette voie. Nous voudrions aussi remercier les membres du Comité scientifique dont le lourd travail d'évaluation des propositions de communication, de lecture des textes et de conseil aux auteurs a été déterminant. Notre gratitude va enfin et surtout aux contributeurs car c'est la richesse et la variété des approches qui ont assuré le succès de ces deux journées en montrant l'intérêt d'une ouverture interdisciplinaire dans un domaine trop souvent restreint aux chercheurs et aux praticiens des Sciences de l'information.

YOLLA POLITY

Introduction

L'organisation des connaissances évoque irrésistiblement les grandes classifications des bibliothèques et des encyclopédies avec leur idéal d'universalisme qui provoque fascination et inquiétude, et les défauts qui lui sont inhérents: vision globalisante, rigidité, structure systématique et hiérarchique, admirablement décrits dans les œuvres de Borges ou d'Eco. En tant que domaine de recherche, elle ne se limite pas aux problèmes documentaires de classification et d'indexation. Elle se donne comme objets d'étude les processus cognitifs et les techniques intellectuelles qui permettent de classer, indexer, représenter, formaliser, modéliser le réel. Elle concerne donc tous les spécialistes confrontés à l'organisation des connaissances quel que soit leur domaine d'intérêt ou leur discipline: épistémologie, philosophie, pédagogie, édition, conception de produits ou de services, etc. et toutes les personnes invitées à utiliser et à s'approprier ces connaissances organisées. C'est cette large vision du domaine qui s'exprime dans la définition donnée dans l'appel à communication de ce congrès:
Par organisation des connaissances, il faut entendre: ou faiblenOJnenclatures, etc.) à des schémas clasdes relations non exclusur toutes sortes Toutes sortes de schéJnas d'organisation sificatoires hiérarchiques sivement hiérarchiques allant des simples listes alphabétiques

ment structurées (listes d'autorité, glossaires, dictionnaires,

(plans de classement, classifications générales ou spécialisées, taxinomies, (thésaurus, réseaux séJnantiques, ontologies, etc.), portant

listes de vedettes matières, etc.) ou encore à des organisations privilégiant

d'oo/ets allant des documents au sens classique du terJne (textes, images fixes trements sonores, etc.) jusqu'à des oo/ectifs divers:

et aniJ1tées, enregis-

l'enseJnble des phénoJnènes concrets ou abstraits que l'on peut avoir de nouvelles connaissances, cOJnmuniquer, appli-

besoin de recenser, d'organiser et de traiter (oo/ets, évèneJ1tents, processus, etc.) et avec des buts et retrouver, enseigner, produire quer des traiteJnents appropriés, etc.
A1.aître de Conférences,
*

IUT

2, Université
de Isko

Pierre N!endès

France,

Grenoble

2,

Présidente

du

COJJlÎté

scientifique

2003.

14

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

En effet, il nous semblait impératif de confronter les méthodes et les concepts utilisés dans les sciences de l'information à ceux utilisés dans des disciplines voisines quand elles s'intéressent à l'organisation des connaissances. Il nous semblait aussi nécessaire de ne pas s'en tenir aux savoirs écrits et enregistrés et à la seule activité de repérage de l'information dans des documents textuels. Les approches conceptuelles: rupture ou continuité?

À l'heure où le texte intégral règne sans partage sur le Web et où les utilisateurs semblent se satisfaire des résultats trouvés par leur moteur de recherche favori, les spécialistes de l'organisation des connaissances sont en droit de se poser des questions : y a-t-il encore une place pour les outils de catégorisation, les plans de classement ou les thesaurus?
- Le texte intégral comme lnodèle dOlninant

Les moteurs de recherche sur Internet font aujourd'hui partie du quotidien de publics de plus en plus larges et on assiste à une très grande popularisation des systèmes d'indexation et de recherche sur le texte intégral des documents dans les entreprises (systèmes d'information et intranets). Héritiers des travaux de recherche amorcés dans les années 1970 en traitement automatique des langues et en informatique documentaire, ces moteurs de recherche ont rencontré, avec l'expansion du Web, un environnement technologique très favorable à leur développement: une disponibilité croissante de documents sous forme numérique, des machines rapides, des capacités de stockage en perpétuel accroissement et des réseaux capables de transporter presque instantanément les résultats d'une requête. Le Web a donc favorisé le développement de ces moteurs et les retombées sur les systèmes d'information administratifs, culturels, éducatifs, scientifiques ou d'entreprise ne se sont pas fait attendre: du courrier commercial aux encyclopédies en passant par les romans ou les articles scientifiques, sur CD Rom ou sur une machine personnelle, tout peut aujourd'hui être géré par des logiciels de repérage dans lesquels l'option de recherche en texte intégral est devenue l'option de base. De fait, face à l'abondance des flux d'information, l'économie de l'indexation exclusivement manuelle, fondée sur une analyse thématique intellectuelle des contenus, paraît totalement inadaptée. Complexe à mettre en œuvre et à entretenir, coûteuse en temps de travail humain qualifié, peu satisfaisante pour l'utilisateur final qui ne maîtrise pas le vocabulaire d'indexation, l'analyse intellectuelle des contenus semble avoir succombé face aux avancées triomphantes de l'indexation automatique. En est-il de même de l'organisation des connaissances? Nous ne le pensons pas, car les besoins se sont déplacés et de nouvelles perspectives sont apparues, créant de nouveaux chantiers de construction d'outils de catégorisation.

YOLLA

POLITY

15

- Outils traditionnel~nouveaux usages Si la voie de l'indexation automatique du texte intégral s'est généralisée, elle a vite montré ses limites, limites bien connues qu'il serait trop long d'exposer ici. Les spécialistes s'accordent à dire que la recherche de « mots» ou d'« expressions» ne peut se substituer entièrement à une recherche thématique organisée, sur des ressources validées et catégorisées humainement. Les utilisateurs ne s'y trompent pas qui utilisent alternativement ou conjointement les moteurs et les schémas de classement proposés par les annuaires, répertoires, intranets ou. portails de toutes natures. Les concepteurs de sites ou de produits d'information ont bien compris qu'il ne suffisait pas d'offrir un moteur de recherche pour satisfaire les usagers qui ont besoin de comprendre l'organisation des connaissances pour s'y repérer et qui souhaitent accéder efficacement à l'ensemble des informations sur un sujet. On a ainsi vu se multiplier des outils qui visent à répondre à deux types de besoins: d'une part définir et organiser les sujets et, d'autre part, indexer les contenus. Pour définir et organiser les sujets, on ne connaît pas mieux que les taxinomies qui permettent de décrire des catégories et des sous catégories ou les classifications hiérarchiques qui mettent en évidence les relations entre des sujets généraux et des sujets plus particuliers. Souvent créées d'une manière ad hoc et dans l'ignorance des règles élémentaires de construction des classifications, elles ont servi néanmoins de révélateur et permis un renouveau de la réflexion autour de la structuration des savoirs, de l'importance de la terminologie et de la cohérence de la démarche classificatoire. Elles ont mis aussi en lumière l'importance du travail conceptuel exigé pour la création et la maintenance de ces outils quand ils concernent des gros volumes d'information tels que ceux d'une entreprise, d'un site institutionnel ou d'une bibliothèque numérique. C'est ainsi qu'on voit aujourd'hui de nombreuses structures reprendre ce travail de catégorisation en se basant sur des outils déjà existants tels que plans de classement, nomenclatures professionnelles, glossaires, vocabulaires métier, etc. D'autres ont remis en service des classifications « universelles» telles la Dewey ou la CDU pour catégoriser leurs ressources. Ce retour vers des instruments éprouvés et adaptés à ces ressources et à la structure qui les produit et les utilise assure une mise à jour moins hasardeuse et moins coûteuse et surtout une meilleure interopérabilité avec les autres composants du système d'information. Indexer les contenus des intranets et du Web reste aujourd'hui l'apanage de structures ayant une forte tradition de gestion documentaire et traitant de domaines qui exigent fiabilité et précision. Le bruit engendré par l'indexation automatique des moteurs de recherche ne peut être accepté dans un contexte professionnel sensible. Certes les normes d'indexation existent (Metadata Dublin Core) et plus récemment RDF (REssource DescriptionFramework)), mais le volume de documents effectivement pourvus de métadonnées reste dérisoire. En effet, décrire les documents d'une manière efficace signifie qu'on dispose d'un vocabulaire contrôlé, non ambigu,

16

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

organisé de façon à expliciter les relations entre les notions. C'est la définition du thésaurus dont la première fonction est la désambiguïsation du langage. Si quelques portails notamment dans le domaine médical, scientifique ou industriel indexent leurs ressources à l'aide de leurs thesaurus respectifs, les langages d'interrogation des métadonnées exploitent insuffisamment les relations entre les notions, relations qui font tout l'intérêt de ce type d'outil. Les nouveaux outils du Web sémantique Le Web sémantique est une bannière pour tous ceux qui travaillent à mettre en œuvre une nouvelle génération d'outils et de solutions pour l'organisation des connaissances, des documents et des contenus dans les environnements intranet et internet. Ce chantier est fortement soutenu par le W3C qui a publié plusieurs recommandations qui constituent aujourd'hui des standards reconnus par la communauté des chercheurs: RDF (déjà évoqué) pour la description des métadonnées et OWL (Web OntologyLanguage)pour définir des ontologies structurées. Ces deux standards sont basés sur XML. L'objectif du Web sémantique est de fournir une caractérisation des ressources numériques qui soit .interprétable par les machines. Les ontologies, qui en constituent l'élément central, sont des représentations formelles d'un domaine de la connaissance. Elles consistent en une terminologie qui sert à définir les classes d'objets à organiser, les types d'attributs qui peuvent être attachés aux objets et les types de relations qui les structurent. Des règles logiques permettent à des programmes de faire des inférences. Les ressemblances entre un thésaurus et une ontologie sont frappantes. Dans les deux cas, il s'agit d'un vocabulaire contrôlé utilisé et validé par les acteurs d'un domaine. Dans les deux cas, ce vocabulaire est structuré et doté de relations sémantiques entre les termes qui le composent. Mais les ressemblances s'arrêtent là car la sémantique des objets et des relations dans une ontologie est une sémantique formelle qui n'est pas destinée à être interprétée par des êtres humains. Les ontologies sont bien des schémas d'organisation de connaissances construits grâce à un travail intellectuel humain, mais leur caractère formelles rend aptes à alimenter des traitements et des raisonnements menés par des automates. Les travaux des chercheurs qui se reconnaissent sous la bannière du Web sémantique rejoignent ceux des chercheurs en intelligence artificielle qui déjà parlaient d'ontologies dans le cadre des systèmes à base de connaissances. La convergence se fait sur le terrain de la gestion de connaissances (knowledgeInanagemenl). Dans les portails d'entreprise généralement basés sur des mécanismes d'indexation en texte intégral, les ontologies sont sensées apporter une couche de « sémantisation}) capable d'améliorer la pertinence des fonctions de recherche et de classification. À l'heure actuelle, les travaux aboutis sont surtout d'ordre technologique: définition de formalismes, de langages de descriptions et écriture de programmes capables de les exploiter. Le chantier de construction d'ontologies est ouvert mais

YOLLA POLITY

17

il pose de sérieux problèmes dont celui du caractère prohibitif des coûts et des délais de mise au point d'une ontologie couvrant ne serait-ce qu'un champ spécifique d'un secteur industriel, médical ou scientifique. Conscients de cet enjeu économique qui conditionnera la viabilité même du projet de Web sémantique, les chercheurs tentent de réutiliser les langages documentaires existants ou de mettre à profit les technologies du traitement automatique des langues (TAL) afin d'automatiser les phases de construction des ontologies. Ces technologies d'extraction terminologique avaient déjà été largement utilisées dans l'aide à la construction de thésaurus. On en verra d'ailleurs quelques exemples dans les chapitres 2 et 4 de cet ouvrage.

-

Logique et classification

Au terme de ce panorama des approches conceptuelles de l'organisation des connaissances telles qu'elles se présentent aujourd'hui, on peut s'interroger sur cette reconfiguration du champ qui met la logique formelle au centre du projet d'organisation des connaissances alors que cette place centrale avait été occupée jusque là par la philosophie des sciences et l'épistémologie. La logique formelle peut-elle rendre compte de tous les aspects de l'organisation des connaissances? Alain Lecomte, professeur de logique et d'épistémologie à l'université Pierre Mendès France de Grenoble, invité à ouvrir le congrès, pose la question différemment: « Y a-t-il une logique de la classification? ». Sa contribution qui donne le ton de cet ouvrage montre comment de nombreux essais de formalisation de l'activité de classement, cas particulier de l'organisation des connaissances, ont jusqu'à présent achoppé sur le problème en apparence insoluble des restrictions et exceptions. Ni l'intelligence artificielle, ni sa version « réseaux connexionnistes » des années 1980 ne rendent objectivement et rationnellement compte des opérations de raisonnement naturel. Passant en revue la logique classique, les logiques non-monotones, la logique de l'information partielle, il en vient à dire que s'il faut trouver une logique de la classification, en tant que sous-logique de nos raisonnements naturels, alors noussommesconduitsà lafonder sur une basequi n'est
pas foncièrement logiquepuisqu'elle concerneune division de la connaissance à un moment de l'histoire, accessiblepar le travail de l'épistémologue ou de l'historien des scienceset non par celui du

logicien.Les problèmes de catégorisation qu'il analyse (celui de l'allaitement mercenaire en France au XVIIIe siècle ou celui de la maltraitance infantile) mettent en lumière la non-naturalité des classifications. Toute catégorisation constitue une suite de décisions d'ordre moral et/ou politique qui contribue à un moment donné à valoriser un point de vue et à faire le silence sur un autre. En cela les classifications, loin d'être fondées sur la logique, sont l'expression d'un consensus établi dans des groupes dominants.

18 Présentation

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUEliES

de l'ouvrage

Outre la conférence d'ouverture prononcée par Alain Lecomte, cet ouvrage est organisé en 5 chapitres qui réunissent les vingt communications présentées lors du congrès. Le premier chapitre intitulé « Histoire », en revisite certains moments pour analyser les relations entre les conceptions successives de l'organisation des connaissances et l'évolution de la société et des usages. Roger Bautier analyse les positions respectives des doctrinaires et des saint-simoniens sur la structure à donner aux encyclopédies, simple exposé des connaissances humaines comme le conçoit Guizot auteur de l'EnrycloPédie rogressiveou enchaînement des connaissances fondé sur un p principe philosophique de classement tel que le réclament les saint-simoniens. TI montre que ces positions sont fortement orientées par les conceptions politiques et philosophiques de leurs auteurs. Susan l<.ovacs, traite de la notion d'index dans le livre imprimé au XVIe siècle. Elle étudie l'influence des programmes pédagogiques humanistes sur le développement des index, systèmes de classement des termes mais aussi outils anticipant de futurs réemplois notamment dans l'élaboration des cahiers de lieux communs. Le second chapitre intitulé « Langue, terminologie etjorlnalisJ11es présente un » éventail de problématiques qui vont de l'extraction automatique de termes à la structuration des termes d'un lexique terminologique en utilisant des formalismes divers: représentations lexico-sémantiques, thesaurus, graphes et cela dans des domaines tels que la traduction, la veille scientifique ou l'intelligence économique. On y trouve des applications du traitement automatique des langues à l'extraction de termes significatifs (Nicolas Hernandez, Brigitte Grau, Faiza ElkatebGara), une proposition de modèle de représentation lexico-sémantique pour dictionnaires spécialisés Oeanne Dancette), un modèle pour thésaurus multilingue inspiré des systèmes d'information géographique (Laurent Léveillé), une utilisation de la classification automatique pour cartographier des termes extraits d'un corpus de veille (Fidélia Ibekwe-SanJuan et Eric Sanjuan) et enfin un modèle de description de problèmes dans un contexte décisionnel (philippe l<.islein, Amos David et Frédérique Péguiron). Les auteurs du troisième chapitre peuvent être étonnés de trouver leur communication sous l'intitulé « Multidimensionnalité» alors qu'ils n'utilisent peut-être pas ce terme pour caractériser leur démarche. Nous avons fait ce choix pour mettre en évidence une caractéristique commune à ces approches qui, au travers de systèmes informatiques très différents, remet à l'honneur la question de la multiplicité des points de vue. Cette nécessaire prise en compte des multiples dimensions de l'objet à décrire avait conduit les précurseurs des années 1960 à créer les thesaurus à facettes, facettes qui n'ont jamais connu en France le succès qu'ils ont eu outre-Manche. Multi-terminologie, multi-représentation et multiplicité de niveaux de description nous ont semblé renouer avec cette tradition. Ainsi le philosophe Benoît Hufschmitt

YOLLA POUTY

19

pose la question d'une possible indexation des textes philosophiques, en reprenant la notion de multi-terminologie. Il suggère, pour distinguer dans tout texte philosophique ses espaces doctrinaux et dénotatifs, de les indexer à l'aide de descripteurs selon quatre facettes: dotrine-source, doctrine-objet, discipline d'usage, disciplineobjet. Catherine Roussey, Djamal Benslimane, Ahmed Arara et Christelle Vangenot proposent une solution pour l'interopérabilité des ontologies qui utilise la multireprésentation des points de vue, tandis que Fabrice Pirolli et Laïd Bouzidi s'intéressent à l'organisation des connaissances et à la recherche d'information dans une logithèque. Le quatrième chapitre qui a pour titre « Ontologieset thesaurus» pose un problème d'actualité. En effet, les ontologies, venues du monde de l'intelligence artificielle et popularisées dans le monde de l'entreprise par la vogue de la gestion des connaissances (knowledge 111anagemen~ apparues comme des ovni dans l'univers de sont la documentation. Elles sont perçues comme des outils permettant de dépasser les limites des systèmes documentaires classiques basés sur des thésaurus grâce à un enrichissement de la sémantique des relations mais leur construction pose de nombreux problèmes. Les diverses contributions, en étudiant les avantages et les limites de ces deux outils, aident à mieux comprendre ce que peuvent apporter les ontologies. Trois des quatre interventions de cette session portent sur la construction d'ontologies à partir de corpus de textes dans trois contextes différents: l'indexation de documents audiovisuels à l'Ina (Véronique Malaisé, Pierre Zweigenbaum, Bruno Bachimont), la bibliothèque numérique de thèses en ligne à l'Insa, (Rocio Abascal, Béatrice Rumpler, Jean-Marie Pinon) et ForSIC, base de connaissance en ingénierie pédagogique (Olivier Ertzscheid, Jo Link-Pezet). La dernière intervention présentée par Michèle Hudon expose les résultats d'une étude comparative entre quatre macrothésaurus visant à faciliter l'accès à l'information administrative en ligne au Canada. On ne pouvait pas imaginer un congrès sur l'organisation des connaissances sans consacrer une session aux bibliothèques et aux problèmes de l'accès à l'information et de l'appropriation des connaissances. C'est l'objet du cinquième chapitre intitulé « Bibliothèque et appropriation» qui étudie la relation entre les schémas d'organisation, qu'ils soient classificatoires ou hypertextuels, et les utilisateurs, qu'ils soient en situation de consultation de catalogues, de recherche d'information ou de lecture sur écran. Ce chapitre donne l'occasion de présenter aux chercheurs et aux praticiens de la documentation les avancées réalisées en 2003 en matière d'accès thématique aux collections des bibliothèques sur le modèle des annuaires ou des portails spécialisés sur le web (Richard Roy) et de croiser cette approche avec l'utilisation de la classification Dewey pour catégoriser automatiquement les résultats obtenus lors d'une recherche dans un catalogue en ligne (Madjid Ihadjadene). Il s'intéresse aussi aux stratégies individuelles et collectives d'appropriation des résultats d'une recherche

20

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

sur le Web (Olivier Ertzscheid) et au développement d'outils d'écriture (annotation ou rédaction de commentaires par exemple} pour exploiter les ressources sur le web (Thierry Soubrié). Cette organisation en cinq parties nous semble refléter les tendance actuelles de la recherche dans le domaine de l'organisation des connaissances et nous espérons qu'elle sera de nature à faciliter l'accès aux travaux que nous présentons. Nous vous souhaitons bonne lecture et vous donnons rendez-vous en 2005 au prochain congrès d'!sko- France.

ALAIN

LECOMTE

Conférence

invitée -

y a-t-il
Problèmes

une logique

de la classification?

de la classification

L'activité de classification est fondamentale dans la cognition humaine et même, plus généralement, animale. Piaget a ainsi montré combien les schèmes classificatoires étaient à la source de nos opérations intellectuelles les plus élaborées, y compris de notre aptitude au raisonnement formel. Pourtant les nombreux essais de formalisation de cette activité, en termes d'une logique, ont jusqu'à présent achoppé sur des problèmes en apparence insolubles, comme les exceptions et les restrictions aux critères nécessaires à l'établissement d'une classification exhaustive. Le mécanisme des restrictions est interne à la taxinomie. Lorsque par exemple, au XVIIIe siècle, on a découvert les monotrèmes, dont le spécimen le plus caractéristique est l'ornithorynque (ou platypus), il a bien fallu leur donner une place dans la classification de Linné. Aujourd'hui, l'EnrycloPédia U niversalis dit : « par leur revêtement de poils et leurs glandes mammaires, leur diaphragme et leur cœur à quatre cavités, leur articulation mandibulaire et leur oreille moyenne, leur homéothermie et quelques autres caractères,les Monotrèmes, qui vivent dans la régionfaunistique australienne, sont indiscutablement des Mammifères. Cependant, ils possèdent aussi quelques dispositions primitives (squelette de la ceinturepectorale, appareil reprodudeur) qui rappellent les Reptiles ancestraux. On constate, en outre, la présence de caractères très spécialisés en relation avec leurs I1Jodesde vie et leurs régimes alimentaires particuliers ».

Elle nous indique aussi à l'article « mammifères»
reconnu l'existence d'un ensemble de Vertébrés quadruPèdes, tout de suite préciser que les Monotrèlnes

que: « déjà,Aristote avait
de poils. Il faut découverts

vivipares et porteurs

sont, dans ces conditions, exclus,. ils nefurent

Professeur

de logique et épistélJJologie,

Université

Pierre lvlendès

France,

Grenoble

2.

22
qu'au XVIIIe Linné respectivement

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

siècle. C'est seulement dans la dixième édition (1758) ,. les Cétacés et les Cheiroptères) classés avec les Poissons et les Oiseaux; prennent d'Henri Ducrotqy

du Systema

naturae

que été

emploie le terme MamJllalia

qui avaient jusqu'alors

enfin une position (1834)

.rystéJnatique

logique. Les grands traits de la classification des Mammifères reil génital femelle) depuis les travaux Henry Huxlf!Y (1880). Protothériens taires vrais».

sont Jôndés sur l'anatomie de l'appaet enfin de ThoJllas les ou Marsupiaux ou placenactuels sont les suivantes:

de Blainville

Les trois sous-classes de MaJnmifères (ex. l'ornithorynque) vivipares aplacentaires

(ovipares)) ou Monotrèmes

,. les Métathériens,

(exemple le kangourou))

(avec des exceptions) ,. les Euthériens

Autrement dit, si les mammifères jusqu'au XVIIIe siècle se sont caractérisés comme vivipares, quadrupèdes et porteurs de poils (trois critères que nous noterons A, B, C), on n'en a pas moins reconnu plus tard que des individus porteurs de B et de C mais non de A étaient néanmoins M (mammifères) et dans la dixième édition du Systema naturaede Linné que des individus ne portant ni B ni C n'en étaient pourtant pas moins M, eux aussi. Ainsi une espèce peut être décrite comme une spécialisation d'un genre alors qu'elle ne possède pas certains des attributs permettant de décrire ce dernier. Bien sûr dira-t-on, face à ce genre de contradictions, les critères vont se déplacer: « la définitiondesMammifères qui semblemaintenant devoirs'imposer est celle d'un taxon regroupant tous les descendants du plus récent ancêtre COJnmundes

Monotrèmeset des Thériens (M.arsuPiauxet Placentaires)», ce qui bien entendu suppose une connaissance approfondie de l'évolution des espèces, autrement dit d'un savoir qui n'est pas toujours accessible, et qui en tout cas, ne l'était pas au moment d'établir la classification. On peut de plus se demander si cette définition n'a pas été justement choisie de manière ad hocpour cadrer avec les regroupements taxinomiques effectués auparavant: n'aurait-elle pas été différente si on avait choisi de classer les monotrèmes ailleurs? En fin de compte, on parle de restrictions chaque fois « qu'on a de bonnesraisons
théoriquespour affirmer que les meJnbres d'une classeA sont des membres d'une classeplus géné-

raleB mêmesi les attributs desB ne se retrouvent as tous dans lesA » (Crocco, 1995). Ceci p perturbe nos habitudes de raisonnement logique classique car en suivant ce dernier, nous serions face à la situation suivante: (1) 1 - tout B possède les propriétés M, N, P, autrement dit tout B est un M, un N et un P 2 - tout A est un B 3 - donc tout A devrait être un M, un N et un P 4 - or, il n'en est rien! .Le problème des exceptionsest semblable tout en se posant à un niveau différent: si les restrictions concernent les relations entre classes, les exceptions concernent les relations entre une classe et un élément de celle-ci. En termes ensemblistes, les restrictionsconcernentl'inclusion, alors que les exceptionsconcernentla relation d'appartenance.

ALAIN LECOMTE

23

On peut dire aussi que la question des restrictions concerne l'approche théoriquede la classification (comment définir un système d'emboîtements de concepts, autrement dit une hiérarchie, qui soit optimale) alors que celle des exceptions se rapporte à son usage emPirique(une fois cette hiérarchie construite, comment m'y prendre pour y insérer tous les individus concrets qui se présentent à moi). Les restrictions conduisent à des remaniements de la hiérarchie de classification, éventuellement à une définition de critères mieux adaptés, les exceptions concernent souvent des accidents. Ainsi tel animal, parce que quadripède, devrait entrer dans telle classe, mais il se trouve que justement l'exemplaire que j'ai en ma possession n'a que trois pattes (parce qu'il est né difforme ou parce qu'il en a perdu une dans un accident), il est donc, à la lettre, une exception. 1-1aisbien sûr, on peut découvrir un jour un individu qui est exceptionnel autrement que par accident: il posera donc lui-même un problème pour le système de classes élaboré. Mais en tout état de cause, il y a une différence de niveau entre les deux phénomènes, celui de la restriction et celui
de l'exception. Une logique de la classification doit en tenir cOlnpte et doit formaliser non seulement un état difini d'un .rystèlne classificatoire, mais aussi la cfynanlique de ce .rystème, autrement

dit son aptitude plus ou moins grande à évoluer sous la pression d'un ajout de classe ou de l'admission d'exceptions sans que les attributs éventuellement niés lors de ces qjouts puissent être toujours connus a priori.

Les logiques

non monotones

De nombreuses tentatives ont existé afin de décrire le genre de raisonnement mis en œuvre dans l'activité classificatoire. Il faut noter l'importance du problème: tout échec dans sa résolution aurait une portée théorique et philosophique de poids, puisqu'il signifierait l'inaptitude de la logique à rendre compte de la base même de notre activité cognitive, et donc a fortiori du raisonnement naturel. Si nous abordons naïvement le problème soulevé en (1), nous observons que nous pourrions sans doute diminuer son acuité si nous le formulions comme en (2) : 5 - tout B possède enprincipe (ou normalemenl)les propriétés M, N, P, autrement dit tout B est normalementun M, un N et un P 6 - tout A est un B, (on a de bonnes raisons de le croire) 7 - donc tout A devrait être normalementun M, un N et un P
8

-

or, il n'en est rien...

donc:

A est un B qui n'est pas tout à fait normal!

Et alors évidemment nous n'avons pas de contradiction. Ce faisant nous avons utilisé un concept qui s'éloigne de la logique: nous ne parlons plus d'implication (d'une propriété par une autre) mais d'implication enprincipe, ou d'implication dans certaines conditionsnormales,ce qui suppose que par moment, lesdites conditions ne sont pas réunies, ou bien un principe est violé. L'Intelligence Artificielle a beaucoup thématisé ce genre de problème, elle a notamment développé dès les années soixante, des

24

L'ORGANISATION

DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

séries d'exemples devenus depuis de véritables « tartes à la crème» comme: 1. En principe, les oiseaux volent. 2. Les pingouins sont des oiseaux. 3. Tweety est un pingouin et pourtant... Tweety ne vole pas! En effet: les pingouins sont des oiseaux qui connaissent la restrictionde nepas voler. On peut représenter le raisonnement classique de la façon suivante: Prémisses:

a. \;fx O(x)
b. \;fx P(x) c. \;fx P(x)

==>
==> ==>

Vex)
O(x) -'V(x)

d. P(Tweety) Raisonnement:

Particularisation de (b): P(Tweety) ==> O(Tweety)
Modus Ponens : O(Tweety)

Particularisation de (a): O(Tweety) ==> V(Tweety)
Modus Ponens: V(Tweety),

Particularisation de (c) : P(T\veety) ==> -'V(Tweety)
Introduction de la conjonction: V(Tweety)/\ -'V(Tweety) : contradiction Et le raisonnement
Prémisses: (où «
==>

« classificatoire» :

* » devrait

se lire: « Ùnplique normalement»)

a. \;fx O(x) ==>*Vex) b. \;fx P(x) ==>O(x) c. \;fx P(x) ==>-'V(x) d. P(Tweety) Raisonnement:

Particularisation de (b) : P(Tweety) ==> O(Tweety)
Modus Ponens : O(Tweety) Particularisation de (a): O(Tweety) ==>* V(Tweety) Modus Ponens : V(fweety) « en principe », Particularisation de (c): P(Tweety) ==> -'V(Tweety) On a cette fois: V(Tweety) « en principe» et -'V(Tweety) Conséquence: -'V(Tweety) (puisque explicitement la prémisse (c) stipule que nous ne sommes pas dans les conditions normales d'application de (a)). On doit noter alors que si nous savons d'un individu (Tweety) qu'il est simplement un oiseau, alors d'après (a), nous concluons que normalement il vole, mais si nous

ALAIN LECOMTE

25

savons qu'il est un pingouin (ce qui est plus spécifique que d'être un oiseau), alors nous ne pouvons plus déduire qu'il vole: autrement dit l'ajout d'information nous oblige à rétracter notre précédente conclusion. Cela est en opposition avec le comportement classique: si je sais que Paul est médecin, j'en déduis qu'il a effectué au moins six années d'études, si je sais qu'il est pédiatre, une spécialité de la médecine, je peux toujours effectuer la même déduction. Le raisonnement classique est dit « monotone» : la classe des conséquences d'un ensemble de prémisses croît de façon monotone avec la classe des prémisses. Le raisonnement classificatoire est dit, lui, nonmonotone.Depuis environ une cinquantaine d'années, les spécialistes d'Intelligence Artificielle essaient de donner un statut théorique indiscutable à cette notion de non monotonie. Cela ne va pas sans mal. Est-ce que la monotonie n'est pas justement incluse dans la définition même de la logique (science des inférences, art de passer du vrai au vrai en toute circonstance) ? En ce cas, l'expression de logiquenon monotone apparaîtrait comme un oxymoron (point de vue soutenu par exemple par le logicien David Israël dans les années soixante-dix). Problème plus grave, parce que se traduisant dans de réelles questions d'étude des propriétés d'une telle logique: si nous définissons comme Cons(I) l'ensemble des conséquences d'une théorie T (exprimée comme la conjonction d'un nombre fini d'axiomes), dans une logique monotone, Cons(I) est le point fixe d'un opérateur de déduction (si « -> » est l'opération de déduire une conséquence à partir d'un ensemble de propositions, on peut définir des ensembles Consi(I) qui contiennent toutes les conséquences obtenues en appliquant i fois cette opération, on atteint un point fixe quand on arrive à une valeur de n telle que Consn(I) = Consn+t(I)). Dans le cadre d'une logique non monotone, l'opérateur en question ne possède pas de point fixe unique! Autrement dit, on a le choix quant à l'ensemble de conséquences possibles d'une théorie. Cela vient tout simplement du fait que les conséquences possibles dépendentde l'ordredans lequel on prend en compte les prémisses. Un exemple bien connu est le suivant: 1. Les républicains sont non pacifistes, 2. Les quakers sont pacifistes 3. Nixon était un quaker républicain Que pouvons-nous conclure? Si nous examinons les prémisses dans cet ordre, nous concluons: Nixon était non pacifiste, et donc un quaker non typique, mais dans un autre ordre: Nixon était pacifiste, et donc un républicain « anormal ». Bien sûr, les deux conséquences sont contradictoires entre elles: de façon générale, l'union des points fixes, quand il s'agit d'ensembles distincts, donne un ensemble incohérent de propositions. Certains auteurs ont alors proposé de ne garder comme conséquences que celles qui sont communes à tous les points fixes, mais alors on reste souvent sur sa faim... pourquoi utiliser un cadre logique non monotone pour

26

L'ORGANISATION DES CONNAISSANCES:

APPROCHES CONCEPTUELLES

finalement ne tirer que les conclusions qu'on pourrait déduire dans un système monotone où certaines prémisses seraient supprimées (dans l'exemple précédent, s'il s'agit de dire qu'on ne peut rien déduire, alors on peut arriver au même résultat en ne prenant tout simplement pas en compte les deux prémisses I). Une solution possible consiste bien sûr à supposer que les prémisses, dans un problème de ce genre, sont toujoursordonnées seloncertaines riférences.Mais alors il faut admettre que le p raisonnement n'est pas « entièrement logique» puisque sous-tendu par l'expression préalable d'un choix: nous verrons plus loin que c'est justement là que peut s'insérer la part de décision non purement rationnelle de l'activité de classification. Une autre conception du raisonnement celle de Jean-Yves Girard classificatoire:

J.-Y Girard, le « découvreur» de la logique linéaire, a tenté de résoudre d'une autre manière les problèmes d'exceptions et de restrictions. Considérons à nouveau le problème de la taxinomie des mammifères sous sa forme simplifiée qui partirait d'une caractérisation des mammifères comme quadruPèdes) iviparesetporteurs depoils) v et de l'inclusion dans cet ordre des monotrèmes qui ne sont pas vivipares mais ovipares. M implique Q, V et P, mais m hérite de tous les attributs de M sauf V et possède de plus l'attribut 0 (ovipare), autrement dit m implique M et 0 mais pas ~ Girard propose d'écrire ces axiomes sous la forme:

M -0 (1 & Q)

<8>

m -0 (1 & :M) <8> (1 & 0)

(1 & V) <8> (1 & P) <8> ev -0 1)

où les symboles -0, <8> & sont des connecteurs de la logique linéaire. -0 est une et implication qui« consomme» sa prémisse (autrement dit elle n'est pas utilisable une deuxième fois), <8>st la conjonction multiplicative (autrement dit« cumulative », de e A <8> on ne peut déduire ni A tout seul, ni B tout seul, de la même manière que B, du fait qu'un drapeau soit rouge et blanc on ne saurait déduire ni qu'il est rouge, ni qu'il est blanc) et & est la conjonction additive, qui s'interprète comme un choix (A & B : vous avez le choix entre A et B, par exemple à la fin d'un repas vous avez le choix entre fromage ou dessert, ce qui signifie que vous avez potentiellement aussi bien l'un que l'autre, mais pas les deux à la fois, de A & B on peut déduire A, comme on peut déduire B), 1 est l'élément neutre de <8>, autrement dit c'est... rien! Comme dans cette logique, toutes les formules et sous-formules sont interprétées comme des ressources, avoir 01-0 1) est comme avoir une sorte de gomme à effacer V : si vous avez V et ev -0 1), alors vous pouvez déduire 1, et il ne reste plus rien! On peut alors déduire: m -0 0, m -0 Q et m -0 P : d'abord de (1 & J\1) on peut déduire M et donc on a : m -0 (1 & Q) <8> & V) <8> & P) <8> & 0) <8> -0 1) (1 (1 (1 ev de (1 & V) on peut déduire V, d'où: m -0 (1 & Q) <8> & P) <8> & 0) <8> <8> -0 1) (1 (1 V ev

ALAIN LECOMTE

27

d'où: m -0 (1 & Q) (8)(1 & P) (8)(1 & 0) (8)1 d'où: m -0 (1 & Q) (8)(1 & P) (8)(1 & 0) d'où on peut déduire aussi bien: m -0 1 (8)P (8)1, c'est-à-dire m -oP que: m -0 Q (8) 1 (8)1 c'est-à-dire m -oQ et que: m -0 1 (8) 1 (8)0, c'est-à-dire m -00 Si nous introduisons l'exponentielle « 1» qui est comme une modalité, avec l'interprétation que « lA » signifie que la ressource A peut être utilisée autant de fois qu'on le désire, alors nous pouvons tout aussi bien démontrer (la possibilité de réutiliser m ne change rien à la démonstration) : lm -00, lm -oQ et !m -oP, qui sont respectivement équivalentes aux implications classiques m ~ 0, m ~ Q et m => ~ Autrement dit, il n'y a pas de doute: un monotrème est un ovipare quadrupède porteur de poils, le raisonnement taxonomique a rejoint le raisonnement classique. En revanche, est-il possible désormais de déduire que m ~ V ? Cela reviendrait à prouver !m -0 V. D'une façon générale, si nous voulons démontrer m -0 F, où F est un atome quelconque, compte tenu de l'axiome ci-dessus au sujet de m, il faudra effacer V -01, mais cela ne peut être fait qu'avec un V, mais en ce cas, V disparaît aussi comme ressource et F ne peut jamais être V ! Si maintenant nous voulons prouver !m -0 V, alors m devra pouvoir être répété autant de fois qu'on veut, mais s'il apparaît deux fois dans la déduction, il fera apparaître deux instructions d'effacement V -0 1 et 0, 1 ou 2 fois V, dans tous les cas, il ne restera jamais un seul V à l'arrivée! Autrement dit Girard résout le problème en changeant e sensde la négation: ne l pas posséder un attribut ne signifie pas qu'on possède la négation de cet attribut, mais seulement qu'on l'ignore. Ainsi raisonner sur les groupes non commutatifs n'est pas travailler sur des groupes qui sont explicitement non commutatifs mais sur des groupes où on ne fait pas l'hypothèse de commutativité (et donc cette propriété est ignorée). Cette approche est astucieuse car elle évite les contradictions de (1). Mais est-elle utile? C'est une approche globale qui suppose le problème de la classification résolue. Si nous avons décidé une fois pour toutes de ranger les monotrèmes parmi les mammifères, alors cifin d'éviter les contradictionslogiquesqui risquent d'en résulter, nous n'avons qu'à traduire la restriction comme un iffaceJnent e propriété, d mais cela ne participe en aucune mesure de la formalisation du processus de classification. En particulier, cela ne nous guide pas vers un chemin optimal.