Ingénierie des connaissances

Publié par

Cet ouvrage propose un état représentatif des travaux de l'ingénierie des connaissances, discipline scientifique jeune à la recherche de ses propres fondements théoriques. Parler d'une ingénierie de la connaissance est une définition forte c'est-à-dire que la connaissance peut s'appréhender et se travailler comme un produit, qu'elle est non seulement modélisable mais aussi que des dispositifs professionnels permettent de garantir des procédés, des résultats, des évaluations des réalisations.
Publié le : mercredi 1 juin 2005
Lecture(s) : 345
Tags :
EAN13 : 9782296395503
Nombre de pages : 505
Voir plus Voir moins
Cette publication est uniquement disponible à l'achat

Ingénierie des connaissances

(Ç) L'Harmattan, 2005 ISBN: 2-7475-8240-X EAN : 9782747582407

Coordonné par

R. Teulier, J. Charlet, P. Tchounikine

Ingénierie des connaissances

L'Harmattan 5-7,rue de l'ÉcolePolytechnique 75005 Paris FRANCE

L'Harmattan Hongrie Kossuth L. u. 14-16 1053 Budapest HONGRIE

L'Harmattan Italia Via Degli Artisti, 15 10124 Torino ITALIE

PRÉFACE
L'ingénierie des connaissances s'affirme aujourd'hui comme une discipline scientifique dont la maturité est indéniable: solidement ancrée dans un terrain applicatif dont l'étendue ne cesse de s'accroître, ses fondements théoriques sont maintenant bien consolidés ; enfin, grâce à un ensemble tout à fait notable de réalisations opérationnelles, la discipline a réussi son passage « à l'échelle ». Une telle réussite est certainement due à la pratique revendiquée d'une interdisciplinarité féconde; elle repose peut-être plus encore sur la capacité - très spécifique à la discipline - de questionner d'une manière permanente et systématique ses contours, son ancrage et son devenir, avec une rigueur sans cesse réaffirmée. S'attachant à définir sa terminologie, à construire son ontologie, le domaine s'étudie lui-même avec ses propres outils, comme en témoigne - et c'est emblématique -le premier article de cet ouvrage. Sa marque s'étend à d'autres disciplines, et cet ouvrage permet la rencontre de nombreux champs scientifiques, tels la linguistique, l'ingénierie documentaire, le Web, les systèmes d'information, l'ingénierie des besoins, l'ergonomie, la psychologie cognitive ou la science des organisations. Enfin, et cela me paraît marquer un tournant fondamental de la discipline, la connaissance y est pensée dans sa dynamique et dans son usage. On s'attache à modéliser les connaissances « au fil de l'eau », c'est-à-dire au fil des activités, des besoins, des évolutions - prévisibles ou non - de l'environnement scientifique, technique et organisationnel, et son intégration à des scénarios de «simulation» devient envisageable. On s'attache tout autant à penser sa finalité, son utilité, sa réutilisation, sa verbalisation et, donc, son usage; plus encore, on s'attache à penser la connaissance comme mise en relation, comme élément dont le partage structure l'organisation, alors que l'organisation devient chemin d'accès vers la connaissance. Il ne s'agit donc pas de proposer une approche désincarnée de la connaissance; il s'agit, au contraire, d'en offrir une vision intégrée, ancrée dans le contexte de l'activité humaine et de ses organisations. Dès lors, ce qui devient universel, partageable, ce n'est pas le maillon individuel de connaissance, toujours situé, local, en contexte, c'est, au contraire, le tissu que forment l'ensemble des connaissances et la mise en lien, la « mise en sens » qu'il réalise. Cet ouvrage apporte un nouveau maillon à cette chaîne de la connaissance; vous serez nombreux à le lire et à le faire lire. j'espère que

Catherine Garbay Directeur de recherche CNRS Directrice adjointe du département sne du CNRS

SOMMAIRE

Préface
Catherine Garbay

5

1

Introduction L'ingénierie des connaissances, nouvelles perspectives
Régine Teulier, Jean Charlet & Pierre Tchounikine

11

PREMIÈRE PARTIE Ingénierie des connaissances et la construction d'ontologies 2
Construction des connaissances Didier Bourigault & Jean Charlet

pour l'analyse

de corpus

d'un index thématique

de l'ingénierie

29

3

Modélisation du domaine par une méthode fondée sur l'analyse de corpus
Nathalie Aussenac-Gilles, Brigitte Biébow & Sylvie Szulman

49 73

4 5

Expansion automatique de thésaurus à partir de corpus
Emmanuel Morin & Christian Jacquemin

Une ontologie pour éditer des schémas de description audiovisuels, extension pour l'inférence sur les descriptions
Bruno Bachimont & Thomas Dechilly

95

6

Une expérience de représentation d'une ontologie dans le médiateur PICSEL
Chantal Reynaud, Brigitte Safar & Hélène Gagliardi

117

DEUXIÈME PARTIE Ingénierie des connaissances technologies de l'information
7

et STIC(sciences et et de la communication)
141

Ontologie pour un système multi-agents dédié à une mémoire d'entreprise
Fabien Gandon & Rose Dieng-Kuntz

8

Extraction et intégration d'informations dans les pages Web: projet Chimère
Marie-Sophie Segret, Pierre Pompidor

semi~structurées 165
Hérin

& Danièle

9

Une modélisation

au niveau connaissance

du raisonnement

à partir de cas
Béatrice Fuchs & Alain Mille

187

10

Ingénierie des besoins, ingénierie des connaissances: complémentarité des approches de modélisation
Françoise Tort, Régine Teulier, Georges Grosz & Jean Charlet

207

11

Oncodoc : modélisation de bonnes pratiques thérapeutiques, mise en œuvre et évaluation
Jacques Bouaud & Brigitte Séroussi

229 251

12

L'annotation
Jérôme Euzenat

formelle de documents en (8) questions

TROISIÈME PARTIE Ingénierie des connaissances connaissances
13
Modéliser l'organisation: de ses connaissances Gilles Kassel, Jean-Yves 14 15
Sabine Moisan

pour la gestion

des

une approche

pour la gestion 275 Barry 297

Fortier, Christine lrastorza & Catherine
Ermine

Gestion opérationnelle des connaissances sur les codes
& Jean-Louis

PuMEo : un modèle actif pour la gestion des connaissances tacites et explicites dans l'entreprise Sylvain Mahé Analyse cognitive des usages de Memo-net, collecticiel pour une gestion coopérative des connaissances
Myriam Lewkowicz & Manuel Zacklad

321

16

345

17

Une méthode intégrant les activités de gestion des connaissances et de veille
Philippe Benhamou, Françoise Rousseau Jean-Louis & Thierno Ermine, Tounkara Camille Rosenthal-Sabroux,

367

QUATRIÈME PARTIE Ingénierie des connaissances de l'activité
18

et modélisation

Des connaissances pour l'action dans les organisations: quelle ingénierie des connaissances pour assister l'activité?
Régine Teulier & Nathalie Girard

389
des

19

Activité de conception

et instrumentation

de la dynamique

connaissances locales Guy Prudhomme, Jean-François

413
Boujut & Franck Pourroy 437 459

20

Conception d'activités collectives dans un contexte d'apprentissage
Marie-Laure Betbeder & Pierre Tchounikine

21 22

Formaliser des prototypes de comportements d'agriculteurs
Nathalie Girard

Contribution de l'ergonomie cognitive à la construction d'un modèle d'expertise des activités de conception de produits
Françoise Darses

483

Liste

des auteurs

505

INTRODUCTION L'ingénierie des connaissances: acquis et nouvelles perspectives

Régine Teulier
CNRS, Centre de recherche en gestion, UMR 7655, 1, rue Descartes, 75005 Paris teulier@shs.polytechnique.fr

Jean Charlet
Mission de recherche en sciences et technologies de lïnformation mêdicale, Assistance Publique I Hôpitaux de Paris, 91, bd de l' Hôpital, 74634 Paris cedex 13 & INSERM ERM 202 Jean. Charlet@spim-Jussieu.fr d'informatique Pierre Tchounlkine de l'université du Maine (LlUM), avenue Laennec, 72085 Le Mans cedex 9 Pierre. Tchounikine@lium.univ-lemans. fr

Laboratoire

11

1

TEULlER,

CHARLET

& TCHOUNIKINE

1

OBJECTIF GÉNÉRAL DE l'OUVRAGE

L'objectif général de cet ouvrage est de proposer un état représentatif des travaux récents de l'ingénierie des connaissances en rassemblant une sélection d'articles produits par cette communauté de recherche et présentés à la conférence d'Ingénierie des connaissances (IC) au cours des trois années 1999, 2000, 2001. Placée sous l'égide du GRACQ (Groupe de recherche en acquisition des connaissances http://www.irit.fr/GRACQ/). cette conférence annuelle est un lieu d'échange et ce réflexion de la communauté française sur les problématiques de l'ingénierie des connaissances.

L'ouvrage précédent du même type!, qui regroupait des articles produits entre 1995 et 1998, ayant rencontré un écho très positif, nous avons souhaité rendre compte des évolutions du domaine depuis sa parution en 2000: plusieurs années s'étant écoulées, certaines orientations sont apparues, d'autres se sont raréfiées. L'ouvrage rassemble des articles issus d'un double processus de sélection. Cent soixante articles avaient été soumis, quatre-vingts ont été acceptés (relus pour leur grande majorité par trois lecteurs) par les comités de programme des trois conférences IC (dont le taux habituel de sélection des articles est de un sur deux). Sur ces quatrevingts articles présentés aux conférences IC'99 (École polytechnique, Palaiseau), IC 2000 (IRIT, Toulouse), IC 2001 (INPG, Grenoble), vingt et un ont été choisis par les trois présidents de conférence, coordinateurs de cet ouvrage, comme représentatifs de l'état des travaux et des avancées dans les différents domaines de l'ingénierie des connaissances.

2 l'INGÉNIERIE DES CONNAISSANCES, ISSUE DE l'INTELLIGENCE ARTIFICIEllE
L'ingénierie des connaissances est une discipline en émergence et il faut peut-être consacrer quelques lignes à une lecture de cette émergence. Dans les années 1980, l'intelligence artificielle bénéficie d'une certaine ouverture et d'une notoriété qui dépasse soudainement le cadre des laboratoires. Les capacités des machines augmentant d'une manière importante et les premières vagues de l'informatisation étant maîtrisées, il devient possible d'envisager des applications industrielles en écho aux recherches académiques, dont certaines peuvent dès lors être infléchies. La diffusion des systèmes experts, technologie phare de cette double vague, permet de produire des
I CHARLETJ., ZACKLADM., KASSEL G. & BOURIGAULT (éd.), Ingénierie D. récentes et nouveaux dé.tïs, Eyrolles, Paris, 2000. des connaissances, évolutions

12

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

applications sur des micro-mondes. Cette tentative, qui utilise toutes les techniques de l'intelligence artificielle et vise à l'appliquer à de nombreux domaines, connaît des réussites diverses. Beaucoup de ces techniques sont ensuite intégrées, absorbées par l'informatique en entreprise ou par celle des composants logiciels, d'autres connaissent moins de débouchés, même si les recherches continuent en laboratoire. Depuis, une partie de la recherche en intelligence artificielle s'est poursuivie sur des sujets plutôt formels, en vue de représenter des types de raisonnement complexes et de mieux gérer des connaissances imprécises ou contradictoires dans des environnements incertains. Quant aux chercheurs qui ont persévéré en dépit de la difficulté ce modéliser les connaissances et les processus cognitifs en situation réelle, ils ont construit en France un axe de recherche d'abord intitulé « acquisition de connaissances », puis « ingénierie des connaissances », et, au niveau européen ou nord-américain, «knowledge acquisition» ou «knowledge engineering ». Si l'on considère que les travaux présentés dans des conférences comme «Reconnaissance des formes et intelligence artificielle» (RFIA)2 ou «European Conference of Artificial Intelligence» (ECAI) sont représentatifs des thèmes de recherche de l'intelligence artificielle (apprentissage automatique, représentation des connaissances, démonstration automatique, langages formels, décision et incertitude, diagnostic, etc.), il apparaît que les échanges avec l'ingénierie des connaissances sont restreints. Finalement, peu d'avancées récentes en intelligence artificielle sont utilisées en ingénierie des connaissances, et réciproquement. Il ne faut pas pour autant en déduire que le lien avec l'intelligence artificielle serait maintenant seulement historique. Cet éloignement n'est peut-être qu'apparent et conjoncturel, probablement accentué par le fait que le défi de l'ingénierie des connaissances (modéliser les connaissances dans des situations réelles) exige de diversifier les collaborations disciplinaires, par exemple avec la terminologie, l'ergonomie ou la gestion, des sciences humaines et sociales (SHS), selon la terminologie consacrée. L'une des façons de présenter l'évolution de l'ingénierie des connaissances est ce considérer que, de la modélisation de méthodes de résolution de problème et de la simulation en machine de raisonnements humains, puis de savoir-faire d'experts, on est passé à l'ambition d'assister un utilisateur. Cette mutation des ambitions et des objectifs a pris quelques années. Les travaux se focalisant sur des méthodes d'ingénierie et d'assistance à l'utilisateur ont en effet pris le pas sur la définition ce méthodes et d'outils formels tels qu'on les retrouve en intelligence artificielle. Cependant, les thèmes de recherche de l'ingénierie des connaissances et de l'intelligence artificielle convergent parfois à nouveau, comme c'est le cas actuellement avec la représentation des connaissances pour le Web sémantique. Dès son origine, l'ingénierie des connaissances a choisi de se confronter au problème concret des systèmes informatiques opérationnels. Cette orientation lui a permis ce
2

Site

de la conférence

RFIA 2004 tenue en janvier

2004 à Toulouse:

<http://www.laas.fr/rfia20041>.

13

1

TEULlER,

CHARLET

& TCHOUNIKINE

poser le problème de la modélisation des connaissances et des processus cognitifs à assister; c'est là que résident son identité comme champ de recherche autonome et son apport principal. Elle s'est attaquée de front à la question des connaissances en usage, de leur partage et de leur diffusion, là où d'autres spécialités de l'intelligence artificielle, comme les réseaux de neurones, ont retenu des hypothèses fondamentalement différentes, à savoir que les connaissances sont difficiles et trop coûteuses à représenter. Leurs modélisations ayant toujours un domaine de validité restreint et contextualisé, elles sont peu sujettes à production scientifique. Le fait que l'ingénierie des connaissances ne prétende pas simuler l'intelligence, mais produire un artefact qui fasse sens dans un contexte d'usage, la situe sur un autre paradigme représentationnel. Elle centre ses travaux sur la modélisation non opérationnelle des connaissances, puis sur leur implémentation en machine: modélisation de la tâche à réaliser par le couple opérateur/système, pour mieux en définir les rôles respectifs et les interactions; modélisation du processus de résolution de problème mis en œuvre par le système pour réaliser des parties de cette tâche globale; modélisation des connaissances du domaine, plus ou moins en lien avec la représentation du processus de raisonnement.

3

UN CHAMP DISCIPLINAIRE ORIGINAL

L'ingénierie des connaissances s'impose donc comme une discipline jeune, en quête de ses propres fondements théoriques (l'artefact plongé dans un système d'usage et associé à un schème d'utilisation, le paradigme représentationnel des inscriptions numériques de connaissance3, l'engagement ontologique), avec son domaine d'utilisation et ses liens avec d'autres disciplines. Parler d'une ingénierie de la connaissance est une affirmation forte: c'est dire que la connaissance peut s'appréhender et se travailler comme un produit, c'est-à-dire qu'elle est non seulement modélisable, mais aussi qu'un ensemble de dispositifs professionnels concernant cette modélisation permet de garantir des procédés, des résultats, des évaluations el: réalisation. L'objectif global du champ disciplinaire est bien de fournir progressivement aux entreprises les éléments d'une gamme de méthodes, d'outils, de références, permettant de réaliser les applications du traitement de la connaissance dans les activités humaines. L'ingénierie des connaissances vise à proposer des concepts, méthodes et techniques permettant de modéliser, de formaliser, d'acquérir des connaissances dans les organisations dans un but d'opérationalisation, de structuration ou de gestion au sens large. Plonger le système à base de connaissances et ses interfaces dans le monde el: l'utilisateur est un enjeu essentiel de l'ingénierie des connaissances. Le caractère local
3 Voir à ce sujet le mémoire

d'habilitation

à diriger des recherches

de Bruno Bachimont.

14

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

des ontologies\ l'orientation de la modélisation des connaissances par rapport aux tâches de l'utilisateur, trouvent leur prolongement et une traduction plus tangible pour l'utilisateur à travers leur concrétisation dans l'application qui va les manipuler. C'est à travers l'insertion dans un poste de travail et dans ce lien avec l'activité que la modélisation des connaissances prend tout son sens, que les connaissances modélisées peuvent s'insérer dans une nouvelle activité, redéfinie avec l'outil. L'artefact devient instrument lorsque l'acteur l'associe à un schème d'utilisations; ce faisant, il se l'approprie et l'artefact est instrumentalisé. Cette étape ne va pas toujours sans problème. C'est une partie importante et difficile des tâches d'ingénierie que de travailler sur la modification de l'activité que va entraîner l'outil et sur les conditions ce l'insertion dans les usages. L'objectif consistant à construire un système à base de connaissances ayant un comportement compréhensible et acceptable par l'utilisateur passe par une modélisation à un niveau d'abstraction pertinent qui fait sens pour les différents acteurs impliqués dans sa conception (ingénieurs cogniticiens, experts métiers, utilisateurs, etc.). En phase d'utilisation du système, le modèle est rendu opérationnel de manière à ce que l'utilisateur s'approprie le comportement du système et puisse interagir avec lui. Ce niveau de modélisation pertinent est le «niveau des connaissances », dont l'importance et les articulations avec les niveaux informatiques ont été mis en évidence par Newe1l6. Cela suppose aussi que soient appréhendés le fonctionnement et l'utilisation d'un système à base de connaissances par rapport à son intégration dans une organisation. L'ingénierie des connaissances doit permettre de modéliser et d'expliciter le fonctionnement cognitif de l'utilisateur ou du collectif dans sa relation au système à base de connaissances. Parce que la connaissance implique une interprétation, on ne peut la modéliser sans se préoccuper de son contexte d'utilisation, des interactions et coopérations d'acteurs dans lesquels elle est utilisée, et des contextes organisationnels de ceux-ci. C'est ce qu'affirment aussi bien les épistémologies constructivistes que d'autres approches théoriques, comme celle de la cognition située: les connaissances sont avant tout connaissances pour l'action, elles sont situées dans un contexte physique, socialisées dans un réseau d'acteurs, interprétées grâce à leurs capacités autant perceptives que ce raisonnement. Elles prennent place et s'enrichissent dans les organisations qu'ils construisent et qu'elles font évoluer en permanence. Ces mêmes connaissances sont transmises comme des informations destinées à être, in fine, interprétées par un hu-

4

Alors que les premières

ontologies envisagées ont été initialement construites en intelligence

artificielle pour faciliter la réutilisation et l'interopéraiblité entre systèmes, indépendamment de la tâche réalisée par eux, les expériences ont montré que les ontologies les plus pertinentes pour des applications étaient spécialisées et influencées par la tâche considérée (on parle d'« ontologie régionale »). C'est à ce type d'ontologie que nous faisons allusion. 5 Rabardel P., Les Hommes et les technologies, Armand-Colin, Paris, 1995. 6 NEWELL A., « The Knowledge Level », AI Journal, 19 (2), 1982. 15

1

TEULlER,

CHARLET

& TCHOUNIKINE

main dans son interaction avec l'artefact - c'est-à-dire le système à base ce connaissances - construit. La démarche modélisatrice de l'ingénierie des connaissances s'inscrit donc toujours en situation réelle. Et cela ne manquera pas de frapper le lecteur à travers la lecture des travaux présentés ici: les projets qui ont servi à dégager une production scientifique sont toujours des réalisations pour des acteurs donnés dans des situations de travail impliquant un ensemble de contraintes. Les exemples jouets ont quasiment disparu. Ainsi, l'ingénierie des connaissances trouve matière à recherche partout où l'on travaille sur l'instrumentation technique des connaissances pour leur exploitation dans un cadre où elles sont mobilisées avec leur signification et leur interprétation. Par ailleurs, elle trouve son champ d'application là où l'on veut modéliser les connaissances, les processus cognitifs, les processus de coopération et les savoir-faire d'un métier. Produire des connaissances scientifiques sur une ingénierie, c'est produire à la fois des connaissances pour l'action et les fondements théoriques de ces
connaissances, les outils conceptuels et les méthodologies qui constituent le cadre
ce

leur production. Les sciences de l'ingénierie ont ceci de particulier qu'elles se fondent sur les méthodes, sur l'art de la conception, qu'elles s'intéressent à l'intelligence des procédés, intelligence humaine en œuvre dans les réalisations, se situant ainsi parmi les modélisations constructivistes de systèmes complexes. Nous affirmons que mettre en place une réelle démarche d'ingénierie, reproductible et proposant des instrumentations techniques - c'est-à-dire des méthodes et des outils - favorisant la dynamique des connaissances dans l'organisation est réalisable (et cette production collective le confirme) et pertinent. La recherche est alors souvent «bottom up », partant de la complexité de situations réelles et cherchant, tout en apportant une réponse concrète aux cas traités, à faire œuvre scientifique en faisant apparaître un problème générique, puis scientifique, et en développant des méthodes et des outils utilisables dans d'autres situations.

4

DE RÉCENTES ÉVOLUTIONS

L'ingénierie des connaissances est un champ disciplinaire jeune. Néanmoins, plusieurs années de travaux permettent de constater que la communauté des chercheurs ce ce domaine a pu accumuler des travaux et constituer des acquis sur lesquels un savoirfaire collectif est transmissible. Les recherches sur les ontologies, thématique très active depuis 1998, ont accumulé des résultats souvent repris, tant sur les langages pour la représentation des connaissances qu'elles contiennent que sur l'évaluation de leur apport à des applications aussi variées que la gestion des connaissances des entreprises, la recherche d'information sur le Web ou la gestion documentaire. Au niveau international, la 16

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

standardisation des langages (en lien avec le W3C), la réutilisation ou l'intégration d'ontologies, ainsi que l'étude de leurs propriétés formelles, sont les thèmes actuels des recherches. Au niveau national, l'accent a été mis dès le début sur l'outillage, théorique, technique et méthodologique, de leur construction. Les résultats établis par ces travaux, menés en collaboration avec des linguistes ou des philosophes, soulignent l'intérêt qu'il y a à s'appuyer sur des textes pour construire des ontologies ayant un ancrage terminologique. On dispose désormais d'outils automatisant des parties ce la chaîne de traitement, des critères d'identification des connaissances à retenir ou ce validation d'une ontologie sur un domaine et pour une application donnés. L'acquisition des connaissances auprès d'experts fait actuellement l'objet de moins de travaux. Cette phase de la construction d'un système à base de connaissances est aujourd'hui mieux maîtrisée: un ensemble de techniques a été proposé et validé pour des situations variées d'utilisation avec des objectifs différents, tant par des chercheurs de l'ingénierie des connaissances que par des chercheurs d'autres champs disciplinaires et des praticiens. De même, après avoir beaucoup focalisé les travaux de la communauté, notamment européenne, les méthodes de développement de systèmes ont accumulé beaucoup ce résultats. Aujourd'hui, un chef de projet peut choisir entre plusieurs méthodes ce développement qui détaillent les différents composants d'une application et le cycle de vie du projet. Ces méthodes ont été appliquées, validées et comparées sur plusieurs projets. Cependant, la maîtrise du coût et de la durée de ces projets doit pouvoir être encore améliorée. Pour cela, certaines méthodes favorisent la réutilisation ce fragments de modèles lorsqu'elle est possible. À cette fin, et c'est là un autre type ce résultat bien établi, elles proposent des principes de réutilisation et des bibliothèques de modèles de méthodes de résolution associés à des types de tâches qui se retrouvent dans différentes applications. Les langages de formalisation, qui permettent de rendre les modèles opérationnels, d'effectuer les opérations nécessaires d'agrégation ou de vérification de cohérence, sont actuellement l'objet de travaux plus dispersés. Les plus récents sont mis au point en collaboration avec des chercheurs de la communauté «représentation des connaissances », en particulier les langages de représentation d'ontologies pour le Web sémantique. Si l'ingénierie des connaissances compte parmi ses thèmes traditionnels des réflexions sur les langages de représentation des connaissances, sur la modélisation des méthodes de résolution de problème et l'adaptation d'approches cognitives pour accéder à des savoir-faire d'experts, ces thèmes ont été relativisés au cours de ces trois années. Les évolutions des thèmes de recherche se dessinent assez bien à travers les conférences successives. Ces dernières années ont vu l'approfondissement des approches communes à l'ingénierie des connaissances, l'épistémologie, la conception ou l'ergonomie. Les échanges avec les chercheurs en gestion ayant accumulé des travaux sur les organisations et les connaissances dans ces organisations, parfois sans 17

1

TEULlER,

CHARLET

& TCHOUNIKINE

utiliser le terme de connaissances (apprentissages, représentations pour l'action, compétences, etc.) ont permis d'éclairer l'environnement organisationnel des systèmes à base de connaissances. L'ingénierie éducative et la modélisation du travail coopératif sont des thèmes voisins abordés dans des communautés spécifiques, mais qui rejoignent des préoccupations générales de modélisation des connaissances. Enfin, de nouveaux thèmes, comme le Web sémantique et l'aide à la conception, apparus en 2001 dans plusieurs articles, semblent très prometteurs.

5

STRUCTURE DE L'OUVRAGE

L'ouvrage est structuré en quatre parties. Les articles regroupés dans chaque partie présentent certaines caractéristiques communes que nous avons reliées à ce qui nous apparaissait comme une grande thématique. Ce regroupement, non explicité par les auteurs, relève d'une « lecture» des travaux de la communauté et n'a pour seul but que de faciliter la mise en perspective de ces travaux. Certains articles auraient pu se trouver dans l'une ou l'autre partie, et d'autres regroupements auraient été possibles. 5.1

Analyse

de corpus et construction

d'ontologies

La dynamique créée autour du thème des ontologies, en accroissement ces dernières années, continue à rassembler les travaux de plusieurs équipes très actives. En France, une grande partie de ces recherches s'intéressent à la construction des ontologies à partir de textes. L'analyse terminologique d'articles des dernières conférences d'ingénierie des connaissances présentée au chapitre 2 confirme cette tendance. Ces recherches bénéficient de collaborations avec le traitement automatique des langues, la linguistique de corpus et la terminologie, laquelle se trouve renouvelée et stimulée par ses échanges avec l'ingénierie des connaissances. Le chapitre 2, de D. Bourigault et 1. Charlet, part des résultats fournis par un outil de traitement automatique, LEXTER, qui organise l'ensemble des candidats termes extraits d'un corpus en un réseau terminologique. La construction d'index à partir de ce réseau se décompose alors en quatre étapes: sélection des entrées, structuration de l'index, filtrage des occurrences, choix du niveau des renvois. Le choix des entrées reste subjectif et constitue une tâche d'ingénierie de la connaissance. Le chapitre 3, de N. Aussenac-Gilles et al., identifie les étapes, outils et méthodes à appliquer pour dégager un modèle conceptuel du domaine à partir de l'analyse d'un corpus en utilisant des outils de traitement automatique des langues. Pour tester cette méthode, les auteurs construisent une ontologie des outils de l'ingénierie des connaissances à l'aide des logiciels TERMINAE,LEXTERet CAMÉLÉON.Les étapes identifiées sont la constitution du corpus, l'extraction automatique des termes, l'étude 18

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

linguistique (validation des candidats termes, puis étude des relations), la normalisation (élimination et regroupement des termes, puis structuration des concepts), enfin la formalisation ou la traduction des concepts et relations sémantiques dans le langage du système à base de connaissances. Le chapitre 4, de E. Morin et C. Jacquemin, a pour objectif d'offrir une meilleure complémentarité entre acquisition sémantique et acquisition terminologique. Les auteurs proposent une méthode pour la structuration automatique de termes polylexicaux qui s'appuie, non sur des régularités syntaxiques, mais sur des liens entre mots simples extraits automatiquement à partir de corpus. Les deux principaux modes d'expansion utilisés des relations entre termes simples vers des relations entre termes complexes sont le transfert et la spécialisation. Une acquisition de liens d'hyperonymie à partir de corpus de textes est proposée en combinant plusieurs approches. Le chapitre 5, de B. Bachimont, s'intéresse à la numérisation des contenus audiovisuels et à l'informatisation de leurs traitements (stockage, catalogage, indexation et publication des documents audiovisuels). À partir de deux paradigmes informatiques, l'ingénierie documentaire et l'ingénierie des connaissances, il propose une instrumentation de l'indexation audiovisuelle autorisant la description des documents audiovisuels (autour du format MPEG-7) en contrôlant tout au long de la chaîne documentaire la sémantique des descripteurs mobilisés à l'aide d'une ontologie. Le chapitre 6, de C. Reynaud et al., traite du processus de représentation d'une ontologie du domaine dans un serveur d'information (PICSEL)qui détermine les sources d'information pertinentes pour répondre à une requête utilisateur. La première étape est guidée par le langage et les fonctionnalités du serveur d'information. La seconde étape, qui vise à affiner et réorganiser les connaissances représentées à la première étape, est guidée par la façon dont les fonctionnalités du serveur sont mises en œuvre.

5.2 Sciences et technologies et de la communication

de l'information

La contribution de l'ingénierie des connaissances aux sciences et technologies ce l'information et de la communication s'affirme de plus en plus forte; c'est pourquoi nous avons choisi d'en faire une thématique spécifique. La contribution ce l'ingénierie des connaissances aux recherches des divers champs de l'informatique est importante et se développe, ce qui dénote la généralisation de l'évolution d'une société de l'information vers une société de la connaissance. Concernant le Web sémantique, nous pouvons déjà constater que l'ingénierie des connaissances apporte, par ses réflexions et ses méthodes (ancrage linguistique, représentation des connaissances pour les ontologies, utilisation d'ontologies pour l'indexation, etc.), des solutions originales et efficaces. La contribution de l'ingénierie des connaissances est égale19

1

TEULlER,

CHARLET

& TCHOUNIKINE

ment importante pour le traitement des documents. Le fait de traiter les documents en fonction de leur contenu implique la mise en œuvre de connaissances. Dans le domaine éducatif, l'émergence du terme EIAH (pour «Environnement informatique pour l'apprentissage humain») dénote l'accent mis sur les coopérations hommemachine et sur les activités des apprenants à travers des environnements informatiques spécialisés (activités collectives, etc.). De plus en plus de travaux abordent les problématiques de l'ingénierie de ces EIAH, participant à ce mouvement général pour l'élaboration des méthodes d'ingénierie. Le raisonnement à partir de cas prend part au même mouvement par ses travaux de modélisation des connaissances sur la classification des cas en populations ordonnées. Dans le chapitre 7, F. Gandon et R. Dieng-Kuntz proposent un système multiagents dédié à une mémoire d'entreprise: COMMA.Ils utilisent le paradigme des systèmes multi-agents, adapté au déploiement d'une configuration logicielle au-dessus d'informations distribuées dans l'intranet d'une entreprise, ainsi qu'une ontologie qui permet une communication de haut niveau au sein de ce nouveau type de système d'information. La solution proposée s'apparente donc à un «Web sémantique» à l'échelle de l'entreprise. Les étapes de la conception de l'ontologie ainsi que l'utilité des scénarios d'utilisation sont présentées en détail. Le formalisme RDF(S) et les feuilles de style permettent de naviguer dans l'ontologie et la mémoire au travers des niveaux terminologiques, intensionnels et extensionnels. Dans le chapitre 8, qui se situe dans la perspective de la mise à disposition de grandes bases de données à travers le Web, M.-S. Segret et al. s'intéressent à l'extraction et à l'intégration d'informations semi-structurées dans les pages Web. L'objectif est d'identifier les sites qui traitent d'un même service. Le problème est de lier les deux types de données (structurées et textes) et de les décrire à l'aide du même formalisme, qu'ils proviennent ou non du même site. La solution retenue s'appuie sur les ontologies et les agents informationnels. B. Fuchs et A. Mille proposent dans le chapitre 9 un cadre de modélisation pour décrire un modèle générique du raisonnement à partir de cas au niveau connaissance, en s'appuyant sur le concept de tâches de raisonnement avec deux modèles de tâches complémentaires: un modèle de décomposition de tâches et un modèle de spécification des tâches. Les modèles de tâches mettent en évidence les différentes catégories de connaissances impliquées, les mécanismes d'inférence mis en œuvre et la structuration hiérarchique des tâches en sous-tâches. Un modèle générique de la phase ce remémoration du raisonnement à partir de cas est décrit, et CREEK, système d'aide au diagnostic, est vu comme une spécialisation du modèle générique de la remémoration. Dans le chapitre 10, F. Tort et al. comparent ingénierie des besoins et ingénierie des connaissances en partant des méthodologies EKD et CommonKADS. Ils font émerger les complémentarités et les coopérations éventuelles. EKD traite du changement organisationnel, pour lequel cette méthode propose des modèles de scénario alternatifs. 20

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

La méthode CommonKADS modélise des processus à granularité plus fine. Elle propose une étude organisationnelle qui est une étude d'opportunité pour déterminer les tâches à forte composante de connaissances. C'est cette complémentarité d'échelle qui paraît la plus prometteuse pour des études ultérieures en organisation. Dans le chapitre Il, J. Bouaud et B. Séroussi constatent que la faible observance des guides de pratiques s'explique par leur nature de formalisation hors contexte de notions médicales contextuelles. Ils proposent une démarche de modélisation et d'opérationalisation de l'expertise (Oncodoc) à la fois formelle (les connaissances décisionnelles sont représentées par un arbre de décision qui impose un parcours) et informelle (elle n'est pas exécutée par un programme, mais destinée à être lue sous forme d'hypertexte). Le médecin évalue lui-même l'appréciation à porter sur chaque critère constituant un nœud de l'arbre. Ce système a été validé sur l'expertise concernant le cancer du sein dans un service hors cadre de conception. Dans le chapitre 12, qui aborde l'annotation de documents informels à l'aide de représentations formelles, J. Euzénat note que le type d'annotation possible est varié et conduit à des traitements diversifiés. Il répertorie huit questions qui peuvent guider le développement d'un système cohérent. Elles concernent la forme et l'objet des représentations retenues, la nécessité d'utiliser de la connaissance indépendante du contenu des documents (ontologie, connaissance de contexte) et le statut du système résultant (système à base de connaissances ou éléments de connaissance distribués). 5.3 Gestion

des connaissances

Le thème «Gestion des connaissances» regroupe des articles dont les auteurs ont pour objectif de gérer explicitement les connaissances dans une organisation. Ils proposent différentes méthodes, utilisant des techniques allant des livres de connaissances aux ontologies pour décrire et structurer les connaissances d'un domaine. Ils s'intéressent à différents problèmes rencontrés dans les organisations comme la veille

technologique,la gestion de code ou la conceptionet la gestion d'une équipe de recherche. Le chapitre 13, de G. Kassel et al., propose un système de gestion des connaissances vu comme un système documentaire et fondé sur un système à base de connaissances multitâches. Son architecture logicielle est présentée, ainsi qu'une méthode de développement de ce système à base de connaissances. La méthode inclut une méthode de construction d'ontologie qui distingue l'ontologie conceptuelle de l'ontologie computationnelle. Un exemple de construction d'ontologie est donné, ONTO-ORG,constituée de plusieurs sous-ontologies, dont une ontologie de documents. Le chapitre 14, de S. Moisan et J.-L. Ermine, aborde la chaîne des connaissances pour la gestion de codes spécialisés de bas niveau par des professionnels non informaticiens, de leur conception et de leur développement jusqu'à leur utilisation. Ils 21

1

TEULlER,

CHARLET

& TCHOUNIKINE

proposent deux nouvelles techniques utiles dans cette chaîne: d'une part, des livres de connaissances, descriptifs de toutes les connaissances et savoir-faire nécessaires au traitement des codes; d'autre part, des outils de pilotage de code construits à partir des livres de connaissances, intégrant des connaissances sur l'utilisation des codes et aidant à la réalisation des tâches métier. Dans le chapitre 15, S. Mahé présente le système PUMEO, réalisé dans le contexte de l'industrie électrotechnique, dans lequel il choisit, plutôt qu'une formalisation des connaissances, une modélisation de leur contexte d'utilisation, à travers des règles ci: notification dans un agent automatisé. Cela permet d'activer des échanges entre les personnes et d'augmenter la réutilisation et le partage des connaissances, notamment en sollicitant automatiquement par mailles participants aux mêmes thèmes d'étude. Dans le chapitre 16, M. Lewkowicz et M. Zacklad proposent un logiciel de structuration des échanges (MEMO-NET)qui s'ajoute à un logiciel d'aide à la résolution ci: problème en mode distribué et facilite l'accès et le partage des connaissances. Pour un travail collectif à distance, cette assistance gère plus efficacement à la fois les interdépendances liées à la ressource partagée qu'est le temps de parole et celles liées aux représentations partagées de l'espace de problème, améliorant ainsi les échanges par rapport à un mode d'échange faiblement structuré, comme un forum ou une réunion à distance. Dans le chapitre 17, P. Benhamou et al. proposent une méthode pour optimiser les interactions du patrimoine de connaissances de l'entreprise avec le système de veille scientifique, technique ou économique. Testée sur deux cas concrets, au Commissariat à l'énergie atomique et chez Renault, cette méthode part d'une modélisation du domaine et permet de dégager des axes stratégiques de recherche d'information afin d'organiser la veille en trois phases: correspondance entre l'organisation et son environnement, recueil d'information, puis création de connaissances. 5.4 Modélisation de l'activité

Le thème «Modélisation de l'activité et de l'organisation» rassemble des travaux où l'activité proprement dite des acteurs est au cœur des études, au-delà des textes et des termes utilisés dans ces textes. Les auteurs intéressés par ce thème se donnent pour objectif d'assister l'activité, d'en concevoir une nouvelle à partir de l'utilisation d'un nouvel instrument, ou de catégoriser en grands types une activité propre à un métier. Dans le chapitre 18, R. Teulier et N. Girard proposent une réflexion sur le lien entre activité, connaissances et organisation. Elles soulignent l'intérêt, pour l'ingénierie des connaissances, de continuer à s'intéresser à l'activité. Les connaissances étant systématiquement mobilisées pour l'action et situées dans l'environnement physique et social de l'acteur, la construction d'un système à base ci: connaissances destiné à être instrumentalisé dans la pratique d'un utilisateur doit in22

INTRODUCTION:

L'INGÉNIERIE

DES CONNAISSANCES,

ACQUIS

ET NOUVELLES

PERSPECTIVES

tégrer une certaine modélisation de l'activité. Les approches complémentaires de différents champs disciplinaires sont comparées et situées par rapport à la démarche modélisatrice de l'ingénierie des connaissances. Le chapitre 19, de G. Prudhomme et al., discute d'une nouvelle classe d'outils d'aide à la conception. En s'appuyant sur des travaux empiriques sur la coopération de la conception, il propose une évolution vers des outils intégrant les connaissances locales, notamment celles créées par des acteurs de métier différent qui confrontent leurs règles métier et créent des connaissances nouvelles. Ces connaissances émergent souvent dans l'activité de simulation, mais aussi aux interfaces entre conception et simulation. Le chapitre 20, de M.-L. Betbeder et P. Tchounikine, s'intéresse à la conception d'une ACCA(activité médiatisée collective dans un contexte d'apprentissage) avec un objectif de capitalisation des connaissances. L'alternance des phases de travail individuelles et collectives, synchrones et asynchrones, présentielles ou à distance de la communauté d'apprenants est particulièrement étudiée et discutée. Les considérations à prendre en compte lors de la conception de tels systèmes sont identifiées avec l'objectif de mise en œuvre d'une démarche méthodologique. Le chapitre 21, de N. Girard, en combinant la théorie des représentations prototypiques de Rosch et la technique des grille répertoire de Kelly utilisée en acquisition des connaissances, opère une classification des comportements techniques d'agriculteurs utilisant leur territoire et leur exploitation pour une gestion des pâturages. La formalisation de prototypes de comportement ainsi que la démarche associée sont détaillées et les aspects méthodologiques d'une catégorisation de tels « objets» sont discutés. Enfin, dans le chapitre 22, F. Darses donne un ensemble de recommandations appuyant les modèles de l'expertise de conception et les systèmes à base de connaissances d'assistance à la conception dite «créative », et visant les spécificités cognitives de l'activité de conception: disposer de bases de simulation associées à tous les niveaux d'élaboration de la solution, faire élaborer simultanément les différents points de vue sur l'objet, permettre une modification itérative des pondérations des contraintes, aider à la construction des critères d'évaluation et tracer les contraintes, documenter des bases de cas et, enfin, permettre la construction opportuniste de la solution. Les spécificités de la conception collective sont également abordées.

6

INDEXATION ET RÉALISATION DU CÉDÉROM

Comme pour le livre précédene, la constitution de l'index a été l'occasion de mettre en œuvre une méthode spécifique permettant d'expérimenter de nouveaux services d'indexation. De la même façon que précédemment, nous avons travaillé à partir du
7 Voir page 12, note 1.

23

1

TEULlER,

CHARLET

& TCHOUNIKINE

corpus des textes des vingt et un articles constituant l'ouvrage. Ce travail a été réalisé dans un contexte entièrement numérique, c'est-à-dire à partir de fichiers numériques informatiques, le but étant de constituer la collection des articles de l'ouvrage en un ensemble de fichiers HTML que l'utilisateur peut consulter via un navigateur. Ce travail tire parti des expériences acquises par les auteurs: La constitution d'un index pour le livre sur l'ingénierie des connaissances, regroupant trente-cinq articles des années 1995-1998, effectuée par D. Bourigault et 1. Charlet8. Plutôt que de faire appel aux auteurs des articles, ce travail innovait en exploitant les résultats fournis par un outil de traitement automatique des langues, l'analyseur syntaxique de corpus Syntex9. Si le repérage des candidats termes nous est rapidement apparu comme un point ce départ fondamental, l'expérience nous a permis d'identifier un certain nombre ce difficultés, à commencer par la quantité de candidats termes repérés et la difficulté à trouver un critère autre que quantitatif pour décider lesquels retenir ;

.

.

Le développement d'un système de constitution d'index par T. Aït El Mekki et A. Nazarenko, le système IndDoCIO.Tirant parti des enseignements du travail précédent, l'équipe du LIPN (laboratoire d'informatique de Paris-Nord) a proposé une réflexion et une nouvelle architecture de constitution d'index. Cette architecture considère un index comme une ressource, constituée à partir d'un corpus que des outils permettent d'ébaucher (index ébauche), que l'utilisateur complète (index source) et qui peut ensuite être visualisée.

Ainsi, que ce soit la première expérience, vis-à-vis de la complexité de l'index construit, ou la seconde, vis-à-vis de la complexité des fonctions attendues, tout concourait au développement d'un index numérique permettant de naviguer dans une collec-

tion d'articles numériques.Nous avons donc décidéde monter un projet - le projet CEDERILICll qui vise à associer à un livre « papier» un cédérom proposant une indexation des articles et un accès direct à ceux-ci. Le projet comporte cinq étapes principales (voir figure 1) : La transformation des articles du format d'origine (RTF) vers le format XML ;

.

.

L'enrichissement de ce format selon plusieurs contraintes (visualisation, indexation) ;

B BOURlGAULT D. & CHARLET J., « Construction d'un index thématique de l'ingénierie des connaissances », dans cet ouvrage. 9 BOURIGAULTD. & FABRE C., « Approche linguistique pour l'analyse syntaxique de corpus », in Cahiers de grammaire, n° 25, université Toulouse-Le Mirail, 2000, p. 131-151. 10 AÏT EL MEKKI T. & NAZARENKO A., « Comment aider un auteur à construire l'index d'un ouvrage? », in Colloque intemational sur lafouille de texte, Tunis, 2002, p. 141-157. 1\ CEDERILIC, pour « Cédérom pour indexer le livre 1C », est un projet soutenu par France Télécom. En dehors de la forte activité de recherche suscitée par le projet, le soutien a principalement consisté dans le support aux réunions de travail et le financement du stage de DESS d'intelligence artificielle de Baruk Toledano, qui a réalisé les programmes de transformation et d'enrichissement des fichiers.

24

INTRODUCTION:

L'INGÉNIERIE DES CONNAISSANCES,

ACQUIS ET NOUVELLES PERSPECTIVES

III

Le traitement du corpus ainsi constitué par SYNTEXafin d'obtenir une liste œ candidats termes; La constitution de l'index à partir de ces termes, grâce au logiciel INDDoc ; La réalisation finale des fichiers à visualiser et de l'interface de navigation.

III III

Figure 1

~

Étapes de I.aconstitution du cédérom.

Le cédérom ainsi construit est inséré dans ce volume et permet de naviguer dans les articles via un index extrêmement riche (plus de 1 000 entrées). Nous sommes conscients du caractère expérimental du travail réalisé, mais espérons qu'il satisfera. les lecteurs. Un premier article relatant les tenants et les aboutissants

25

1

TEULlER,

CHARLET

& TCHOUNIKINE

de cette expérience a été publié à la Conférence internationale tronique 2004 (CIDE .7)12.

sur le document élec-

7

CONCLUSION

Si nous avons consacré du temps à la mise en valeur de ces travaux, c'est qu'ils nous semblent constituer un apport notable et spécifique au niveau international, même si l'on peut regretter que la communauté française ne sache pas suffisamment les rendre visibles dans les publications anglophones. C'est aussi que le lien avec les ingénieurs utilisant ce type de concept, de méthode et d'outil, et le lien avec les chercheurs de disciplines connexes, doivent rester vivants et s'actualiser en permanence. Autant de raisons, donc, pour avoir fait l'effort de donner une certaine visibilité à ces travaux. Nous espérons que les lecteurs qui n'ont pas l'occasion de participer aux rencontres de la communauté «ingénierie des connaissances» pourront ainsi mesurer les avancées de la communauté et participer au débat scientifique qui nous passionne. 7 .1.1 Remerciements Nous tenons à remercier l'ensemble des membres du comité de programme pour leurs relectures de la première sélection des articles. Nous remercions également le bureau du GRACQet, plus particulièrement, Nathalie Aussenac-Gilles, et tous ceux qui ont animé la communauté pendant ces trois années. Ils ont su susciter, solliciter, avec d'autres, d'intéressantes recherches et communications. Nous remercions également Catherine Garbay pour la préface qu'elle a accepté de rédiger pour cet ouvrage et, plus globalement, pour l'attention fidèle et exigeante qu'elle porte à nos travaux depuis plusieurs années. Merci à Anne Chapoutot, qui a été notre interlocutrice patiente et compétente pour la typographie et la mise en page. Merci enfin à Catherine Maksud, qui a assumé un long et fastidieux travail de réalisation des figures, à Caroline Mathieu, qui a assumé celui de relecture, également long et fastidieux, ainsi qu'à toute l'équipe qui a travaillé avec nous à la constitution de l'index et du cédérom (Touria Aït El Mekki, Adeline Nazarenko, Didier Bourigault et Baruk Toledano).

12 CHARLET J., AIT EL MEKKI T., BOURIGAULTD., NAZARENKO A., TEULIER R. & TOLEDANO B., CEDERILlC: constitution d'un !ivre et d'un index numériques. Actes de la conférence internationale sur le document numérique (CIDE .7), La Rochelle, juin 2004.

26

Première

partie

INGÉNIERIE DES CONNAISSANCES POUR L'ANALYSE DE CORPUS ET LA CONSTRUCTION D'ONTOLOGIES

Construction d'un index thématique de l'ingénierie des connaissances
Didier Bourigault
Équipe de recherche en syntaxe et sémantique, CNRS I Université Toulouse Le Mirail didier. bourigault@univ-tlse2.fr

Jean Charlet
Mission de récherche en sciencés et technologies de l'information médicale DPAlDSI/AP-HP & INSERM ERM 202 Jean. Charlet@spim.Jussieu.fr

RÉSUMÉ: ous décrivons une expérienc.e en N grandeur réelle de constitution d'uni ndex thématique pour un ouvrage scientifique. Cet ouvrage est constitué d'une sélection de trente-cinq articles de quatre éditions des journées ID (1995-1998). Ce corpus a été traité par l'analyseur LEXTER, nous avons et construit l'index à partir du réseau de candidats termes extrait par le logiciel. La tâche de

ABSTRACT: describe a real experiment of We constitution of a thematic index for a scientific book, This book is a collection of thirtyfive papers extracted from the proceedings of conferences on Knowledge Engineering during the years 1995.1998. We have elaborated the index by analysing the network of

candidate terms provided by the

term

ex-

constructiond'index est une tâche.d'ingénierie des connaissances. Elle se
décompose en quatre étapes: sélection des entrées, structuration de l'index, filtrage des occurrences, choIx du niveau des renvois. Nous présentons les principaux problèmes rencontrés et les solutions adoptées.
MOTS CLÉS: Termina/agie

-

Ontologies

- Expé-

tractor LEXTER from the corpus of the selected papers. Building an index is a knowledge engineering task. It splits up into four steps: sel ection of the entries, structuration of the index, filtering of the instances, choice of the level of the cross-refers. We present the main problems of such a work and the chosen solutions. KEY WORDS: Terminology Ontology

riences pratiques - Index - Analyse de corpusAcquisition des connaissances à partirde textes

Practical experiments
analysIs

-

-

Index

-

-

Corpus

-

Knowledge acquisition from texts

29

2

BOURIGAUL

T & CHARLET

1

INTRODUCTION

L'expérience relatée dans cet article a été menée dans le cadre de la réalisation du précédent recueil d'articles sur l'ingénierie des connaissances (Charlet et al. [2000]), rassemblant une sélection de trente-cinq articles publiés dans les actes des journées Acquisition des connaissances (lAC) en 1995 et 1996, et dans les actes des journées Ingénierie des connaissances (IC) en 1997 et 1998. Nous décrivons ici l'expérience que nous avons menée pour construire un index thématique de cet ouvrage. Plutôt que de faire appel aux auteurs des articles, nous avons choisi de tester une démarche innovante qui exploite les résultats fournis par un outil de traitement automatique des langues (1'analyseur syntaxique de corpus LEXTER) à partir de l'analyse automatique du corpus électronique constitué des trente-cinq articles sélectionnés. Il est maintenant reconnu que l'activité d'analyse terminologique est une activité d'ingénierie des connaissances (voir, par exemple, Assadi & Bourigault [2000] ou Aussenac-Gilles et al. [2003]). Or, les index thématiques pour documents de type technique ou scientifique peuvent être considérés comme un type de ressource terminologique, au même titre que les thésaurus pour les systèmes d'indexation automatique, les référentiels pour les systèmes de gestion de données techniques, les ontologies pour les mémoires d'entreprise ou le Web sémantique, les réseaux lexicaux spécialisés pour les moteurs de recherche thématique sur le Web, etc. La tâche de construction d'un index thématique peut elle-même être abordée comme une activité d'ingénierie des connaissances, ainsi que nous aurons l'occasion de l'illustrer et le discuter dans cet article. Nous nous sommes d'emblée imposé de travailler en «vraie grandeur », c'est-à-dire de produire un index acceptable dans un délai de quelques semaines, à partir du réseau des candidats termes fournis par l'analyseur sur le corpus des 35 articles (150000 mots). L'index final comporte environ 630 entrées et sous-entrées et 2000 renvois. Ces contraintes matérielles assumées jusqu'à l'achèvement de l'expérience expliquent que les premiers résultats sur le plan scientifique de cette expérience se limitent à une ébauche de méthodologie pour la construction d'index et à un inventaire de problèmes, résolus partiellement ou non résolus, spécifiquement liés à cette tâche. Dans la section 2, nous présentons le logiciel LEXTER les résultats de l'extraction et terminologique sur le corpus des trente-cinq articles de l'ouvrage. La section 3 est 30

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

un rapide état de l'art concernant la construction d'index. Nous décrivons dans la section 4 les différentes étapes de la construction de notre index. Un bilan de l'expérience est présenté dans la section 5, et finalement, dans la section 6, nous discutons les tenants et aboutissants de notre approche dans le contexte de l'ingénierie des connaissances et par rapport à l'initiative (KAt

2

EXTRACTION

DES CANDIDATS

TERMES de ressources

2.1 LEXTER, n outil d'aide à la construction u terminologiques

LEXTER(Bourigault [1994]) est un logiciel d'extraction de terminologie. Il reçoit en entrée un corpus de textes en français, portant sur un domaine quelconque, qui a subi un étiquetage morphosyntaxique : à chaque mot du corpus est associée une catégorie grammaticale (nom, adjectif, adverbe, verbe, etc.). Sur ce corpus étiqueté, LEXTER effectue une analyse syntaxique qui enchaîne une phase d'extraction de groupes nominaux maximaux par repérage de marqueurs de frontières et une phase de décomposition syntaxique binaire de ces groupes. Les candidats termes, à savoir les groupes nominaux maximaux et leurs constituants, sont extraits uniquement sur la base de leur position et de leur forme syntaxiques. Les résultats se présentent sous la forme d'un réseau de candidats termes, dit « réseau terminologique ». LEXTERextrait différents types de candidats termes, des termes simples (noms, adjectifs et verbes) et des termes complexes. Les termes complexes sont des syntagmes nominaux (SN) ou des syntagmes adjectivaux (SAj) : un syntagme nominal est un groupe dont la tête est un nom ou un syntagme nominal, un syntagme adjectival est constitué d'un adjectif prémodifié par un adverbe (par exemple, très haute, dans le syntagme nominal très haute fréquence, est un SAj). LEXTERdécompose de façon binaire chaque candidat terme complexe extrait en deux constituants: sa tête (notée T) et son expansion (notée E) : par exemple, système d'information est un SN, dont la tête est système et l'expansion information. Cette décomposition est récursive, chaque constituant complexe étant lui-même décomposé. À partir de ces décompositions, LEXTERorganise l'ensemble des candidats termes extraits du corpus en un réseau, dit «réseau terminologique », dans lequel chaque terme est relié, le cas échéant, à sa tête et à son expansion, et à tous les termes dont il est soit tête, soit expansion. Voici, par exemple, l'environnement terminologique du candidat terme 31

2

BOURIGAUL

T & CHARLET

modèle conceptuel

dans le réseau extrait par LEXTER du corpus traité. La figure 1 autour du candidat terme modèle conceptuel.

donne l'extrait du réseau terminologique modèle conceptuel Tête de :

modèle conceptuel de l'application modèle conceptuel des données modèle conceptuel des traitements Expansion de : construction d'un modèle conceptuel validation d'un modèle conceptuel
Figure 1 - Extrait du réseau autour du candidat terminologique terme modèle construit conceptuel. par LEXTER

En tant qu'outils d'aide à la construction de ressources terminologiques, et plus généralement outils d'aide à la modélisation des connaissances à partir de textes, LEXTER son successeur SYNTEX et (Bourigault & Fabre [2000)) ont été utilisés dans un certain nombre d'applications d'ingénierie des connaissances dans le cadre de projets documentaires (par exemple, Bourigault & Lame [2002] ; Le Moigno et al. [2002)). Dans Assadi & Bourigault [2000], on peut trouver la présentation synthétique d'une méthodologie d'utilisation de ces outils dans une tâche de construction d'ontologie à partir de textes. Le problème de la construction d'index pour une documentation technique est abordé dans Gros & Assadi [1998], où les auteurs décrivent les problèmes rencontrés lors du passage d'une ontologie régionale, construite à l'aide des résultats fournis par LEXTERsur une documentation technique, à un index structuré destiné à être exploité dans un système hypertextuel de consultation de cette documentation. 2.2

Analyse

du corpus des trente-cinq

articles

Le corpus est constitué des trente-cinq articles de l'ouvrage qui nous ont été fournis par les éditeurs de l'ouvrage, sous la forme d'autant de fichiers Word. À partir de la structure logique des documents, marquée par les styles « Titre» de Word, le corpus est transformé en un fichier HTML dans lequel sont balisées les unités textuelles correspondant aux niveaux article, section et sous-section. Ce corpus est ensuite découpé en séquences, par repérage des ponctuations fortes. Chaque séquence est caractérisée par un identifiant qui indique à l'utilisateur la position de la séquence 32

CONSTRUCTION

D'UN INDEX THÉMATIQUE DE L'INGÉNIERIE DES CONNAISSANCES

dans l'ouvrage. Le corpus (environ 150000 mots) ainsi découpé est analysé par LEXTER.Des informations numériques sur les résultats de l'extraction sont données dans le tableau 1. Les noms et syntagmes nominaux les plus fréquents sont donnés dans le tableau 2. Pour chaque candidat terme, le logiciel fournit les phrases desquelles il a été extrait. C'est à partir de ces données que nous avons sélectionné les entrées de l'index et établi les renvois vers le texte.

Tableau 1 Nombre de candidats termes extraits par LEXTER
FRÉQUENCE

=1

FRÉQUENCE> 1

NOMS
SYNTAGMES NOMINAUX

1 883

2357

12 029

2522

Tableau 2
Candidats termes extraits par LEXTER : liste des noms et des syntagmes nominaux les plus fréquents NOMS connaissances FRÉQ. 842 NB. ART. SYNTAGMES NOMINAUX FRÉQ. NB. ART.

30

candidat

terme

concept modèle système relation domaine cas type problème
objet

711 537 531 463 436 407 377 366
353

27 26 31 26 30 29 31 30
28

résolution de problème connaissance du domaine
structure prédicative

base de connaissances mesure de similarité
système d'information

contexte partagé

57 56 42 40 33 33 32 31
31

5 11 11 2 13 3 4 3
6

ingénieur de la connaissance
modèle conceptuel

tâche terme méthode
ensemble outil processus niveau

332 323 232
321 310 293 291

22 espace de connaissances 24 logique de description 28 graphe conceptuel
29 fonction test 27 fouille de donnée 29 fiche action 30
niveau d'abstraction

30 28 27
26 25 24 23

9 1 5
5 1 1 1

document classe
information

288 271
271

16 processus de conception 23 unité linguistique
28
base de cas

23 23 23

8 6 2

22

6

33

2

BOURIGAUL

T & CHARLET

3

ÉTAT DE L'ART

Notre souci de mener à bien cette expérience en grandeur réelle dans un délai raisonnable nous a contraints à privilégier l'action sur la réflexion. Comme tout chercheur, nous avons une expérience d'utilisation des index papier d'ouvrages scientifiques et nous sommes donc partis avec une idée assez précise du résultat auquel nous souhaitions aboutir. C'est essentiellement sur cette connaissance personnelle et diffuse de l'activité de consultation d'index que nous nous sommes appuyés pour construire l'index. À l'issue de cette expérience, nous sommes néanmoins convaincus qu'une analyse ergonomique de cette activité est indispensable pour réaliser des outils de consultation documentaire plus efficaces (voir section 5). Dans le champ de l'ingénierie des connaissances, quelques travaux abordent le problème de la constitution d'index. L'équipe «Langage naturel» de la direction des études et recherches d'EDF travaille à la conception et à la réalisation de systèmes hypertextuels de documentation technique (SCDT). Ces systèmes permettent l'accès à une documentation technique de type « guide» à des techniciens ou des ingénieurs qui l'utilisent dans le cadre de leur activité professionnelle. Quatre modes d'accès hypertextuels sont proposés: table des matières; recherche en texte intégral, avec enrichissement possible des requêtes par expansion terminologique ; index des termes du domaine; index de la tâche de l'utilisateur. Dans Gros & Assadi [1998], section 3.3, les auteurs présentent les apports essentiels de l'index terminologique par rapport au mode d'accès en texte intégral: présenter à l'utilisateur une liste de notions abordées dans le texte; n'afficher que les occurrences pertinentes (dans le cas où le concepteur de l'index a pris le temps de filtrer les occurrences non pertinentes) ; résoudre les polysémies en dégroupant les entrées ambiguës (par exemple, réseau, électrique vs informatique). Les auteurs présentent rapidement le processus d'élaboration de l'index des termes, qui inclut une étape de construction d'une ontologie du domaine servant de point de départ à la réalisation de l'index. Le logiciel LEXTER utilisé au cours de cette phase de modélisation des connaissances à partir est de textes. Nous nous distinguons de ces travaux sur les SCDT sur deux points: a priori, notre index devait d'abord être un index papier, et il est indiscutable que le mode d'utilisation de l'index, manuel vs hypertextuel, a une incidence sur sa structure (voir discussion section 5 pour nuancer les conséquencesde cette affirmation).Par ailleurs, notre corpus n'est pas une documentation technique utilisée par des utilisateurs professionnels dans une tâche bien identifiée. Il n'est pas pertinent, dans notre 34

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

cas, de recourir à la construction d'une ontologie régionale modélisant le domaine d'application. Une normalisation sémantique poussée, nécessaire dès qu'il s'agit de modéliser les connaissances, n'est ni possible ni souhaitable dans le cas d'un recueil d'articles scientifiques, destiné à être consulté avec une visée bibliographique. Dans Aussenac-Gilles & Condamines [1998], on trouve des pistes de réflexion très intéressantes à propos de la construction d'index. Les auteurs s'interrogent sur les apports potentiels des bases de connaissances terminologiques (BCT) à la consultation documentaire. Une BCT est attachée à un corpus donné. Elle est le résultat d'un processus d'analyse linguistique méthodique de ce corpus qui conduit à identifier un réseau de concepts et un ensemble de termes reliés d'une part à ces concepts et d'autre part aux textes, le tout constituant une modélisation (aussi) objective (que possible) du corpus. Dans leur réflexion sur l'utilisation d'une BCT comme point de départ pour construire un index, les auteurs expriment de façon claire les points communs et surtout les différences entre index et thésaurus: un index permet d'accéder au contenu d'un texte, il est construit en référence à ce texte; un thésaurus est utilisé pour indexer et retrouver des documents dans une collection de documents portant sur un domaine, il est le plus souvent construit par introspection et consultation d'experts de ce domaine.

4

DÉROULEMENT DE L'EXPÉRIENCE

Armés de ces quelques considérations d'ordre théorique et méthodologique, nous avons entrepris de construire un index thématique de l'ouvrage, à partir des résultats fournis par le logiciel LEXTER, à savoir un réseau terminologique d'environ 18000 candidats termes (noms et syntagmes nominaux), avec pour chacun d'eux la liste de ses occurrences dans le corpus. Nous avons a priori identifié quatre étapes successives relativement indépendantes:

.
.

Sélection des entrées de l'index parmi les candidats termes; Structuration des termes retenus en entrées et sous-entrées;
Filtrage des occurrences non pertinentes; Choix du niveau des renvois (sous-section, section, article).

.
.

Les étapes 1 et 4 sont celles sur lesquelles nous avons passé le plus de temps. L'étape 2 a été relativement rapide à partir du moment où nous avons choisi de conserver peu ou prou la structuration proposée par le logiciel LEXTER. 'étape 3, de L 35

2

BOURIGAUL

T & CHARLET

filtrage des occurrences, section comment

n'a pas été effectuée. Nous décrivons dans la suite de cette nombreuses et inédites, que nous avons rencontrées et, le

nous avons procédé pour mener à bien chacune de ces étapes, en de réussite que

insistant sur les difficultés,

cas échéant, sur les solutions choisies. Rappelons que les contraintes nous nous sommes délibérément

imposées ne nous ont pas laissé le loisir d'analyser

aussi loin que nécessaire les problèmes rencontrés et d'élaborer les solutions les plus appropriées. Nous reprenons un inventaire de ces problèmes dans la section 5.

4.1

Sélection des entrées de l'index parmi les candidats termes

Comme toujours lors d'une application d'extraction de terminologie, le nombre de candidats termes apparaît de prime abord très élevé (environ 18000 candidats termes nominaux, dont 2 522 syntagmes nominaux de fréquence supérieure à 1 [voir tableaux 1 et 2]). Les contraintes de temps interdisent l'examen exhaustif de l'ensemble des candidats termes. Pour valider ceux-ci, nous avons utilisé l'interface standard de validation des résultats fournis par le logiciel. Cette interface permet de naviguer dans le réseau terminologique et d'accéder aux phrases dans lesquelles les candidats ont été ex-

traits. Notre bonne connaissance du domaine et des articles - nous sommes coéditeurs de l'ouvrage - nous a permis d'effectuer rapidement cette validation en évitant le plus souvent de recourir au texte. Le critère de sélection était parfaitement intuitif et subjectif; nous pouvons le formuler ainsi: «Est-il intéressant que ce candidat terme figure dans l'index? Ce candidat terme est-il susceptible de constituer un

point d'entrée intéressant dans l'ouvrage? » Pour limiter le caractère subjectif et
aléatoire de cette procédure de choix, l'ensemble de la validation a été réalisée en binôme, le temps perdu étant compensé par une meilleure qualité de la sélection. Nous revenons sur ce problème du critère de sélection dans la section 5. La stratégie de parcours de la liste des noms et syntagmes nominaux a consisté:

.

Pour les syntagmes nominaux: a) b) à examiner systématiquement tous les candidats termes de fréquence supérieure ou égale à 3 ; à examiner systématiquement tous les candidats termes de fréquence égale à 2 si leur répartition est égale à 2 (ne sont donc pas systématiquement examinés, ni les candidats termes présents seulement deux fois dans un seul article, ni les candidats termes présents une seule fois dans le corpus). 36

CONSTRUCTION

D'UN INDEX THÉMATIQUE DE L'INGÉNIERIE DES CONNAISSANCES

.

Pour les noms: a) b) à examiner les 20 noms les plus fréquents; à examiner les noms qui sont constituants des syntagmes nominaux retenus lors des étapes l.a) et l.b), et les autres syntagmes nominaux dont ils sont constituants.

Le tableau 3 montre ainsi le nombre de syntagmes nominaux et de noms analysés en fonction de leur fréquence dans le corpus. Environ 4 500 candidats termes ont été passés en revue, 630 ont été retenus. Nous évaluons à 15 heures la durée de cette étape de sélection des termes. Au niveau des noms de fréquence supérieure à 1, on pourra noter que les 94 noms retenus sur les 140 analysés le sont pour leur qualité structurante vis-à-vis de l'index (comme classification ou document) ou pour leur fréquencelrépartition (comme raffinement).
Tableau 3
Syntagmes nominaux et noms analysés et retenus en fonction NOMBRE DE CANDIDATSTERMES
ANALYSÉS

de leur fréquence NOMBRE DE CANDIDATSTERMES RETENUS

NOMBRETOTAL DE CANDIDATSTERMES

SN, FRÉQ, > 1

SN,FRÉQ. 1 =
NOMS, FRÉQ.> 1
NOMS, FRÉQ,

2522 12029
2357

1 808 2615
140

397 130
94

=1

1883

12

12

4.2

Structuration

des termes

retenus en entrées

et sous-entrées

En ce qui concerne la structuration de l'index, nous avons choisi de nous conformer à la norme, et nous avons adopté le principe de structuration en deux niveaux, entrée et sous-entrée. Nous n'avons retenu que des liens de type formel entre entrée et sous-entrée, comme cela est couramment pratiqué dans les index. Exemple:
ontologie

-

du

domaine formelle régionale concept d'une

-

37

primitive

d'une

2

BOURIGAUL

T & CHARLET

Cette structuration choisie pour l'index est homologue à celle du réseau des candidats termes, telle qu'elle est calculée par le logiciel LEXTER(voir section 2). Il nous a donc été possible de transférer directement dans l'index la structure du réseau terminologique. Le gain de temps est évidemment appréciable. Nous avons structuré l'index de telle sorte qu'il soit possible d'accéder à un syntagme nominal aussi bien par sa tête que par son expansion. Par exemple, primitives d'une ontologie sera accessible via l'entrée ontologie (voir exemple ci-dessus) et via l'entrée primitive; de même, langage XML sera accessible via langage et via XML. Cependant, toutes les entrées complexes (les syntagmes nominaux) n'ont pas été nécessairement retenues comme sous-entrées, certains syntagmes nominaux sont des entrées de niveau 1. En effet, l'organisation en sous-niveaux a des propriétés de structuration qui peuvent amener à factoriser le premier niveau ou, inversement, à conserver les syntagmes nominaux dans leur intégrité. Par exemple, les syntagmes nominaux classe d'utilisateur, classe de problèmes sont des sous-entrées de l'entrée de niveau 1 classe. En revanche, mémoire d'entreprise et mémoire de cas sont des entrées de niveau 1 séparées, car, à notre avis, elles correspondent chacune à des syntagmes nominaux dont la signification est normalisée dans leur sous-domaine respectif (mémoire d'entreprise et raisonnement à partir de cas), et nous n'avons pas jugé pertinent de les regrouper sous une entrée mémoire. 4.3 Filtrage des occurrences non pertinentes

La tâche d'analyse et de filtrage des occurrences des entrées retenues n'a pas été effectuée, d'abord par manque de temps. Ce filtrage nous est apparu pourtant particulièrement nécessaire au moment de choisir les renvois des entrées correspondant à des noms très polysémiques (voir section 4.4). Alors que l'on peut décider sans état d'âme de conserver toutes les occurrences d'un nom comme ontologie, sans aller consulter chacune de celles-ci, on est beaucoup plus réservé quand il s'agit d'un nom comme contexte, par exemple. Selon les contextes (!), celui-ci peut avoir un sens parfaitement anodin (<< Dans le contexte de ce projet, nous... »), alors qu'il acquiert un sens bien spécifique dans certains articles où les notions de contexte d'interprétation ou d'analyse contextuelle sont pertinentes. L'absence de filtrage des occurrences, dans ce cas, conduira le lecteur intéressé par l'entrée contexte à consulter des parties d'article absolument inintéressantes pour lui... Cette absence de filtrage est encore plus pénalisante dans le cas d'un nom comme objet, qui non seulement a des occurrences anecdotiques (<< L'objet de cet article... »), mais est polysémique. Il est utilisé dans des syntagmes comme programmation objet, repré38

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

sentation par objet, mais il a un sens différent dans un contexte comme

« les objets du domaine ». Une analyse plus fine des occurrences pourrait permettre de dégrouper l'entrée objet, en deux entrées correspondant au deux sens identifiés. Nous reve-

nons aussi sur ce point au moment du bilan (voir section 5).

4.4

Choix du niveau des renvois

Les renvois aux textes se font vers des articles et leurs sections, et non vers des pages. La première raison qui a guidé ce choix est qu'au moment où nous menions l'expérience les numéros de pages n'étaient pas disponibles puisque le livre n'était pas encore édité. De plus, les occurrences des candidats termes sont données par le logiciel LEXTER sous la forme des identifiants textuels tels qu'ils sont décrits dans la section 2.2 (par exemple, 15-assad-4.5_p2-3), à partir desquels on peut retrouver l'article et la section. Mais ce choix s'avère pertinent indépendamment de ces contingences matérielles. En effet, la possibilité de placer un renvoi au niveau d'un article (par exemple, 15-assad), d'une section (par exemple, 15-assad-4) ou d'une sous-section (par exemple, 15-assad-4.5) permet, d'une part, de regrouper les occurrences qui sont données par LEXTER niveau des phrases et, d'autre part, de signaau ler la pertinence d'une entrée vis-à-vis d'une section entière ou même de tout un article. Ainsi, la référence à un article suppose un thème premier pour l'auteur au niveau de son article, alors que la référence à une sous-section suppose que l'auteur « en parle» de façon incidente. Nous avons donc choisi trois niveaux de référence d'un terme dans un texte: article (0), section (1) et sous-section (2). Référencer à un niveau plus profond - par exemple, section de niveau 3, paragraphe - nous a semblé inutile: on n'y gagnait pas en précision dans la mesure où, en accédant à des structures aussi petites, le lecteur était quand même obligé d'examiner les structures d'ordre supérieur pour retrouver le contexte exact de la référence. En suivant ces préceptes, nous avons alors construit notre index, dont un petit extrait est donné en annexe autour des termes HTML, langage et XML. À cette étape du traitement, la tâche consiste à choisir, pour chaque entrée de l'index, les niveaux de renvoi. Cela a été réalisé à l'aide d'une interface spécialement construite à cet effet. Cette interface présente pour chaque entrée ou sous-entrée de l'index la liste des renvois au niveau de la sous-section. Notre tâche a consisté alors à décider s'il fallait conserver ces renvois, transformer un ensemble de renvois à des sous-sections d'une même section à un seul renvoi à cette section, ou transformer un ensemble de renvois à des sections d'un même article en un seul renvoi à cet article. Cette tâche nous a demandé une vingtaine d'heures. 39

2

BOURIGAUL

T & CHARLET

5

BILAN

Nous procédons ici à un inventaire des problèmes que nous avons pu identifier au fil de notre rapide expérience. Le niveau des renvois, sujet de discussion important, ayant été développé dans la section précédente. 5.1

Les critères

de sélection
(<< Est-ce

des entrées

Le critère de décision

que ce candidat terme fera une bonne entrée

d'index? »), nous l'avons mentionné, est largement subjectif et peut paraître pour le moins incertain. Pour limiter la part d'aléatoire inhérente à ce type de tâche, l'ensemble de la construction de l'index s'est faite en binôme. Cela nous a permis de contrôler les choix de sélection et d'établir rapidement un consensus sur les éléments fondant nos décisions. Il nous apparaît de toute façon illusoire de chercher à formaliser ce processus. La tâche de construction d'un index est une tâche d'ingénierie des connaissances et laisse la part belle à 1'« art de l'ingénieur ». On peut multiplier les outils d'aide, la décision finale restera toujours marquée d'une part d'arbitraire. La solution à ce problème classique est à chercher du côté de la mise en place de procédures de validation par les utilisateurs et de retour d'expérience (voir, plus loin, validation). Le choix des entrées se fait parmi les candidats termes proposés par le logiciel LEXTER.Or, même si celui-ci effectue une extraction très large, il est susceptible de laisser de côté des unités intéressantes. À ce stade du projet, nous n'avons pas cherché à mesurer cette part de silence, mais il est clair qu'il faudra s'atteler à cette tâche difficile. La méthode consiste, dans un premier temps, à effectuer des sondages dans des sections d'articles prises aléatoirement, et à vérifier si des termes susceptibles de constituer des entrées d'index intéressantes ont été oubliés. 5.2

La normalisation

Le problème, essentiel, de la normalisation peut se formuler ainsi: quel compromis trouver entre texte intégral et organisation thématique, entre fidélité au texte et efficacité de l'index? Notre choix a été de rester le plus descriptifs possible, avec, dans l'index, des termes attestés en corpus pour fournir, dans un premier temps, une image relativement fidèle de ce dont « parlent» les textes. Nous préparons un index pour un ouvrage de type scientifique, dont les utilisateurs potentiels ont un profil de chercheur. Il ne 40

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

s'agit pas d'imposer une vue sur le domaine qui nous serait trop « personnelle ». Quelques exemples: si les différents auteurs parlent de logique terminologique ou bien de logique de description, nous ne nous sentons pas en droit d'effectuer la normalisation qui consisterait à ne retenir comme entrée qu'un seul des deux termes, et de regrouper les occurrences. De même, on sait que l'idée de «réutilisabilité» est particulièrement importante dans le domaine de l'ingénierie des connaissances; cependant, nous n'avons pas cherché à regrouper sous une même entrée les termes comportant les mots réutilisation, réutilisabilité, réutilisable, voire réutiliser. Cela ne préjuge en rien des évolutions liées à d'autres besoins, à d'autres formes d'index. À l'autre bout de la chaîne, il est important de noter que nous ne fabriquons pas une ontologie selon les principes de l'ingénierie des connaissances (Bachimont [2000]), ne serait-ce que parce que, en l'état, nous ne cherchons pas à formaliser.

5.3

La structuration

La question des types de lien de l'index s'est posée à nous. Nous aurions pu poser des relations sémantiques entre concepts comme des relations d'associations entre une discipline et les objets étudiés - par exemple, entre « sylviculture» et « forêt» ou d'autres relations entre un concept et son contraire - par exemple, entre
« classification

dure» et « classification

élastique ».

Nos interrogations sur ce point rejoignent celles de N. Aussenac-Gilles et A. Condamines, qui signalent fort justement qu'« il convient peut-être de ne pas surcharger l'index avec de multiples relations qui risquent de noyer les relations les plus structurantes» (Aussenac-Gilles & Condamines [1998], p. 82). Notre choix a donc été de nous limiter à la structuration habituelle, à sémantique pauvre: la chaîne lexicale constituant la sous-entrée « contient» celle de l'entrée principale. L'introduction de liens à sémantique plus riche reste un problème ouvert. 5.4

La validation

Par rapport à la validation, deux directions s'imposent à nous:

.

Proposer aux auteurs les termes avec lesquels leur article a été indexé, que ce soit de façon première ou incidente, et étudier leurs remarques, en remarquant si 41

2

BOURIGAUL

T & CHARLET

.
5.5

elles peuvent être prises en compte dans le cadre de notre étude sur le corpus. Cette question a été plus spécifiquement explorée au sein du groupe TIA1 dans le cadre du projet Th(IC)2 qui vise à construire un thésaurus de l'ingénierie des connaissances dans le but d'indexer les pages Web des chercheurs (AussenacGilles & Bourigault [2000]) ; dans ce projet, les auteurs sont sollicités, à travers une interface spécifique (voir, plus haut, site Web), pour valider les candidats termes qui leur sont proposés pour indexer leurs écrits; Demander à des non-auteurs de rechercher des articles avec l'index et vérifier avec eux s'ils trouvent bien ce qu'ils veulent. Cette validation se quantifie avec les notions de rappel vs silence et bruit. Cette validation n'a pas été mise en œuvre.

Le support

L'index terminé tel qu'on peut le lire sur le papier n'est probablement pas accessible sur son support de lecture idéal, contrairement à ce que pouvait laisser penser l'origine de ce travail. En effet, de par sa nature, il est plus que probable qu'un tel index doive être accessible à travers une interface hypertextuelle (un navigateur HTML, puisque c'est celui qui s'impose à tous). D'une part, cet index reste près du texte; comme nous l'avons vu, la normalisation y est faible et la conceptualisation - le fait de retenir des concepts normalisés, de les organiser hiérarchiquement, etc. -, absente. Par rapport aux réflexions qui ont cours au sein de la communauté de l'ingénierie des connaissances, et plus précisément dans son courant autour de l'étude des textes (Bachimont [2000J ; Aussenac-Gilles et al. [2003]), nous n'avons pas pris en compte de tâche précise pour construire l'index: par exemple, nous ne cherchions pas à préparer l'indexation d'un ensemble de textes à venir, ce qui nous aurait conduits à élaborer un thésaurus, ni à mettre en place les bases d'un système de requête ou de déduction, ce qui nous aurait conduits à élaborer une ontologie. À partir de là, le lecteur et utilisateur de l'index doit pouvoir travailler avec l'index en fonction de ses propres buts, aller rapidement de l'index aux phrases auxquelles il renvoie, faire des allers-retours pour construire sa propre lecture, sa propre conceptualisation.

1

Terminologie

et intelligence

artificielle,

<http://www.biomath.jussieu.frrrIA/>.

42

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

Sachant, en outre, que l'index propose 630 renvois, il n'y a évidemment pas d'autre solution que d'instrumenter cette navigation dans un hypertexte. Cela dit, et à ce jour, le travail que cela représente reste incompatible avec nos contraintes éditoriales. Mais il est certain que, dans un autre travail du même type, nous prendrions cette contrainte en compte dès le début du processus pour fournir au lecteur le support et l'interface adéquate.

6

(KA)2 ET L'INGÉNIERIE

DES CONNAISSANCES

Nous voudrions, dans cette section, revenir sur l'activité qui a été la nôtre durant la construction de cet index et nous positionner par rapport à l'initiative (KA)2,qui avait été une de nos motivations au départ de ce travaif. Notre activité, dans le cadre de la construction de cet index, s'apparente clairement à celle d'un cogniticien devant effectuer une tâche donnée, chacun des auteurs pouvant, dans ce contexte, être considéré comme un expert de son sous-domaine. Ainsi: nous utilisons une méthode ascendante pour repérer les termes attestés en corpus;

nous utilisons des interfaces, qui sont des « médiationsexternes» pour accéder aux
réseaux terminologiques ; nous normalisons; finalement, nous prenons des décisions sur le choix des termes, sur la structuration de l'index, en fonction de notre tâche qui est de fabriquer le susdit index. Le travail effectué ici est une ébauche, y compris si le but est un index papier, mais le paragraphe suivant discutera de l'intérêt d'une telle approche par rapport à des méthodes plus classiques. L'initiative (KAi visant à réaliser des ontologies de la recherche en acquisition des connaissances nous interpellait particulièrement sur le point suivant: se voulant consensuelle et un travail de la communauté « KA» sur elle-même, elle fait appel à des communautés de chercheurs pour qu'ils indexent leur recherche et participent ainsi à la construction des ontologies. En travaillant sur l'index, nous voulions nous positionner par rapport à (KA)2et, plutôt que de faire appel aux chercheurs, travailler directement sur leur production, les articles. Pour que ce travail soit une introspec-

2

KA pour « knowledge elle-même.

acquisition»

et « au carré », car ce travail est réalisé renseignements

par les chercheurs

de la

communauté Web suivant:

On peut trouver de nombreux

et ontologies

de (KAf sur le site

http://ka2portaI.aitb.uni-karlsruhe.del.

43

2

Bou RIGAULT

& CHARLET

tion de la communauté par elle-même, nous allions utiliser un outil de l'ingénierie des connaissances, LEXTER son interlace, et des « experts» du domaine, nous. et À ce stade de notre travail, peu de choses ont été faites dans ce sens. Si nous considérons que des études sur corpus sont des préliminaires beaucoup plus rigoureux que la simple introspection pour l'explicitation des termes puis concepts du domaine, il nous resterait à construire le système conceptuel du domaine et à l'évaluer dans le nouveau cadre de (KA)2.En pratique, il apparaît que l'initiative (KA)2est discutablesans sous-entendu négatif -, mais plus par rapport au processus d'indexation luimême que par rapport à la construction d'ontologies de la recherche qui n'en sont, de l'avis même des auteurs - et du nôtre -, qu'à un stade préliminaire (Benjamins et
al. [1998]).

7

CONCLUSION

La construction d'un index thématique à partir des résultats d'un extracteur de terminologie est une tâche nouvelle. Nous avons été contraints à de fréquents allers-retours entre le corpus et l'index tel qu'il se mettait en place dans un processus cyclique. On peut penser qu'il est possible d'améliorer certaines étapes du processus, en particulier au niveau du traitement initial du corpus et de l'exploitation d'autres types d'outils d'analyse de textes, dont les extracteurs de relations candidates entre termes et les outils de classification statistique. Mais la tâche de construction d'un index reste fondamentalement une tâche d'ingénierie des connaissances et les outils envisagés doivent aider ceux qui construisent des index, en leur fournissant des amorçages, des visualisations sur des réseaux terminologiques, des aides de toutes sortes. Nos propositions n'ont pas pour objet de faire disparaître l'intervention humaine et ses interrogations et retours arrière, mais bien d'améliorer l'efficacité de ceux qui pratiquent en assurant la cohérence de la tâche qui leur est dévolue. Le travail effectué à ce jour ne concerne pas totalement les bibliothèques numériques en raison de la nature du produit final, un index papier, mais il ouvre des perspectives de développement autour de l'indexation a posteriori des pages numériques (corpus de documents, pages Web, etc.), comme dans Corvaisier et al. [2000]. En effet, l'indexation a priori ne concerne que les documents à venir et il faut réintégrer les documents passés. L'automatisation, autant que faire se peut, de ces tâches pousse à développer des thésaurus plus structurés, voire des ontologies formelles, 44

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

seules à permettre des traitements informatiques efficaces et fiables (Benjamins et al. [1998]). De plus, la nécessité de faire évoluer les thésaurus dans des domaines évoluant vite, comme l'informatique ou la médecine3, oblige à asseoir ces thésaurus sur des modélisations conceptuelles, seules à pouvoir prendre en charge l'évolutivité des relations d'héritage, par exemple. A contrario, il est important de noter que, plus le domaine est « ouvert» (corpus d'articles à large spectre d'intérêts, pages Web), plus la normalisation et la conceptualisation sont difficiles. Ainsi, selon le contexte et les applications, les index s'appuieront sur des thésaurus plus ou moins normalisés, plus ou moins conceptuels, du simple vocabulaire ordonné à l'ontologie la plus formelle. Ces réflexions restent d'actualité autour de la problématique du Web sémantique qui focalise l'attention des chercheurs4 : quelles que soient les conceptualisations construites, elles devront être un reflet des activités (au sens large) qu'elles indexent. Nous pensons que, dans les situations où sont disponibles des corpus, qui sont des traces de ces activités, ceux-ci peuvent servir de ressource pour construire, à l'aide des outils de l'ingénierie des connaissances, les index, les représentations de ces activités.

8

RÉFÉRENCES
syntaxique et statistique pour la construction d'ontologies (éd.), Ingénierie ris, p. 243-255. à partir de textes », in 1. Charlet, M. Zacklad, G. Kassel & D. Bourigault des connaissances. Évolutions récentes et nouveaux défis, Eyrolles, Padu domaine par une Corpus-Based p. 71-78.

ASSAD! H. & BOURIGAULT D. [2000], « Analyses

AUSSENAC-GILLESN., BIÉBOWB. & SZULMANS. [2003], « Modélisation méthode fondée sur l'analyse Thesaurus Construction Workshop de corpus », in cet ouvrage. AUSSENAC-GILLES N. & B OURIGAULTD. [2000], « The Th(IC)2 for Indexing WWW Documents on Ontologies EKA W'2000,

Initiative: »,1937,

», in R. Dieng & O. Corby (éd.),

and Texts, Springer, «LNAI

3 En médecine, l'initiative américaine UMLS - Unified Medical Langage System - (Lindbergh & Humphreys [1990]) a abouti à ce jour à l'élaboration d'un «métathésaurus» contenant plus de 1 400000 termes, correspondant à plus de 800000 concepts terminologiques (c'est-à-dire en l'ayant normalisé en un thésaurus à termes préférentiels). Ce travail donne une idée des efforts à faire pour indexer un domaine complexe. Dans ce cadre, le rapport entre le linguistique et le formel dans ce type de thésaurus a été discuté par Charlet et al. [1996]. 4 Nous ne discutons pas ici d'un des principaux sujets du Web sémantique, qui porte sur les langages
d'indexation (représentation d'ontologies) et de description de services Web.

45

2

BOURIGAUL

T & CHARLET

AUSSENAC-GILLES N. & CONDAMINESA. [1998], « Bases de connaissances terminologiques : enjeux pour la consultation documentaire », Actes des im Journées du chapitre français de l'iSKO, Lille. BACHIMONT B. [2000], «Engagement réalisation G. Kassel d'ontologies & D. Bourigault sémantique et engagement ontologique: Évolutions conception récentes et et en ingénierie des connaissances », in J. Charlet, M. Zacklad,

(éd.), ingénierie

des connaissances.

nouveaux défis, Eyrolles, Paris, p. 305-323. BENJAMINSV. R., FENSEL D. & GOMEZ-PÉREZ A. [1998], «Knowledge Ontologies », PAKM'98. BOURIGAULT D. [1994], l'acquisition LEXTER, un logiciel d'extraction de connaissances Management Through à

de terminologie.

Application

à partir de textes, thèse de doctorat, École des hautes étulinguistique pour l'analyse et structuration syntaxique de

des en sciences sociales, Paris. BOURIGAULT D. & FABRE C. [2000], «Approche corpus », in Cahiers de grammaire, gie. Application p. 129-150. à la construction n° 25, université Toulouse-Le d'une ontologie documentaire Mirail, p. 131-151. de terminolodu droit », in TAL, 43 (1), des connaisindexés

BOURIGAULT D. & LAME G. [2002], « Analyse distributionnelle

CHARLET J., ZACKLAD M., KASSEL G. & BOURIGAULTD. [2000] (éd.), ingénierie

sances. Évolutions récentes et nouveaux défis, Eyrolles, Paris, 632 p. CORYAISIERF., MILLE A. & PINON J.-M. [2000], « Recherche assistée de documents sur l'expérience Évolutions (RADIX) : mesures de similarité des épisodes de recherche (éd.), Ingénierie in J. Charlet, M. Zacklad, G. Kassel & D. Bourigault

sur le Web »,

des connaissances.

récentes et nouveaux défis, Eyrolles, Paris, p. 387-403. de connaissances dans un système de consultation du chapitre français de l'IsKO, d'une Tools technique », Actes des ire' Journées

GROS C. & ASSADI H. [1998], « Intégration de documentation Lille.

LE MOIGNO S., CHARLET 1., BOURIGAULTD. & JAULENTM.-C. [2002], «Construction ontologie dans le domaine de la réanimation chirurgicale », iC'2002, LINDBERGHD. A. B. & HUMPHREYS B. L. [1990], « The UMLS Knowledge for Building Better User Interfaces », in SCAMC'90, p. 121-155. Sources:

Rouen, p. 229-238.

46

CONSTRUCTION

D'UN INDEX THÉMATIQUE

DE L'INGÉNIERIE

DES CONNAISSANCES

ANNEXE
Extrait de l'index autour des entrées HTML, langage et XML. Le premier nombre du renvoi fait référence aux différents chapitres du livre correspondant chacun à un article. Quand un terme est premier pour un article, il référence l'article entier et est écrit en gras.
HTML
24-corva-3.3, 25-bruni-5.4 documents 24-corva-6.l, 25-bruni-4,

langage langage

-

-

voir

document

voir langage 03-talbi-4, 08-tchou
l3-beziv-2, 22-liebe-7, 35-roche-3

-

à objets

ARIADNE
d'interface

3S-roche
IDL l3-beziv-2

-

d'opérationalisation 08-tchou - de modélisation 04-reyna-6, OS-girar, 08-tchou 09-kasse - de règles de production - de représentation 04-reyna-3, 08-tchou-4.2, 09-kasse-3, l5-assad-4, 26-carri-3 19-bachi-3, 20-biebo-3,

-

DEF*
formel

09-kasse
04-reyna-2.3, 19-bachi-l, 19-bachi-2,

XML

-

20-biebo-l, 20-biebo-3 HTML 25-bruni-4.l JAVA 09-kasse-7

-

LISA
OCL

10-jacob
02-durib-4.2

l3-beziv-7

SMECI

XML l3-beziv-5 ZOLA 08-tchou

l3-beziv-5 langage voir langage

-

47

Modélisation du domaine par une méthode fondée sur l'analyse de corpus
Nathalie Aussenac-Gilles
118, route de Narbonne, IRIT, université Toulouse III 31062 Toulouse cedex 4 www.iritfr Nathalie.Aussenac-GiUes@irit.fr

Brigitte Biébow
LlPN, université Paris XIII avo J.-B,-Clément, 93430 Villetaneuse http://www.lipn.univ-paris13.fr Brigitte.Biebow@lipn.univ-paris13.fr

Sylvie Szulman
LlPN, université Paris XIII Sylvie.Szulman@lipn.univ-paris13.fr

RÉSUMÉ: es nombreux travaux actuels sur L les ontologies et modèles de domaine, justi~ fiés par la perspective de leur réutilîsabilité, proposent très peu de solutions aux pro~ blèmes pratiques de recueHet de structura~ Hon de ces connaissances. Cet article pfO~ pose une méthode de construction de modèles de domaine ou d'ontologies qui a pour originalité de se fonder sur une analyse de corpus utilisant des principes linguistiques et des logiciels de traitement automatique de la langue. Cette démarche se veut un complément efficace et précis aux méthodes classiques de modélisation du domai.ne à partir d'expertises individuelles.
MOTSCLÉS: Construction d'ontologies
Terminologie

ABSTRACT: numerous current works on The ontologies and domain models., motivated by their possible reusability, suggest very few solutions to the practical issues raised by knowledge acquisition and structuring. This paper proposes a method to build ontologies and domain models, the originality of which is to rely on a corpus analysis based on linguistic principles and Natural Language Processing tools. This process can be seen as an efficient and precise complementary means to classical approaches for domain mOdelling from indÎvidualexpertise.

- Acqui-

sition de connaissances à partir de textes

-

KEYWORDS:Ontology
Acquisition from Texts

Design-

Knowledge

-

Terminology

49

3

AUSSENAC-GILLES,

BIËBOW

& SZULMAN

1

INTRODUCTION

La modélisation de connaissances du domaine d'une application a fait l'objet de nombreux travaux ces dix dernières années au travers des recherches sur les ontologies. Toutes les difficultés liées à la construction de ces modèles sont cependant loin d'être résolues. À notre connaissance, les problèmes difficiles comme la sélection des concepts, le choix de leurs propriétés et de leurs relations, leur regroupement, l'influence de l'application dans ces choix ou encore la gestion de la masse des connaissances sont peu mentionnés. La réutilisation a été mise en avant comme solution au problème de la construction d'ontologies. Des études se sont récemment orientées soit vers l'acquisition automatique de connaissances par des techniques d'apprentissage et de fouille de données, soit vers l'intégration d'ontologies avec les méthodes de résolution de problèmes. Depuis 1995, de nouvelles propositions d'acquisition de connaissances à partir de textes ouvrent des voies prometteuses pour la construction d'ontologies. Elles utilisent des logiciels de traitement automatique des langues, des ressources lexicales générales (Wordnet) ou spécifiques (thésaurus) et des algorithmes d'apprentissage pour automatiser la recherche de concepts et de relations d'un domaine. Dans l'esprit de ce courant, nous défendons une approche reposant sur la linguistique de corpus pour aider le concepteur. Cette méthode s'appuie sur des choix novateurs, représentatifs du courant français de travaux à la convergence entre terminologie, linguistique, ingénierie des connaissances et intelligence artificielle. Ce courant, animé au sein du GDR-I31 et de l'AFIA2par le groupe TIA3, dont les auteurs font partie, s'appuie sur les principes suivants:

. .

Partir de textes du domaine comme sources de connaissances: ils constituent un support tangible, rassemblant des connaissances stabilisées qui servent de référence et améliorent la qualité du modèle final; Enrichir le modèle conceptuel d'une composante linguistique: l'accès aux termes et aux textes qui justifient la définition des concepts garantit une meilleure compréhension du modèle;

1 Groupe de recherche
2

I3 (Information

- Interaction

- Intelligence).

Association française d'intelligence artificielle. 3 Terminologie et intelligence artificielle (http://www.biomath.jussieu.fr/TIAI). 50

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.