7 jours d'essai offerts
Cet ouvrage et des milliers d'autres sont disponibles en abonnement pour 8,99€/mois




AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

D’autre part, toute contrefaçon, plagiat, reproduction
illicite encourt une poursuite pénale.


➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm ´D´epartement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
Analyses formelle et relationnelle de
concepts pour la construction
d’ontologies de domaines `a partir de
ressources textuelles h´et´erog`enes
`THESE
pr´esent´ee et soutenue publiquement le 2009
pour l’obtention du
Doctorat de l’universit´e Henri Poincar´e – Nancy 1
(sp´ecialit´e informatique)
par
Rokia Bendaoud
Composition du jury
Rapporteurs : Pierre Zweigenbaum Directeur de Recherche, CNRS, ORSAY
Franc¸ois Jacquenet Professeur, Universit´e de Saint-Etienne
Examinateurs : Jean-Marie Pierrel Professeur, l’Universit´e Henri Poincar´e
Karell Bertet Maitre de Conf´erences, Universit´e de La Rochelle
Amedeo Napoli Directeur de recherche, CNRS, Nancy
Yannick Toussaint Charg´e de recherche, INRIA, Nancy
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503Mis en page avec la classe thloria.Itenaercienaents
Je tiens à remercier en tout premier lieu Amedeo Napoli, qui a accepté d'être mon directeur
de thèse. Je lui suis particulièrement reconnaissante pour ses conseils méthodologiques et ses
qualités scientifiques qui m'ont été très précieux. Je le remercie aussi de m'avoir acceuillis au sein
de l'équipe ORPAILLEUR.
Merci à Yannick Toussaint, qui a co-encadré cette thèse pour ses encouragements, son soutien,
son aide pour mes problèmes administratifs ainsi que pour toute l'attention qu'il a porté à mon
travail.
Merci à Jean-Marie Pierrel de m'avoir fait l'honneur de présider le jury de thèse. A François
Jacquenet et à Pierre Zweigenbaum pour avoir accepté de rapporter cette thèse. Un grand merci
à Karell Bertet et à Pierre pour leurs nombreux commentaires très pertinents qui
ont permis d'améliorer ce mémoire.
Je tiens aussi à remercier mes experts: Merci aux astronomes du laboratoire d'astronomie de
Strasbourg: Andrea Preite-Martinez, Pascal Dubois et Soizick Lesteven pour m'avoir fourni le
corpus pour mes expérimentations et pour avoir analysé les résultats. Merci aussi aux membres
de l'INIST : Claire François, Francoise Tisserand-Bedri et Bernard Taliercio pour avoir accepté
d'expertiser mon travail en microbiologie et de m'avoir accordé plusieurs entretiens.
Aux membres de l'équipe ORPAILLEUR: Nizar, Fadi, Julien, Zaineb, Adrien, Laszlo et tout
particulièrement au meilleur camarade de bureau Jean-François Mari. Merci aussi à Marie­
Dominique Devignes, Malika Smail-Tabbone et Vincent Leroux pour avoir répondu à mes ques­
tions en microbiologie et en chimie en m'expliquant la différence entre gène, gènome et protéine...
A Bertrand Delecroix, pour sa collaboration, son aide précieuse et ses conseils professionnels et
personnels :)
A mes amis par ordre alphabétique : à ma filleule de coeur Ekatharina et à sa maman Alex.
A Hana, ma petite soeur que j'adore. A ma meilleure amie Hanane. A Hejer pour son soutien et
ses papotages pendant des heures. A mon italien préféré Ignazio pour m'avoir écouté, conseillé
et soutenu. A mon ami Nadjib pour les sorties à Alger et les fous rires sur le net. A Najouta, une
amir qui a toujours était présente dans les moments de doute. A Rmikia, ses histoires farfelues et
ses décisions radicales. A ma binome de coeur Samira. A ma chère amie Sandrine qui m'a acceuilli
en france, m'a appris la diversité culturelle et l'ouverture d'esprit. A mon voisin, ami, collegue
pour m'avoir ouvert la porte de sa famille avec ses adorableset confident Stéphane. A Sawsan,
enfants: Nasser, Raheeg et Fatouma, son mari et de m'avoir fait découvrir «El Mansef». Et
enfin, à Yves et Hatem pour les repas amusants, les jeux et la mauvaise foie! !!
ma famille et plus particulièrement à mes chers parents, qui n'ont cessé de m'encouragerA
et de me remonter le moral. A mon frère Abder et à sa petite princesse Inès, à mon petit frère
Sofiane et ses coups de fils amusants et encourageants et à ma soeur Zohra et à mes deux anges
Chakibo et Momo. A mon cousin Djilali pour ses chansons et ses papotages.
Aux familles Meilender et Ferry pour m'avoir acceuilli aussi gentillement dans leur famille.
A mon Tom, merci d'avoir toujours été là.11A mes parents et à Tom.
IIIIVTable des matières
Chapitre 1 Introduction générale 1
1.1 Contexte de travail . . . . . . 1
1.2 Donnée, information et connaissance 1
1.3 Des données aux connaissances 2
1.4 Problématique de la thèse ... 3
1.5 Approches et principales contributions de la thèse. 4
1.6 Domaines d'application 5
1.6.1 L'astronomie .. 5
1.6.2 La microbiologie 5
1.7 Organisation de la thèse 6
Chapitre 2 Un monde aux ressources hétérogènes 9
2.1 Ressources hétérogènes. 9
2.1.1 Corpus de textes 10
2.1.2 Thésaurus.... 12
2.1.3 Base de données 13
2.1.4 Ontologie 15
2.1.5 Bilan... 17
2.2 Guide des méthodologies de construction d'ontologies. 17
2.2.1 Identification du but de d'une ontologie 18
2.2.2 Caractéristiques d'une méthodologie 18
2.3 Langages du Web sémantique . . . . 21
2.3.1 Les frameworks RDF et RDFS 23
2.3.2 Logiques de descriptions 25
2.3.3 Web Ontology Language 26
2.3.4 Les environnements de construction d'ontologies et les outils de raisonnement 30
Chapitre 3 Extraction de connaissances 31
3.1 Processus d'extraction de 32
vTable des matières
3.1.1 Processus d'extraction de connaissances à partir de bases de données 33
3.1.2 de à partir de textes . . . . 36
3.2 Méthodes d'extraction de connaissances à partir de ressources textuelles 39
3.2.1 Méthodes d'extraction de connaissances à partir de thésaurus, de bases de
données ou d'ontologies déjà existantes. . . . . . . . . . . . . 39
3.2.2 Détection des termes du domaine à partir de corpus de textes 39
3.2.3 Identification de descripteurs binaires de termes à partir de corpus de textes 40
3.2.4 de relations transversales entre termes à partir de corpus de
textes . . . . . . . . . . 40
3.2.5 Les méthodes de fouille 41
3.3 Analyse formelle de concepts et analyse relationnelle de concept 42
3.3.1 Ensemble ordonné 43
3.3.2 Treillis....... 43
3.3.3 Analyse formelle de concepts 44
3.3.4 Apposition de contextes . . . 47
3.3.5 Analyse Relationnelle de Concepts 50
3.3.6 Échelonnage relationnel . . . . . . 52
3.3.7 Autres extensions de l'analyse formelle de concepts 53
3.4 Classification des méthodologies de construction d'ontologie avec l'AFC 54
3.5 Conclusion................................ 56
Chapitre 4 Méthodologie Pactole : Prétraitements des ressources 59
4.1 La méthodologie PACTOLE. . . . . . . . . . . . . . . 60
4.1.1 Caractéristiques de la méthodologie PACTOLE 60
4.1.2 Positionnement de la 61
4.1.3 Le processus PACTOLE 62
4.2 Descripteurs d'objets . . . . . 64
4.2.1 Descripteur d'objets 1 : Les classes d'objets 64
4.2.2 2 : Les attributs binaires 65
4.2.3 Descripteur d'objets 3 : Les relationnels 65
4.3 Prétraitement des corpus de textes 66
4.4 Détection des instances. . . . . . . 66
4.4.1 Détection des instances dans le domaine de l'astronomie 66
4.4.2 des dans le de la microbiologie 68
4.5 Identification des classes d'objets . . . . . . . . . . . . . . . . . . . 69
4.5.1 Identification des classes d'objets dans le domaine de l'astronomie. 70
4.5.2 des classes dans le de le microbiologie. 70
VI4.6 Identification des attributs binaires . . . . . . . . . 72
4.6.1 L'analyseur syntaxique STANFORD PARSER 73
4.6.2 Identification des attributs binaires en astronomie. 74
4.6.3 des en microbiologie 76
4.7 Identification des attributs relationnels 77
4.7.1 Le logiciel GATE . . . . . . . . 77
4.7.2 Identification des attributs relationnels dans le domaine de la microbiologie 78
4.8 Conclusion........................................ 82
Chapitre 5 Méthodologie Pactole Extraction de connaissances à partir de res-
sources 83
5.1 Construction du schéma d'ontologie dans le domaine de l'astronomie avec Pactole 84
5.1.1 Construction d'un treillis de concepts à partir des classes d'objets. 84
5.1.2 d'un treillis à partir des attributs binaires 85
5.1.3 Affectation d'attributs binaires à des classes d'objets .. 86
5.2 Construction du schéma d'ontologie dans le domaine de la microbiologie avec Pactole 87
5.2.1 Construction d'un treillis à partir des classes d'objets .. 88
5.2.2 d'un treillis à partir des attributs binaires 88
5.2.3 Affectation d'attributs binaires à des classes d'objets 88
5.2.4 Construction du treillis relationnel . . . . . . . . . . 90
5.2.5 Extraction d'unités de connaissances en microbiologie 94
5.3 Passage du schéma d'ontologie à une ontologie formelle .... 96
5.3.1 La représentation des concepts formels en logique de descriptions FLE 96
5.3.2 Implémentation de la représentation des concepts formels en OWL . 98
5.3.3 Raisonnement avec les concepts de l'ontologie 100
Travaux similaires utilisant l'AFC5.4 106
5.5 Discussion . . . . . . . . . . . . . 107
Chapitre 6 Expérimentations et évaluation 109
6.1 Evaluation du processus PACTOLE dans le domaine de l'astronomie 110
6.1.1 Construction de treillis de concepts à partir de corpus de textes 110
6.1.2 de treillis de à partir de la hiérarchie source 113
6.1.3 Correspondance entres les deux hiérarchies de concepts. 113
6.1.4 Affectation des attributs binaires aux classes d'objets. . 115
6.2 Evaluation du processus PACTOLE dans le domaine de la microbiologie 115
6.2.1 Construction des treillis de concepts à partir des bases de données et des
corpus de textes 116
vu