Construction et utilisation d'une base de connaissances pharmacogénomique pour l'intégration de données et la découverte de connaissances, Construction and use of a pharmacogenomic knowledge base for data integration and knowledge discovery

Thesee - Adrien Coulet

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

209 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sous la direction de Marie-Dominique Devignes
Thèse soutenue le 10 octobre 2008: Nancy 1
Cette thèse porte sur l’utilisation d’ontologies et de bases de connaissances pour guider différentes étapes du processus d’extraction de connaissances à partir de bases de données (ECBD) et une application dans le domaine de la pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l’étape préliminaire de préparation et d’intégration des données à fouiller. Je propose pour guider cette étape une approche originale d’intégration de données qui s’appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d’une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d’extraction de connaissances. Je me suis d’abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j’ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l’extraction de connaissances directement à partir d’une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d’utiliser des algorithmes de fouille de données sur un ensemble d’assertions de la base de connaissances pharmacogénomique et d’expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.
-SNP
This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowledge Discovery in Databases (KDD) process in the domain of pharmacogenomics. Data related to this domain are heterogeneous, complex, and disseminated through several data sources. Consequently, the preliminary step that consists in the preparation and the integration of data is crucial. For guiding this step, an original approach is proposed, based on a knowledge representation of the domain within two ontologies in description logics : SNP-Ontology and SO-Pharm. This approach has been implemented using semantic Web technologies and leads finally to populating a pharmacogenomic knowledge base. As a result, data to analyze are represented in the knowledge base, which is a benefit for guiding following steps of the knowledge discovery process. Firstly, I study this benefit for feature selection by illustrating how the knowledge base can be used for this purpose. Secondly, I describe and apply to pharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledge discovery directly from knowledge bases. This method uses data mining algorithms over assertions of our pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge.
Source: http://www.theses.fr/2008NAN10047/document

Sujets

SNP

Informations

Publié par	Thesee
Nombre de lectures	79
Langue	Français
Poids de l'ouvrage	2 Mo

Extrait

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le
jury de soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors
de l’utilisation de ce document.

Toute contrefaçon, plagiat, reproduction illicite encourt une
poursuite pénale.

➢ Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm Departement de formation doctorale en informatique Ecole doctorale IAEM Lorraine
UFR STMIA
Construction et utilisation
d’une Base de Connaissances
pharmacogenomique
pour l’integration de donnees
et la decouverte de connaissances
THESE
presentee et soutenue publiquement le 10 octobre 2008
pour l’obtention du
Doctorat de l’universite Henri Poincare { Nancy 1
(specialite informatique)
par
Adrien Coulet
Composition du jury
Rapporteurs : Mohand-Sa d Hacid Professeur, Universite Claude Bernard, Lyon 1
Alain Viari Directeur de Recherche, INRIA
Examinateurs : Nacer Boudjlida Professeur, Nancy Universites
Marie-Dominique Devignes Chargee de Recherche, CNRS
Chantal Reynaud Universite Paris-Sud 11
Malika Sma l-Tabbone Ma^ tre de conference, Nancy Universites
Invites : Pascale Benlian Ma^ tre de conference - Praticien hospitalier,
Universite Pierre et Marie Curie, Paris 6
Amedeo Napoli Directeur de Recherche, CNRS
Laboratoire Lorrain de Recherche en Informatique et ses Applications | UMR 7503Mis en page avec la classe thloria.i
RemerciementsiiTable des matières
Table des ﬁgures vii
Liste des tableaux xi
Introduction 1
1 Des données aux connaissances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Des connaissances pour de nouvelles connaissances . . . . . . . . . . . . . . . . . . . . 5
3 La pharmacogénomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Le projet GenNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Approche et principales contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 Plan du manuscrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 Contexte biologique et applicatif 11
1 Génotype et phénotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 Déﬁnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Transcription et traduction : premières étapes de la déﬁnition d’un phénotype . . 11
1.3 Les relations génotype–phénotype . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Les sources de données et les vocabulaires contrôlés relatifs aux relations génotype–
phénotype . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Les variations génomiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Déﬁnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Les sources de données relatives aux variations génomiques . . . . . . . . . . . 15
2.3 Hétérogénéité des données relatives aux variations . . . . . . . . . 16
2.4 Les haplotypes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 La pharmacogénomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 Déﬁnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Les sources de données relatives à la pharmacogénomique . . . . . . . . . . . . 21
4 Intérêt de l’utilisation de connaissances en . . . . . . . . . . . . . 22
iiiiv Table des matières
2 Etat de l’art 23
1 Extraction de Connaissances à partir de Bases de Données – ecbd . . . . . . . . . . . . 23
1.1 Motivation et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.2 Préparation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Fouille de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4 Interprétation en unités de connaissances . . . . . . . . . . . . . . . . . . . . . 38
1.5 Réutilisation des unités extraites . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2 Représentation des connaissances et ontologies . . . . . . . . . . . . . . . . . . . . . . 40
2.1 La Représentation des Connaissances par Objets . . . . . . . . . . . . . . . . . 40
2.2 Les Logiques de Descriptions . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 Ontologies et Bases de Connaissances . . . . . . . . . . . . . . . . . . . . . . . 44
3 Utilisation des ontologies pour l’intégration de données hétérogènes . . . . . . . . . . . 49
3.1 Les systèmes d’intégration de données . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Problème d’hétérogénéité et intégration sémantique . . . . . . . . . . . . . . . . 52
3.3 Le mapping données–connaissances . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Utilisation des ontologies en bioinformatique : intégration de données et plus si
anités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Vers une intégration semi-automatique de sources . . . . . . . . . . . . . . . . . 58
4 Extraction de Connaissances guidée par les Connaissances du Domaine – eccd . . . . . 60
4.1 Préparation de données guidée par les connaissances . . . . . . . . . . . . . . . 60
4.2 Fouille de données guidée par les . . . . . . . . . . . . . . . . . 62
4.3 Interprétation guidée par les connaissances . . . . . . . . . . . . . . . . . . . . 64
3 Ontologies pour l’intégration de données en pharmacogénomique 67
1 Construction d’ontologie : méthodologie proposée et mise en œuvre . . . . . . . . . . . 67
1.1 Méthodologie de construction manuelle d’ontologies pour l’intégration de données 68
1.2 Construction d’une ontologie pour les variations génomiques : SNP-Ontology . . 73
1.3 d’une pour la pharmacogénomique : SO-Pharm . . . . . 79
2 Intégration de données guidée par une ontologie . . . . . . . . . . . . . . . . . . . . . . 85
2.1 Description générale de l’approche proposée . . . . . . . . . . . . . . . . . . . 85
2.2 Déﬁnition des mappings données–assertions . . . . . . . . . . . . . . . . . . . . 86
2.3 Description de l’interaction wrapper–médiateur . . . . . . . . . . . . . . . . . . 88
2.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3 Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.1 Intégration de données relatives aux variations génomiques : SNP-Converter . . 90
3.2 de pharmacogénomiques : iSO-Pharm . . . . . . . . . . . . 99
4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101v
4 Extraction de connaissances dans le contexte d’une Base de Connaissances 103
1 Sélection de données guidée par les connaissances du domaine . . . . . . . . . . . . . . 103
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
1.2 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
1.3 Expérimentation pour la découverte de relations génotype–phénotype . . . . . . 111
1.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2 Extraction de Connaissances à partir d’une Base de Connaissances – ecbc . . . . . . . . 118
2.1 Description générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.2 Application conjointe des Logiques de Descriptions et de l’Analyse de Concepts
Formels dans le contexte de l’ecbc . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Analyse des Assertions de Rôles – aar . . . . . . . . . . . . . . . . . . . . . . 121
2.4 Expérimentation en pharmacogénomique . . . . . . . . . . . . . . . . . . . . . 130
2.5 Travaux similaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Conclusion et perspectives 151
A Algorithme de recherche desRMN et desRMNR 153
B Constructeurs en ld 155
C Exemple de code OWL 159
D Modèle conceptuel de SO-Pharm 161
E Captures d’écrans de SNP-Converter 163
F Algorithme de parcours d’un graphe d’assertions 167
G Captures d’écrans du plugin de