La lecture à portée de main
Description
Sujets
Informations
Publié par | dumas_ccsd |
Publié le | 01 juin 2010 |
Nombre de lectures | 67 |
Langue | Français |
Poids de l'ouvrage | 2 Mo |
Extrait
CONSERVATOIRE NATIONAL DES ARTS ET METIERS
CENTRE REGIONAL RHÔNE-ALPES
CENTRE D'ENSEIGNEMENT DE GRENOBLE
___________________________________________________
MEMOIRE
présenté par Cédric Gueydan
en vue d'obtenir
LE DIPLÔME D'INGENIEUR C.N.A.M.
en INFORMATIQUE
________________________
XeuTL : un outil ETL pour l’intégration de données
Soutenu le 30 juin 2010
________________________
JURY
Président : M. Eric Gressier-Soudan
Membres : M. Jean-Pierre Giraudin
M. André Plisson
M. Mathias Voisin-Fradin
Mme Ana Simonet
M. Michel Simonet
dumas-00523431, version 1 - 5 Oct 2010
ii
dumas-00523431, version 1 - 5 Oct 2010
CONSERVATOIRE NATIONAL DES ARTS ET METIERS
CENTRE REGIONAL RHÔNE-ALPES
CENTRE D'ENSEIGNEMENT DE GRENOBLE
___________________________________________________
MEMOIRE
présenté par Cédric Gueydan
en vue d'obtenir
LE DIPLÔME D'INGENIEUR C.N.A.M.
en INFORMATIQUE
________________________
XeuTL : un outil ETL pour l’intégration de données
Soutenu le 30 juin 2010
________________________
Les travaux relatifs à ce mémoire ont été effectués au sein de l‟équipe OSIRIS du
laboratoire TIMC-IMAG de l'Université Joseph Fourier sous la direction de Ana et
Michel Simonet.
iii
dumas-00523431, version 1 - 5 Oct 2010
iv
dumas-00523431, version 1 - 5 Oct 2010Remerciements
Je désire tout d‟abord remercier les membres du jury :
M. Eric Gressier-Soudan, Professeur au Conservatoire National des Arts et
Métiers, qui me fait l‟honneur de présider le jury ;
M. Jean-Pierre Giraudin, Professeur à l‟Université Pierre Mendès-France et
Responsable pédagogique et scientifique du 3e cycle d‟ingénieur CNAM en
informatique à Grenoble ;
M. André Plisson, Directeur du Conservatoire National des Arts et Métiers de
Grenoble ;
M. Mathias Voisin-Fradin, Sous-directeur du CNAM de Grenoble.
Je tiens ensuite à remercier tout particulièrement Ana Simonet, Maître de Conférences à
l‟UPMF, et M. Michel Simonet, chercheur au CNRS et responsable de l‟équipe OSIRIS au
laboratoire TIMC, pour m‟avoir accueilli au sein de leur équipe et m‟avoir soutenu tout au
long de la réalisation de ce travail.
J‟adresse aussi mes remerciements à tous les membres de l‟équipe OSIRIS que j‟ai côtoyés
durant mon stage.
v
dumas-00523431, version 1 - 5 Oct 2010
dumas-00523431, version 1 - 5 Oct 2010Table des matières
1 INTRODUCTION .............................................................................................................. 1
1.1 Contexte ......................... 1
1.2 Motivations ..................... 2
1.3 Objectifs du stage ........................................................................................................... 2
1.4 Organisation du mémoire ............................... 3
2 ETAT DE L‟ART ............................................................................................................... 5
2.1 Motivation ...................... 5
2.2 L‟intégration de données ................................................................................................ 6
2.2.1 Les approches ....... 6
2.2.2 L‟approche virtuelle ............................. 6
2.2.2.1 Système de bases de données fédérées ......................................................... 6
2.2.2.2 Systèmes à base de médiateur ....................................... 6
2.2.2.2.1 Architecture .............................................................. 7
2.2.2.2.2 La problématique de l‟approche médiateur .............. 9
2.2.2.2.3 Lien entre schéma global et schémas locaux .......... 10
2.2.2.2.4 Reformulation de requête ....................................................................... 11
2.2.2.2.5 Approche GAV et approche LAV .......................... 12
2.2.3 L‟approche matérialisée ..................................................................................... 13
2.2.3.1 Généralités .................................. 13
2.2.3.2 L‟entrepôt de données ................. 14
2.2.3.3 Différences entre bases de données standard et entrepôts de données ....... 15
2.2.4 Comparaison des approches ............................................................................... 16
2.2.5 Autres axes de recherche .................... 19
2.2.5.1 Les ontologies ............................................................................................. 19
2.2.5.1.1 Introduction ............................ 19
2.2.5.1.2 Le rôle des ontologies ............................................................................. 19
2.2.5.1.3 Les techniques liées aux ontologies ........................ 20
2.2.5.1.4 Conclusion .............................................................................................. 20
2.2.5.2 Le web sémantique...................................................................................... 21
2.2.5.3 Les architectures P2P .................. 21
2.3 Les ETL ........................................................ 22
2.3.1 Introduction ........................................................................................................ 22
2.3.2 Historique ........... 22
2.3.3 Caractéristiques et fonctionnalités...... 23
2.3.3.1 Les phases d‟un processus ETL .................................................................. 23
2.3.3.1.1 Extraction ................................ 23
2.3.3.1.2 Transformation ....................... 23
2.3.3.1.3 Chargement ............................. 23
ii
dumas-00523431, version 1 - 5 Oct 20102.3.3.1.4 Nettoyage ................................................................................................ 24
2.3.3.2 Volumétrie des données .............. 24
2.3.3.3 Mode batch .. 24
2.3.3.4 Cas de l‟entrepôt de données ...... 24
2.3.3.4.1 Marquage et datation des données .......................................................... 24
2.3.3.4.2 Réalimentation ........................................................ 24
2.3.3.4.3 Gestion des performances ....................................... 25
2.3.3.4.4 Gestion des dysfonctionnements ............................ 25
2.3.4 Marché actuel ..................................................................... 25
3 L‟OUTIL XEUTL ............................................. 27
3.1 Objectifs ....................................................................................... 27
3.2 Fonctionnement général ............................................................... 27
3.2.1 Définition d‟un processus ETL .......................................... 28
3.2.2 Exécution d‟un processus ETL........................................... 29
3.3 Principales fonctionnalités ........................................................................................... 30
3.3.1 Connexion et extraction du schéma physique des bases de données ................. 30
3.3.2 Etablissement des correspondances entre les schémas sources et cible ............. 30
3.3.3 Extraction des données des bases sources au format XML................................ 30
3.3.4 Chargement des données dans la base cible ....................................................... 30
3.4 Contraintes ................................................................................... 31
3.4.1 Indépendance vis-à-vis des systèmes de gestion de bases de données utilisés .. 31
3.4.2 Volume des données à traiter ............................................. 31
3.4.3 Automatisation des processus ETL .................................... 31
3.4.4 Transport de données ......................................................... 31
3.4.5 Facilité de prise en main ..................................................... 31
4 LES CORRESPONDANCES ........................................................... 33
4.1 Les correspondances « simples » ................................................. 33
4.1.1 Correspondances atomiques ............................................... 34
4.1.2 Correspondances de type calcul ......................................... 35
4.1.3 Correspondances de type valeur fixe.................................. 36
4.1.4 Correspondances de type transtypage ................................ 37
4.1.5 Correspondances de type clé de substitution ...................................................... 38
4.1.6 Correspondances de type troncature... 40
4.2 Les