CONSERVATOIRE NATIONAL DES ARTS ET METIERS
124 pages
Français

CONSERVATOIRE NATIONAL DES ARTS ET METIERS

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
124 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Niveau: Supérieur, Master, Bac+5

  • mémoire


CONSERVATOIRE NATIONAL DES ARTS ET METIERS CENTRE REGIONAL RHÔNE-ALPES CENTRE D'ENSEIGNEMENT DE GRENOBLE ___________________________________________________ MEMOIRE présenté par Cédric Gueydan en vue d'obtenir LE DIPLÔME D'INGENIEUR C.N.A.M. en INFORMATIQUE ________________________ XeuTL : un outil ETL pour l'intégration de données Soutenu le 30 juin 2010 ________________________ JURY Président : M. Eric Gressier-Soudan Membres : M. Jean-Pierre Giraudin M. André Plisson M. Mathias Voisin-Fradin Mme Ana Simonet M. Michel Simonet du m as -0 05 23 43 1, v er sio n 1 - 5 O ct 2 01 0

  • membres de l?équipe osiris

  • centre d'enseignement

  • conservatoire national des arts

  • outil etl pour l'intégration de données


Sujets

Informations

Publié par
Publié le 01 juin 2010
Nombre de lectures 67
Langue Français
Poids de l'ouvrage 2 Mo

Extrait




CONSERVATOIRE NATIONAL DES ARTS ET METIERS


CENTRE REGIONAL RHÔNE-ALPES

CENTRE D'ENSEIGNEMENT DE GRENOBLE


___________________________________________________


MEMOIRE
présenté par Cédric Gueydan

en vue d'obtenir
LE DIPLÔME D'INGENIEUR C.N.A.M.
en INFORMATIQUE
________________________

XeuTL : un outil ETL pour l’intégration de données


Soutenu le 30 juin 2010
________________________

JURY

Président : M. Eric Gressier-Soudan

Membres : M. Jean-Pierre Giraudin
M. André Plisson
M. Mathias Voisin-Fradin
Mme Ana Simonet
M. Michel Simonet


dumas-00523431, version 1 - 5 Oct 2010
ii

dumas-00523431, version 1 - 5 Oct 2010



CONSERVATOIRE NATIONAL DES ARTS ET METIERS


CENTRE REGIONAL RHÔNE-ALPES

CENTRE D'ENSEIGNEMENT DE GRENOBLE


___________________________________________________


MEMOIRE
présenté par Cédric Gueydan

en vue d'obtenir
LE DIPLÔME D'INGENIEUR C.N.A.M.
en INFORMATIQUE
________________________

XeuTL : un outil ETL pour l’intégration de données



Soutenu le 30 juin 2010
________________________







Les travaux relatifs à ce mémoire ont été effectués au sein de l‟équipe OSIRIS du
laboratoire TIMC-IMAG de l'Université Joseph Fourier sous la direction de Ana et
Michel Simonet.
iii

dumas-00523431, version 1 - 5 Oct 2010
iv

dumas-00523431, version 1 - 5 Oct 2010Remerciements


Je désire tout d‟abord remercier les membres du jury :

M. Eric Gressier-Soudan, Professeur au Conservatoire National des Arts et
Métiers, qui me fait l‟honneur de présider le jury ;

M. Jean-Pierre Giraudin, Professeur à l‟Université Pierre Mendès-France et
Responsable pédagogique et scientifique du 3e cycle d‟ingénieur CNAM en
informatique à Grenoble ;

M. André Plisson, Directeur du Conservatoire National des Arts et Métiers de
Grenoble ;

M. Mathias Voisin-Fradin, Sous-directeur du CNAM de Grenoble.

Je tiens ensuite à remercier tout particulièrement Ana Simonet, Maître de Conférences à
l‟UPMF, et M. Michel Simonet, chercheur au CNRS et responsable de l‟équipe OSIRIS au
laboratoire TIMC, pour m‟avoir accueilli au sein de leur équipe et m‟avoir soutenu tout au
long de la réalisation de ce travail.

J‟adresse aussi mes remerciements à tous les membres de l‟équipe OSIRIS que j‟ai côtoyés
durant mon stage.

v

dumas-00523431, version 1 - 5 Oct 2010
dumas-00523431, version 1 - 5 Oct 2010Table des matières

1 INTRODUCTION .............................................................................................................. 1
1.1 Contexte ......................... 1
1.2 Motivations ..................... 2
1.3 Objectifs du stage ........................................................................................................... 2
1.4 Organisation du mémoire ............................... 3

2 ETAT DE L‟ART ............................................................................................................... 5
2.1 Motivation ...................... 5
2.2 L‟intégration de données ................................................................................................ 6
2.2.1 Les approches ....... 6
2.2.2 L‟approche virtuelle ............................. 6
2.2.2.1 Système de bases de données fédérées ......................................................... 6
2.2.2.2 Systèmes à base de médiateur ....................................... 6
2.2.2.2.1 Architecture .............................................................. 7
2.2.2.2.2 La problématique de l‟approche médiateur .............. 9
2.2.2.2.3 Lien entre schéma global et schémas locaux .......... 10
2.2.2.2.4 Reformulation de requête ....................................................................... 11
2.2.2.2.5 Approche GAV et approche LAV .......................... 12
2.2.3 L‟approche matérialisée ..................................................................................... 13
2.2.3.1 Généralités .................................. 13
2.2.3.2 L‟entrepôt de données ................. 14
2.2.3.3 Différences entre bases de données standard et entrepôts de données ....... 15
2.2.4 Comparaison des approches ............................................................................... 16
2.2.5 Autres axes de recherche .................... 19
2.2.5.1 Les ontologies ............................................................................................. 19
2.2.5.1.1 Introduction ............................ 19
2.2.5.1.2 Le rôle des ontologies ............................................................................. 19
2.2.5.1.3 Les techniques liées aux ontologies ........................ 20
2.2.5.1.4 Conclusion .............................................................................................. 20
2.2.5.2 Le web sémantique...................................................................................... 21
2.2.5.3 Les architectures P2P .................. 21
2.3 Les ETL ........................................................ 22
2.3.1 Introduction ........................................................................................................ 22
2.3.2 Historique ........... 22
2.3.3 Caractéristiques et fonctionnalités...... 23
2.3.3.1 Les phases d‟un processus ETL .................................................................. 23
2.3.3.1.1 Extraction ................................ 23
2.3.3.1.2 Transformation ....................... 23
2.3.3.1.3 Chargement ............................. 23
ii

dumas-00523431, version 1 - 5 Oct 20102.3.3.1.4 Nettoyage ................................................................................................ 24
2.3.3.2 Volumétrie des données .............. 24
2.3.3.3 Mode batch .. 24
2.3.3.4 Cas de l‟entrepôt de données ...... 24
2.3.3.4.1 Marquage et datation des données .......................................................... 24
2.3.3.4.2 Réalimentation ........................................................ 24
2.3.3.4.3 Gestion des performances ....................................... 25
2.3.3.4.4 Gestion des dysfonctionnements ............................ 25
2.3.4 Marché actuel ..................................................................... 25

3 L‟OUTIL XEUTL ............................................. 27
3.1 Objectifs ....................................................................................... 27
3.2 Fonctionnement général ............................................................... 27
3.2.1 Définition d‟un processus ETL .......................................... 28
3.2.2 Exécution d‟un processus ETL........................................... 29
3.3 Principales fonctionnalités ........................................................................................... 30
3.3.1 Connexion et extraction du schéma physique des bases de données ................. 30
3.3.2 Etablissement des correspondances entre les schémas sources et cible ............. 30
3.3.3 Extraction des données des bases sources au format XML................................ 30
3.3.4 Chargement des données dans la base cible ....................................................... 30
3.4 Contraintes ................................................................................... 31
3.4.1 Indépendance vis-à-vis des systèmes de gestion de bases de données utilisés .. 31
3.4.2 Volume des données à traiter ............................................. 31
3.4.3 Automatisation des processus ETL .................................... 31
3.4.4 Transport de données ......................................................... 31
3.4.5 Facilité de prise en main ..................................................... 31

4 LES CORRESPONDANCES ........................................................... 33
4.1 Les correspondances « simples » ................................................. 33
4.1.1 Correspondances atomiques ............................................... 34
4.1.2 Correspondances de type calcul ......................................... 35
4.1.3 Correspondances de type valeur fixe.................................. 36
4.1.4 Correspondances de type transtypage ................................ 37
4.1.5 Correspondances de type clé de substitution ...................................................... 38
4.1.6 Correspondances de type troncature... 40
4.2 Les

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents