Cours DEA-III 2002(03) - Controle des  changements dans XML
22 pages
English

Cours DEA-III 2002(03) - Controle des changements dans XML

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
22 pages
English
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

zzzzzzzContrôle des Changements dans XMLObjectifsCours: Données semi structurées Comprendre la gestion de données DEA I3 : Information, Interaction, dynamiquesIntelligence À large échelle, cas d’un entrepôt de données Grégory Cobena du Web (Xyleme)http://www-rocq.inria.fr/verso/ À l’échelle du document XML, cas de la Gregory.Cobena@inria.fr gestion de versions20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 2Motivations: Motivations:à l’échelle du Web à l’échelle du documentDans quel cas trouve-t-on la notion de Le contrôle des changements, c’est changements?d’abord: Lorsque l’on gère différents documents, on étudie les Savoir découvrir des sources de données et changements inter-documentsdes documents XML, sur le Web ou sur un Exemple: Fichier XML décrivant deux modèles de Intranetvoitures, une Peugeot-307 et une 206 Mettre en place un suivi dans le temps de ces documents Lorsqu’on s’intéresse à l’évolution dans le temps d’un Extraire des connaissances sur ce qui document donnéchange: les documents, leurs propriétés, leur Exemple: Fichier XML décrivant un carnet d’adressescontenu20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 3 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 4Enjeux Plan du coursLes données semi structurées doivent Xylemeapporter une description plus précise Un entrepôt de données XML à large échelleque du simple texte, avec une Intégration de données du ...

Informations

Publié par
Nombre de lectures 29
Langue English

Extrait

z
z
z
z
z
z
z
Contrôle des Changements dans XML
Objectifs
Cours: Données semi structurées
Comprendre la gestion de données
DEA I3 : Information, Interaction, dynamiques
Intelligence
À large échelle, cas d’un entrepôt de données
Grégory Cobena du Web (Xyleme)
http://www-rocq.inria.fr/verso/ À l’échelle du document XML, cas de la
Gregory.Cobena@inria.fr gestion de versions
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 2
Motivations: Motivations:
à l’échelle du Web à l’échelle du document
Dans quel cas trouve-t-on la notion de Le contrôle des changements, c’est
changements?d’abord:
Lorsque l’on gère différents documents, on étudie les Savoir découvrir des sources de données et
changements inter-documentsdes documents XML, sur le Web ou sur un
Exemple: Fichier XML décrivant deux modèles de Intranet
voitures, une Peugeot-307 et une 206 Mettre en place un suivi dans le temps de ces
documents
Lorsqu’on s’intéresse à l’évolution dans le temps d’un Extraire des connaissances sur ce qui
document donné
change: les documents, leurs propriétés, leur
Exemple: Fichier XML décrivant un carnet d’adressescontenu
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 3 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 4
Enjeux Plan du cours
Les données semi structurées doivent Xyleme
apporter une description plus précise Un entrepôt de données XML à large
échelleque du simple texte, avec une
Intégration de données du Websémantique bien définie
Surveillance active des données du WebLa gestion des changements dans les
XML Diffdonnées semi structurées est encore
Représentation des changementsplus complexe que dans les BD
Détection des changementsrelationnelles.
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 5 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 6z
z
z
z
z
z
z
z
z
z
Organization
Première Partie: Xyleme 1. The Web and XML
2. Xyleme
3. Data Acquisition and Maintenance
4. XML Repository, Semantic Data
A Dynamic Warehouse for Integration and Query Processing
the XML data of the Web 5. Query Subscription
Conclusion
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 8
The Web today(Part I: Xyleme)
Terabytes of data1. The Web and XML
A lot of public pages
1 billion in [06/2000]
several millions of servers
Private web: not publicly available pages
Deep web: data hidden behind forms
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 10
HTML = Hypertext Language XML = Semistructured Data
<product-table>Ref Name Price
< product reference=”X23">The <b> X23 </b> new camera X23 Camera 359.99
<designation> camera </designation>Ref Name Price replaces the <b> X22 </b>. It R2D2 Robot 19350.00
<price unit=Dollars> 359.99 </price>X23 Camera 359.99 comes equipped with a flash Z25 PC 1299.99 <description> … </description>easyR2D2 Robot 19350.00 (worth by itself <i>53.99 $</i>) ... </product>
Z25 PC 1299.99 < product reference=”R2D2">hard and provides great quality for Information System
<designation> Robot </designation>only <i>359.99 $</i>.
<price unit=Dollars> 19350 </price>
Data + StructureInformation System <description> … </description>
...Semistructured: Text + presentation HTML </product-table>
more flexible
Where is the data ?
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 11 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 12z
z
z
z
z
z
z
z
z
z
z
z
XML : Tree Types (Part I: Xyleme)
2. A Dynamic Warehouse for product-table
the XML Data of the Web
product reference
pricedesignation description
Semantics and structure are in paths
product-table/product/reference
product-table/product/price
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 13
Xyleme Research Xyleme Company
Started September 2000Project Xyleme at INRIA (1999-2000) :
(25 employees end of 2001)Explore XML + Web + SGBD to make the Web a Knowledge Database
INRIA Market Challenges: Sophie Cluet: Databases (OQL…)
Few XML documents available on the Web (because Serge Abiteboul: semi-structured data + web
of weak software support) Guy Ferran: ex O Technology2
Company is focusing on private XML:Mannheim University
Guido Moerkotte Press, Editors, Financial Data, Biology…
Université d’Orsay Technology:
Marie Christine Rousset Scalability for large amount of data
CNAM Internet (+focus) / Intranet support
Dan Vodislav Monitoring and Version Management
Heterogeneous Data Integration
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 15 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 16
Architecture Functional Architecture
User Interface
Cluster of PCs
-------------------- I N T E R N E T -----------------------
Developed with Linux and C++
Web Interface Xyleme Interface
Communications
Change Control Semantic Module
local: Corba Acquisition Loader
& Crawler external: HTTP Query Processor
Distribution between autonomous
machines
Repository and Index Manager
Now Web Services
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 17 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 18z
z
z
z
z
z
z
z
z
z
z
z
(Part I: Xyleme)Architecture
3. Data Acquisition and
-------------------- I N T E R N E T ----------------------- Maintenance,
Change Control and Change Control and
Acquisition and Acquisition andSemantic Semantic
Maintenance Maintenance Page ImportanceIntegration Integration
E
T
Index Index IndexH
E
R
N
Loader |Query Loader |QueryE
T
Repository Repository Repositorry Repository
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 19
Goals Life Cycle of a page in Xyleme
Discover XML pages on the web that are The URL of D is discovered as a link in
of interest for customers another page (or published by a customer)
For this crawl the web (HTML+XML) The page scheduler decides to read D
Maintain them up to date The meta data of D is read
type, last_date_update...Do this under bounded resources:
The document D is loaded Memory for known URLs
Bandwidth The document D is re(read) regularly
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 21 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 22
Main Issues Page Importance
Loading of pages Definition: Important pages are linked to
we can load up to 5 millions of pages/day on by important pages
a standard PC Offline algorithm (used by Google)
main cost is Internet connection
Our Online algorithm
Metadata management (access to disk)
(M. Preda, S. Abiteboul, G. Cobena)
Page scheduling does not require to maintain graph information
decide which page to read or refresh next faster convergence with focused crawling
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 23 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 24z
z
z
z
z
z
z
z
z
z
(Part I: Xyleme) Querying Language
4. XML Repository:
Today: A mix of OQL and XQLSemantic Data Integration
We are currently moving to X-Query and Query Processing
(which is also a mix of OQL and XQL…)
Select boss/Name, boss/Phone
From comp in BusinessDomain,
boss in comp//Manager
Where comp/Product contains “Xyleme”
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 26
Web Heterogeneity Indexing
Semantic domains, e.g., cinema Standard inverted index
Many possible types for data in this domain, word → documents that contain this word
many DTDs Xyleme index
Semantic Integration word → elements that contain this word
document + element identifier one abstract DTD for the domain
gives the illusion that the system maintains an Goal: more work can be performed without
homogeneous database for this domain accessing data
1 domain = 1 abstract DTD
20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 27 20/12/2002 DEA I3 - Données semi-structurées - Grégory Cobéna 28
I.4.1 Xyleme:
Semantic Data Integration Data Integration
One application domain -- Several schemas
heterogeneous vocabulary and structure
Xyleme Semantic Integration
gives the illusion that the system maintains

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents