Lightweight information integration through partial mapping and query reformulation [Elektronische Ressource] / Rodolfo Stecher

-

English
166 pages
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Lightweight InformationIntegration through PartialMapping and QueryReformulationVon der Fakult at fur Elektrotechnik und Informatikder Gottfried Wilhelm Leibniz Universit at Hannoverzur Erlangung des Grades einesDoktors der NaturwissenschaftenDr. rer. nat.genehmigte DissertationvonIng. Inf. Rodolfo Stechergeboren am 14.06.1972, in Asunci on, Paraguay2010Referent: Prof. Dr. techn. Wolfgang NejdlKorreferent: Prof. Dr. Wolf-Tilo BalkeTag der Promotion: 04. Juni 2010AbstractThe growing amount of structured information becoming available, fosteredby the advent and development of e.g. the Semantic Web and the Web 2.0approaches, raises the need for (semi-)automatic, exible and adaptableintegration solutions. The e ort invested into this partially manually cre-ated content can be leveraged by re-use and integration, so that additionalcommunities of users can take advantage of heterogeneous content createdby or for a speci c community. The implicit inclusion of semantics (byusing ontologies) in the storage of such contents or their automatic discov-ery after creation, enables such an integration scenario. This work dealswith the exible integration of heterogeneous sources of information storedusing Semantic Web standards (e.g. RDF/OWL) in a pay-as-you-go fash-ion (i.e. on a best e ort basis based on already available information andimproving integration over time).

Sujets

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 8
Langue English
Poids de l'ouvrage 1 Mo
Signaler un problème

Lightweight Information
Integration through Partial
Mapping and Query
Reformulation
Von der Fakult at fur Elektrotechnik und Informatik
der Gottfried Wilhelm Leibniz Universit at Hannover
zur Erlangung des Grades eines
Doktors der Naturwissenschaften
Dr. rer. nat.
genehmigte Dissertation
von
Ing. Inf. Rodolfo Stecher
geboren am 14.06.1972, in Asunci on, Paraguay
2010Referent: Prof. Dr. techn. Wolfgang Nejdl
Korreferent: Prof. Dr. Wolf-Tilo Balke
Tag der Promotion: 04. Juni 2010Abstract
The growing amount of structured information becoming available, fostered
by the advent and development of e.g. the Semantic Web and the Web 2.0
approaches, raises the need for (semi-)automatic, exible and adaptable
integration solutions. The e ort invested into this partially manually cre-
ated content can be leveraged by re-use and integration, so that additional
communities of users can take advantage of heterogeneous content created
by or for a speci c community. The implicit inclusion of semantics (by
using ontologies) in the storage of such contents or their automatic discov-
ery after creation, enables such an integration scenario. This work deals
with the exible integration of heterogeneous sources of information stored
using Semantic Web standards (e.g. RDF/OWL) in a pay-as-you-go fash-
ion (i.e. on a best e ort basis based on already available information and
improving integration over time). It tackles three important integration
aspects: 1) The computation of initial mappings between the di erent con-
tent structures, expressed using ontologies, by employing a combination of
lexical-, structure-, and logic-based approaches; 2) The on-the- y reformu-
lation of user queries, so that they can be executed on sources which are
structured di erently, by employing the available mappings in combination
with wildcard-based relaxation rules for unknown mappings, together with a
strategy for improving and learning mappings; and 3) The ranking of the re-
sults based on the con dence that a reformulated query will answer exactly
what was requested in the original query. This thesis presents therefore
an approach for lightweight information integration of structured sources of
data. Comprehensive evaluations have been performed for the steps pre-
sented above employing real world data sets to show their feasibility and
applicability.
Keywords: Information Integration, Query Reformulation, Query Ranking.Zusammenfassung
Die wachsende Anzahl im Web verfugbarer, strukturierter, heterogener In-
halte, die von Individuen oder Gruppen erstellt werden, erfordert fexible
und adaptive Datenintegrationsl osungen, um eine breite Wiederverwendung
dieser Inhalte zu erleichtern. Die vorliegende Arbeit stellt einen Ansatz zur
fexiblen Integration heterogener strukturierte Inhalte vor. Bei der Art des
gew ahlten Ansatzes (\Pay as you go") wird dabei schrittweise die Integra-
tionsqualit at verbessert, da neue Erkenntnisse zu Inhaltsbeziehungen dy-
namisch in den Integrationsprozess eingebaut werden. In dieser Arbeit wer-
den Inhalte zugrunde gelegt, welche durch Ontologien beschrieben sind. Der
entwickelte Integrationsansatz konzentriert sich auf drei Herausforderungen:
1) Die Berechnung von Abbildungen zwischen Ontologien, welche die unter-
schiedlichen Inhaltsstrukturen beschreiben, werden anhand einer Kombina-
tion von lexikalischen, strukturellen und logischen Methoden berechnet. 2)
Eine dynamische Umformung von Benutzeranfragen wird unter Beruc ksich-
tigung der bekannten Abbildungen zwischen den Ontologien und mit Hilfe
von platzhalterbasierten Regeln durchgefuhrt. Diese Umformung wird mit
einer Strategie zur dynamischen Verbesserung der existierenden Abbildun-
gen kombiniert. 3) Die Anfrageergebnisse werden auf der Basis der Exak-
theit der Umformulierung sortiert (Ranking). Diese Sortierung verwendet
die Wahrscheinlichkeit, dass eine umge anderte Anfrage (trotzdem) korrekte
Antworten im Sinne der Ursprungsanfrage liefert. Diese Arbeit pr asentiert
somit einen fexiblen und leichtgewichtigen Ansatz zur on-the- y Integra-
tion von heterogen strukturierten Inhalten. Evaluationen, die fur die oben
vorgestellte Schritte mit realen Daten durchgefuhrt worden sind, zeigen die
Realisierbarkeit und Anwendbarkeit des Ansatzes.
Schlagw orter: Informationsintegration, Anfragenub ersetzung, Anfragenran-
gordnung.Acknowledgements
I would like to thank my mentor Claudia Niederee for their help, support
and guidance during the development of my research, as well as my supervi-
sor Wolfgang Nejdl for guiding me with valuable comments and showing me
the way to excellence in research. I also thank Paolo Bouquet for their help,
fruitful discussions and support in the rst stages of my thesis, also com-
bined with tasty dinners and skiing activities on the Dolomite mountains.
To the masters student I supervised, Karoline Kirmse, who helped design
and implement the rst version of the matching module many thanks for her
e orts and dedication during that time. Many thanks also to all colleagues
with which I had the pleasure to interact, writing papers, discussing inter-
esting ideas or just spending some good times, and to all the friends who
gave me strength and helped me staying focused. Finally, the research pre-
sented here has been partially funded by the European projects Vikef (147)
and Nepomuk (102).viContents
List of Figures xiii
List of Tables xv
1 Introduction and Motivation 1
1.1 Social Knowledge Spaces . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Pay-As-You-Go Integration . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Lightweight Information Integration Approach Overview . . . . . . . . . 4
1.4 Structure of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Framing the Problem 9
2.1 Towards Pay-as-you-go Information Integration . . . . . . . . . . . . . . 10
2.2 Information Integration Strategies . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 General Integration Strategies . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Common Steps to Information Integration . . . . . . . . . . . . . 13
2.3 Dimensions of Information Integration . . . . . . . . . . . . . . . . . . . 14
2.4 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 General Terminology and De nitions . . . . . . . . . . . . . . . . 16
2.4.2 The Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3 Addressed Challenges . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Lightweight Information Integration Approach Overview . . . . . . . . . 20
2.5.1 Main Contributions . . . . . . . . . . . . . . . . . . . . . . . . . 22
3 Related Work 25
3.1 Information Integration Approaches . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Pay-As-You-Go Integration . . . . . . . . . . . . . . . . . . . . . 25
viiCONTENTS
3.1.2 Data Warehouses . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.3 Distributed Information Retrieval . . . . . . . . . . . . . . . . . . 28
3.1.4 Ontology-based Integration . . . . . . . . . . . . . . . . . . . . . 31
3.2 General Information Integration Steps . . . . . . . . . . . . . . . . . . . 32
3.2.1 Resource Description . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Schema Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.3 User Query Formulation . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.4 Query Reformulation . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.5 Resource Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.6 Results Handling . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Mapping Ontologies 35
4.1 Related Work on Mappings . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.1 Schema Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1.1 Local as View vs. Global as View . . . . . . . . . . . . 38
4.1.1.2 Schema vs. ontology mapping . . . . . . . . . . . . . . 39
4.1.2 Ontology Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.3 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Mapping Approach Overview . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.1 De nitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Finding the Meaning of Elements . . . . . . . . . . . . . . . . . . . . . . 49
4.3.1 Analysis of the Labels . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.2 Computation of the Context . . . . . . . . . . . . . . . . . . . . 52
4.3.3 Disambiguating Word Senses . . . . . . . . . . . . . . . . . . . . 53
4.3.3.1 Determining the distance weight . . . . . . . . . . . . . 54
4.3.3.2 the relation weight . . . . . . . . . . . . . 54
4.3.3.3 Determining the type weight . . . . . . . . . . . . . . . 56
4.3.3.4 Computing the word sense score . . . . . . . . . . . . . 57
4.3.4 Representing the Meaning with a Logical Formula . . . . . . . . 59
4.3.4.1 Meaning of words as a logical formula . . . . . . . . . . 60
4.3.4.2 of elements as a logical formula . . . . . . . . 60
4.3.4.3 Example . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.5 Score of Element Senses . . . . . . . . . . . . . . . . . . . . . . . 62
viiiCONTENTS
4.4 Find Matching Elements in Di erent Ontologies . . . . . . . . . . . . . . 65
4.4.1 Determining the Candidate Sets . . . . . . . . . . . . . . . . . . 66
4.4.2 Determining the Semantic Relation . . . . . . . . . . . . . . . . . 66
4.4.3 Computing the Element Similarity . . . . . . . . . . . . . . . . . 68
4.4.3.1 Comparing two elements . . . . . . . . . . . . . . . . . 68
4.4.3.2 the modeling perspectives . . . . . . . . . . 70
4.4.3.3 Element similarity measure . . . . . . . . . . . . . . . . 72
4.4.4 Approximating the Semantic Relation Using Senses . . . . . . . 73
4.4.5 Structure-based Detection of the Semantic Relation . . . . . . . 74
4.4.6 Element Relations Computation . . . . . . . . . . . . . . . . . . 75
4.5 Experiments and Evaluations . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5.1 Testbed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5.2 Ontology Alignment Evaluation Initiative . . . . . . . . . . . . . 77
4.5.3 Evaluation parameters . . . . . . . . . . . . . . . . . . . . . . . . 79
4.5.4 Test Results 101 to 104 . . . . . . . . . . . . . . . . . . . . . . . 81
4.5.5 Test Results 201 to 210 . . . . . . . . . . . . . . . . . . . . . . . 81
4.5.6 Test Results 221-247 . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5.7 Test Results 301-304 . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5.8 OAEI Results Overview . . . . . . . . . . . . . . . . . . . . . . . 84
4.5.9 Hands-on Empirical Experience . . . . . . . . . . . . . . . . . . . 86
4.5.10 Experiment Conclusions . . . . . . . . . . . . . . . . . . . . . . . 87
5 Reformulating Queries to Query Di erent Sources 89
5.1 Related Work on Query Reformulation . . . . . . . . . . . . . . . . . . . 89
5.1.1 Query Rewriting . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.1.2 Query Relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.1.3 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.2 Query Reformulation Approach . . . . . . . . . . . . . . . . . . . . . . . 94
5.3 Query Rewriting and Substitution Rules . . . . . . . . . . . . . . . . . . 96
5.3.1 Required De nitions . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3.2 Mapping-based Substitution Rules . . . . . . . . . . . . . . . . . 98
5.3.3 Ontology-based Substitution Rules . . . . . . . . . . . . . . . . . 99
5.3.4 Wildcards Substitution Rules . . . . . . . . . . . . . . . . . . . . 99
ixCONTENTS
5.3.5 Combining Substitution Rules . . . . . . . . . . . . . . . . . . . . 102
5.3.6 Query Reformulation Process . . . . . . . . . . . . . . . . . . . . 102
5.3.7 Query Reformulation Example . . . . . . . . . . . . . . . . . . . 103
5.4 Re ning and Learning Mappings . . . . . . . . . . . . . . . . . . . . . . 104
5.5 Experiment and Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.5.1 Testbed: Ontologies and Data . . . . . . . . . . . . . . . . . . . . 105
5.5.2 Experiment Setup . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.5.3 Evaluation Results . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6 Ranking Reformulated Queries 115
6.1 Related Work on Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.1.1 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.2 Query Ranking Approach . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.2.1 Punishment Derived from Mappings . . . . . . . . . . . . . . . . 118
6.2.2t Derived from Relaxation . . . . . . . . . . . . . . . . 118
6.2.3 Ranking Function . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.2.4 Computing Ranking Example . . . . . . . . . . . . . . . . . . . . 121
6.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.3.1 Evaluation Setting . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.3.1.1 Information Sources . . . . . . . . . . . . . . . . . . . . 122
6.3.1.2 Initial Mappings . . . . . . . . . . . . . . . . . . . . . . 123
6.3.1.3 Queries . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.3.1.4 Ground Truth . . . . . . . . . . . . . . . . . . . . . . . 123
6.3.2 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.3.2.1 Parameter Finding . . . . . . . . . . . . . . . . . . . . . 124
6.3.2.2 Evaluating Precision at Top-K . . . . . . . . . . . . . . 125
6.3.2.3 Performance . . . . . . . . . . . . . . . . . . . . . . . . 126
7 Conclusions and Future Directions 127
7.1 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.3 Future Directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Appendix A: Short Curriculum Vitae 131
x