Tracking domain knowledge based on segmented textual sources [Elektronische Ressource] / von Tobias Kalledat

humboldt-universitat_zu_berlin - Tobias Kalledat

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

349 pages

Deutsch

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	humboldt-universitat_zu_berlin
Publié le	01 janvier 2009
Nombre de lectures	23
Langue	Deutsch
Poids de l'ouvrage	10 Mo

Extrait

Tracking domain knowledge
based on segmented textual
sources
DISSERTATION
Zur Erlangung des akademischen Grades
doctor rerum politicarum
(Doktor der Wirtschaftswissenschaft)

eingereicht an der

Wirtschaftswissenschaftlichen Fakultät
der Humboldt-Universität zu Berlin
von
Dipl.-Kfm. Tobias Kalledat
(geb. am 29.02.1972 in Berlin)
Präsident der Humboldt-Universität zu Berlin:
Prof. Dr. Dr. h.c. Christoph Markschies
Dekan der Wirtschaftswissenschaftlichen Fakultät:
Prof. Oliver Günther, Ph.D.
Gutachter: 1. PD Dr. Bernd Viehweger
2. Prof. Dr. Myra Spiliopoulou
3. Prof. Dr. Anke Lüdeling
Tag des Kolloquiums: 10.02.2009Zusammenfassung
Text Data Mining (TDM) entwickelte sich innerhalb der vergangenen Jahre zu
einem etablierten Forschungsfeld. Es bedient sich eines Kanons von Metho-
den aus mehreren Disziplinen, mit dem Ziel neues Wissen durch die Anwen-
dung von Data Mining Prozessschritten aus Textkorpora verschiedener Art zu
generieren. Dieser Prozess besteht im Wesentlichen aus den Schritten Da-
tenauswahl, Datenvorverarbeitung, Transformation, Data Mining und Auswer-
tung/Interpretation. Während bei angewandten Data Mining Vorhaben der
höchste zeitliche Aufwand in die ersten zwei vorverarbeitenden Phasen in-
vestiert wird, besteht ein Mangel an Forschung über den Einfluss unter-
schiedlicher Qualitätsniveaus der Vorverarbeitung auf die Qualität des gene-
rierten Wissens sowie quantitative Indikatoren für “gut vorverarbeitete”
Korpora. Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse
über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgene-
rierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete
Vorverarbeitung von Textkorpora in TDM Vorhaben zu geben.
Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten
innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansat-
zes, der auf der waagerechten und senkrechten Segmentierung von Korpora
basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persis-
tenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeit-
lich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet
werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamt-
korpus nicht persistent sind und das andere Cluster diejenigen, die in allen
zeitlichen Segmenten vorkommen.
Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein
die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbei-
tungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeit-
reihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwi-
schen dem Cluster von Termen, die permanent auftreten, und demjenigen
das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des
Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete
2 Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbei-
tungsqualität gering war. Werden die häufigsten Terme unter Verwendung
domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine
signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Ter-
me pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies
trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine
semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden
TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche
Resultate an generiertem Wissen, abhängig von der Qualität der Datenvor-
verarbeitung.
Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen
ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität
der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen
werden Indikatoren für die Messung und Bewertung von Korpora und Taxo-
nomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden
Analyseprozesses adäquate Vorverarbeitung gegeben.

Schlagwörter:
Text Data Mining, Korpuskennzahlen, Korpuslinguistik, Computerlin-
guistik, Datenvorverarbeitung, Vorverarbeitungsqualität, Wissensextrak-
tion
3 Abstract
During recent years text data mining (TDM) has become a well-established
research field. It uses a canon of methods from several disciplines with the
aim of generating new knowledge by the application of a “standard” data-
mining process out of textual data that is available as different kinds of text
corpora. This process consists of the steps of data selection, data pre-
processing, transformation, data mining and evaluation/interpretation.
Whereas the highest effort needs to be applied to the first two preparing
phases, a lack in research is to be found in the analysis of the influence of
different quality levels of pre-processing on extracted knowledge and the
creation of measures for “well pre-processed” corpora. The research work
available here has the goal of analysing the influence of pre-processing on
the results of the generation of knowledge and of giving concrete recommen-
dations for action for suitable pre-processing of text corpora in TDM.
The research introduced here focuses on the extraction and tracking of con-
cepts within certain knowledge domains using an approach of horizontally
(timeline) and vertically (persistence of terms) segmenting of corpora. The
result is a set of segmented corpora according to the timeline. Within each
timeline segment clusters of concepts can be built according to their persis-
tence quality in relation to each single time-based corpus segment and to the
whole corpus.
Based on a simple frequency measure it can be shown that only the statisti-
cal quality of a single corpus allows measuring the pre-processing quality. It
is not necessary to use comparison corpora. The time series of the frequency
measure have significant negative correlations between the two clusters of
concepts that occur permanently and others that vary within an optimal pre-
processed corpus. This was found to be the opposite in every other test set
that was pre-processed with lower quality. The most frequent terms were
grouped into concepts by the use of domain-specific taxonomies. A signifi-
cant negative correlation was found between the time series of different
terms per yearly corpus segments and the terms assigned to taxonomy for
corpora with high quality level of pre-processing. A semantic analysis based
4 on a simple TDM method with significant frequency threshold measures re-
sulted in significant different knowledge extracted from corpora with different
qualities of pre-processing. With measures introduced in this research it is
possible to measure the quality of applied taxonomy. Rules for the measuring
of corpus as well as taxonomy quality were derived from these results and
advice suggested for the appropriate level of pre-processing.

Keywords:
Text Data Mining, Corpus Measures, Corpus Linguistics, Computational
Linguistics, Data Pre-processing, Pre-processing Quality, Knowledge
Extraction

5 Table of contents
Zusammenfassung 2
Abstract 4
Widmung 12
Abkürzungsverzeichnis 13
Preface 15
1 Motivation 20
1.1 Aim of research 21
1.2 Document structure 24
2 Introduction 26
2.1 What is a text? 31
2.2 What are “Trends” and “Hypes”? 34
2.3 Challenges with progress extraction from text approaches 36
2.4 Implications on current work 39
3 Domain progress extraction 40
3.1 Text source selection 42
3.1.1 Methods to exploit domain knowledge in the mining process 43
3.1.2 Excurse: Underpinnings of evolution in business informatics
magazine titles 47
3.1.3 Text Source 1: WWW Archive of German “Computerwoche” 48
3.1.3.1 Semantic benchmark for text source 1 50
3.1.4 Text Source 2: Printed Allianz Management Reports 51
3.1.4.1 Semantic benchmark for text source 2 52
3.1.5 Remarks to the semantic benchmark 53
6 3.2 Introduction of relevant aspects and methods for the TMF
process 54
3.2.1 A cost function for domain knowledge extraction 54
3.2.2 Methods for data-quality evaluation 55
3.2.3 Text data mining 56
3.2.3.1 Clustering and naming 60
3.2.3.2 Progress extraction and topic evolution 62
3.2.3.3 Topic detection and tracking 63
3.2.3.4 Literature mining 65
3.2.3.5 Complexity reduction 67
3.2.3.6 Semantic evolution 67
3.2.3.7 Human-driven methods 69
3.2.4 Computational linguistics 70
3.2.4.1 Text (data) mining and computational linguistics 72
3.2.5 Knowledge representation 75
3.3 Pre-processing 78
3.3.1 The method used here 80