Efficient Conversion of Scientific Legacy Documents into Semantic Web Resources [Elektronische Ressource] : using biosystematics as a working example / Guido Sautter. Betreuer: K. Böhm

karlsruher_institut_fur_technologie - Guido Sautter

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

175 pages

Deutsch

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

Informatik

Informations

Publié par	karlsruher_institut_fur_technologie
Publié le	01 janvier 2011
Nombre de lectures	24
Langue	Deutsch
Poids de l'ouvrage	3 Mo

Extrait

Efficient Conversion of Scientific Legacy Documents
into Semantic Web Resources

using biosystematics as a working example
zur Erlangung des akademischen Grades eines
Doktors der Ingenieurwissenschaften
von der Fakultät für Informatik
des Karlsruher Instituts für Technologie (KIT)
genehmigte
Dissertation
von
Guido Sautter
aus Königswinter

Tag der mündlichen Prüfung: 09. Februar 2011
Erster Gutachter: Prof. Dr.-Ing. Klemens Böhm
Zweiter Gutachter: Prof. em. Robert A. Morris
Dedication
I dedicate this thesis to my family and friends. It is your constant reassurance and
support that have enabled me to create this work.
Zusammenfassung
1 Einleitung
Wissen wird heute konsequent in digitaler Form gespeichert. Tatsächlich ist das
jedoch erst seit ca. 30 Jahren der Fall. Zuvor gewonnenes Wissen wurde, ebenso wie
die zugrunde liegenden Daten, in gedruckter Form in Bibliotheken und Archiven
gespeichert und ist damit nur wenigen Personen zugänglich. In den letzten 10 Jahren
haben Projekte wie Google Books, Internet Archive und Biodiversity Heritage
Library (BHL) damit begonnen, in großem Stil den Inhalt ganzer klassischer
Bibliotheken in digitale Form zu überführen. Hierbei werden die Dokumente zuerst
abfotografiert und dann mittels Texterkennung (Optical Character Recognition, OCR)
in maschinenverarbeitbaren Text umgewandelt. Hierdurch wird der Inhalt der
Dokumente elektronisch durchsuchbar und kann damit volltext-indiziert und über das
Internet einer breiten Öffentlichkeit zugänglich gemacht werden.
So digitalisierte Dokumente sind allerdings nur für menschliche Leser verständlich.
Eine maschinelle Verarbeitung des enthaltenen Wissens ist nicht möglich, also etwa
die Visualisierung von Orten auf einer Karte oder die Verknüpfung und Vernetzung
mit Wissen aus anderen digitalen Quellen. Hierfür müssen die eigentlichen Daten in
eine nicht nur maschinenlesbare, sondern auch maschineninterpretierbare Form
gebracht werden. Dies bedeutet, dass der logische Inhalt maschinenverständlich ist.
Hierfür muss beispielsweise das kontextuelle Wissen, das der menschliche Verstand
beim Lesen unterbewusst zum Verständnis hinzuzieht, explizit gemacht werden. Nur
so steht das kontextuelle Wissen der maschinellen Verarbeitung zur Verfügung. Und
nur so lassen sich sinnvolle Ergebnisse erreichen, insbesondere bei der Vernetzung
der Informationen.
Beispiel: Wenn ein Text aus dem Jahr 1955 den „Bundeskanzler“ erwähnt, so ist
dem menschlichen Leser implizit klar, dass dies in diesem Kontext ein Sy-
nonym für die Person „Konrad Adenauer“ darstellt. Für die maschinelle Ver-
arbeitung müssen zwei Detailinformationen explizit dargestellt werden: erstens
dass die Zeichenfolge „Bundeskanzler“ ein Person bezeichnet, und zweitens
dass diese Person durch den Namen „Konrad Adenauer“ identifiziert ist.
Wie im Beispiel bereits angedeutet, spielen Bezüge zu realweltlichen Dingen
(sogenannte „benannten Entitäten“, Named Entities, beispielsweise Personen,
Organisationen, Datumsangaben, Orte, etc) für die maschinelle Verarbeitbarkeit eine
besonders wichtige Rolle. Doch auch die logische Struktur eines Dokumentes ist von
entscheidender Bedeutung, da sie die erwähnten Named Entities zueinander in
Beziehung setzt. Und erst die Zusammenhänge zwischen Named Entities stellen in
engerem Sinne Informationen dar. Allein das korrekte Markieren der Named Entities,
das Hinzufügen der Kontext-Informationen und die Markierung der Dokument-
Struktur ist ein aufwendiger Vorgang. Zudem müssen die Dokumente von Text
befreit werden, der erst bei der Drucklegung eingefügt wurde, wie etwa Seitentitel.
i Die in diesen enthaltenen Informationen stehen in keinem Zusammenhang zum
umgebenden eigentlichen Text und stellen daher eine Quelle von Fehlern und
Mehrdeutigkeiten bei der maschinellen Verarbeitung der Daten dar.
2 Problembeschreibung
Die manuelle Konvertierung digitalisierter Dokumente in eine maschineninterpretier-
bare Form ist mit prohibitivem Aufwand verbunden, zumal die Konvertierung wissen-
schaftlicher Dokumente oftmals Expertenwissen der jeweiligen Disziplin erfordert.
Eine vollautomatische maschinelle Konvertierung würde diesen Aufwand um-
gehen, ist jedoch nicht möglich. Zwar existieren für einige Teile der Konvertierung,
beispielsweise das Markieren von Named Entities im Bereich der Natürlichen Sprach-
verarbeitung (Natural Language Processing, NLP), seit einiger Zeit automatische Ver-
fahren. Die Ergebnisse dieser Verfahren sind allerdings (probleminhärent) selten
genauer als 95%. Dies ist bei weitem unzureichend, vor allem da die Konvertierung
ein komplexer vielschrittiger Prozess ist, dessen Einzelschritte aufeinander aufbauen.
Arbeitet nun jeder Schritt 95% genau, fehlerfreie Eingangsdaten vorausgesetzt, so
beeinträchtigen die 5% Fehler die nachfolgenden Schritte. Die Datenqualität des fertig
konvertierten Dokumentes wird letztendlich so stark gemindert, dass von der
maschinellen Verarbeitung der (nun maschineninterpretierbaren) Informationen keine
sinnvollen Ergebnisse zu erwarten sind. Insbesondere Schlussfolgerungen aus der
Vernetzung der Informationen wären kaum mehr als beliebig, da eine einzige falsch
markierte Information in einer Herleitungskette ausreicht, um zu einer vom
Dokumentinhalt nicht gestützten Folgerung zu kommen. Würde das Wort
„Bundeskanzler“ im Beispiel etwa als „Helmut Kohl“ interpretiert, so würde dies
eventuell Schlussfolgerungen über letzteren implizieren, die eigentlich auf Konrad
Adenauer zutreffen. Bei einer weitreichenden Verknüpfung vieler Informationen hätte
das Ergebnis der maschinellen Interpretation nichts mehr mit der Realität zu tun.
Quintessenz: Bei der Konvertierung digitalisierter Dokumente in eine maschinen-
interpretierbare Form muss darauf geachtet werden, dass die maschineninterpretierbar
gemachten Fakten genau mit den verbal beschriebenen übereinstimmen. Andernfalls
ist die Verwendbarkeit der durch die Konvertierung gewonnenen Daten stark
eingeschränkt. Bisher existiert kein Verfahren, um die erforderliche hohe Daten-
qualität mit akzeptablem manuellem Aufwand zu erreichen.
3 Beitrag der Arbeit
Die vorgelegte Arbeit beschreibt ein semiautomatisches Verfahren zur Konvertierung
digitalisierter Dokumente in eine maschineninterpretierbare Form. Hierbei reduzieren
existierende automatische Verfahren den manuellen Aufwand der einzelnen
Konvertierungsschritte, während die manuelle Korrektur der automatisch erstellten
Ergebnisse die Fortpflanzung von Fehlern verhindert und so die Datenqualität der
konvertierten Dokumente sicherstellt.
ii Der Hauptteil der Arbeit befasst sich mit der Optimierung dieses Verfahrens. Sie
entwickelt Ansätze zur Unterstützung des Benutzers auf unterschiedlichen Ebenen,
die den manuellen Aufwand weiter reduzieren. Im Einzelnen:
1. Die Komplexität des manuellen Bearbeitens von Dokumenten und der
Bedienung oft kommandozeilenbasierter NLP-Werkzeuge wurde in ein für
Domänenexperten gut bedienbares Konvertierungswerkzeug gekapselt.
2. Die NLP-Werkzeuge wurden auf gute Korrigierbarkeit ihrer Fehler hin opti-
miert. Es hat sich gezeigt, dass hierbei die Ausbeute wichtiger ist als die
Genauigkeit: Nur eine 100%ige Ausbeute vermeidet beispielsweise das
aufwendige Suchen übersehener Named Entities im Dokument.
3. Im Rahmen einer Feldstudie wurden Regeln erstellt, die helfen, die
Reihenfolge der einzelnen Schritte im Konvertierungsprozess so zu
optimiert, dass jedes einzelne NLP-Werkzeug eine optimale Basis für seine
Entscheidungen hat. Dies vermindert Fehler und senkt damit den
Korrekturaufwand.
4. Konvertierungsprozesse sind komplex. Dies fördert das Übersehen von
Fehlern bei der manuellen Korrektur, und auch das versehentliche Auslassen
von Schritten, wodurch weitere Fehler entstehen. Um dem Benutzer das
Erlernen komplexer Konvertierungsprozesse abzunehmen und das Übersehen
von Fehlern zu verhindern wurde ein Mechanismus entwickelt, der den
Benutzer durch den Prozess führt und ihn beim Korrigieren auf mögliche
verbliebene Fehler hinweist.
5. Die durchgeführten Studien haben gezeigt, dass etwa 50% des Aufwandes
auf die Bereinigung der Dokumente entfallen, die kein Domänenwissen
erfordert. Daher wurde eine Infrastruktur geschaffen, die das Auslagern der
betreffenden Schritte an eine Benutzergemeinschaft im Internet (Crowd-
sourcing) ermöglicht und so die Domäneexperten weiter entlastet.
Das vorgestellte Konvertierungsverfahren wurde in mehreren Dokumentdigitali-
sierungs– und –aufbereitungsprojekten eingesetzt, jeweils mit begleitenden Feld-
studien. Insgesamt haben Biologen während dieser Projekte über 5.000 Seiten
biosystematischer Literatur konvertiert. Das Verfahren hat sich als sehr geeignet zur
Lösung des gestellten Problems erwiesen: Mit einem normalen textbasierten XML-
Ed