//img.uscri.be/pth/5df2713a9985a491f7eb7cc4e49ed263f7d45439
La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
Télécharger Lire

Efficient Conversion of Scientific Legacy Documents into Semantic Web Resources [Elektronische Ressource] : using biosystematics as a working example / Guido Sautter. Betreuer: K. Böhm

De
175 pages
Efficient Conversion of Scientific Legacy Documents into Semantic Web Resources using biosystematics as a working example zur Erlangung des akademischen Grades eines Doktors der Ingenieurwissenschaften von der Fakultät für Informatik des Karlsruher Instituts für Technologie (KIT) genehmigte Dissertation von Guido Sautter aus Königswinter Tag der mündlichen Prüfung: 09. Februar 2011 Erster Gutachter: Prof. Dr.-Ing. Klemens Böhm Zweiter Gutachter: Prof. em. Robert A. Morris Dedication I dedicate this thesis to my family and friends. It is your constant reassurance and support that have enabled me to create this work. Zusammenfassung 1 Einleitung Wissen wird heute konsequent in digitaler Form gespeichert. Tatsächlich ist das jedoch erst seit ca. 30 Jahren der Fall. Zuvor gewonnenes Wissen wurde, ebenso wie die zugrunde liegenden Daten, in gedruckter Form in Bibliotheken und Archiven gespeichert und ist damit nur wenigen Personen zugänglich. In den letzten 10 Jahren haben Projekte wie Google Books, Internet Archive und Biodiversity Heritage Library (BHL) damit begonnen, in großem Stil den Inhalt ganzer klassischer Bibliotheken in digitale Form zu überführen. Hierbei werden die Dokumente zuerst abfotografiert und dann mittels Texterkennung (Optical Character Recognition, OCR) in maschinenverarbeitbaren Text umgewandelt.
Voir plus Voir moins

Efficient Conversion of Scientific Legacy Documents
into Semantic Web Resources

using biosystematics as a working example
zur Erlangung des akademischen Grades eines
Doktors der Ingenieurwissenschaften
von der Fakultät für Informatik
des Karlsruher Instituts für Technologie (KIT)
genehmigte
Dissertation
von
Guido Sautter
aus Königswinter

Tag der mündlichen Prüfung: 09. Februar 2011
Erster Gutachter: Prof. Dr.-Ing. Klemens Böhm
Zweiter Gutachter: Prof. em. Robert A. Morris
Dedication
I dedicate this thesis to my family and friends. It is your constant reassurance and
support that have enabled me to create this work.
Zusammenfassung
1 Einleitung
Wissen wird heute konsequent in digitaler Form gespeichert. Tatsächlich ist das
jedoch erst seit ca. 30 Jahren der Fall. Zuvor gewonnenes Wissen wurde, ebenso wie
die zugrunde liegenden Daten, in gedruckter Form in Bibliotheken und Archiven
gespeichert und ist damit nur wenigen Personen zugänglich. In den letzten 10 Jahren
haben Projekte wie Google Books, Internet Archive und Biodiversity Heritage
Library (BHL) damit begonnen, in großem Stil den Inhalt ganzer klassischer
Bibliotheken in digitale Form zu überführen. Hierbei werden die Dokumente zuerst
abfotografiert und dann mittels Texterkennung (Optical Character Recognition, OCR)
in maschinenverarbeitbaren Text umgewandelt. Hierdurch wird der Inhalt der
Dokumente elektronisch durchsuchbar und kann damit volltext-indiziert und über das
Internet einer breiten Öffentlichkeit zugänglich gemacht werden.
So digitalisierte Dokumente sind allerdings nur für menschliche Leser verständlich.
Eine maschinelle Verarbeitung des enthaltenen Wissens ist nicht möglich, also etwa
die Visualisierung von Orten auf einer Karte oder die Verknüpfung und Vernetzung
mit Wissen aus anderen digitalen Quellen. Hierfür müssen die eigentlichen Daten in
eine nicht nur maschinenlesbare, sondern auch maschineninterpretierbare Form
gebracht werden. Dies bedeutet, dass der logische Inhalt maschinenverständlich ist.
Hierfür muss beispielsweise das kontextuelle Wissen, das der menschliche Verstand
beim Lesen unterbewusst zum Verständnis hinzuzieht, explizit gemacht werden. Nur
so steht das kontextuelle Wissen der maschinellen Verarbeitung zur Verfügung. Und
nur so lassen sich sinnvolle Ergebnisse erreichen, insbesondere bei der Vernetzung
der Informationen.
Beispiel: Wenn ein Text aus dem Jahr 1955 den „Bundeskanzler“ erwähnt, so ist
dem menschlichen Leser implizit klar, dass dies in diesem Kontext ein Sy-
nonym für die Person „Konrad Adenauer“ darstellt. Für die maschinelle Ver-
arbeitung müssen zwei Detailinformationen explizit dargestellt werden: erstens
dass die Zeichenfolge „Bundeskanzler“ ein Person bezeichnet, und zweitens
dass diese Person durch den Namen „Konrad Adenauer“ identifiziert ist.
Wie im Beispiel bereits angedeutet, spielen Bezüge zu realweltlichen Dingen
(sogenannte „benannten Entitäten“, Named Entities, beispielsweise Personen,
Organisationen, Datumsangaben, Orte, etc) für die maschinelle Verarbeitbarkeit eine
besonders wichtige Rolle. Doch auch die logische Struktur eines Dokumentes ist von
entscheidender Bedeutung, da sie die erwähnten Named Entities zueinander in
Beziehung setzt. Und erst die Zusammenhänge zwischen Named Entities stellen in
engerem Sinne Informationen dar. Allein das korrekte Markieren der Named Entities,
das Hinzufügen der Kontext-Informationen und die Markierung der Dokument-
Struktur ist ein aufwendiger Vorgang. Zudem müssen die Dokumente von Text
befreit werden, der erst bei der Drucklegung eingefügt wurde, wie etwa Seitentitel.
i Die in diesen enthaltenen Informationen stehen in keinem Zusammenhang zum
umgebenden eigentlichen Text und stellen daher eine Quelle von Fehlern und
Mehrdeutigkeiten bei der maschinellen Verarbeitung der Daten dar.
2 Problembeschreibung
Die manuelle Konvertierung digitalisierter Dokumente in eine maschineninterpretier-
bare Form ist mit prohibitivem Aufwand verbunden, zumal die Konvertierung wissen-
schaftlicher Dokumente oftmals Expertenwissen der jeweiligen Disziplin erfordert.
Eine vollautomatische maschinelle Konvertierung würde diesen Aufwand um-
gehen, ist jedoch nicht möglich. Zwar existieren für einige Teile der Konvertierung,
beispielsweise das Markieren von Named Entities im Bereich der Natürlichen Sprach-
verarbeitung (Natural Language Processing, NLP), seit einiger Zeit automatische Ver-
fahren. Die Ergebnisse dieser Verfahren sind allerdings (probleminhärent) selten
genauer als 95%. Dies ist bei weitem unzureichend, vor allem da die Konvertierung
ein komplexer vielschrittiger Prozess ist, dessen Einzelschritte aufeinander aufbauen.
Arbeitet nun jeder Schritt 95% genau, fehlerfreie Eingangsdaten vorausgesetzt, so
beeinträchtigen die 5% Fehler die nachfolgenden Schritte. Die Datenqualität des fertig
konvertierten Dokumentes wird letztendlich so stark gemindert, dass von der
maschinellen Verarbeitung der (nun maschineninterpretierbaren) Informationen keine
sinnvollen Ergebnisse zu erwarten sind. Insbesondere Schlussfolgerungen aus der
Vernetzung der Informationen wären kaum mehr als beliebig, da eine einzige falsch
markierte Information in einer Herleitungskette ausreicht, um zu einer vom
Dokumentinhalt nicht gestützten Folgerung zu kommen. Würde das Wort
„Bundeskanzler“ im Beispiel etwa als „Helmut Kohl“ interpretiert, so würde dies
eventuell Schlussfolgerungen über letzteren implizieren, die eigentlich auf Konrad
Adenauer zutreffen. Bei einer weitreichenden Verknüpfung vieler Informationen hätte
das Ergebnis der maschinellen Interpretation nichts mehr mit der Realität zu tun.
Quintessenz: Bei der Konvertierung digitalisierter Dokumente in eine maschinen-
interpretierbare Form muss darauf geachtet werden, dass die maschineninterpretierbar
gemachten Fakten genau mit den verbal beschriebenen übereinstimmen. Andernfalls
ist die Verwendbarkeit der durch die Konvertierung gewonnenen Daten stark
eingeschränkt. Bisher existiert kein Verfahren, um die erforderliche hohe Daten-
qualität mit akzeptablem manuellem Aufwand zu erreichen.
3 Beitrag der Arbeit
Die vorgelegte Arbeit beschreibt ein semiautomatisches Verfahren zur Konvertierung
digitalisierter Dokumente in eine maschineninterpretierbare Form. Hierbei reduzieren
existierende automatische Verfahren den manuellen Aufwand der einzelnen
Konvertierungsschritte, während die manuelle Korrektur der automatisch erstellten
Ergebnisse die Fortpflanzung von Fehlern verhindert und so die Datenqualität der
konvertierten Dokumente sicherstellt.
ii Der Hauptteil der Arbeit befasst sich mit der Optimierung dieses Verfahrens. Sie
entwickelt Ansätze zur Unterstützung des Benutzers auf unterschiedlichen Ebenen,
die den manuellen Aufwand weiter reduzieren. Im Einzelnen:
1. Die Komplexität des manuellen Bearbeitens von Dokumenten und der
Bedienung oft kommandozeilenbasierter NLP-Werkzeuge wurde in ein für
Domänenexperten gut bedienbares Konvertierungswerkzeug gekapselt.
2. Die NLP-Werkzeuge wurden auf gute Korrigierbarkeit ihrer Fehler hin opti-
miert. Es hat sich gezeigt, dass hierbei die Ausbeute wichtiger ist als die
Genauigkeit: Nur eine 100%ige Ausbeute vermeidet beispielsweise das
aufwendige Suchen übersehener Named Entities im Dokument.
3. Im Rahmen einer Feldstudie wurden Regeln erstellt, die helfen, die
Reihenfolge der einzelnen Schritte im Konvertierungsprozess so zu
optimiert, dass jedes einzelne NLP-Werkzeug eine optimale Basis für seine
Entscheidungen hat. Dies vermindert Fehler und senkt damit den
Korrekturaufwand.
4. Konvertierungsprozesse sind komplex. Dies fördert das Übersehen von
Fehlern bei der manuellen Korrektur, und auch das versehentliche Auslassen
von Schritten, wodurch weitere Fehler entstehen. Um dem Benutzer das
Erlernen komplexer Konvertierungsprozesse abzunehmen und das Übersehen
von Fehlern zu verhindern wurde ein Mechanismus entwickelt, der den
Benutzer durch den Prozess führt und ihn beim Korrigieren auf mögliche
verbliebene Fehler hinweist.
5. Die durchgeführten Studien haben gezeigt, dass etwa 50% des Aufwandes
auf die Bereinigung der Dokumente entfallen, die kein Domänenwissen
erfordert. Daher wurde eine Infrastruktur geschaffen, die das Auslagern der
betreffenden Schritte an eine Benutzergemeinschaft im Internet (Crowd-
sourcing) ermöglicht und so die Domäneexperten weiter entlastet.
Das vorgestellte Konvertierungsverfahren wurde in mehreren Dokumentdigitali-
sierungs– und –aufbereitungsprojekten eingesetzt, jeweils mit begleitenden Feld-
studien. Insgesamt haben Biologen während dieser Projekte über 5.000 Seiten
biosystematischer Literatur konvertiert. Das Verfahren hat sich als sehr geeignet zur
Lösung des gestellten Problems erwiesen: Mit einem normalen textbasierten XML-
Editor beträgt der durchschnittliche Aufwand pro Seite bei der Konvertierung eines
Dokuments ca. 30 Minuten; bei Einsatz der im Rahmen der Arbeit entwickelten
Werkzeuge sinkt dieser Aufwand auf etwas über eine Minute. Das Ergebnis wurde in
Laborexperimenten mit Koch-Literatur unter kontrollierten Bedingungen bestätigt,
was auch die Übertragbarkeit des Verfahrens in andere Domänen zeigt.
Eine Infrastruktur zu Auslagerung des Benutzeraufwandes für die Normalisierung
der Dokumente an eine Benutzergemeinschaft im Internet wurde geschaffen. Um mit
Fehlern umzugehen, die Mitglieder eine solchen Gemeinschaft beim Bearbeiten der
Dokumente eventuell machen, beinhaltet diese Infrastruktur einige neu entwickelte
generische Mechanismen zur Sicherung der Datenqualität, die mit deutlich geringerer
Redundanz auskommen als bisherige Mechanismen und daher den Durchsatz
erhöhen. Im praktischen Einsatz hat sich leider gezeigt, dass das Korrigieren der
Struktur von Seiten in OCR-Resultaten bei weitem nicht den gleichen Reiz auf die
avisierte Zielgruppe ausübt wie etwa das Klassifizieren von Galaxien oder die Suche
iii nach außerirdischem Leben. Es sind vermutlich stärkere Anreize notwendig als
Punkte in einer Rangliste um eine genügende Anzahl von Benutzer zur Beteiligung
and der Normalisierung von Dokumenten zu bewegen, etwa monetäre Anreize.
Sobald solche Anreize aber geschaffen sind, wird sich für die Domänenexperten die
Arbeitszeit pro Seite noch einmal halbieren, da über alle anderen Ansätze hinweg der
Arbeitszeit-Anteil der Schritte, die Expertenwissen erfordern, bei etwa der Hälfte der
gesamten Arbeitszeit pro Seite lag, unabhängig von anderweitigen Unterstützungs-
mechanismen.
4 Fazit
Die vorgelegte Arbeit beschreibt ein Verfahren zur semiautomatischen Konvertierung
digitalisierter Dokumente in eine maschineninterpretierbare Form, unter Sicherung
der Datenqualität durch Experten. Der Konvertierungsprozess wurde studiert und in
mehreren, orthogonalen Richtungen optimiert. Dadurch konnte der benutzerseitige
Aufwand von ca. 30 auf ca. eine Minute pro Dokument-Seite gesenkt werden. Diese
Werte wurden sowohl in Labor-Experimenten als auch in längerfristigen Praxis-
Studien nachgewiesen. Durch Crowdsourcing sollte sich der Aufwand für die
Domänenexperten noch einmal halbieren lassen.
Ein Großteil der Forschungsarbeit fand vor einem biosystematischen Hintergrund
statt. Jedoch ist lediglich ein Bruchteil der Ergebnisse spezifisch für die Biosyste-
matik, so dass die gewonnenen Erkenntnisse auf andere Domänen übertragbar sind.
Auch die Übertragung der entwickelten Werkzeuge sollte sich auf kleinere
Anpassungen beschränken.
5 Grundlegende Annahmen
Einige wenige grundlegende Annahmen stehen hinter den Mechanismen und
Ergebnissen, die im Hauptteil diese Arbeit vorgestellt werden, vornehmlich solche in
Bezug auf die Motivation, die Fähigkeiten, die Einschränkungen und das Verhalten
der Benutzer:
1. Benutzer sind grundlegend wohlwollend und nicht darauf aus, in einzelnen
Dokumenten oder gar am gesamten Aufbereitungssystem Schaden anzu-
richten. Diese Annahme liegt darin begründet, dass Domänenexperten ein
inhärentes Interesse an der Qualität der aufbereiteten Dokumente haben, da
sie die extrahierten Daten für ihre eigene Arbeit nutzen können.
2. Jedem Benutzer kann allerdings gelegentlich ein Fehler unterlaufen. Diese
Annahme modelliert zwei Probleme, die bei der manuellen Datenbearbeitung
inhärent auftreten: Erstens ist das zeichenweise Bearbeiten von XML insbe-
sondere für Nicht-Informatiker eine Herausforderung, und zweitens ist das
strikte Einhalten eines vorgegebenen Prozesses ebenso fordernd.
3. Häufige Ausführung simpler Standard-Aufgaben schreckt Benutzer ab und
senkt ihre Motivation; dies ist beim Entwurf der Werkzeuge für die manuelle
Dokumentbearbeitung zu berücksichtigen.
iv 4. Technische Komplexität schreckt insbesondere Nicht-Informatiker ab, also
beispielsweise Experten aus anderen Domänen, und muss daher so weit wie
möglich vor ihnen verborgen werden.
Der Crowdsourcing-Ansatz (Beitrag 5, siehe Kapitel 10) stützt sich nicht auf die
erste Annahme, da generelles Wohlwollen der Benutzer in einer anonymen Online-
Gemeinschaft nicht generell vorausgesetzt werden kann, insbesondere nicht wenn die
Benutzer keinen spezifischen Bezug zu den Dokumenten haben, die sie bearbeiten.
Andererseits müssen die anderen drei Annahmen in einer solchen Benutzergemein-
schaft als verschärft zutreffend betrachtet werden, da sie generelle Einschränkungen
modellieren.

v