A framework for processing and presenting parallel text corpora [Elektronische Ressource] / vorgelegt von Volker Simonis
182 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

A framework for processing and presenting parallel text corpora [Elektronische Ressource] / vorgelegt von Volker Simonis

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
182 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

AframeworkforprocessingandpresentingparalleltextcorporaDissertationderFakultat¨ fur¨ Informations undKognitionswissenschaftenderEberhard Karls Universit at¨ Tubingen¨zurErlangungdesGradeseinesDoktorsderNaturwissenschaften(Dr.rer.nat.)vorgelegtvonDipl. Inform.VolkerSimonisausMediaschTubingen¨2004Tagdermundlichen¨ Qualifikation: 21.Juli2004Dekan: Prof.Dr.UlrichGuntzer¨¨1.Berichterstatter: Prof.Dr.RudigerLoos2. Prof.Dr.WolframLuther(Univ.Duisburg Essen)MeinenElternAbstractThis thesis describes an extensible framework for the processing and pre sentation of multi modal, parallel text corpora. It can be used to load digitaldocuments in many formats like for example pure text, XML or bit mappedgraphics, to structure these documents with a uniform markup and link themtogether. The structuring or tagging can be done with respect to formal, lingui stic,semantic,historicalandmanyotheraspects.Different,paralleltaggingsarepossible for a document and the documents marked up this way can be linkedtogether with respect to any of these structures. Depending on the nature ofthe tagging and the scope of the linking, they can be performed automatically,semi automaticallyormanually.As a foundation of this work, XTE, a simple but powerful XML standoffannotation scheme has been developed and realized as a DTD and as an XMLSchema.

Sujets

Informations

Publié par
Publié le 01 janvier 2004
Nombre de lectures 3
Langue English
Poids de l'ouvrage 6 Mo

Extrait

Aframeworkforprocessingand
presentingparalleltextcorpora
Dissertation
derFakultat¨ fur¨ Informations undKognitionswissenschaften
derEberhard Karls Universit at¨ Tubingen¨
zurErlangungdesGradeseines
DoktorsderNaturwissenschaften
(Dr.rer.nat.)
vorgelegtvon
Dipl. Inform.VolkerSimonis
ausMediasch
Tubingen¨
2004Tagdermundlichen¨ Qualifikation: 21.Juli2004
Dekan: Prof.Dr.UlrichGuntzer¨
¨1.Berichterstatter: Prof.Dr.RudigerLoos
2. Prof.Dr.WolframLuther
(Univ.Duisburg Essen)MeinenElternAbstract
This thesis describes an extensible framework for the processing and pre
sentation of multi modal, parallel text corpora. It can be used to load digital
documents in many formats like for example pure text, XML or bit mapped
graphics, to structure these documents with a uniform markup and link them
together. The structuring or tagging can be done with respect to formal, lingui
stic,semantic,historicalandmanyotheraspects.Different,paralleltaggingsare
possible for a document and the documents marked up this way can be linked
together with respect to any of these structures. Depending on the nature of
the tagging and the scope of the linking, they can be performed automatically,
semi automaticallyormanually.
As a foundation of this work, XTE, a simple but powerful XML standoff
annotation scheme has been developed and realized as a DTD and as an XML
Schema.XTEisespeciallywellsuitedfortheencodingofmultiple,overlapping
hierarchiesinmulti modaldocumentsandforthecrosslinkingoftheelements
oftheseencodingsacrossseveraldocuments.
TogetherwithXTE,elaborateeditorandbrowserapplicationshavebeende
velopedwhichallowthecomfortablecreationandpresentationofXTEencoded
documents. These applications have been realized as a configurable and exten
sible framework that makes it easy for others to extend, customize and adopt
thesystemfortheirspecialneeds.Thecombinationofaclassicaltextualsynop
siswith thesupplementary options ofdictionaries, encyclopedias, multi media
extensionsandpowerfultoolsopensawideareaofapplicabilityforthesystem
ranging from text analysis and language learning to the creation of critical edi
tionsandelectronicpublishing.
As a side effect of the main topic, different tools for program and software
documentation have been developed and a new and innovative, multilingual
userinterfacehasbeencreated.Thedocumentationtoolshavebeenusedtodo
cumentthecomponentsoftheframeworkwhilethenewuserinterfacehasbeen
builtintothecreatedapplications.Zusammenfassung
DieseArbeitstellteinerweiterbaresSystemfur¨ dieBearbeitungundPrasen ¨
tationvonmulti modalen,parallelenTextkorporavor.Eskanndazuverwendet
werden um digitale Dokumente in vielerlei Formaten wie zum Beispiel einfa
che Textdateien, XML Dateien oder Graphiken zu bearbeiten wobei bearbeiten
indiesemZusammenhangvorallemstrukturierenundverlinkenbedeutet.Die
se Strukturierung nach einem neu entwickelten Kodierungschema kann zum
Beispielaufformalen,linguistischen,semantischen,historischenoderauchvie
lenanderenGesichtspunktenberuhen.DieDokumentekonnen¨ gleichzeitigmit
beliebig vielen parallelen und sich moglicherweise¨ auch uberlappenden¨ Struk
turenversehenwerdenundbezuglich¨ jederdieserStrukturenauchmiteinander
verknupft¨ werden. Die unterschiedlichen Strukturen konnen¨ je nach Art ent
wederautomatischoderhalbautomatischerzeugtwerdenodersiekonnen¨ vom
Benutzermanuellspezifiziertwerden.
Als Grundlage des vorgestellten Systems dient XTE, ein einfaches aber zu
gleichmachtiges,¨ externeKodierungsschemadassowohlalseineXMLDTDals
auch als ein XML Schema verwirklicht wurde. XTE ist besonders zum Kodie
ren von vielen, sich gegenseitig uberlappenden¨ Hierarchien in multi modalen
DokumentenundzumVerknupfen¨ dieserStrukturenuber¨ mehrereDokumente
hinweg,geeignet.
Zusammen mit XTE wurden zwei ausgereifte Anwendungen zum Betrach
ten und Bearbeiten von XTE kodierten Dokumenten sowie zum komfortablen
Arbeiten mit den so erstellten Ergebnisdo geschaffen. Diese Anwen
dungenwurdenalsanpassbaresunderweiterbaresSystemkonzipiert,dasmog ¨
lichst einfach fur¨ andere Einsatzgebiete und an neue Benutzerwunsche¨ ange
passt werden konnen¨ soll. Die Kombination einer klassischen Synopse zusam
men mit den vorhandenen Erweiterungsmoglichkeiten¨ mittels Worterb¨ uchern,¨
Lexika und Multi Media Elementen die das System bietet, machen es zu einem
Werkzeug das auf vielen Gebieten, angefangen von der Text Analyse und dem
Sprachenlernenuber¨ dieErstellungtextkritischerEditionenbishinzumelektro
nischenPublizieren,einsetzbarist.
NebendiesemSystemsindalsweitereErgebnissedieserArbeitverschiedene
Werkzeugefur¨ dieSoftwaredokumentationentstandenundzurDokumentation
des Systems eingesetzt worden. Weiterhin wurde eine neuartige, mehrsprachi
ge, graphische Benutzeroberflache¨ entwickelt, die unter anderem in dem hier
beschriebenenSystemeingesetzwurde.Contents
1 Introduction 1
1.1 Textencoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Historyoftextencoding . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Electroniccharacterencodings . . . . . . . . . . . . . . . . . . . . 4
1.2 Textmarkup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Textprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 GeneralMarkupLanguages . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 SpecializedMarkupLanguagesforText . . . . . . . . . . . . . . . 8
1.3 Scopeandcontribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Structureofthiswork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Anewmarkupschemefortext 11
2.1 AshortintroductiontoXML . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 XMLnamespaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 XMLschemalanguages . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 XPath,XPointerandXLink . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4 XSL-TheExtensibleStylesheetLanguage . . . . . . . . . . . . . . 17
2.1.5 ThefutureofXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Theproblemofoverlappinghierarchies . . . . . . . . . . . . . . . . . . . 17
2.3 Workaroundsfortheproblemofoverlappinghierarchies . . . . . . . . . 18
2.3.1 TheSGML CONCURfeature . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Milestoneelements. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Fragmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 Virtualjoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Multipleencodings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Bottomupvirtualhierarchies . . . . . . . . . . . . . . . . . . . . . . 21
2.3.7 Justintimetrees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.8 Standoffmarkup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 XTE-Anewstandoffmarkupscheme . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 TheXTEDTD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 XTE-ExpressedasanXMLSchema . . . . . . . . . . . . . . . . . . 30
2.4.3 UsingtheXTEDTDtogetherwiththeXTEXMLSchema . . . . . . . 38
2.4.4 EncodingfacsimiletextswithXTE . . . . . . . . . . . . . . . . . . . 41
3 ThesoftwarearchitectureofLanguageExplorerandLanguageAnalyzer 43
3.1 TheJavaprogramminglanguage . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 TheJavaAPIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 TheLanguageExplorertextclasses . . . . . . . . . . . . . . . . . . . . . . 49
3.2.1 Thedocumentclass . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2 Theeditorkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
DissertationderFak. f. Informations u. Kognitionswissenschaften,Univ. T ubingen¨ -2004ii CONTENTS
3.2.3 Theviewclasses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 TheLanguageExplorerfileformats . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Thererbookformat . . . . . . . . . . . . . . . . . . 55
3.3.2 EncryptionofLanguageExplorerbooks . . . . . . . . . . . . . . . 57
3.3.3 LanguageExplorerconfigurationfiles . . . . . . . . . . . . . . . . . 58
3.4 ThedesignofLanguageAnalyzer . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 TheofLanguageExplorer . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Thepluginconcept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.6.1 HandlingnewXTEelements . . . . . . . . . . . . . . . . . . . . . . 62
3.6.2 Supportfornewmediatypes . . . . . . . . . . . . . . . . . . . . . . 63
3.6.3 Addingnewtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4 Implementationtechniquesandlibraries 65
4.1 Programdocumentationwith ProgDOC. . . . . . . . . . . . . . . . . . . . 65
4.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.2 SomewordsonLiterateProgramming . . . . . . . . . . . . . . . . 66
4.1.3 SoftwaredocumentationintheageofIDEs . . . . . . . . . . . . . 70
4.1.4areandXML . . . . . . . . . . . . . . . . . . 71
4.1.5 Overviewofthe ProgDOCsystem . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents