La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Sujets
Informations
Publié par | eberhard_karls_universitat_tubingen |
Publié le | 01 janvier 2004 |
Nombre de lectures | 3 |
Langue | English |
Poids de l'ouvrage | 6 Mo |
Extrait
Aframeworkforprocessingand
presentingparalleltextcorpora
Dissertation
derFakultat¨ fur¨ Informations undKognitionswissenschaften
derEberhard Karls Universit at¨ Tubingen¨
zurErlangungdesGradeseines
DoktorsderNaturwissenschaften
(Dr.rer.nat.)
vorgelegtvon
Dipl. Inform.VolkerSimonis
ausMediasch
Tubingen¨
2004Tagdermundlichen¨ Qualifikation: 21.Juli2004
Dekan: Prof.Dr.UlrichGuntzer¨
¨1.Berichterstatter: Prof.Dr.RudigerLoos
2. Prof.Dr.WolframLuther
(Univ.Duisburg Essen)MeinenElternAbstract
This thesis describes an extensible framework for the processing and pre
sentation of multi modal, parallel text corpora. It can be used to load digital
documents in many formats like for example pure text, XML or bit mapped
graphics, to structure these documents with a uniform markup and link them
together. The structuring or tagging can be done with respect to formal, lingui
stic,semantic,historicalandmanyotheraspects.Different,paralleltaggingsare
possible for a document and the documents marked up this way can be linked
together with respect to any of these structures. Depending on the nature of
the tagging and the scope of the linking, they can be performed automatically,
semi automaticallyormanually.
As a foundation of this work, XTE, a simple but powerful XML standoff
annotation scheme has been developed and realized as a DTD and as an XML
Schema.XTEisespeciallywellsuitedfortheencodingofmultiple,overlapping
hierarchiesinmulti modaldocumentsandforthecrosslinkingoftheelements
oftheseencodingsacrossseveraldocuments.
TogetherwithXTE,elaborateeditorandbrowserapplicationshavebeende
velopedwhichallowthecomfortablecreationandpresentationofXTEencoded
documents. These applications have been realized as a configurable and exten
sible framework that makes it easy for others to extend, customize and adopt
thesystemfortheirspecialneeds.Thecombinationofaclassicaltextualsynop
siswith thesupplementary options ofdictionaries, encyclopedias, multi media
extensionsandpowerfultoolsopensawideareaofapplicabilityforthesystem
ranging from text analysis and language learning to the creation of critical edi
tionsandelectronicpublishing.
As a side effect of the main topic, different tools for program and software
documentation have been developed and a new and innovative, multilingual
userinterfacehasbeencreated.Thedocumentationtoolshavebeenusedtodo
cumentthecomponentsoftheframeworkwhilethenewuserinterfacehasbeen
builtintothecreatedapplications.Zusammenfassung
DieseArbeitstellteinerweiterbaresSystemfur¨ dieBearbeitungundPrasen ¨
tationvonmulti modalen,parallelenTextkorporavor.Eskanndazuverwendet
werden um digitale Dokumente in vielerlei Formaten wie zum Beispiel einfa
che Textdateien, XML Dateien oder Graphiken zu bearbeiten wobei bearbeiten
indiesemZusammenhangvorallemstrukturierenundverlinkenbedeutet.Die
se Strukturierung nach einem neu entwickelten Kodierungschema kann zum
Beispielaufformalen,linguistischen,semantischen,historischenoderauchvie
lenanderenGesichtspunktenberuhen.DieDokumentekonnen¨ gleichzeitigmit
beliebig vielen parallelen und sich moglicherweise¨ auch uberlappenden¨ Struk
turenversehenwerdenundbezuglich¨ jederdieserStrukturenauchmiteinander
verknupft¨ werden. Die unterschiedlichen Strukturen konnen¨ je nach Art ent
wederautomatischoderhalbautomatischerzeugtwerdenodersiekonnen¨ vom
Benutzermanuellspezifiziertwerden.
Als Grundlage des vorgestellten Systems dient XTE, ein einfaches aber zu
gleichmachtiges,¨ externeKodierungsschemadassowohlalseineXMLDTDals
auch als ein XML Schema verwirklicht wurde. XTE ist besonders zum Kodie
ren von vielen, sich gegenseitig uberlappenden¨ Hierarchien in multi modalen
DokumentenundzumVerknupfen¨ dieserStrukturenuber¨ mehrereDokumente
hinweg,geeignet.
Zusammen mit XTE wurden zwei ausgereifte Anwendungen zum Betrach
ten und Bearbeiten von XTE kodierten Dokumenten sowie zum komfortablen
Arbeiten mit den so erstellten Ergebnisdo geschaffen. Diese Anwen
dungenwurdenalsanpassbaresunderweiterbaresSystemkonzipiert,dasmog ¨
lichst einfach fur¨ andere Einsatzgebiete und an neue Benutzerwunsche¨ ange
passt werden konnen¨ soll. Die Kombination einer klassischen Synopse zusam
men mit den vorhandenen Erweiterungsmoglichkeiten¨ mittels Worterb¨ uchern,¨
Lexika und Multi Media Elementen die das System bietet, machen es zu einem
Werkzeug das auf vielen Gebieten, angefangen von der Text Analyse und dem
Sprachenlernenuber¨ dieErstellungtextkritischerEditionenbishinzumelektro
nischenPublizieren,einsetzbarist.
NebendiesemSystemsindalsweitereErgebnissedieserArbeitverschiedene
Werkzeugefur¨ dieSoftwaredokumentationentstandenundzurDokumentation
des Systems eingesetzt worden. Weiterhin wurde eine neuartige, mehrsprachi
ge, graphische Benutzeroberflache¨ entwickelt, die unter anderem in dem hier
beschriebenenSystemeingesetzwurde.Contents
1 Introduction 1
1.1 Textencoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Historyoftextencoding . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Electroniccharacterencodings . . . . . . . . . . . . . . . . . . . . 4
1.2 Textmarkup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Textprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 GeneralMarkupLanguages . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 SpecializedMarkupLanguagesforText . . . . . . . . . . . . . . . 8
1.3 Scopeandcontribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Structureofthiswork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Anewmarkupschemefortext 11
2.1 AshortintroductiontoXML . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 XMLnamespaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.2 XMLschemalanguages . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 XPath,XPointerandXLink . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4 XSL-TheExtensibleStylesheetLanguage . . . . . . . . . . . . . . 17
2.1.5 ThefutureofXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Theproblemofoverlappinghierarchies . . . . . . . . . . . . . . . . . . . 17
2.3 Workaroundsfortheproblemofoverlappinghierarchies . . . . . . . . . 18
2.3.1 TheSGML CONCURfeature . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Milestoneelements. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.3 Fragmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.4 Virtualjoins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Multipleencodings . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.6 Bottomupvirtualhierarchies . . . . . . . . . . . . . . . . . . . . . . 21
2.3.7 Justintimetrees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.8 Standoffmarkup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 XTE-Anewstandoffmarkupscheme . . . . . . . . . . . . . . . . . . . . . 22
2.4.1 TheXTEDTD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 XTE-ExpressedasanXMLSchema . . . . . . . . . . . . . . . . . . 30
2.4.3 UsingtheXTEDTDtogetherwiththeXTEXMLSchema . . . . . . . 38
2.4.4 EncodingfacsimiletextswithXTE . . . . . . . . . . . . . . . . . . . 41
3 ThesoftwarearchitectureofLanguageExplorerandLanguageAnalyzer 43
3.1 TheJavaprogramminglanguage . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 TheJavaAPIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 TheLanguageExplorertextclasses . . . . . . . . . . . . . . . . . . . . . . 49
3.2.1 Thedocumentclass . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.2 Theeditorkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
DissertationderFak. f. Informations u. Kognitionswissenschaften,Univ. T ubingen¨ -2004ii CONTENTS
3.2.3 Theviewclasses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 TheLanguageExplorerfileformats . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Thererbookformat . . . . . . . . . . . . . . . . . . 55
3.3.2 EncryptionofLanguageExplorerbooks . . . . . . . . . . . . . . . 57
3.3.3 LanguageExplorerconfigurationfiles . . . . . . . . . . . . . . . . . 58
3.4 ThedesignofLanguageAnalyzer . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 TheofLanguageExplorer . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Thepluginconcept . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.6.1 HandlingnewXTEelements . . . . . . . . . . . . . . . . . . . . . . 62
3.6.2 Supportfornewmediatypes . . . . . . . . . . . . . . . . . . . . . . 63
3.6.3 Addingnewtools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4 Implementationtechniquesandlibraries 65
4.1 Programdocumentationwith ProgDOC. . . . . . . . . . . . . . . . . . . . 65
4.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.2 SomewordsonLiterateProgramming . . . . . . . . . . . . . . . . 66
4.1.3 SoftwaredocumentationintheageofIDEs . . . . . . . . . . . . . 70
4.1.4areandXML . . . . . . . . . . . . . . . . . . 71
4.1.5 Overviewofthe ProgDOCsystem . .