Rule-based and memory-based pronoun resolution for German [Elektronische Ressource] : a comparison and assessment of data sources / von Holger Wunsch

De
Rule-basedandMemory-basedPronounResolutionforGerman:AComparisonandAssessmentofDataSourcesvonHolgerWunschPhilosophischeDissertationangenommenvonderNeuphilologischenFakulta¨tderUniversita¨tTub¨ ingenam19. Mai2009Tub¨ ingen2010GedrucktmitGenehmigungderNeuphilologischenFakulta¨tderUniversita¨tTu¨bingenHauptberichterstatter: Prof. Dr. ErhardHinrichs¨Mitberichterstatterin: Prof. Dr. SandraKublerDekan: Prof. Dr. JoachimKnapeDankMein Dank gilt all jenen, die mich bei der wissenschaftlichen Arbeit undbeimSchreibenmeinerDissertationunterstu¨tzthaben.Prof. Erhard Hinrichs danke ich fu¨r seine Betreuung. Ohne das wis-senschaftliche Umfeld, das er als Leiter des Projekts A1 “Repra¨sentationundErschließunglinguistischerDaten”desSonderforschungsbereiches441an der Universita¨t Tu¨bingen schuf, wa¨re es mir nicht mo¨glich gewesen,dieseDissertationzuschreiben.Ich danke Sandra Ku¨bler, meiner zweiten Betreuerin, und, wa¨hrendihrerTu¨bingerZeit,KolleginimA1-Projekt. WennichRatbrauchte,konnteichmichstetsaufihrekompetenteundhilfreicheAntwortverlassen.AusderZusammenarbeitmitmeinemProjektkollegenTylmanUlehabeich viel gelernt – seine Art und Weise mit wissenschaftlichen Fragen um-zugehen,beeinflussenmeineArbeitbisheute. DasTu¨PP-D/ZKorpus,zen-traleDatenquellefu¨rmeineArbeit,verdankeichFrankMu¨ller,aucherwareinKollegeimA1-Projekt.Stephan Kepser hatte stets ein offenes Ohr fu¨r mich, und seine wohlu¨berlegten Kommentare brachten wertvolle neue Einsichten.
Publié le : vendredi 1 janvier 2010
Lecture(s) : 17
Source : D-NB.INFO/1000962245/34
Nombre de pages : 288
Voir plus Voir moins

Rule-basedandMemory-based
PronounResolutionforGerman:
AComparisonandAssessmentofDataSources
von
HolgerWunsch
PhilosophischeDissertation
angenommenvonderNeuphilologischenFakulta¨t
derUniversita¨tTub¨ ingen
am19. Mai2009
Tub¨ ingen
2010GedrucktmitGenehmigungderNeuphilologischenFakulta¨t
derUniversita¨tTu¨bingen
Hauptberichterstatter: Prof. Dr. ErhardHinrichs
¨Mitberichterstatterin: Prof. Dr. SandraKubler
Dekan: Prof. Dr. JoachimKnapeDank
Mein Dank gilt all jenen, die mich bei der wissenschaftlichen Arbeit und
beimSchreibenmeinerDissertationunterstu¨tzthaben.
Prof. Erhard Hinrichs danke ich fu¨r seine Betreuung. Ohne das wis-
senschaftliche Umfeld, das er als Leiter des Projekts A1 “Repra¨sentation
undErschließunglinguistischerDaten”desSonderforschungsbereiches441
an der Universita¨t Tu¨bingen schuf, wa¨re es mir nicht mo¨glich gewesen,
dieseDissertationzuschreiben.
Ich danke Sandra Ku¨bler, meiner zweiten Betreuerin, und, wa¨hrend
ihrerTu¨bingerZeit,KolleginimA1-Projekt. WennichRatbrauchte,konnte
ichmichstetsaufihrekompetenteundhilfreicheAntwortverlassen.
AusderZusammenarbeitmitmeinemProjektkollegenTylmanUlehabe
ich viel gelernt – seine Art und Weise mit wissenschaftlichen Fragen um-
zugehen,beeinflussenmeineArbeitbisheute. DasTu¨PP-D/ZKorpus,zen-
traleDatenquellefu¨rmeineArbeit,verdankeichFrankMu¨ller,aucherwar
einKollegeimA1-Projekt.
Stephan Kepser hatte stets ein offenes Ohr fu¨r mich, und seine wohl
u¨berlegten Kommentare brachten wertvolle neue Einsichten. Von Jochen
SailebekamichmanchengutenRat.
Piklu Gupta und Kathrin Beck lasen große Teile der Dissertation Kor-
rektur,undkommentiertensiesorgfa¨ltig–Dankedafu¨r!
Schließlich danke ich meinen Tu¨binger Freunden, meinen Eltern und
meinen beiden Schwestern Charlotte und Friederike – sie sorgten dafu¨r,
dass ich auf dieser wissenschaftlichen Fahrt durch Dick und Du¨nn stets
sicherimWagensitzengebliebenbin!meinenElternContents
1 Introduction 1
1.1 Cohesionandanaphora . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Cohesion . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Anaphoraandcoreference . . . . . . . . . . . . . . . . 5
1.2 AnaphoraResolution . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Overviewofthisdissertation . . . . . . . . . . . . . . . . . . 10
2 AnaphorainLinguisticTheories 13
2.1 Bindingtheory . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1 Terminology . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 ThetreatmentofanaphorainGovernmentandBinding . . . 16
2.3 BindingtheorywithintheHPSGframework . . . . . . . . . 21
2.3.1 Exemptanaphors . . . . . . . . . . . . . . . . . . . . . 24
2.4 Asemanticformulationofbindingtheorybasedontheta-roles 25
2.5 CenteringTheory . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1 Centers . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Centeringrules . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 ResolutionStrategies 39
3.1 Representationofcoreference . . . . . . . . . . . . . . . . . . 43
3.2 Linguisticinformation . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Resolutionmodels . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 Pairwisemodels . . . . . . . . . . . . . . . . . . . . . 45
3.3.2 Competitionmodels . . . . . . . . . . . . . . . . . . . 46
3.4 Resolutionalgorithms . . . . . . . . . . . . . . . . . . . . . . 47
3.4.1 Rule-basedapproachestopronounresolution . . . . 48
3.4.2 Data-drivenapproachestopronounresolution . . . . 53
iii CONTENTS
3.5 Ataxonomyofresolutionalgorithms . . . . . . . . . . . . . . 55
4 EvaluationStrategies 59
4.1 Precisionandrecall . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Linkbasedandclassbasedscoringschemes . . . . . . . . . . 64
4.2.1 Linkbasedscoringschemes . . . . . . . . . . . . . . . 64
4.2.2 Classbasedscoringschemes . . . . . . . . . . . . . . 64
4.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3 Successrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Amodel-theoreticscoringscheme . . . . . . . . . . . . . . . 68
4.5 Functionalevaluation . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 Summaryandconclusion . . . . . . . . . . . . . . . . . . . . 76
4.6.1 Evaluationinthisthesis . . . . . . . . . . . . . . . . . 77
5 TheData 79
5.1 TheTu¨Ba-D/Ztreebank . . . . . . . . . . . . . . . . . . . . . 79
5.1.1 Thewordlevel . . . . . . . . . . . . . . . . . . . . . . 80
5.1.2 Thelevelofphrases . . . . . . . . . . . . . . . . . . . 82
5.1.3 Thestructureofnounphrases. . . . . . . . . . . . . . 83
5.1.4 Syntacticannotationofpronouns . . . . . . . . . . . . 89
5.1.5 Thehighersyntacticlevels . . . . . . . . . . . . . . . . 93
5.2 AnnotationofcoreferenceinTu¨Ba-D/Z . . . . . . . . . . . . 95
5.2.1 Markables . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2.2 Referentialrelations . . . . . . . . . . . . . . . . . . . 97
5.3 AquantitativeviewofTu¨Ba-D/Z . . . . . . . . . . . . . . . . 101
5.4 TheTu¨PP-D/Ztreebank . . . . . . . . . . . . . . . . . . . . . 103
6 Rule-basedApproaches 105
6.1 TheResolutionofAnaphoraProcedurebyLappinandLeass 105
6.1.1 Themorphologicalfilter . . . . . . . . . . . . . . . . . 106
6.1.2 Testforexpletivepronouns . . . . . . . . . . . . . . . 106
6.1.3 Thesyntacticfilteronpersonalpronouns . . . . . . . 107
6.1.4 Antecedentselectionforreflexivesandreciprocals . . 108
6.1.5 Salienceweighting . . . . . . . . . . . . . . . . . . . . 109
6.1.6 Equivalenceclasses . . . . . . . . . . . . . . . . . . . . 109
6.1.7 Performance . . . . . . . . . . . . . . . . . . . . . . . . 110
6.2 Theknowledge-poorapproachbyKennedyandBoguraev . 111CONTENTS iii
6.2.1 Inputdata . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.2.2 Resolution . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3 RAPforGerman . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.1 Inputdata . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.3.2 Resolutionalgorithm . . . . . . . . . . . . . . . . . . . 116
6.3.3 Computingsalience . . . . . . . . . . . . . . . . . . . 117
6.3.4 Candidatefiltering . . . . . . . . . . . . . . . . . . . . 122
6.3.5 Resolution . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.3.6 Evaluationanddiscussion . . . . . . . . . . . . . . . . 123
7 Machine-learning-basedApproaches 129
7.1 ThedecisiontreebasedapproachbySoonetal. . . . . . . . . 129
7.1.1 Datapreparationanddeterminationofmarkables . . 130
7.1.2 Features . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.1.3 Generationoftrainingdata . . . . . . . . . . . . . . . 131
7.1.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.2 Thecompetition-learningapproachbyYangetal. . . . . . . 133
7.2.1 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.3 Memory-basedlearning . . . . . . . . . . . . . . . . . . . . . 134
7.3.1 Thek-nearest-neighborsalgorithm . . . . . . . . . . . 137
7.4 Thememory-basedapproachbyPreiss . . . . . . . . . . . . . 144
7.4.1 Systemarchitecture . . . . . . . . . . . . . . . . . . . . 145
7.4.2 Features . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.4.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 147
8 AHybridApproachtoPronounResolution 149
8.1 Themorphologicalprefilter . . . . . . . . . . . . . . . . . . . 151
8.1.1 Therulesystemofthemorphologicalprefilter . . . . 153
8.1.2 Evaluationofthemorphologicalfilter . . . . . . . . . 162
8.2 Thememory-basedresolutionmodule . . . . . . . . . . . . . 170
8.2.1 Inputdata . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.2.2 Baseline . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8.2.3 Featureset . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.2.4 Experimentsandevaluation . . . . . . . . . . . . . . . 180
8.3 Thepostfilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.3.1 Unresolvedpronouns . . . . . . . . . . . . . . . . . . 184iv CONTENTS
8.3.2 Multipleantecedents . . . . . . . . . . . . . . . . . . . 184
8.3.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
8.4 Instancesampling . . . . . . . . . . . . . . . . . . . . . . . . . 185
8.4.1 Proximitysampling . . . . . . . . . . . . . . . . . . . 189
8.4.2 Vector-distancesampling . . . . . . . . . . . . . . . . 190
8.4.3 IncrementallearningwiththeIB2algorithm . . . . . 191
8.4.4 Randomsampling . . . . . . . . . . . . . . . . . . . . 192
8.4.5 Experimentsandresults . . . . . . . . . . . . . . . . . 194
8.4.6 Evaluationofrandomsamplingbypronountype . . 196
8.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
9 SemanticsforPronounResolution 205
9.1 Shortcomingsofsyntacticfeatures . . . . . . . . . . . . . . . 207
9.2 Semanticfeatures . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.3 Data-drivenextractionofselectionalpreferences . . . . . . . 210
9.3.1 Extractionofverb-subjectandverb-objectpairs . . . 214
9.3.2 Passivedetection . . . . . . . . . . . . . . . . . . . . . 216
9.3.3 Evaluationofextractedverb-object-pairs . . . . . . . 219
9.4 Log-likelihoodratios . . . . . . . . . . . . . . . . . . . . . . . 223
9.5 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
9.5.1 Featurerepresentation . . . . . . . . . . . . . . . . . . 228
9.5.2 Resultsanddiscussion . . . . . . . . . . . . . . . . . . 231
9.6 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
9.6.1 Applicability . . . . . . . . . . . . . . . . . . . . . . . 238
9.6.2 Coverage . . . . . . . . . . . . . . . . . . . . . . . . . . 240
9.6.3 Discriminativeness . . . . . . . . . . . . . . . . . . . . 242
9.6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . 244
10 Conclusion 247
A STTS–TheStuttgartTu¨bingenTagset 251
B MorphologicalFeatureCombinationsinSTTS 255
C CategoryLabels 259
D EdgeLabels 261
E NamedEntityCategoriesandEdgeLabels 263CONTENTS v
Bibliography 264vi CONTENTS

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.