La lecture à portée de main
Découvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDécouvre YouScribe en t'inscrivant gratuitement
Je m'inscrisDescription
Informations
Publié par | eberhard_karls_universitat_tubingen |
Publié le | 01 janvier 2008 |
Nombre de lectures | 5 |
Langue | English |
Poids de l'ouvrage | 1 Mo |
Extrait
d
d
d
d
Fully Automatic Resolution of
It,This andThat in
Unrestricted Multi-Party Dialog
von
Mark-Christoph Mu¨ ller
Philosophische Dissertation
angenommen von der Neuphilologischen Fakulta¨t
der Universita¨t Tu¨ bingen
am 12. Juni 2008
Tu¨ bingen
20082
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
Gedruckt mit Genehmigung der Neuphilologischen Fakulta¨t
der Universita¨t Tu¨ bingen
Hauptberichterstatter: Prof. Dr. Erhard Hinrichs
Mitberichterstatter: Prof. Dr. Massimo Poesio
Dekan: Prof. Dr. Joachim Knape3
d
d
d
d
d
d
d
d
d
d
d
d
d
Fu¨ r Birgit und Jette.
Ohne Euch wa¨re diese Arbeit
weder mo¨glich noch sinnvoll gewesen.4
d
d5
d
d
d
d
d
d
d
d
d
d
d
d
People do not remember the spoken language exactly
and so they cannot refer back to it in quite the simple way
that they can with the written language.
Sinclair (2004, p.13)6
d
dCONTENTS 7
Contents
1 Introduction 15
1.1 Task and Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Project Requirements and Choice of Corpus . . . . . . . . . . . . . . . . . . 17
1.3 A Note on Terminology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Overview of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Pronouns in Spoken Dialog: The Case ofIt,This, andThat 23
2.1 Corpus Frequency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Functional Categories . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Non-referential Pronouns . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2 Individual Anaphoric Reference . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Discourse Deixis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.4 Vague Reference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 The Opposition ofIt vs. This andThat . . . . . . . . . . . . . . . . . . . . . 36
2.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 Data 43
3.1 The ICSI Meeting Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Comparison to Other Spoken Dialog Corpora . . . . . . . . . . . . . . . . . 45
3.3 Corpus Conversion and XML Representation . . . . . . . . . . . . . . . . . 48
3.4 Annotation Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Annotations 55
4.1 Data Collection 1: Classification ofit,this, andthat . . . . . . . . . . . . . . 55
4.1.1 Reliability Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1.2 Gold Standard Data Set Generation . . . . . . . . . . . . . . . . . . 63
4.2 Data Collection 2: Anaphoric Relations . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Previous Approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.2 Our Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2.3 Reliability Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.2.4 AutomaticCore Data Set Generation . . . . . . . . . . . . . . . . . . 85
4.2.5 Annotated Corpus Analysis . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.5.1 Antecedent Type and Anaphor Frequencies . . . . . . . . 888 CONTENTS
4.2.5.2 Anaphor-Antecedent Pair Distribution . . . . . . . . . . . 90
4.2.5.3 Distances . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2.5.4 Anaphoric Chains . . . . . . . . . . . . . . . . . . . . . . . 95
4.3 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5 State of the Art in Spoken Dialog Pronoun Resolution 103
5.1 Pronoun Resolution in Written Text vs. Spoken Dialog . . . . . . . . . . . . 103
5.2 Unimplemented Algorithms For Spoken Dialog Pronoun Resolution . . . 115
5.2.1 Byron & Stent 1998 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.2.2 Rocha 1999 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.2.3 Eckert & Strube 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.2.4 Navarretta 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.3 Implemented Spoken Dialog Pronoun Resolution Systems . . . . . . . . . 121
5.3.1 Strube & Mu¨ ller 2003 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3.2 Byron 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.4 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6 Practical Pronoun Resolution in DIANA-Summ 127
6.1 Automatic Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.1.1 Detection and Removal of Non-ReferentialIt . . . . . . . . . . . . . 128
6.1.1.1 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.1.1.2 Features and Data Generation . . . . . . . . . . . . . . . . 131
6.1.1.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . 133
6.1.1.4 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.1.2 Sentence Splitting / Joining . . . . . . . . . . . . . . . . . . . . . . . 137
6.1.3 Forced Time-Alignment . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.1.4 Disfluency Detection and Removal . . . . . . . . . . . . . . . . . . . 139
6.1.5 Parsing with Discourse Marker Detection and Removal . . . . . . . 140
6.1.6 Chunking and Chunk Attaching . . . . . . . . . . . . . . . . . . . . 142
6.1.6.1 NP and Adjective Chunks . . . . . . . . . . . . . . . . . . 142
6.1.6.2 VP Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.1.6.3 Chunk Attaching . . . . . . . . . . . . . . . . . . . . . . . 142
6.1.6.4 Evaluation of Chunker Recall . . . . . . . . . . . . . . . . 146
6.2 Feature Representation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2.1 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149CONTENTS 9
6.2.2 Relations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.3 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7 Experiments and Results 175
7.1 Evaluation Measures: MUC-Style vs. ’Functional’ Evaluation . . . . . . . . 176
7.2 Experimental Parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.2.1 Data Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.2.2 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.2.3 Antecedent Types: NP and VP . . . . . . . . . . . . . . . . . . . . . 182
7.2.4 Instance Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2.5 Corpus-based Features . . . . . . . . . . . . . . . . . . . . . . . . . . 183
7.2.6 Processing Order: Discourse vs. Chronologial Order . . . . . . . . 184
7.2.7 Type of Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
7.2.8 Filtering Non-ReferentialIt . . . . . . . . . . . . . . . . . . . . . . . 188
7.2.9 Resolution Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7.3 Training Data Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.4 Resolution Experiments with Automatically Obtained Data . . . . . . . . . 194
7.4.1 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
7.4.2 Qualitative Performance Analysis . . . . . . . . . . . . . . . . . . . 212
7.4.2.1 Analysis of Anaphors of ClassCorrectlyresolvedby0 . . . 214
7.4.2.2 Analysis of Anaphors of ClassCorrectlyresolvedby1 . . . 218
7.5 Resolution Experiments with Idealized Data . . . . . . . . . . . . . . . . . 224
7.5.1 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
7.6 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
8 Conclusions and Future Work 23110 CONTENTS
d
d