Foundation, implementation and evaluation of the MorphoSaurus system [Elektronische Ressource] : subword indexing, lexical learning and word sense disambiguation for medical crosslanguage information retrieval / von Kornél Géza Markó
214 pages

Foundation, implementation and evaluation of the MorphoSaurus system [Elektronische Ressource] : subword indexing, lexical learning and word sense disambiguation for medical crosslanguage information retrieval / von Kornél Géza Markó

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
214 pages
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Foundation, Implementation andEvaluation of the MorphoSaurus SystemSubword Indexing, Lexical Learning and Word Sense Disambiguation forMedical Cross-Language Information RetrievalDissertationzur Erlangung des akademischen GradesDoctor philosophiae (Dr. phil.)vorgelegt dem Rat der Philosophischen Fakult¨atder Friedrich-Schiller-Universit¨at JenavonKorn´el G´eza Mark´o, M.A.geboren am 26.08.1971 in StuttgartGutachter:1. Prof. Dr. Udo Hahn (Friedrich-Schiller-Universit¨at Jena)2. Prof. Dr. Ru¨diger Klar (Albert-Ludwigs-Universit¨at Freiburg)3. Prof. Dr. Rainer Hammw¨ohner (Universit¨at Regensburg)Tag des Kolloquiums: 15. Oktober 2008Contents1 Introduction 11.1 Medical Information Systems . . . . . . . . . . . . . . . . . . . . . . 31.2 Information Retrieval in Medicine . . . . . . . . . . . . . . . . . . . . 41.3 An Interdisciplinary Approach . . . . . . . . . . . . . . . . . . . . . . 61.4 Overview on this Work . . . . . . . . . . . . . . . . . . . . . . . . . . 72 A Morphological Perspective on Medical Language Processing 92.1 Medical Linguistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Morphological Processes . . . . . . . . . . . . . . . . . . . . . . . . . 112.3 Morphology in Medical Terminology . . . . . . . . . . . . . . . . . . 122.4 Morphology in Information Retrieval . . . . . . . . . . . . . . . . . . 152.5 Medical Morphological Analysis . . . . . . . . . . . . . . . . . . . . . 162.6 MorphoSaurus . . . . . . . . . .

Sujets

Informations

Publié par
Publié le 01 janvier 2008
Nombre de lectures 24
Poids de l'ouvrage 2 Mo

Extrait

Foundation, Implementation and
Evaluation of the MorphoSaurus System
Subword Indexing, Lexical Learning and Word Sense Disambiguation for
Medical Cross-Language Information Retrieval
Dissertation
zur Erlangung des akademischen Grades
Doctor philosophiae (Dr. phil.)
vorgelegt dem Rat der Philosophischen Fakult¨at
der Friedrich-Schiller-Universit¨at Jena
von
Korn´el G´eza Mark´o, M.A.
geboren am 26.08.1971 in StuttgartGutachter:
1. Prof. Dr. Udo Hahn (Friedrich-Schiller-Universit¨at Jena)
2. Prof. Dr. Ru¨diger Klar (Albert-Ludwigs-Universit¨at Freiburg)
3. Prof. Dr. Rainer Hammw¨ohner (Universit¨at Regensburg)
Tag des Kolloquiums: 15. Oktober 2008Contents
1 Introduction 1
1.1 Medical Information Systems . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Information Retrieval in Medicine . . . . . . . . . . . . . . . . . . . . 4
1.3 An Interdisciplinary Approach . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Overview on this Work . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 A Morphological Perspective on Medical Language Processing 9
2.1 Medical Linguistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Morphological Processes . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Morphology in Medical Terminology . . . . . . . . . . . . . . . . . . 12
2.4 Morphology in Information Retrieval . . . . . . . . . . . . . . . . . . 15
2.5 Medical Morphological Analysis . . . . . . . . . . . . . . . . . . . . . 16
2.6 MorphoSaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Subword Model 21
3.1 Semantic Atomicity . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Morpho-semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1 Subword Lexicon . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.2 Subword Thesaurus . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Subword Indexing . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.3.1 Orthographic Normalization . . . . . . . . . . . . . . 30
3.2.3.2 Morphological segmentation . . . . . . . . . . . . . . 31
3.2.3.3 Semantic Normalization . . . . . . . . . . . . . . . . 32
4 Implementation of the Subword Model 33
4.1 Lexicon Creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33ii CONTENTS
4.1.1 Delimiting Subwords . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.2 Empirical Validation of Subword Specificity . . . . . . . . . . 35
4.1.3 Criteria for Lexical Subword Inclusion . . . . . . . . . . . . . 36
4.2 Thesaurus Creation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.3 Aspects of lexicon construction . . . . . . . . . . . . . . . . . . . . . 38
4.3.1 A Web-based Lexicon Editing Tool . . . . . . . . . . . . . . . 40
4.3.2 Lexicon Statistics . . . . . . . . . . . . . . . . . . . . . . . . . 40
5 Lexical Acquisition 45
5.1 Cognate Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.1 Cognate Candidate Elimination . . . . . . . . . . . . . . . . . 47
5.1.1.1 Resources . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1.2 Elimination of Cognate Candidates . . . . . . . . . . 49
5.2 Cognate Validation Using Parallel Corpora . . . . . . . . . . . . . . . 50
5.3 Bootstrapping Subwords . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4 Checking the Quality of Derived Lexicons . . . . . . . . . . . . . . . 55
5.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 Cross-Lingual Resolution of Acronyms 61
6.1 Algorithm for Acronym Extraction . . . . . . . . . . . . . . . . . . . 62
6.1.1 Extraction of possible SF-LF terms . . . . . . . . . . . . . . . 62
6.1.2 Identifying the correct SF-LF term . . . . . . . . . . . . . . . 63
6.2 Extracting Biomedical Acronyms . . . . . . . . . . . . . . . . . . . . 63
6.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.3.1 Intra-Lingual Phenomena . . . . . . . . . . . . . . . . . . . . 66
6.3.2 Inter-Lingual Phenomena . . . . . . . . . . . . . . . . . . . . 68
6.3.2.1 Identical SF-LF Pairs . . . . . . . . . . . . . . . . . 68
6.3.2.2 Identical SF, Different LF . . . . . . . . . . . . . . . 68
6.3.2.3 Identical SF, Translation of LF . . . . . . . . . . . . 70
6.3.2.4 Different SF, Translation of LF . . . . . . . . . . . . 70
6.4 Lexicon Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72CONTENTS iii
7 Subword Sense Disambiguation 73
7.1 Combining Multilingual Evidence for WSD . . . . . . . . . . . . . . . 74
7.1.1 Training the Classifier . . . . . . . . . . . . . . . . . . . . . . 76
7.1.2 Testing the Classifier . . . . . . . . . . . . . . . . . . . . . . . 77
7.1.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8 Cross-Language Information Retrieval 85
8.1 Experimental Setting . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
8.1.1 TheOhsumed corpus . . . . . . . . . . . . . . . . . . . . . . 86
8.1.2 TheImageCLEFMed 2006 corpus . . . . . . . . . . . . . . . 87
8.1.3 Approaches to CLIR . . . . . . . . . . . . . . . . . . . . . . . 88
8.1.3.1 QTR Approach: Machine Translation Based on
Bilingual Dictionaries . . . . . . . . . . . . . . . . . 89
8.1.3.2 MSI-Approach: Language Independent Morpho-
Semantic Indexing . . . . . . . . . . . . . . . . . . . 90
8.1.4 Search Engine . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.1.5 Experimental Conditions . . . . . . . . . . . . . . . . . . . . . 92
8.1.6 Measurements . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.2 Ohsumed Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.3 ImageCLEFMed Results . . . . . . . . . . . . . . . . . . . . . . . . 98
8.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
9 Cross-Language Information Retrieval on the Web 105
9.1 Query Translation for Web-CLIR . . . . . . . . . . . . . . . . . . . . 106
9.1.1 Creating Subword Lists . . . . . . . . . . . . . . . . . . . . . . 106
9.1.2 Producing Translations . . . . . . . . . . . . . . . . . . . . . . 109
9.1.3 Ranking of Translations . . . . . . . . . . . . . . . . . . . . . 111
9.2 Interface to a Web Search Engine . . . . . . . . . . . . . . . . . . . . 113
9.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.4 Ohsumed Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.5 ImageCLEFMed Results . . . . . . . . . . . . . . . . . . . . . . . . 119iv CONTENTS
9.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10 Multilingual MeSH Mapping 125
10.1 Learning Indexing Patterns . . . . . . . . . . . . . . . . . . . . . . . 126
10.1.1 StatisticalMeSH Mapping . . . . . . . . . . . . . . . . . . . 128
10.1.2 Heuristic MeSH Mapping . . . . . . . . . . . . . . . . . . . . 130
10.1.3 Hybrid Approach . . . . . . . . . . . . . . . . . . . . . . . . . 132
10.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
10.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
10.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
11 Towards a General Multilingual Medical Lexicon 143
11.1 Interchanging Lexical Information . . . . . . . . . . . . . . . . . . . . 144
11.2 Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.3 Linking Format Definition . . . . . . . . . . . . . . . . . . . . . . . . 148
11.4 Cross-Lingual Alignment . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.5.1 Coverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.5.2 Cross-Lingual Mappings . . . . . . . . . . . . . . . . . . . . . 152
11.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
12 Scalability, Generalizability and Limitations of Subword Indexing155
12.1 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
12.1.1 Searching in Scientific Databases . . . . . . . . . . . . . . . . 155
12.1.2 Searching in Electronic Health Records . . . . . . . . . . . . . 157
12.1.3 Searching in Medical Terminology Systems . . . . . . . . . . . 160
12.1.4 Multimodal Retrieval . . . . . . . . . . . . . . . . . . . . . . . 161
12.2 Generalizability of the Subword Approach . . . . . . . . . . . . . . . 161
12.3 Limitations of the Subword Approach . . . . . . . . . . . . . . . . . . 165
13 Conclusions 167
14 Acknowledgments 171List of Tables
2.1 Medical Nominal Compounds in Different Languages . . . . . . . . . 13
3.1 Example Lexicon for English, German and the Thesaurus . . . . . . . 28
4.1 Number of Subwords and their Linkage to the Thesaurus . . . . . . . 42
4.2 Number of Entries to Cover English and German Medical Terminology 43
5.1 Some String Substitution Rules and Examples . . . . . . . . . . . . . 46
5.2 Variant Generation Statistics . . . . . . . . . . . . . . . . . . . . . . 47
5.3 Corpus Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.4 Selected Cognates (Including Combined

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents