Text mining and gene expression analysis [Elektronische Ressource] : towards combined interpretation of high throughput data / vorgelegt von Katrin Fundel
238 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Text mining and gene expression analysis [Elektronische Ressource] : towards combined interpretation of high throughput data / vorgelegt von Katrin Fundel

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
238 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Text Mining and Gene Expression AnalysisTowards Combined Interpretation ofHigh Throughput DataKatrin FundelMünchen 2007Text Mining and Gene Expression AnalysisTowards Combined Interpretation ofHigh Throughput DataKatrin FundelDissertationan der Fakultät für Mathematik, Informatik und Statistikder Ludwig–Maximilians–UniversitätMünchenvorgelegt vonKatrin Fundelaus FriedrichshafenMünchen, den 18.04.2007Erstgutachter: Prof. Dr. Ralf ZimmerZweitgutachter: Prof. Dr. Oliver KohlbacherTag der mündlichen Prüfung: 13.09.2007ContentsSummary xiiiZusammenfassung xv1 Introduction 1Part I Text Mining . . . . . . . . . . . . . . . . . . . . . . . . 92 Background: Text Mining 112.1 Fundamentals in Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Text Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3 Text Mining in Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 Nomenclature of Biological Objects 213.1 Introduction and Literature Review . . . . . . . . . . . . . . . . . . . . . . 213.2 Gene and Protein Name Dictionaries . . . . . . . . . . . . . . . . . . . . . 253.2.1 Generation of gene and protein name dictionaries . . . . . . . . . . 263.2.2 Curation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.3 Analysis of Gene and Protein Name Dictionaries . . . . . . . . . . . . . . .

Sujets

Informations

Publié par
Publié le 01 janvier 2007
Nombre de lectures 12
Langue English
Poids de l'ouvrage 4 Mo

Extrait

Text Mining and Gene Expression Analysis
Towards Combined Interpretation of
High Throughput Data
Katrin Fundel
München 2007Text Mining and Gene Expression Analysis
Towards Combined Interpretation of
High Throughput Data
Katrin Fundel
Dissertation
an der Fakultät für Mathematik, Informatik und Statistik
der Ludwig–Maximilians–Universität
München
vorgelegt von
Katrin Fundel
aus Friedrichshafen
München, den 18.04.2007Erstgutachter: Prof. Dr. Ralf Zimmer
Zweitgutachter: Prof. Dr. Oliver Kohlbacher
Tag der mündlichen Prüfung: 13.09.2007Contents
Summary xiii
Zusammenfassung xv
1 Introduction 1
Part I Text Mining . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Background: Text Mining 11
2.1 Fundamentals in Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Text Mining Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Text Mining in Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Nomenclature of Biological Objects 21
3.1 Introduction and Literature Review . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Gene and Protein Name Dictionaries . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Generation of gene and protein name dictionaries . . . . . . . . . . 26
3.2.2 Curation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Analysis of Gene and Protein Name Dictionaries . . . . . . . . . . . . . . . 30
3.3.1 Size of Gene Name Dictionaries . . . . . . . . . . . . . . . . . . . . 31
3.3.2 Ambiguity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Overlap between Data Sources . . . . . . . . . . . . . . . . . . . . . 37
3.3.4 Relevance of Ambiguities for Mining MEDLINE . . . . . . . . . . . 40
3.4 Hierarchical Synonym Dictionaries . . . . . . . . . . . . . . . . . . . . . . 42
3.4.1 Generation of Hierarchical Synonym Dictionaries . . . . . . . . . . 42
3.4.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Other Dictionaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5.1 Non-Gene and Non-Protein Synonym Dictionaries . . . . . . . . . . 46
3.5.2 Abbreviation Dictionary . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.3 Interaction Term List . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Applications of Synonym Dictionaries . . . . . . . . . . . . . . . . . . . . . 49
3.6.1 Literature Mine Browser (LiMB) . . . . . . . . . . . . . . . . . . . 49vi CONTENTS
3.6.2 The ProThesaurus, BeThesaurus, and LiMB Web Services . . . . . 50
3.6.3 The ProTag Client Applications . . . . . . . . . . . . . . . . . . . . 51
3.6.4 The ProThesaurus Wiki . . . . . . . . . . . . . . . . . . . . . . . . 52
3.7 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4 Gene and Protein Name Identification 55
4.1 Introduction and Literature Review . . . . . . . . . . . . . . . . . . . . . . 56
4.2 The Exact Matching Approach . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Match Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.2 Rule-Based Postfilter . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.3 SVM-Based Postfilter . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3 The ProMiner Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Principles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3.2 Match Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.3 Extensions for BioCreAtIvE . . . . . . . . . . . . . . . . . . . . . . 64
4.4 The Combined Approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Gene Name Detection . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.2 Extended Rule-Based Postfilter . . . . . . . . . . . . . . . . . . . . 65
4.4.3 Disambiguation between and within dictionaries . . . . . . . . . . . 66
4.5 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5.1 The BioCreAtIvE challenge . . . . . . . . . . . . . . . . . . . . . . 69
4.5.2 Evaluation Settings . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.3 Evaluation Results . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5.4 Discussion of the Individual Approaches . . . . . . . . . . . . . . . 74
4.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5 Gene and Protein Relations 87
5.1 Introduction and Literature Review . . . . . . . . . . . . . . . . . . . . . . 87
5.2 RelEx - Relation Extraction Utilizing Dependency Parse Trees . . . . . . . 90
5.2.1 The RelEx Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.3 Large-Scale Network Generation, Analysis, and Applications . . . . . . . . 101
5.3.1 Large-Scale Network Generation . . . . . . . . . . . . . . . . . . . . 102
5.3.2 Comparing RelEx Relations with HPRD Interactions . . . . . . . . 103
5.3.3 Relations with Y2H and Literature PPI Data . . 105
5.3.4 Using RelEx for Network Expansion . . . . . . . . . . . . . . . . . 109
5.3.5 Network Schemes: A Means for Exploiting Context . . . . . . . . . 111
5.4 Characterization of Gene/Protein Interactions . . . . . . . . . . . . . . . . 114
5.4.1 Data Preparation and Classification Approach . . . . . . . . . . . . 114
5.4.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.6 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118CONTENTS vii
Part II Gene Expression Data Analysis. . . . . . . . . . . . . 119
6 Background: Gene Expression Data Analysis 121
6.1 Microarrays – Biological Background . . . . . . . . . . . . . . . . . . . . . 121
6.2 Microarray Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.3 Microarray Expression Data Analysis Overview . . . . . . . . . . . . . . . 125
6.4 Osteoarthritis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7 Gene Expression Data Analysis 133
7.1 Introduction and Literature Review . . . . . . . . . . . . . . . . . . . . . . 133
7.2 Data Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.2.1 GPC Four-Class Data Set . . . . . . . . . . . . . . . . . . . . . . . 135
7.3 Analyzing the Effects of Primary Data Processing . . . . . . . . . . . . . . 136
7.3.1 Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.3.2 Differential Expression . . . . . . . . . . . . . . . . . . . . . . . . . 141
7.3.3 Number of Regulated Genes . . . . . . . . . . . . . . . . . . . . . . 147
7.3.4 Robustness Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.4 Deriving Reliable Gene Signatures for Microarray Classification . . . . . . 150
7.4.1 The StabPerf Approach . . . . . . . . . . . . . . . . . . . . . . . . 151
7.4.2 Application on Osteoarthritis Data . . . . . . . . . . . . . . . . . . 153
7.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8 Gene Expression in Osteoarthritis 157
8.1 Analysis of Gene Expression in Osteoarthritis . . . . . . . . . . . . . . . . 157
8.1.1 Expression Levels of Genes Relevant for Anabolism . . . . . . . . . 158
8.1.2 Differential Expression between Sample Groups . . . . . . . . . . . 158
8.1.3 Clustering Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.2 Comparison of Microarray Platforms . . . . . . . . . . . . . . . . . . . . . 161
8.3 Analysis of Osteoarthritis Models . . . . . . . . . . . . . . . . . . . . . . . 163
8.4 IL1-Stimulation Time Series Analysis . . . . . . . . . . . . . . . . . . . . . 164
8.5 Chapter Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Part III Integrated Data Analysis and Conclusions . . . . . . 167
9 Background: Integrated Gene Expression Data Analysis 169
9.1 Integration with Manually Compiled Data . . . . . . . . . . . . . . . . . . 169
9.2 Integration with Large-Scale Networks . . . . . . . . . . . . . . . . . . . . 170
9.3 Integration with Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . 171
10 Text Mining applied for the Interpretation of Gene Expression Data 173
10.1 ConceptMaker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173viii CONTENTS
11 Conclusions 179
11.1 Contributions of this thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
11.2 Perspectives for Future Research. . . . . . . . . . . . . . . . . . . . . . . . 181
Abbreviations 186
Bibliography 189List of Figures
1.1 Overview of the thesis structure . . . . . . . . . . . . . . . . . . . . . . . . 2
3.1 Example entry of a synonym dictionary in XML representation . . . . . . . 26
3.2 Size of gene name dictionaries . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Ambiguity within gene name dictionaries . . . . . . . . . . . . . . . . . . . 34
3.4 Amy between gene names and English and domain-related terms . . 37
3.5 Overlap between different data sources .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents