Contextual analysis of gene expression data [Elektronische Ressource] / vorgelegt von Florian Sohler
205 pages

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Contextual analysis of gene expression data [Elektronische Ressource] / vorgelegt von Florian Sohler

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
205 pages
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Contextual Analysis of Gene ExpressionDataFlorian SohlerMu¨nchen 2006Contextual Analysis of Gene ExpressionDataFlorian SohlerDissertationan der Fakult¨at fu¨r Mathematik, Informatik und Statistikder Ludwig–Maximilians–Universit¨atMu¨nchenvorgelegt vonFlorian Sohleraus DortmundMu¨nchen, den 10.05.2006Erstgutachter: Prof. Dr. Ralf ZimmerZweitgutachter: Prof. Dr. Martin VingronTag der mu¨ndlichen Pru¨fung: 20. Juli 2006ContentsSummary xiiiZusammenfassung xv1 Introduction and Concepts 11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Biological background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.1 Biological Entities. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.2 The Central Dogma of molecular biology . . . . . . . . . . . . . . . 61.2.3 Regulation mechanisms . . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Data used in this thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.1 Gene expression data . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.2 Biological networks and annotations. . . . . . . . . . . . . . . . . . 111.4 Definitions and notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4.1 Statistical tests and significance . . . . . . . . . . . . . . . . . . . . 131.4.2 Graphs and Petri nets . . . . . . . . . . . . . . . . . . . . . . . . . 162 Expression Data Analysis 192.1 Areas of application . . . . . . . .

Sujets

Informations

Publié par
Publié le 01 janvier 2006
Nombre de lectures 31
Poids de l'ouvrage 9 Mo

Extrait

Contextual Analysis of Gene Expression
Data
Florian Sohler
Mu¨nchen 2006Contextual Analysis of Gene Expression
Data
Florian Sohler
Dissertation
an der Fakult¨at fu¨r Mathematik, Informatik und Statistik
der Ludwig–Maximilians–Universit¨at
Mu¨nchen
vorgelegt von
Florian Sohler
aus Dortmund
Mu¨nchen, den 10.05.2006Erstgutachter: Prof. Dr. Ralf Zimmer
Zweitgutachter: Prof. Dr. Martin Vingron
Tag der mu¨ndlichen Pru¨fung: 20. Juli 2006Contents
Summary xiii
Zusammenfassung xv
1 Introduction and Concepts 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Biological background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Biological Entities. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 The Central Dogma of molecular biology . . . . . . . . . . . . . . . 6
1.2.3 Regulation mechanisms . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Data used in this thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Gene expression data . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Biological networks and annotations. . . . . . . . . . . . . . . . . . 11
1.4 Definitions and notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Statistical tests and significance . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Graphs and Petri nets . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Expression Data Analysis 19
2.1 Areas of application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Microarray technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Analysis methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Image analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Normalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Differentially expressed genes . . . . . . . . . . . . . . . . . . . . . 28
2.3.4 Clustering and visualization . . . . . . . . . . . . . . . . . . . . . . 30
2.3.5 Sample classification . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.6 Enrichment analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Unsupervised Decision Trees 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1 Unsupervised Decision Trees . . . . . . . . . . . . . . . . . . . . . . 37
3.2.2 GO-UDTs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37vi CONTENTS
3.3 Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Gene class models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Scoring and clustering . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4 Selecting a good split . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.1 Over-representation of DE genes . . . . . . . . . . . . . . . . . . . . 44
3.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 ToPNet 49
4.1 ToPNet Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1 Representation of networks . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.2 Network sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.3 Visualization of networks . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.4 Annotations for networks: data maps . . . . . . . . . . . . . . . . . 54
4.1.5 Providing the link: mappings . . . . . . . . . . . . . . . . . . . . . 54
4.1.6 Network exploration . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.7 Data Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.8 Scripting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Algorithms. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.1 Significant Area Search . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Enrichment analysis . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.3 Pathway Query Language and Pathway Search . . . . . . . . . . . . 60
5 Pathway Queries 61
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.1.1 A language for network-based hypotheses in molecular biology . . . 64
5.1.2 Some possible applications . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 Description of the query language . . . . . . . . . . . . . . . . . . . . . . . 67
5.2.1 Specification of places, paths, and networks . . . . . . . . . . . . . 68
5.2.2 Aggregation of instances . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2.3 XML Representation . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3 The pathway search algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.3.1 Hierarchical pathway queries . . . . . . . . . . . . . . . . . . . . . . 82
5.3.2 Complexity of the pathway search algorithm . . . . . . . . . . . . . 82
5.3.3 Summary of the pathway search algorithm . . . . . . . . . . . . . . 86
5.4 Scoring pathway queries . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4.1 Map scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4.2 Enrichment scores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4.3 Scoring transcription factors and kinases . . . . . . . . . . . . . . . 88
5.4.4 Power of enrichment scores . . . . . . . . . . . . . . . . . . . . . . . 89
5.4.5 Combining scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.4.6 Implementing additional scoring methods . . . . . . . . . . . . . . . 97Contents vii
5.4.7 Specifying scoring methods in the pathway query . . . . . . . . . . 97
5.5 Association rule mining in pathway instances . . . . . . . . . . . . . . . . . 97
5.6 Visualization of pathway instances . . . . . . . . . . . . . . . . . . . . . . 99
6 Applications 101
6.1 Analysis of yeast compendium data . . . . . . . . . . . . . . . . . . . . . . 101
6.1.1 Enrichment analysis in KEGG pathways . . . . . . . . . . . . . . . 102
6.1.2 Activity of transcription factors . . . . . . . . . . . . . . . . . . . . 108
6.1.3 Correlation analysis of activity scores . . . . . . . . . . . . . . . . . 111
6.1.4 Activity of kinases . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.5 Cooperating transcription factors . . . . . . . . . . . . . . . . . . . 114
6.1.6 Association rule mining. . . . . . . . . . . . . . . . . . . . . . . . . 116
6.1.7 Finding signaling cascades . . . . . . . . . . . . . . . . . . . . . . . 119
6.1.8 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
6.2 Transcription factor activity in Drosophila . . . . . . . . . . . . . . . . . . 124
6.2.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.2.2 Binding site prediction . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.2.3 Predicted transcription factor activity . . . . . . . . . . . . . . . . . 126
6.2.4 Activities in GO classes . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.3 Analysis of osteoarthritis data . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.3.1 Disease models for osteoarthritis . . . . . . . . . . . . . . . . . . . . 133
6.3.2 SW1353 cells as a model for catabolic processes in chondrocytes . . 135
6.3.3 Analysis of patient data for osteoarthritis . . . . . . . . . . . . . . . 140
7 Conclusions and Future Work 153
7.1 Achievements and limitations . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.2 Future challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.2.1 New generation of microarrays . . . . . . . . . . . . . . . . . . . . . 155
7.2.2 Proteomics and metabolomics . . . . . . . . . . . . . . . . . . . . . 156
7.2.3 MicroRNA and epigenetics . . . . . . . . . . . . . . . . . . . . . . . 156
7.2.4 Data integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.3 Final remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
A XML Schema and stylesheet of the Pathway Query Language 159
A.1 Schema definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
A.2 Stylesheet definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Acknowledgements 184viii ContentsList of Figures
1.1 The central dogma of molecular biology. . . . . . . . . . . . . . . . . . . . 7
1.2 The IL1 pathway . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 The yeast two-hybrid system . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1 Background images of cDNA arrays . . . . . . . . . . . . . . . . . . . . . . 22
2.2 MA-plots of normalized and unnormalized expression data . . . . . . . . . 24
2.3 Robust and least squares lowess fit. . . . . . . . . . . . . . . . . . . . . . . 27
3.1 Model comparison UDT of the Lapointe dataset . . . . . . . . . . . . . . . 42
3.2 Silhouette UDT of the Lapointe dataset . . . . . . . . . . . . . . . . . . . 4

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents