Analysis of differentiation trees using transcriptome data [Elektronische Ressource] : application to hematopoiesis / presented by Frederik Roels
128 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Analysis of differentiation trees using transcriptome data [Elektronische Ressource] : application to hematopoiesis / presented by Frederik Roels

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
128 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Dissertationsubmitted to theCombined Faculties for the Natural Sciences and Mathematicsof the Ruperto-Carola University of Heidelberg, Germanyfor the degree ofDoctor of Natural SciencePresented byIr Frederik RoelsBorn in Geel, BelgiumOral examination: 30/9/2010Analysis of differentiation trees usingtranscriptome data: application tohematopoiesisReferees: Prof. Dr. Roland EilsProf. Dr. Rainer HaasI would like to thank Professor Roland Eils and the department of theo-retical bioinformatics at the DKFZ for providing the work environment andexpertise needed to complete this project. Special thanks goes out to DoctorBenedikt Brors for being the man with an answer to every question.I would like to thank Professor Rainer Haas and the department of hema-tology and oncology at the university clinic of Dusseldorf¨ for providing mewith the interesting, yet difficult to obtain, data that spawned the idea forthis project.AbstractCellular differentiation is a complicated and highly important system inall multicellular organisms. The remarkable aspect about differentiation isthat the multitude of different and highly specialised cell types are all descen-dant from one cell, the zygote. Not surprisingly differentiation is a highlyregulated process. A complicated interplay of environmental signals and in-tracellular regulation defines the ultimate mature state of all cell types.In this work a method was developed that can analyse differentiationtrees computationally.

Sujets

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 10
Langue English
Poids de l'ouvrage 9 Mo

Extrait

Dissertation
submitted to the
Combined Faculties for the Natural Sciences and Mathematics
of the Ruperto-Carola University of Heidelberg, Germany
for the degree of
Doctor of Natural Science
Presented by
Ir Frederik Roels
Born in Geel, Belgium
Oral examination: 30/9/2010Analysis of differentiation trees using
transcriptome data: application to
hematopoiesis
Referees: Prof. Dr. Roland Eils
Prof. Dr. Rainer HaasI would like to thank Professor Roland Eils and the department of theo-
retical bioinformatics at the DKFZ for providing the work environment and
expertise needed to complete this project. Special thanks goes out to Doctor
Benedikt Brors for being the man with an answer to every question.
I would like to thank Professor Rainer Haas and the department of hema-
tology and oncology at the university clinic of Dusseldorf¨ for providing me
with the interesting, yet difficult to obtain, data that spawned the idea for
this project.Abstract
Cellular differentiation is a complicated and highly important system in
all multicellular organisms. The remarkable aspect about differentiation is
that the multitude of different and highly specialised cell types are all descen-
dant from one cell, the zygote. Not surprisingly differentiation is a highly
regulated process. A complicated interplay of environmental signals and in-
tracellular regulation defines the ultimate mature state of all cell types.
In this work a method was developed that can analyse differentiation
trees computationally. The development of the method was guided by three
questions. Do microarrays contain enough information to retrace steps in
differentiation? Can this information be used to validate proposed differen-
tiation paths? Can this be used to compare differentiation in
different contexts?
The method starts from microarray data and uses a combination of meth-
ods to identify the most likely differentiation tree out of all possibilities. The
method has two components, one component identifies the most likely con-
formation using a scoring system. The other component identifies the most
likely root node using a comparison system. The conformation scoring sys-
tem relies on transcriptional changes in previously defined subnetworks, all
possible differentiation conformations are tested in a manner similar to max-
imum parsimony. Maximum parsimony is used in molecular phylogeny to
score possible evolutionary trees, a problem similar to the one tackled in this
work. Root node identification is done using a value calculated based on
within cell type gene expression correlations, high values indicate the cell is
less mature.
The method was tested on microarray data from the myeloid lineage of
hematopoiesis. The datasets are comprised of expression data taken from
four different cell types: Hematopoietic Stem Cells, Common Myeloid Pro-
genitors, Granulocyte Monocyte Progenitors and Megakaryocyte Erythro-
cyte Progenitors. Data was gathered from healthy donors and patients suf-
fering Chronic Myeloid Leukemia and Multiple Myeloma respectively.
The method performed well, in most cases the correct differentiation tree
could be identified. This indicates that there is indeed enough informationpresent in microarray data to retrace differentiation. Interesting results where
seen for the root node identification component. When analysing the dataset
taken from patients with CML, the method predicted known differences in
stemness in that particular cancer.Zusammenfassung
Zellul¨ are Differenzierung ist ein kompliziertes und ausserst¨ wichtiges Sys-
tem in allen multizellularen Organismen. Der bemerkenswerte Aspekt bei der
Differenzierung ist, dass die Vielzahl an unterschiedlichen und enorm spezial-
isierten Zelltypen alle von einer Zelle abstammen, der Zygote. Es ub¨ errascht
daher nicht, dass Differenzierung ein stark regulierter Prozess ist. Ein kom-
pliziertes Zusammenspiel von umweltbedingten Signalen und intrazellul¨ arer
Regulierung definiert den endgultigen,¨ vollentwickelten Zustand von allen
Zelltypen.
In Rahmen dieser Arbeit wird ein Verfahre entwickelt, mit der Differen-
zierungsb¨ ame programmatisch analysiert werden k¨ onnen. Die Entwicklung
dieser Methode wurde von drei Hauptfragen bestimmt: Enthalten Microar-
rays genuge¨ nd Informationen, um die Schritte der Differenzierung nachzuver-
folgen? K¨ onnen diese Informationen verwendet werden, um vorgeschlagene
Differenzierungs-Wege zu validieren? K¨ onnen diese Informationen verwen-
det werden, um Differenzierung in verschiedenen Kontexten miteinander zu
vergleichen?
Das im Rahmen dieser Arbeit entwickelte Verfahren verarbeitet Microar-
ray Daten zu einem Differenzierungsbaum, indem es aus allen m¨oglichen
den wahrscheinlichsten Differenzierungsbaum ermittelt. Die Transformation
der Daten wird im wesentlichen von zwei Komponenten bernommen: Eine
Komponente identifiziert die wahrscheinlichste ub¨ ereinstimmung basierend
auf einem Bewertungssystem. Die andere bestimmt den wahrscheinlichsten
Wurzelknoten des Differenzierungsbaums durch ein Vergleichssystem. Das
¨Conformation Scoring System bzw. das Bewertungssystem fur¨ Ubereinstim-
¨mungen beruht auf transkriptionellen Anderungen in vorher definierten Sub-
netzwerken, in denen auf m¨ ogliche bereinstimmungen bei der Differenzierung
getestet wird, ¨ahnlich wie bei Maximum-Parsimony. Maximum-Parsimony
wird im Bereich der molekularen Phylogenie eingesetzt, um die Wahrschein-
lichkeit von Stammb¨ aumen zu bewerten, einer Problemstellung, die der in
dieser Arbeit besprochenen Problematik sehr ahnlic¨ h ist. Die Identifizierung
des Wurzelknotens basiert auf einem Wert, der mithilfe der Korrelation von
Genexpressionen innerhalb eines Zelltyps berechnet wird. Ein hoher Wertdeutet darauf hin, dass die Zelle noch nicht voll entwickelt ist.
Das Verfahren wurde mit Microarray Daten von h¨ amatopoetischen Zellen
der myeloischen Linien getestet. Die Dateien bestehen aus Expressionsdaten,
die von vier verschiedenen Zelltypen stammen: h¨ amatopoetischen Stam-
mzellen, Common Myeloid Progenitors, Granulocyte-Monocyte Progenitors
and Megakaryocyte-Erythrocyte Progenitors. Die Daten stammen sowohl
von gesunden Spendern als auch von Patienten, die an chronischer myelois-
cher Leukmie (CML) erkrankt sind.
Das Verfahren arbeitete erfolgreich und fuhrte¨ in den meisten F¨ allen zur
Bestimmung des korrekten Differenzierungsbaums. Dies ist ein Indikator
dafur,¨ dass Microarray Daten genugend¨ Informationen enthalten, um die
Schritte der Differenzierung nachzuverfolgen. Die Komponente zur Identi-
fizierung des Wurzelknotens lieferte besonders interessante Resultate. Bei
der Analyse von Datenstzen, die von Patienten mit CML stammen, kon-
nten mithilfe des Verfahrens bekannte Unterschiede in der Stemness dieser
Krebsform vorausgesagt werden.Contents
1 Introduction 10
1.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1 Transcriptome analysis techniques . . . . . . . . . . . . 11
1.1.2 Similarities between evolution and di erentiation . . . 14
1.1.3 Hematopoietic di erentiation . . . . . . . . . . . . . . 15
1.1.4 Myeloid malignancies . . . . . . . . . . . . . . . . . . . 19
1.1.4.1 Chronic Myeloid Leukemia . . . . . . . . . . . 19
1.1.4.2 Multiple Myeloma . . . . . . . . . . . . . . . 20
1.1.5 Epigenetics . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2 Related work . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3 Aim of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . 26
2 Method 27
2.1 Principles behind the method . . . . . . . . . . . . . . . . . . 27
2.2 Conformation scoring . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Subnetworks . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1.1 Prede ned Pathways . . . . . . . . . . . . . . 33
2.2.1.2 Topology-Derived Subnetworks . . . . . . . . 34
2.2.2 Score calculation . . . . . . . . . . . . . . . . . . . . . 38
2.2.2.1 Di erences in subnetworks . . . . . . . . . . . 38
2.2.2.2 Conformation Scoring . . . . . . . . . . . . . 39
2.3 Rooting the tree . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 System studied and data used . . . . . . . . . . . . . . . . . . 42
2.5 Code details . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.5.1 Code description for rmcl-cuda . . . . . . . . . . . . . 43
2.5.2 Code for SpearmanPreranked . . . . . . . . 44
3 Results 46
3.1 Network data . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Identi cation of di erentiation trees . . . . . . . . . . . . . . . 49
3.2.1 Change vectors . . . . . . . . . . . . . . . . . . . . . . 49
83.2.2 Scoring possible conformations . . . . . . . . . . . . . . 60
3.2.3 Root node identi cation: Correlation entropy . . . . . 63
3.2.4 Identifying rooted . . . . . . . . . . . . 65
4 Discussion 71
4.1 Subnetwork identi cation . . . . . . . . . . . . . . . . . . . . . 71
4.2 Change vectors . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3 Conformation scoring . . . . . . . . . . . . . . . . . . . . . . . 77
4.4 Correlation entropy . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5 General conclusions . . . . . . . . . . . . . . . . . . . . . . . . 85
4.6 Outlook . . . . . . . . . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents