Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Machine learning of genomic profiles [Elektronische Ressource] / vorgelegt von Falk Schubert

186 pages
INAUGURAL - DISSERTATIONzur Erlangung der Doktorwu¨rdederNaturwissenschaftlich-Mathematischen Gesamtfakult¨atder Ruprecht-Karls-Universitat Heidelberg¨vorgelegt vonDiplom-Informatiker der MedizinFalk Schubertaus MittweidaTag der mundlichen Prufung: 21. Januar 2010¨ ¨Machine learning ofgenomic profilesDekan: Professor Dr. R. Rannacher, Universita¨t HeidelbergErster Gutachter: Professor Dr. Roland Eils, Universitat Heidelberg¨Zweiter Gutachter: Professor Dr. Fred Hamprecht, Universita¨t HeidelbergAbstractMachine learning is an area of computer science concerned with the study ofalgorithms that reveal patterns and rules from data sets. Genomic profilesdescribe alterations of a genome, like copy number variations. Cancer oftenoriginates from a combination of genomic alterations.In this thesis, I consider machine learning and its application to genomicprofiles. The main aspects of this work can be summarised as follows:First, I discuss several machine learning methods, with particular regard togenomic profiles, and then develop a special loss function for survival data.Next, I introduce a framework to find aberration patterns associated witha particular tumour type or disease state. This workflow starts with pre-processing, feature selection and discretisation of genomic profiles, includesstrategies to deal with missing values and provides a multi-resolutional ana-lysis. Then, training and analysis of a classifier is performed.
Voir plus Voir moins

INAUGURAL - DISSERTATION
zur Erlangung der Doktorwu¨rde
der
Naturwissenschaftlich-Mathematischen Gesamtfakult¨at
der Ruprecht-Karls-Universitat Heidelberg¨
vorgelegt von
Diplom-Informatiker der Medizin
Falk Schubert
aus Mittweida
Tag der mundlichen Prufung: 21. Januar 2010¨ ¨Machine learning of
genomic profiles
Dekan: Professor Dr. R. Rannacher, Universita¨t Heidelberg
Erster Gutachter: Professor Dr. Roland Eils, Universitat Heidelberg¨
Zweiter Gutachter: Professor Dr. Fred Hamprecht, Universita¨t HeidelbergAbstract
Machine learning is an area of computer science concerned with the study of
algorithms that reveal patterns and rules from data sets. Genomic profiles
describe alterations of a genome, like copy number variations. Cancer often
originates from a combination of genomic alterations.
In this thesis, I consider machine learning and its application to genomic
profiles. The main aspects of this work can be summarised as follows:
First, I discuss several machine learning methods, with particular regard to
genomic profiles, and then develop a special loss function for survival data.
Next, I introduce a framework to find aberration patterns associated with
a particular tumour type or disease state. This workflow starts with pre-
processing, feature selection and discretisation of genomic profiles, includes
strategies to deal with missing values and provides a multi-resolutional ana-
lysis. Then, training and analysis of a classifier is performed.
Additionally, I introduce an explanation component that emphasizes impor-
tant features of the classification process and estimates the certainty of clas-
sificationresults. Suchanexplanationmethodcouldprovidethebasisforthe
integration of a classification algorithm, such as a support vector machine,
in a clinical decision support system.
The methods proposed in the thesis were applied to various data sets, focus-
sing on important biological questions, such as early metastasis and micro-
metastasis, and lead to the detection of new tumour markers.
The results of these investigations indicate that machine learning methods
can enhance our understanding of genomic aberrations and may help to im-
prove the delivery of therapies to cancer patients.
vZusammenfassung
Gegenstand dieser Arbeit ist das maschinelle Lernen und seine Anwendung
auf genomische Profile.
Maschinelles Lernen ist ein Teilbereich der Informatik, der sich mit der Ana-
lyse und dem Design von Algorithmen beschaftigt, die Regeln und Muster¨
aus Datens¨atzen ableiten. Genomische Profile beschreiben Vera¨nderungen
der DNA, z.B. der Anzahl ihrer Kopien. Tumorerkrankungen werden oft-
mals von diesen genomischen Ver¨anderungen hervorgerufen.
EswerdenverschiedeneVerfahrendesmaschinellenLernensaufihreAnwend-
barkeit in Bezug auf genomische Profile untersucht. Des Weiteren wird eine
¨Verlustfunktion fur Uberlebenszeitdaten entworfen.¨
Anschließend wird ein analytischer Bezugsrahmen entwickelt, um Aberra-
tionsmuster zu finden, die mit einer speziellen Tumorerkrankung assoziiert
sind. DerBezugsrahmenumfaßtdieVorverarbeitung,Merkmalsselektionund
Diskretisierung von genomischen Profilen sowie Strategien zum Umgang mit
fehlenden Werten und eine mehrdimensionale Analyse. Abschließend folgen
das Training und die Analyse des Klassifikators.
In dieser Arbeit wird weiterhin eine Erkla¨rungskomponente vorgestellt, die
wichtige Merkmale fur die Klassifikation eines Falles identifiziert und ein¨
Maß fu¨r die Richtigkeit einer Klassifikation liefert. Solch eine Erkla¨rung-
skomponente kann die Basis fur die Integration eines Klassifikators , z.B.¨
einer Support-Vektor-Maschine, in ein entscheidungsunterstu¨tzendes System
sein.
Die im Rahmen dieser Arbeit entwickelten Methoden wurden erfolgreich zur
Beantwortung von biologischen Fragestellungen wie der fruhen Metastasie-¨
rung oder der Mikrometastasierung angewandt und fu¨hrten zur Entdeckung
bisher unbekannter Tumormarker.
Zusammenfassend zeigen die Ergebnisse der vorliegenden Arbeit, dass Ver-
fahren des maschinellen Lernens zum Erkenntnisgewinn in Bezug auf geno-
mische Vera¨nderungen beitragen und M¨oglichkeiten zu einer weiteren Ver-
besserung der Therapie fur Tumorpatienten aufzeigen.¨
viiAcknowledgements
Foremost, I would like to thank Professor Dr. Roland Eils for having pro-
vided me with the opportunity to work in the stimulating environment of
the Department of Theoretical Bioinformatics at the Deutsches Krebsfor-
schungszentrum (German Cancer Research Center) and for supervising my
doctoral work at the Ruprecht-Karls-Universitat Heidelberg (University of¨
Heidelberg), Naturwissenschaftlich-Mathematische Gesamtfakult¨at (Combi-
ned Faculty of the Natural Sciences and Mathematics).
Grateful thanks are also due to Professor Dr. Fred Hamprecht for being the
second supervisor of my thesis and for stimulating lectures.
Thanks also to all my other colleagues in the Theoretical Bioinformatics
group, with whom I had the pleasure to work. I am much obliged to Dr. Be-
nedikt Brors, Dr. Rainer K¨onig, Patrick Warnat, Dr. Marc Zapatka, and
JasminMullerforusefuldiscussions,constructivecriticismandproofreading.¨
Furthermore, special thanks go to Dr. Jan Wiemer for many inspiring dis-
cussions, and to Karlheinz Groß and Rolf Kabbe for providing an excellent
infrastructure.
Iwanttothankmycollaboratorsandco-authorsDr.Bjo¨rnFritz,PDDr.Ste-
fanJoos,ProfessorDr.ChristophKlein,ProfessorDr.PeterLichter,Dr.Gun-
hild Mechtersheimer, Jasmin Muller, Professor Dr. Klaus Panthel, Dr. Bern-¨
hard Radlwimmer, Daniel Stange, Bernhard Tausch and Dr. Ute W¨olfle.
AThanks to Dr. Matthias Ebert for providing me with the LT X style sheetsE
and to Stefan Skonetzki for valuable comments.
Moreover, I gratefully thank Maria Haughey for proof-reading a draft of this
dissertation in a cosy cafe. Any remaining mistakes are entirely my own.
I express my appreciation for the support I received from my parents, Ian
Wood and Thomas Zimmerling.
ixx
Finally, the peace at St. Marienthal Convent was invaluable to me as I was
writing parts of this thesis.
Cambridge/Heidelberg, April 2008

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin