Machine learning algorithms for the analysis of data from whole-genome tiling microarrays [Elektronische Ressource] / vorgelegt von Georg F. Zeller

eberhard_karls_universitat_tubingen

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

153 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Biologie

Informations

Publié par	eberhard_karls_universitat_tubingen
Publié le	01 janvier 2009
Nombre de lectures	15
Langue	English
Poids de l'ouvrage	12 Mo

Extrait

Machine Learning Algorithms
for the Analysis of Data from
Whole-Genome Tiling Microarrays
Dissertation
der Fakultat fur Informations- und Kognitionswissenschaften¨ ¨
der Eberhard-Karls-Universitat Tubingen¨ ¨
zur Erlangung des Grades eines
Doktors der Naturwissenschaften
(Dr. rer. nat.)
vorgelegt von
Dipl.-Inform. (Bioinf.) Georg F. Zeller
aus Konstanz
Tubing¨ en
2009Tag der mundlichen Qualiﬁkation: 21.04.2010¨
Dekan: Prof. Dr.-Ing. Oliver Kohlbacher
1. Berichterstatter: Prof. Dr. Daniel H. Huson
2. Berichterstatter: Prof. Dr. Detlef Weigel
3. Berichterstatter: Prof. Dr. Klaus-Robert Muller¨To my fatherErklarung¨
Hiermit erklare ich, dass ich diese Schrift selbstandig und nur mit den angegebenen Hil-¨ ¨
fsmitteln angefertigt habe und dass alle Stellen, die im Wortlaut oder dem Sinne nach
anderen Werken entnommen sind, durch Angaben der Quellen kenntlich gemacht sind.
Tub¨ ingen, Oktober 2009 Georg ZellerAbstract
In this work we developed machine learning-based methods with the aim to further our under-
standing regarding fundamental questions of molecular biology, using as our example the model
plant Arabidopsis thaliana:
What are the diﬀerences between genomes of individuals belonging to the same
species? Characterizing sequence variants (polymorphisms) genome-wide is a prerequisite for
establishing causal links between adaptive quantitative traits and the underlying genetic variants.
Single-nucleotide polymorphisms (SNPs) are the most abundant class of polymorphisms. In ad-
dition to SNP detection, we investigated genomic regions in which SNP calling algorithms tend
to fail: on the one hand, highly variable sequence tracts, for which, paradoxically, only very few
SNPs can be identiﬁed and, on the other hand, additional polymorphism types, such as insertions
anddeletions. Withournewlydevelopedmethod(mPPR)wediscoveredhundreds ofthousandsof
polymorphicregions(withafalse-discoveryrateof<3%). Thesecorrespond, inpart, toSNPs, but
also contain deletions ranging from a few to several thousand nucleotides in length. Our results
revealed, for the ﬁrst time, a comprehensive, ﬁne-scale picture of the polymorphism patterns in
A. thaliana with dramatic diﬀerences between coding and noncoding regions and also between
individual genes and gene families.
What is an organism’s full complement of genes, in which tissues and developmental
stages are they transcribed and how is their expression altered in response to en-
vironmental changes? Transcriptome studies have provided the foundation for reconstruction
of the gene regulatory network, which describes the control of cellular processes, e.g., during cell
diﬀerentiation. We developed a transcript identiﬁcation method (mSTAD), which recognizes genic
expression patterns. With mSTAD, we discovered thousands of new transcripts that were not
previously known despite extensive annotation eﬀorts. Validation experiments conﬁrmed>75% of
the tested cases, corroborating mSTAD’s high accuracy. Moreover, we found hundreds of genomic
regions with evidence of stress-speciﬁc transcription. These include previously unannotated genes
as well as wrongly annotated parts of known genes.
Our computational methods are based on data generated with so-called tiling arrays, an advanced
DNA microarray which interrogates a whole genome in regular intervals. It facilitates both the de-
tectionofpolymorphismsandtranscriptomeproﬁling. Usingthistechnologyouranalysestargeted,
for the ﬁrst time, the whole genome and were not restricted to a few fragments.
Since the resulting data resources are the basis for further research, high accuracy was imperative.
However,microarraydatatypicallyexhibitshighnoiselevels. Wethereforedevisednewpreprocess-
ing techniques to reduce systematic noise, in particular probe sequence eﬀects. We demonstrated
the beneﬁt of this technique for subsequent transcript identiﬁcation. In contrast to that, compa-
rable methods investigated here failed in this aspect. In our attempts to detect polymorphic or
transcribed regions, we were facing segmentation problems. Recently developed machine learning
algorithms, especially Hidden Markov Support Vector Machines, were found to be very well-suited
for solving these problems. In the case of transcript identiﬁcation, we could show mSTAD’s su-
perior accuracy compared to other widely used methods. Since no comparable methods exist for
polymorphic region prediction, however, no such comparison was possible. Although originally
developed for the analysis of A. thaliana data, our methods can nevertheless be broadly applied
to similar data sets, which already exist for a number of organisms. We furthermore discuss their
applicability to related data as it is, for instance, being generated by next-generation sequencing
technologies.
vvi Abstract
Keywords
abioticstress, array-basedresequencing, Arabidopsis, expressionanalysis, genomeannotation, hid-
den Markov model, hidden Markov support vector machine, machine learning, natural variation,
polymorphic region, polymorphism discovery, tiling array, transcriptome, transcript identiﬁcation,
transfragZusammenfassung
Im Rahmen dieser Dissertation wurden auf maschinellen Lerntechniken basierende, bioinformatis-
cheMethodenentwickelt,umdenKenntnisstandinBezugaufzentralemolekularbiologischeFragen
am Beispiel der Modellpﬂanze Arabidopsis thaliana zu erweitern:
Inwiefern unterscheiden sich die Genome einzelner Individuen derselben Spezies?
Sequenzvariation (Polymorphismen) im großen Stil zu charakterisieren ist die Voraussetzung,
um adaptive, quantitative phanotypische Merkmale auf die ursachlichen genetischen Varianten¨ ¨
zuruckfuhren zu konnen. Die hauﬁgste Klasse von Sequenzvarianten sind Einzelnukleotidanderun-¨ ¨ ¨ ¨ ¨
gen (SNPs). Neben der Erkennung von SNPs untersuchten wir Genombereiche genauer, in denen
SNP-Erkennungsverfahren nur unzureichend funtionieren: Einerseits hochvariable Regionen, fur¨
die paradoxerweise nur sehr wenige SNPs identiﬁziert werden k¨onnen, und andererseits weitere
Varianten, wie Insertionen und Deletionen. Mit unserer neu entwickelten Methode (mPPR) fan-
denwirhunderttausendepolymorphe Regionen (unterdenenwir<3%Falschpositiveerwarten),die
teilsSNPsbeinhalten, teilsDeletionenmiteinigenwenigenbiszutausendenvonNukleotiden. Aus
diesen Resultaten entstand erstmal ein umfassendes, hochaufgeloste¨ s Bild der Polymorphismen-
muster in Arabidopsis, mit drastischen Unterschieden zwischen kodierenden und nichtkodierenden
Bereichen, aber auch zwischen einzelnen Genen und Genfamilien.
Wie sieht die Gesamtheit der Gene eines Organismus’ aus, in welchen Geweben und
Entwicklungsstadien werden sie transkribiert, und wie ver¨andert sich ihre Expression
unter Umwelteinﬂus¨ sen? Entsprechende Transkriptomanalysen bilden die Basis zur Rekon-
struktion des Genregulationsnetzwerks, welches die Steuerung zellularer¨ Prozesse, z.B. der Zelldif-
ferenzierung, beschreibt. Wir entwickelten ein Verfahren zur Transkriptsuche (mSTAD), das Gene
aufgrundvonExpressionsmessungenerkennenkann. DamitidentiﬁziertenwirtausendeneueTran-
skripte,dieungeachtetgroßervorhergehenderAnnotationsprojektebisherunbekanntwaren. Durch
Validierungsexperimente konnten >75% der Kandidaten bestatigt und so mSTAD’s Genauigkeit¨
experimentell belegt werden. Daruber hinaus fanden wir hunderte von genomischen Regionen, die¨
speziﬁsch unter Stressbedingungen transkribiert werden. Sie umfassen sowohl zuvor unbekannte
Gene, als auch bisher fehlerhaft annotierte Bereiche bereits bekannter Gene.
Unsere bioinformatischen Methoden basieren auf Daten von sogenannten Tiling-Arrays, einer
hochentwickelten DNS-Microarray-Technologie, die durch genomweite Messungen in einem feinen
Raster die Detektionvon Genomvariationsowie Transkriptomanalysen ermoglicht. So konnten wir¨
erstmals das ganze Genom untersuchen und mussten uns nicht auf wenige Fragmente beschr¨anken.
Da unsere Resultate die Grundlage fur¨ weitergehende Forschung bilden, ist hohe Genauigkeit der
Analysen von großter¨ Bedeutung. Microarray-Daten kennzeichnet jedoch typischerweise starkes
Rauschen. WirentwickeltendeshalbneueVorverarbeitungstechnikenumsystematischesRauschen,
insbesondere Sondensequenzeﬀekte, zu verringern. Wir zeigten den klaren Nutzen dieser Technik
fur¨ anschließendeTranskripterkennung. Vergleichbare,hieruntersuchteVorverarbeitungsmethoden
versagten hingegen unter diesem zentralen Gesichtspunkt. Bei der Erkennung polymorpher Regio-
nen oder transkribierter Bereiche sind wir mit Segmentationspoblemen konfrontiert, die sich mit
kur¨ zlichentwickeltenmaschinellenLernmethoden,insbesonderedenHiddenMarkovSupportVector
Machines, sehr gut l¨osen lassen. Im Falle der Transkriptsuche konnten wir mSTAD’s ub¨ erlegene
Genauigkeit im Vergleich zu anderen gangi¨ gen Analysetechniken empirisch belegen, wohingegen
zur Erkennung polymorpher Regionen keine konkurrierenden Methoden existierten. Obwohl fur¨
Arabidopsis-Daten entwickelt, sind unsere Methoden anwendbar auf vergleichbare Datensatze, die¨
fur viele weitere Organismen existieren. Wir diskutieren ferner ihre Eignung fur die Analyse ver-¨ ¨
wandter Daten, wie sie z.B. mit neuen Sequenzierungstechniken erzeugt werden.
viiviii Zusamm