Machine learning algorithms for the analysis of data from whole-genome tiling microarrays [Elektronische Ressource] / vorgelegt von Georg F. Zeller
153 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Machine learning algorithms for the analysis of data from whole-genome tiling microarrays [Elektronische Ressource] / vorgelegt von Georg F. Zeller

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
153 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Machine Learning Algorithmsfor the Analysis of Data fromWhole-Genome Tiling MicroarraysDissertationder Fakultat fur Informations- und Kognitionswissenschaften¨ ¨der Eberhard-Karls-Universitat Tubingen¨ ¨zur Erlangung des Grades einesDoktors der Naturwissenschaften(Dr. rer. nat.)vorgelegt vonDipl.-Inform. (Bioinf.) Georg F. Zelleraus KonstanzTubing¨ en2009Tag der mundlichen Qualifikation: 21.04.2010¨Dekan: Prof. Dr.-Ing. Oliver Kohlbacher1. Berichterstatter: Prof. Dr. Daniel H. Huson2. Berichterstatter: Prof. Dr. Detlef Weigel3. Berichterstatter: Prof. Dr. Klaus-Robert Muller¨To my fatherErklarung¨Hiermit erklare ich, dass ich diese Schrift selbstandig und nur mit den angegebenen Hil-¨ ¨fsmitteln angefertigt habe und dass alle Stellen, die im Wortlaut oder dem Sinne nachanderen Werken entnommen sind, durch Angaben der Quellen kenntlich gemacht sind.Tub¨ ingen, Oktober 2009 Georg ZellerAbstractIn this work we developed machine learning-based methods with the aim to further our under-standing regarding fundamental questions of molecular biology, using as our example the modelplant Arabidopsis thaliana:What are the differences between genomes of individuals belonging to the samespecies? Characterizing sequence variants (polymorphisms) genome-wide is a prerequisite forestablishing causal links between adaptive quantitative traits and the underlying genetic variants.Single-nucleotide polymorphisms (SNPs) are the most abundant class of polymorphisms.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 15
Langue English
Poids de l'ouvrage 12 Mo

Extrait

Machine Learning Algorithms
for the Analysis of Data from
Whole-Genome Tiling Microarrays
Dissertation
der Fakultat fur Informations- und Kognitionswissenschaften¨ ¨
der Eberhard-Karls-Universitat Tubingen¨ ¨
zur Erlangung des Grades eines
Doktors der Naturwissenschaften
(Dr. rer. nat.)
vorgelegt von
Dipl.-Inform. (Bioinf.) Georg F. Zeller
aus Konstanz
Tubing¨ en
2009Tag der mundlichen Qualifikation: 21.04.2010¨
Dekan: Prof. Dr.-Ing. Oliver Kohlbacher
1. Berichterstatter: Prof. Dr. Daniel H. Huson
2. Berichterstatter: Prof. Dr. Detlef Weigel
3. Berichterstatter: Prof. Dr. Klaus-Robert Muller¨To my fatherErklarung¨
Hiermit erklare ich, dass ich diese Schrift selbstandig und nur mit den angegebenen Hil-¨ ¨
fsmitteln angefertigt habe und dass alle Stellen, die im Wortlaut oder dem Sinne nach
anderen Werken entnommen sind, durch Angaben der Quellen kenntlich gemacht sind.
Tub¨ ingen, Oktober 2009 Georg ZellerAbstract
In this work we developed machine learning-based methods with the aim to further our under-
standing regarding fundamental questions of molecular biology, using as our example the model
plant Arabidopsis thaliana:
What are the differences between genomes of individuals belonging to the same
species? Characterizing sequence variants (polymorphisms) genome-wide is a prerequisite for
establishing causal links between adaptive quantitative traits and the underlying genetic variants.
Single-nucleotide polymorphisms (SNPs) are the most abundant class of polymorphisms. In ad-
dition to SNP detection, we investigated genomic regions in which SNP calling algorithms tend
to fail: on the one hand, highly variable sequence tracts, for which, paradoxically, only very few
SNPs can be identified and, on the other hand, additional polymorphism types, such as insertions
anddeletions. Withournewlydevelopedmethod(mPPR)wediscoveredhundreds ofthousandsof
polymorphicregions(withafalse-discoveryrateof<3%). Thesecorrespond, inpart, toSNPs, but
also contain deletions ranging from a few to several thousand nucleotides in length. Our results
revealed, for the first time, a comprehensive, fine-scale picture of the polymorphism patterns in
A. thaliana with dramatic differences between coding and noncoding regions and also between
individual genes and gene families.
What is an organism’s full complement of genes, in which tissues and developmental
stages are they transcribed and how is their expression altered in response to en-
vironmental changes? Transcriptome studies have provided the foundation for reconstruction
of the gene regulatory network, which describes the control of cellular processes, e.g., during cell
differentiation. We developed a transcript identification method (mSTAD), which recognizes genic
expression patterns. With mSTAD, we discovered thousands of new transcripts that were not
previously known despite extensive annotation efforts. Validation experiments confirmed>75% of
the tested cases, corroborating mSTAD’s high accuracy. Moreover, we found hundreds of genomic
regions with evidence of stress-specific transcription. These include previously unannotated genes
as well as wrongly annotated parts of known genes.
Our computational methods are based on data generated with so-called tiling arrays, an advanced
DNA microarray which interrogates a whole genome in regular intervals. It facilitates both the de-
tectionofpolymorphismsandtranscriptomeprofiling. Usingthistechnologyouranalysestargeted,
for the first time, the whole genome and were not restricted to a few fragments.
Since the resulting data resources are the basis for further research, high accuracy was imperative.
However,microarraydatatypicallyexhibitshighnoiselevels. Wethereforedevisednewpreprocess-
ing techniques to reduce systematic noise, in particular probe sequence effects. We demonstrated
the benefit of this technique for subsequent transcript identification. In contrast to that, compa-
rable methods investigated here failed in this aspect. In our attempts to detect polymorphic or
transcribed regions, we were facing segmentation problems. Recently developed machine learning
algorithms, especially Hidden Markov Support Vector Machines, were found to be very well-suited
for solving these problems. In the case of transcript identification, we could show mSTAD’s su-
perior accuracy compared to other widely used methods. Since no comparable methods exist for
polymorphic region prediction, however, no such comparison was possible. Although originally
developed for the analysis of A. thaliana data, our methods can nevertheless be broadly applied
to similar data sets, which already exist for a number of organisms. We furthermore discuss their
applicability to related data as it is, for instance, being generated by next-generation sequencing
technologies.
vvi Abstract
Keywords
abioticstress, array-basedresequencing, Arabidopsis, expressionanalysis, genomeannotation, hid-
den Markov model, hidden Markov support vector machine, machine learning, natural variation,
polymorphic region, polymorphism discovery, tiling array, transcriptome, transcript identification,
transfragZusammenfassung
Im Rahmen dieser Dissertation wurden auf maschinellen Lerntechniken basierende, bioinformatis-
cheMethodenentwickelt,umdenKenntnisstandinBezugaufzentralemolekularbiologischeFragen
am Beispiel der Modellpflanze Arabidopsis thaliana zu erweitern:
Inwiefern unterscheiden sich die Genome einzelner Individuen derselben Spezies?
Sequenzvariation (Polymorphismen) im großen Stil zu charakterisieren ist die Voraussetzung,
um adaptive, quantitative phanotypische Merkmale auf die ursachlichen genetischen Varianten¨ ¨
zuruckfuhren zu konnen. Die haufigste Klasse von Sequenzvarianten sind Einzelnukleotidanderun-¨ ¨ ¨ ¨ ¨
gen (SNPs). Neben der Erkennung von SNPs untersuchten wir Genombereiche genauer, in denen
SNP-Erkennungsverfahren nur unzureichend funtionieren: Einerseits hochvariable Regionen, fur¨
die paradoxerweise nur sehr wenige SNPs identifiziert werden k¨onnen, und andererseits weitere
Varianten, wie Insertionen und Deletionen. Mit unserer neu entwickelten Methode (mPPR) fan-
denwirhunderttausendepolymorphe Regionen (unterdenenwir<3%Falschpositiveerwarten),die
teilsSNPsbeinhalten, teilsDeletionenmiteinigenwenigenbiszutausendenvonNukleotiden. Aus
diesen Resultaten entstand erstmal ein umfassendes, hochaufgeloste¨ s Bild der Polymorphismen-
muster in Arabidopsis, mit drastischen Unterschieden zwischen kodierenden und nichtkodierenden
Bereichen, aber auch zwischen einzelnen Genen und Genfamilien.
Wie sieht die Gesamtheit der Gene eines Organismus’ aus, in welchen Geweben und
Entwicklungsstadien werden sie transkribiert, und wie ver¨andert sich ihre Expression
unter Umwelteinflus¨ sen? Entsprechende Transkriptomanalysen bilden die Basis zur Rekon-
struktion des Genregulationsnetzwerks, welches die Steuerung zellularer¨ Prozesse, z.B. der Zelldif-
ferenzierung, beschreibt. Wir entwickelten ein Verfahren zur Transkriptsuche (mSTAD), das Gene
aufgrundvonExpressionsmessungenerkennenkann. DamitidentifiziertenwirtausendeneueTran-
skripte,dieungeachtetgroßervorhergehenderAnnotationsprojektebisherunbekanntwaren. Durch
Validierungsexperimente konnten >75% der Kandidaten bestatigt und so mSTAD’s Genauigkeit¨
experimentell belegt werden. Daruber hinaus fanden wir hunderte von genomischen Regionen, die¨
spezifisch unter Stressbedingungen transkribiert werden. Sie umfassen sowohl zuvor unbekannte
Gene, als auch bisher fehlerhaft annotierte Bereiche bereits bekannter Gene.
Unsere bioinformatischen Methoden basieren auf Daten von sogenannten Tiling-Arrays, einer
hochentwickelten DNS-Microarray-Technologie, die durch genomweite Messungen in einem feinen
Raster die Detektionvon Genomvariationsowie Transkriptomanalysen ermoglicht. So konnten wir¨
erstmals das ganze Genom untersuchen und mussten uns nicht auf wenige Fragmente beschr¨anken.
Da unsere Resultate die Grundlage fur¨ weitergehende Forschung bilden, ist hohe Genauigkeit der
Analysen von großter¨ Bedeutung. Microarray-Daten kennzeichnet jedoch typischerweise starkes
Rauschen. WirentwickeltendeshalbneueVorverarbeitungstechnikenumsystematischesRauschen,
insbesondere Sondensequenzeffekte, zu verringern. Wir zeigten den klaren Nutzen dieser Technik
fur¨ anschließendeTranskripterkennung. Vergleichbare,hieruntersuchteVorverarbeitungsmethoden
versagten hingegen unter diesem zentralen Gesichtspunkt. Bei der Erkennung polymorpher Regio-
nen oder transkribierter Bereiche sind wir mit Segmentationspoblemen konfrontiert, die sich mit
kur¨ zlichentwickeltenmaschinellenLernmethoden,insbesonderedenHiddenMarkovSupportVector
Machines, sehr gut l¨osen lassen. Im Falle der Transkriptsuche konnten wir mSTAD’s ub¨ erlegene
Genauigkeit im Vergleich zu anderen gangi¨ gen Analysetechniken empirisch belegen, wohingegen
zur Erkennung polymorpher Regionen keine konkurrierenden Methoden existierten. Obwohl fur¨
Arabidopsis-Daten entwickelt, sind unsere Methoden anwendbar auf vergleichbare Datensatze, die¨
fur viele weitere Organismen existieren. Wir diskutieren ferner ihre Eignung fur die Analyse ver-¨ ¨
wandter Daten, wie sie z.B. mit neuen Sequenzierungstechniken erzeugt werden.
viiviii Zusamm

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents