Cross species common gene regulatory network inference [Elektronische Ressource] / Amin Moghaddas Gholami

technische_universitat_munchen - Amin

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

159 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

TECHNISCHE UNIVERSITÄT MÜNCHEN
Lehrstuhl für Proteomik und Bioanalytik

Cross species common gene regulatory network
inference

Amin Moghaddas Gholami

Vollständiger Abdruck der von der Fakultät Wissenschaftszentrum Weihenstephan
für Ernährung, Landnutzung und Umwelt der Technischen Universität München
zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften
genehmigten Dissertation.

Vorsitzender: Univ.-Prof. Dr. I. Antes
Prüfer der Dissertation:
1. Univ.-Prof. Dr. B. K ü s t e r
2. Univ.-Prof. Dr. D. Frischmann

Die Dissertation wurde am 13.12.2010 bei der Technischen Universität München
eingereicht und durch die Fakultät Wissenschaftszentrum Weihenstephan für
Ernährung, Landnutzung und Umwelt am 08.02.2011 angenommen.

ii
ABSTRACT
High-throughput genomic and proteomic techniques are widely used to increase our
understanding of cellular processes. These technologies have generated large
numbers of available data. Recent efforts are increasingly focusing on more integrated
approaches to understand complex biological systems by reverse engineering gene
regulatory networks. Many studies have demonstrated that large-scale networks are
capable of predicting complex system behavior. Predicting complex biological systems,
at system level, may help to understand how diseases like cancer develop and can
lead us to better diagnosis and to detect cancer earlier.
While e.g. microarrays and mass spectrometers generate such data, there are crucial
problems to be addressed before developing a predictive quantitative biology. The
asymmetry of the datasets (more genes than samples) poses a problem for reverse
engineering gene regulatory networks. My approach to this problem has been one of
integration, bringing together a vast wealth of information from multiple datasets.
Alleviating the asymmetry of the datasets considerably increases their use for systems
biology. Furthermore, the ability to integrate expression experiments across species
may help to identify pathways that are activated in a similar way in humans and other
organisms.
Integrating data from multiple species is challenging. Automated methods are needed
to extract maximum value from the mass of available data. Several meta-analysis
approaches exist. Recent microarray based cross-species meta-analyses require prior
affiliation of genes based on orthology information that often relies on sequence
similarity. However, sequence similarity based orthology does not account for
evolutionary phenomena such as sub- and neo-functionalization, thus not necessarily
representing functional orthology in every case.
The computational time complexity of gene/sample affiliations is exponential in the
number of genes or samples. Consequently, scoring all possible affiliations is feasible
iii
for datasets of rather small size only. An iterative procedure is needed to approximate
the global optimum in reasonable time. Prerequisite for scoring above gene affiliation
solutions is to adjust different scales of the datasets. In order to gain experience by
which scores (fold-changes, P-values, etc) as well as by which means of preprocessing
such datasets can be best compared, I studied two single species microarray datasets.
The first resembles sulfur reductase activity in Arabidopsis Thaliana that was
recorded on the common two-channel fluorescence-tag cDNA glass platform. The
second represents pooled RNAi screens on customized barcode tiling arrays.
I developed an algorithm merging microarray datasets on the basis of co-expression
alone, without any requirement for orthology information. While such information
can be easily incorporated to assist the process, the algorithm also performs well
without being provided with any affiliations, purely driven by coherences among the
data. Combining existing methods such as co-inertia analysis, back-transformation,
Hungarian matching, and majority voting in an iterative non-greedy hill-climbing
approach, the algorithm affiliates genes and experiments at the same time,
maximizing the co-structure between the datasets.
The performance of the algorithm is demonstrated by merging datasets stemming
from identical, closely related and more distantly related species. Moreover, the
datasets represent different experimental contexts and had been produced on
different platforms. The resulting cross-species dynamic Bayesian gene networks
improve on the networks inferred from each dataset alone by yielding more
significant network motifs, as well as more of the interactions already recorded in
KEGG and other databases. Also, it is shown that the algorithm converges on the
optimal number of nodes for network inference.
Being readily extendable to more than two datasets, it provides the opportunity to
combine arbitrary numbers of e.g. microarray datasets. Furthermore, the application
of the algorithm is not limited to microarray data. It could serve to integrate e.g.
proteomic, transcriptomic and high-throughput methylation data recorded for the
same samples.
iv
ZUSAMMENFASSUNG
Hochdurchsatzverfahren in Genomik und Proteomik tragen grundlegend zum
besseren Verständnis zellulärer Prozesse bei. Sie erzeugen große Datenmengen. Um
komplexe biologische Zusammenhänge besser zu verstehen, werden aus solchen
Daten zunehmend durch sogenanntes Reverse Engineering regulatorische Netzwerke
rekonstruiert. Viele Studien haben gezeigt, daß umfangreiche regulatorische
Netzwerke geeignet sind, Verhalten biologischer Systeme zu prognostizieren. Solche
Vorhersagen dienen letztendlich dem besseren Verständnis von Krankheitsabläufen.
Sie könnten so einen Beitrag leisten zu sichereren Diagnosen oder der früheren
Erkennung z. B. von Krebs.
Bis zu einer berechenbaren Biologie ist es allerdings noch ein weiter Weg. Der
Verfügbarkeit geeigneter, z. B. mittels Microarrays oder Massenspektrometer
erhobener Daten stehen grundlegende Probleme bei der Datenanalyse gegenüber.
Die Asymmetrie der Datensätze (sehr viel mehr Gene als Experimente) steht einer
zuverlässigen Schätzung regulatorischer Netze im Weg. Mein Ansatz zur Lösung dieses
Problems zielt auf die Integration mehrerer Datensätze ab. Das Akkumulieren ähnlich
gearteter Experimente (Beobachtungen) steigert die Signifikanz der Daten, die
Robustheit der gewonnenen Netze und damit den Nutzen für systembiologische
Fragestellungen. Weiterhin könnte die integrierte Analyse von Datensätzen über
Artgrenzen hinweg aufdecken, welche Signalwege in Mensch und Modellorganismen
gleichartig reagieren.
Eine solche Integration (Meta-Analyse) von Datensätzen erfordert komplexe
automatisierte Verfahren, um größtmöglichen Nutzen aus den vorhandenen Daten zu
ziehen . Mehrere solcher Methoden zur artübergreifenden Meta-Analyse von
Mikroarray Datensätzen existieren bereits. Alle benötigen a priori eine Zuordnung der
Gene zwischen den jeweiligen Spezies. Diese Zuordnung der orthologen Gene beruht
v
meist auf Sequenzhomologie. Letztere erfaßt allerdings Phänomene wie z. B. Sub-
oder Neofunktionalisation nicht. Eine hierauf basierende Zuordnung repräsentiert
somit nicht in jedem Fall Funktionsäquivalenz im Sinne der zu studierenden
Netzwerke.
Eine Wertabschätzung aller möglichen Zuordnungen von Genen (und Proben) hat
expontielle Laufzeit und wäre daher nur für sehr kleine Datensätze möglich. Ein
iteratives Verfahren muß sich dem globalen Optimum in tragbarer Zeit nähern.
Voraussetzung für die Wertabschätzung einer auf dem Weg vorkommenden
Zuordnungslösung ist die Anpassung der unterschiedlichen Skalen der Datensätze.
Welche Werte (Verhältnis, p-Wert, etc.) zum direkten Vergleich solcher Datensätze am
besten geeignet sind und wie diese hierfür optimal aufbereitet werden können wurde
anhand von zwei in meiner Gruppe erhobenen Einzeldatensätzen studiert. Der
Schwefelmetabolismus von Arabidopsis thaliana war für den ersten Datensatz mit der
verbreiteten fluoreszenz- und glasbasierten cDNA Plattform vermessen worden
während der zweite Datensatz RNAi Analysen mit Pools von je fünf kuzen
Haarnadelstruktur-RNS umfaßt und mithilfe sogenannter Barcode Tiling Arrays
erhoben wurde.
Die von mir entwickelte Methode fusioniert Datensätze allein auf der Basis
gemeinsamer Expressionsmuster, auch völlig ohne Zuhilfenahme weiterer
Information. Vorabwissen über z. B. Orthologie kann zwar auf einfache Art
miteinbezogen werden, der Algorithmus arbeitet aber auch bereits allein auf Basis
von Koexpression erfolgreich. Er wurde durch Zusammenführen geeigneter bereits
existierender Methoden als Module wie z. B. Koinertia-Analyse, Rücktransformation
der Projektionskoordinaten, ungarischer Methode und Mehrheitswahl erarbeitet.
Ausgehend von Datensätzen beliebiger Größen, Experiment-Reihung als auch
zufälliger Anordnung der Ge