Knowledge management and discovery for genotype-phenotype data [Elektronische Ressource] / von Philip Groth
184 pages
English

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Knowledge management and discovery for genotype-phenotype data [Elektronische Ressource] / von Philip Groth

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
184 pages
English
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Knowledge Management and Discovery for Genotype/Phenotype Data Dissertation zur Erlangung des akademischen Grades doctor rerum naturalium (Dr. rer. nat.) im Fach Informatik eingereicht an der Mathematisch-Naturwissenschaftlichen Fakultät II von M.Sc. Bioinf. Philip Groth geboren am 15.12.1978 in Berlin Präsident der Humboldt Universität zu Berlin Prof. Dr. Christoph Markschies Dekan der Mathematisch-Naturwissenschaftlichen Fakultät II Prof. Dr. Peter Frensch Gutachter/Gutachterin 1. Prof. Dr. Ulf Leser 2. Prof. Dr. Hanspeter Herzel 3. Dr. Bertram Weiss Tag der Verteidigung: 26. November 2009 “If you try and take a cat apart to see how it works, the first thing you have on your hands is a non-working cat. Life is a level of complexity that almost lies outside our vision…” - Douglas Adams Abstract Phenotypes often visibly reflect the health state of organisms. Especially in diseases with a genetic component, examination of the phenotype can aid understanding the underlying genetics. Many technologies to generate phenotypes systematically in a high-throughput manner, such as RNA interference (RNAi) or gene knock-out, have been developed to de-cipher functions for genes. This ongoing large-scale characterization of genes in model systems will increase phenotypic information exponentially in the near future.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 49
Langue English
Poids de l'ouvrage 10 Mo

Extrait

Knowledge Management and Discovery for
Genotype/Phenotype Data
Dissertation
zur Erlangung des akademischen Grades
doctor rerum naturalium
(Dr. rer. nat.)
im Fach Informatik

eingereicht an der
Mathematisch-Naturwissenschaftlichen Fakultät II
von
M.Sc. Bioinf. Philip Groth
geboren am 15.12.1978 in Berlin

Präsident der Humboldt Universität zu Berlin
Prof. Dr. Christoph Markschies

Dekan der Mathematisch-Naturwissenschaftlichen Fakultät II
Prof. Dr. Peter Frensch

Gutachter/Gutachterin
1. Prof. Dr. Ulf Leser
2. Prof. Dr. Hanspeter Herzel
3. Dr. Bertram Weiss

Tag der Verteidigung: 26. November 2009










“If you try and take a cat apart to see how it works, the first thing you have on your hands
is a non-working cat. Life is a level of complexity that almost lies outside our vision…”
- Douglas Adams
Abstract
Phenotypes often visibly reflect the health state of organisms. Especially in diseases with a
genetic component, examination of the phenotype can aid understanding the underlying
genetics. Many technologies to generate phenotypes systematically in a high-throughput
manner, such as RNA interference (RNAi) or gene knock-out, have been developed to de-
cipher functions for genes. This ongoing large-scale characterization of genes in model
systems will increase phenotypic information exponentially in the near future.
It is still a major challenge to interpret the results of large-scale functional screens, even
more so if heterogeneous data sets are to be combined. Furthermore, there have been rela-
tively few efforts to make use of phenotype data beyond the single genotype-phenotype re-
lationship. In this thesis, methods are presented for knowledge discovery in phenotypes
across species and screening technologies.
A thorough survey is conducted of the available phenotype resources and various ap-
proaches to analyzing their content are reviewed, including a discussion of hurdles yet to
be overcome, e.g. lack of data integration, inadequate phenotype ontologies and shortage
of appropriate analytical tools.
PhenomicDB version 2, a multi-species genotype/phenotype database, is an approach to in-
tegrate and show genotype and phenotype data on a large scale, using orthologies to show
phenotypes across species. Here, the focus lies on the incorporation of quantitative and de-
scriptive RNAi screening data and ontologies of phenotypes, assays and cell-lines.
Furthermore, as the heart of this thesis, the results of a study are presented in which the
large set of phenotype data from PhenomicDB is taken to predict gene annotations. Here,
text clustering is utilized to group genes based on their phenotype descriptions. It is shown
that these clusters correlate well with several indicators for biological coherence in gene
groups, such as functional annotations from the Gene Ontology (GO) and protein-protein
interactions. The clusters are then used to predict gene function by carrying over annota-
tions from well-annotated genes to less well-characterized genes in the same cluster.
Finally, the prototype PhenoMIX is presented, showing the integration of genotype and
phenotype data with clustered phenotypes, orthologies, interaction data and other similarity
measures. These data, grouped by their similarity measures are evaluated for predictiveness
in gene functions and phenotype terms.
- v -
Zusammenfassung
Häufig spiegeln Phänotypen die Gesundheit von Organismen sichtbar wider. Die Untersu-
chung des Phänotyps bringt daher insbesondere bei genetischen Krankheiten ein Verständ-
nis der zugrunde liegenden genetischen Mechanismen mit sich. Aufgrund dessen wurden
neue Technologien entwickelt, so zum Beispiel RNA-Interferenz (RNA interference –
RNAi) oder Gen-knock-out Verfahren, um unbekannte Genfunktionen zu entschlüsseln.
Diese Experimente führen zu einem starken Anstieg der phänotypischen Daten.
Es bleibt eine große Herausforderung, Ergebnisse von großen Versuchen zu interpretieren,
insbesondere bei heterogenen Daten. Nur wenige Ansätze haben bisher solche Daten über
die einzelne Verknüpfung von Genotyp und Phänotyp hinaus interpretiert. In dieser Disser-
tation werden neue Methoden gezeigt, um Entdeckungen in Phänotypen über die Grenzen
von Spezies und Methodik hinweg zu ermöglichen.
Es erfolgt eine gründliche Erfassung der verfügbaren Phänotypen-Ressourcen und einiger
Ansätze zur Analyse ihres Inhalts. Die Grenzen und Hürden, die noch bewältigt werden
müssen, beispielsweise fehlende Datenintegration, lückenhafte speziesübergreifende Onto-
logien und der Mangel an angemessenen Methoden zur Datenanalyse, werden diskutiert.
Der Ansatz zur Integration von Genotyp- und Phänotypdaten in großem Maßstab, Pheno-
micDB Version 2, wird präsentiert. Diese Datenbank assoziiert Gene mit Phänotypen mit-
tels Orthologie über Spezies hinweg. Im Fokus liegen die Integration von RNAi-Daten und
die Einbindung von Ontologien für Phänotypen, Experimentiermethoden und Zelllinien.
Ferner wird als Herzstück dieser Arbeit eine Studie präsentiert, in der die Phänotypendaten
aus PhenomicDB genutzt werden, um Genfunktionen vorherzusagen. Dazu werden Gene
aufgrund ihrer Phänotypen mittels Textclustering gruppiert. Diese Gruppen zeigen hohe
biologische Kohärenz, da sich viele gemeinsame funktionale Annotationen aus der Gen-
Ontologie (Gene Ontology – GO) und viele Protein-Protein-Interaktionen (PPi) innerhalb
der Gruppen finden, was zur Vorhersage von Genfunktionen durch Übertragung von Anno-
tationen von gut annotierten Genen zu Genen mit weniger Annotationen genutzt wird.
Zuletzt wird der Prototyp PhenoMIX präsentiert, in dem Genotypen und Phänotypen mit
geclusterten Phänotypen, PPi, Orthologien und weiteren Ähnlichkeitsmaßen integriert
wurden. Diese Daten werden aufgrund ihrer Ähnlichkeitsmaße gruppiert und zur Vorhersa-
ge von Genfunktionen, sowie von phänotypischen Wörtern genutzt.
- vii -
Content
ABSTRACT ........................................................................................................................V
ZUSAMMENFASSUNG................................................................................................. VII
DEDICATION AND ACKNOWLEDGEMENTS .......................................................XIII
LISTING OF ABBREVIATIONS .................................................................................. XV
PREFACE........................................................................................................................XIX
1 INTRODUCTION....................................................................................................... 1
1.1 MOTIVATION .................................................................................................................. 1
1.2 GENOTYPES ................................................................................................................... 5
1.2.1 Definitions and concepts ........................................................................................ 5
1.2.2 From genes to proteins........................................................................................... 8
1.2.3 Gene-centered information..................................................................................... 9
1.2.4 Genotype-genotype relationships ........................................................................... 9
1.2.5 Functional annotation: The Gene Ontology (GO)............................................... 11
1.3 PHENOTYPES................................................................................................................ 12
1.3.1 Differences in concepts and how to overcome them............................................. 12
1.3.2 The Mammalian Phenotype ontology (MP) ......................................................... 15
1.4 RELATIONSHIPS BETWEEN GENOTYPES AND PHENOTYPES ............................................ 17
1.4.1 Mendelian phenotypes.......................................................................................... 17
1.4.2 Complex traits ...................................................................................................... 18
1.4.3 The genotype-phenotype association ................................................................... 18
1.5 MANAGING GENOTYPE-PHENOTYPE DATA.................................................................... 19
1.6 CROSS-SPECIES PHENOTYPE CLUSTERING..................................................................... 21
1.7 OBJECTIVES ................................................................................................................. 23
1.8 CONTRIBUTIONS .......................................................................................................... 24
1.9 STRUCTURE OF THIS THESIS.......................................................................................... 25
2 MATERIALS AND METHODS.............................................................................. 27
2.1 MATERIALS ........

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents