Text-based similarity searching for hit- and lead-candidate identification [Elektronische Ressource] / von Volker Dirk Hähnke

goethe_universitat_frankfurt_am_main - Volker Hähnke

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

261 pages

English

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Sujets

Biologie

Informations

Publié par	goethe_universitat_frankfurt_am_main
Publié le	01 janvier 2010
Nombre de lectures	11
Langue	English
Poids de l'ouvrage	10 Mo

Extrait

Text-Based Similarity Searching for Hit- and Lead-Candidate Identification

Dissertation
zur Erlangung des Doktorgrades
der Naturwissenschaften

vorgelegt beim Fachbereich Biowissenschaften (15)
der Johann Wolfgang Goethe-Universität
in Frankfurt am Main

von
Volker Dirk Hähnke
aus Frankfurt am Main

Frankfurt 2010
(D 30)

vom Fachbereich Biowissenschaften (15) der

Johann Wolfgang Goethe-Universität als Dissertation angenommen

Dekan: Prof. Dr. Anna Starzinski-Powitz

Gutachter: Prof. Dr. Gisbert Schneider
Prof. Dr. Ina Koch

Datum der Disputation: ……………………...................................

“Gegenüber der Fähigkeit, die Arbeit
eines einzigen Tages sinnvoll zu ordnen,
ist alles andere im Leben ein
Kinderspiel.”

Johann Wolfgang von Goethe
(28.8.1749 – 22.3.1832)

Table of Contents
!
1 - Abbreviations 6
2 - Zusammenfassung 9
3 - Abstract 14
4 - Introduction 16
4.1 - The Drug Development Process 16
4.2 - From High-Throughput Screening to Virtual Screening 17
4.3 - Chemical Similarity 21
4.4 - Line Notations 23
4.4.1 - Wiswesser Line-Formula Notation 24
4.4.2 - Representation of Organic Structures Description Arranged Linearly 25
4.4.3 - Simplified Molecular Input Line Entry System 26
4.4.4 - IUPAC International Chemical Identifier 26
4.5 - Virtual Screening employing Line Notations 29
4.5.1 - LINGO 30
4.5.2 - Comparison by Compression 30
4.5.3 - General String Metrics 31
5 - Study Objective 32
5.1 - Pharmacophore Alignment Search Tool (PhAST) 32
5.2 - Preliminary Parameterization 39
5.2.1 - Scoring System 39
5.2.2 - Alignment Evaluation 40
5.3 - Retrospective Evaluation 41
5.3.1 - Dataset 41
5.3.2 - Performance Measure 41
5.3.3 - Significance Assessment 44
6 - Influence of Canonical Atom Labeling on Similarity Searching 45
6.1 - Motivation 45
6.2 - Discussion 47
7 - Influence of the Third Dimension on Text-based Similarity Searching 49
7.1 - Motivation 49
7.2 - Discussion 50
8 - Influence of Scoring Systems on Text-based Similarity Searching 52
8.1 - Motivation 52
8.2 - Discussion 53
9 - Comparison of Text-Based Virtual Screening Techniques 55
10 - Significance-Assesment in Global Sequence Alignment 57
10.1 - Motivation 57
10.2 - Calculation of p-values 58
10.2.1 - Simple Sampling 59
10.2.2 - Sampling of Rare Events 60
10.3 - Retrospective Evaluation 64
10.3.1 Parameterization 64
10.3.2 - Results and Discussion 65
10.4 - Calculation of E-values 67
10.5 - Discussion 69
!
4!11 - Prospective Application 73
11.1 - Bacterial Thymidinkinase of Staphylococcus aureus 73
11.2 - Application to !-Secretase 75
12 - Conclusions 79
13 - Outlook 81
14 - List of Publications 84
15 - References 88
16 - Acknowledgements 102
17 - Appendix 103
Appendix A
Appendix B
Appendix C
Appendix D
18 - Curriculum Vitae
!
!
5!1 - Abbreviations

2D two-dimensional
3D three-dimensional
A! Amyloid-!
ACE Angiotensine-converting enzyme
AD Alzheimer's Disease
APP Amyloid Precursor Protein
AWLN Advanced Wiswesser Line-Formula Notation
BEDROC Boltzmann-enhanced Receiver Operating Characteristic
BLOSUM Block Substitution Matrix
CANGEN Canonization and Generation
CbC Comparison by Compression
COBRA Collection Of Bioactive Reference Analogues
COX Cyclooxygenase
CROSSBOW Computer Retrieval of Organic SubStructures by means of Wiswesser
CSI Chemical Substructure Index
CUDA Compute Unified Device Architecture
DDP Double Dynamic Programming
DHFR Dihydrofolatreductase
dMTP Deoxythymidine Monophosphate
EF Enrichment Factor
ELISA Enzyme-linked immunosorbent assay
FAST Fragment Alignment Search Tool
FDA Food and Drug Administration
FPGA Field Programmable Gate Array
FSM Finite State Machine
FXA Factor Xa
GPU Graphics Processing Unit
GS "-Secretase
GSI " -Secretase Inhibitor
GSM " -Secretase Modulator
6!HTS High Throughput Screening
IC Inhibitory Concentration 50% 50
InChi International Union of Pure and Applied Chemistry International
Chemical Identifier
InChiKey International Union of Pure and Applied Chemistry International
Chemical Identifier Key
IUPAC International Union of Pure and Applied Chemistry
LBVS Ligand-based Virtual Screening
MCMC Marcov Chain Monte Carlo
MCMCMC Metropolis-coupled Marcov Chain Monte Carlo
MCS Maximal Common Subgraph
MIC Minimal Inhibitory Concentration
MOE Molecular Operating Environment
MOS Maximum Overlapping Set
MQL Molecular Query Language
NID Normalized Information Distance
NIST National Institute of Standard and Technology
NP Non-deterministic Polynomial Time
NSAID Non-Steroidal Anti-Inflammatory Drug
OpenGL Open Graphics Library
PAM Point Accepted Mutations
PhAST Pharmacophore Alignment Search Tool
PID Percent Sequence Identity
PPAR Peroxisome-Proliferator Activated Receptor
PPP Potential Pharmacophoric Point
PSI-BLAST Position-Specific Iterated Basic Local Alignment Search Tool
RMSE Root Mean Squared Error
ROC Receiver Operating Characteristic
ROCAUC Receiver Operating Characteristic Area Under Curve
ROSDAL Representation of Organic Structures Description Arranged Linearly
SBVS Structure-based Virtual Screening
SHA Secure Hash Algorithm
SMILES Simplified Molecular Input Line Entry System
SPP Similar Property Principle
7!SSE2 Streaming Single Instruction Multiple Data Streams Extensions 2
SXT combination of Trimethoprim and Sulfamethoxazole
THR Thrombine
VEGFR Vascular Endothelial Growth-Factor Receptor
VS Virtual Screening
WLN Wiswesser Line-Formula Notation

8!2 - Zusammenfassung

Die Entwicklung neuer Wirkstoffe ist ein langiweriger und kostenintensiver Prozess, der bis
zu 15 Jahre dauern und 2 Millarden Dollar kosten kann. Das ‚High Throughput Screening’
(HTS) hat sich in diesem Prozess als Technik für die Identifizierung vielversprechender
Startstrukturen, so genannter ‚Hits’, etabliert. Während eines HTS werden 50.000 bis 100.000
Substanzen automatisiert in einem Assay auf ihre biologische Aktivität getestet. Setzt man
diese Anzahl evaluierter Substanzen in Relation zu vorsichtigen Schätzungen der Gesamtzahl
60möglicher wirkstoffartiger Verbindungen (10 ), wird klar, dass mit HTS allein ein großer
Teil dieses ‚Chemischen Raums’ unerforscht bleibt.
Eine schnellere Alternative bieten computerbasierte Methoden. Ist eine Struktur mit
einer gewünschten biologischen Wirkung bekannt, ist es mit diesen Methoden möglich, die
Einträge in Molekülsammlungen nach ihrer berechneten Ähnlichkeit zu dieser
Referenzstruktur zu sortieren. Diese Technik wird als virtuelles Screening bezeichnet. Die
Annahme hierbei ist, dass Substanzen, die als ähnlich zur verwendeten Referenzstruktur
bewertet werden auch in ihren biologischen Wirkeigenschaften ähnlich zu dieser sind.
In dieser Arbeit wurde eine neue Methode entwickelt und evaluiert, mit der sich die
Ähnlichkeit zweier Moleküle berechnen lässt. Die Bezichnung dieser Methode ist
‚Pharmacophore Alignment Search Tool’ (PhAST). In dieser Methode werden Moleküle
verglichen durch paarweises globales Sequenzalignment, einer Technik für den Vergleich von
Zeichenketten. Sie wurde bisher nur auf Sequenzen aus Aminosäuren oder Nukleotiden
angewendet, um Homologe zu identifizieren. In einem Sequenzalignment werden die
Symbole zweier Sequenzen einander zugeordnet, wobei die Reihenfolge der Symbole
innerhalb jeder Sequenz erhalten bleibt. Das Einfügen von Lücken (‚Gaps’) in Sequenzen ist
erlaubt, wenn es die Gesamtzuordnung verbessert. Werden gleiche Symbole einander
zugeordnet, wird dies als ‚Match’ bezeichnet, bei ungleichen Symbolen wird dies als
‚Mismatch’ bezeichnet. Jedes dieser Ereignisse wird bewertet. Der Score eines Alignments
wird berechnet als die Summe der Einzelbewertungen. Die in dieser Arbeit verwendeten
Algorithmen berechnen stets das ‚optimale’ Alignment, also das, das den höchstmöglichen
Alignment Score hat.
Bedingt durch die Unterschiede zwischen Biopolymeren und wirkstoffartigen
Molekülen wurde Sequenzalignment auf die Problemstellung des Molekülvergleichs
angepasst und neue parametrisiert. Mit allen Parametrisierungen wurde PhAST in
9!retrospektiven Screenings auf seine Fähigkeit getestet, mit einer aktiven Substanz als
Referenz andere aktive Substanzen zu erkennen und für diese höhere Ähnlichkeiten zu
berechnen als für inakt