Bioinformatics methods for NMR chemical shift data [Elektronische Ressource] / Simon W. Ginzinger
117 pages
Deutsch

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Bioinformatics methods for NMR chemical shift data [Elektronische Ressource] / Simon W. Ginzinger

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
117 pages
Deutsch
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Bioinformatics Methods for NMRChemical Shift DataDissertationan der Fakultat fur Mathematik, Informatik und Statistik¨ ¨der Ludwig-Maximilians-Universitat Munchen¨ ¨Simon W. Ginzingervorgelegt am 24.10.2007Erster Gutachter:Prof. Dr. Volker Heun, Ludwig-Maximilians-Universita¨t Mu¨nchenZweiter Gutachter:Prof. Dr. Robert Konrat, Universit¨at WienRigorosum: 8. Februar 2008KurzfassungDienukleareMagnetresonanz-Spektroskopie(NMR)isteinederwichtigstenMeth-oden, um die drei-dimensionale Struktur von Biomolekulen zu bestimmen. Trotz¨großer Fortschritte in der Methodik der NMR ist die Aufl¨osung einer Protein-struktur immer noch eine komplizierte und zeitraubende Aufgabe. Das ZieldieserDoktorarbeitistes,Bioinformatik-Methodenzuentwickeln,diedenProzessder Strukturaufklarung durch NMR erheblich beschleunigen konnen. Zu diesem¨ ¨Zweck konzentriert sich diese Arbeit auf bestimmte Messdaten aus der NMR, dieso genannten chemischen Verschiebungen.Chemische Verschiebungen werden standardma¨ßig zu Beginn einer Struktur-auflosung bestimmt. Wie alle Labordaten konnen chemische Verschiebungen¨ ¨Fehlerenthalten,diedieAnalyseerschweren,wennnichtsogarunm¨oglichmachen.Als erstes Resultat dieser Arbeit wird darum CheckShift pr¨asentiert, eine Meth-ode, dieesermoglich einen weit verbreiteten Fehlerinchemischen Verschiebungs-¨daten automatisch zu korrigieren.DasHauptzieldieserDoktorarbeitistesjedoch, strukturelleInformationenauschemischen Verschiebungen zu extrahieren.

Informations

Publié par
Publié le 01 janvier 2007
Nombre de lectures 24
Langue Deutsch

Extrait

Bioinformatics Methods for NMR
Chemical Shift Data
Dissertation
an der Fakultat fur Mathematik, Informatik und Statistik¨ ¨
der Ludwig-Maximilians-Universitat Munchen¨ ¨
Simon W. Ginzinger
vorgelegt am 24.10.2007Erster Gutachter:
Prof. Dr. Volker Heun, Ludwig-Maximilians-Universita¨t Mu¨nchen
Zweiter Gutachter:
Prof. Dr. Robert Konrat, Universit¨at Wien
Rigorosum: 8. Februar 2008Kurzfassung
DienukleareMagnetresonanz-Spektroskopie(NMR)isteinederwichtigstenMeth-
oden, um die drei-dimensionale Struktur von Biomolekulen zu bestimmen. Trotz¨
großer Fortschritte in der Methodik der NMR ist die Aufl¨osung einer Protein-
struktur immer noch eine komplizierte und zeitraubende Aufgabe. Das Ziel
dieserDoktorarbeitistes,Bioinformatik-Methodenzuentwickeln,diedenProzess
der Strukturaufklarung durch NMR erheblich beschleunigen konnen. Zu diesem¨ ¨
Zweck konzentriert sich diese Arbeit auf bestimmte Messdaten aus der NMR, die
so genannten chemischen Verschiebungen.
Chemische Verschiebungen werden standardma¨ßig zu Beginn einer Struktur-
auflosung bestimmt. Wie alle Labordaten konnen chemische Verschiebungen¨ ¨
Fehlerenthalten,diedieAnalyseerschweren,wennnichtsogarunm¨oglichmachen.
Als erstes Resultat dieser Arbeit wird darum CheckShift pr¨asentiert, eine Meth-
ode, dieesermoglich einen weit verbreiteten Fehlerinchemischen Verschiebungs-¨
daten automatisch zu korrigieren.
DasHauptzieldieserDoktorarbeitistesjedoch, strukturelleInformationenaus
chemischen Verschiebungen zu extrahieren. Als erster Schritt in diese Richtung
wurde SimShift entwickelt. SimShift ermoglicht es zum ersten Mal, strukturelle¨
¨Ahnlichkeiten zwischen Proteinen basierend auf chemischen Verschiebungen zu
identifizieren. Der Vergleich zu Methoden, die nur auf der Aminosaurensequenz¨
¨basieren, zeigt die Uberlegenheit des verschiebungsbasierten Ansatzes. Als eine
naturliche Erweiterung des paarweisen Vergleichs von Proteinen wird darauf fol-¨
gend SimShiftDB vorgestellt. Gegeben ein Protein, durchsucht SimShiftDB eine
Datenbank bekannter Proteinstrukturen nach strukturell homologen Eintr¨agen.
Die Suche basiert hierbei nur auf der Aminosauresequenz und den chemischen¨
¨Verschiebungen des Proteins. Die detektierten Ahnlichkeiten werden zus¨atzlich
nach statistischer Signifikanz bewertet.
Mit der Chemical Shift Pipeline wird schließlich das Hauptresultat der Dis-
sertation vorgestellt. Durch die Kombination der automatischen Fehlerkorrektur
(CheckShift) mit dem Datenbank-Suchalgorithmus (SimShiftDB), wird in 70%
¨bis 80% der vorhergesagten strukturellen Ahnlichkeiten eine sehr hohe Qualitat¨
erreicht. Der Anteil der fehlerhaften Vorhersagen betra¨gt nur etwa 10%.
iiiSummary
Nuclear magnetic resonance spectroscopy (NMR) is one of the most important
methods for measuring the three-dimensional structure of biomolecules. Despite
major progress in the NMR methodology, the solution of a protein structure is
still a tedious and time-consuming task. The goal of this thesis is to develop
bioinformatics methods which may strongly accelerate the NMR process. This
workconcentratesonaspecialtypeofmeasurements,theso-calledchemicalshifts.
Chemical shifts are routinely measured at the beginning of a structure resolu-
tionprocess. Asalldatafromthelaboratory,chemical shifts maybeerror-prone,
which might complicate or even circumvent the use of this data. Therefore, as
thefirstresultofthethesis, wepresent CheckShift,amethodwhichautomatically
corrects a frequent error in NMR chemical shift data.
However, themaingoalofthisthesisistheextractionofstructuralinformation
hidden in chemical shifts. SimShift was developed as a first step in this direc-
tion. SimShift is the first approach to identify structural similarities between
proteins based on chemical shifts. Compared to methods based on the amino
acid sequence alone, SimShift shows its strength in detecting distant structural
relationships. As a natural further development of the pairwise comparison of
proteins, the SimShift algorithm is adapted for database searching. Given a pro-
tein, the improved algorithm, named SimShiftDB, searches a database of solved
proteins for structurally homologue entries. The search is based only on the
aminoacid sequence and theassociated chemical shifts. Thedetected similarities
are additionally ranked based on calculations of statistical significance.
Finally, the Chemical Shift Pipeline, the main result of this work, is presented.
By combining automatic chemical shift error correction (CheckShift) and the
databasesearchalgorithm(SimShiftDB),itispossibletoachieveveryhighquality
in 70% to 80% of the similarities identified. Thereby, only about 10% of the
predictions are in error.
vContents
1 Introduction 1
1.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Synopsis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Preliminaries 5
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 NMR Basics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 SHIFTX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Ring Current Effects . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Electric Field Effects . . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Hydrogen Bond Effects . . . . . . . . . . . . . . . . . . . . 11
2.3.4 Empirical Chemical Shift Hypersurfaces . . . . . . . . . . 12
2.4 TALOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 PSIPRED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Chemical Shift Index (CSI) . . . . . . . . . . . . . . . . . . . . . 15
2.7 Structural Identification (STRIDE) . . . . . . . . . . . . . . . . . 16
2.8 HHsearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.9 Secondary Structure Element Alignment (SSEA) . . . . . . . . . . 17
2.10 Combinatorial Extension (CE) . . . . . . . . . . . . . . . . . . . . 17
2.10.1 Distance Scores . . . . . . . . . . . . . . . . . . . . . . . . 18
2.11 MaxSub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.12 Databases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 CheckShift 21
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 The CheckShift Algorithm . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Preparation of Reference Density Functions . . . . . . . . 22
3.2.2 Calculation of Similarity . . . . . . . . . . . . . . . . . . . 23
3.2.3 Re-Referencing of Data Sets . . . . . . . . . . . . . . . . . 26
3.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5 Availability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
viiviii Contents
4 SimShift 31
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Selection of the Benchmark Set . . . . . . . . . . . . . . . . . . . 33
4.2.1 Databases Used . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.2 Evaluating the Structural Correctness of Alignments . . . 34
4.2.3 Defining a Benchmark Set . . . . . . . . . . . . . . . . . . 35
4.3 The Shift-Alignment Algorithm . . . . . . . . . . . . . . . . . . . 36
4.3.1 Phase 1: Calculation of the Shift-Difference Matrix . . . . 36
4.3.2 Phase 2: Find Good Blocks . . . . . . . . . . . . . . . . . 36
4.3.3 Phase 3: Concatenation of Blocks . . . . . . . . . . . . . . 37
4.3.4 Parameter Optimization . . . . . . . . . . . . . . . . . . . 39
4.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4.1 Comparison to SSEA and HHsearch . . . . . . . . . . . . . 40
4.4.2 Comparison to TALOS . . . . . . . . . . . . . . . . . . . . 45
4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 SimShiftDB 47
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 The Template Database . . . . . . . . . . . . . . . . . . . . . . . 48
5.3 Substitution Matrices for Shift Data . . . . . . . . . . . . . . . . 48
5.4 E-Values for Chemical Shift Alignments. . . . . . . . . . . . . . . 49
5.5 The Shift Alignment Algorithm . . . . . . . . . . . . . . . . . . . 51
5.5.1 Step 1: Calculate local alignments . . . . . . . . . . . . . . 51
5.5.2 Step 2: Identify the best legal combination . . . . . . . . . 52
5.6 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.6.1 Evaluation of the Modeling Performance . . . . . . . . . . 55
5.6.2 Evaluation of the P-Value Correctness . . . . . . . . . . . 56
5.7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.8 Availability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 The Chemical Shift Pipeline 61
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Coping with Missing Chemical Shift Data . . . . . . . . . . . . . 61
6.3 Chemical Shift Substitution Matrices . . . . . . . . . . . . . . . . 62
6.4 The Benchmark Set . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents