Molecular formula identification using high resolution mass spectrometry [Elektronische Ressource] : algorithms and applications in metabolomics and proteomics / von Anton Pervukhin
127 pages
Deutsch

Molecular formula identification using high resolution mass spectrometry [Elektronische Ressource] : algorithms and applications in metabolomics and proteomics / von Anton Pervukhin

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
127 pages
Deutsch
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Molecular Formula Identification using HighResolution Mass SpectrometryAlgorithms and Applications inMetabolomics and ProteomicsDissertationzur Erlangung des akademischen Gradesdoctor rerum naturalium (Dr. rer. nat.)vorgelegt dem Rat der Fakult¨at fur¨ Mathematik und Informatikder Friedrich-Schiller-Universit¨at Jenavon Dipl.-Ing. Anton Pervukhingeboren am 29. Juli 1982 in TscheljabinskGutachter:1. Prof. Dr. Sebastian B¨ocker, Friedrich-Schiller-Universit¨at Jena2. Prof. Dr. Jens Stoye, Universit¨at BielefeldTag der o¨ffentlichen Verteidigung: 8. Dezember 2009Gedruckt auf alterungsbest¨andigem Papier nach DIN-ISO 9706ZusammenfassungWir untersuchen mehrere theoretische und praktische Aspekte der Identifikation derSummenformel von Biomolekulen¨ mit Hilfe von hochaufl¨osender Massenspektrometrie.DurchdieletztenForschritteinderInstrumentationistdieMassenspektrometrie(MS)zur einen der Schlusse¨ ltechnologien fu¨r die Analyse von Biomoleku¨len in der Proteomikund Metabolomik geworden. Sie misst die Massen der Molekul¨ e in der Probe mit ho-her Genauigkeit, und ist fu¨r die Messdatenerfassung im Hochdurchsatz gut geeignet.Eine der Kernaufgaben in der MS-basierten Proteomik und Metabolomik ist die Iden-tifikation der Moleku¨le in der Probe. In der Metabolomik unterliegen Metaboliten derStrukturaufkl¨arung, beginnend bei der Summenformel eines Molekuls,¨ d.h. der An-zahl der Atome jedes Elements.

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 55
Langue Deutsch
Poids de l'ouvrage 2 Mo

Extrait

Molecular Formula Identification using High
Resolution Mass Spectrometry
Algorithms and Applications in
Metabolomics and Proteomics
Dissertation
zur Erlangung des akademischen Grades
doctor rerum naturalium (Dr. rer. nat.)
vorgelegt dem Rat der Fakult¨at fur¨ Mathematik und Informatik
der Friedrich-Schiller-Universit¨at Jena
von Dipl.-Ing. Anton Pervukhin
geboren am 29. Juli 1982 in TscheljabinskGutachter:
1. Prof. Dr. Sebastian B¨ocker, Friedrich-Schiller-Universit¨at Jena
2. Prof. Dr. Jens Stoye, Universit¨at Bielefeld
Tag der o¨ffentlichen Verteidigung: 8. Dezember 2009
Gedruckt auf alterungsbest¨andigem Papier nach DIN-ISO 9706Zusammenfassung
Wir untersuchen mehrere theoretische und praktische Aspekte der Identifikation der
Summenformel von Biomolekulen¨ mit Hilfe von hochaufl¨osender Massenspektrometrie.
DurchdieletztenForschritteinderInstrumentationistdieMassenspektrometrie(MS)
zur einen der Schlusse¨ ltechnologien fu¨r die Analyse von Biomoleku¨len in der Proteomik
und Metabolomik geworden. Sie misst die Massen der Molekul¨ e in der Probe mit ho-
her Genauigkeit, und ist fu¨r die Messdatenerfassung im Hochdurchsatz gut geeignet.
Eine der Kernaufgaben in der MS-basierten Proteomik und Metabolomik ist die Iden-
tifikation der Moleku¨le in der Probe. In der Metabolomik unterliegen Metaboliten der
Strukturaufkl¨arung, beginnend bei der Summenformel eines Molekuls,¨ d.h. der An-
zahl der Atome jedes Elements. Dies ist der entscheidende Schritt in der Identifika-
tion eines unbekannten Metabolits, da die festgelegte Formel die Anzahl der m¨oglichen
Moleku¨lstrukturenaufeinevielkleinereMengereduziert,diemitMethodenderautoma-
tischenStrukturaufkl¨arungweiteranalysiertwerdenkann. NachderVorverarbeitungist
die Ausgabe eines Massenspektrometers eine Liste von Peaks, die den Moleku¨lmassen
und deren Intensitate¨ n, d.h. der Anzahl der Moleku¨le mit einer bestimmten Masse,
entspricht. Im Prinzip konnen¨ die Summenformel kleiner Molekul¨ e nur mit pr¨azisen
Massen identifiziert werden. Allerdings wurde festgestellt, dass aufgrund der hohen
Anzahl der chemisch legitimer Formeln in oberen Massenbereich eine exzellente Massen-
genaugkeit alleine fur¨ die Identifikation nicht genugt.¨ Hochaufl¨osende MS erlaubt die
Bestimmung der Molekul¨ massen und Intensit¨aten mit hervorragender Genauigkeit.
In dieser Arbeit entwickeln wir mehrere Algorithmen und Anwendungen, die diese
Information zur Identifikation der Summenformel der Biomolekulen¨ anwenden. Im er-
sten Teil stellen wir einen Ansatz zur Bestimmung der Summenformel eines Metabolits
durch seine Masse und die natur¨ liche Verteilung seiner Isotopen vor. Wir fuh¨ ren den
Begriff “Isotopenmuster” ein und zeigen die Methoden fu¨r dessen schnelle Berechnung.
Wir evaluieren unseren Algorithmus auf mehreren experimentellen Datens¨atzen und er-
reichen vielversprechende Ergebnisse mit geringem Fehleranteil fur¨ die Molekul¨ e unter
1000 Da fu¨r orthogonale Flugzeitmassenspektrometrie. Des Weiteren haben wir eine
Methode entwickelt, um die Aminosau¨ resequenz eines unbekanntes Proteins aus seiner
Summenformel sich herzuleiten. Wir formulieren das Problem als mehrdimensionales
Equality-Constrained-Integer-Knapsack-Problem, und pr¨asentieren effiziente Methoden
der Maßreduktion, um alle Probleml¨osungen aufzuz¨ahlen.
Im zweiten Teil entwickeln wir mehrere Anwendungen, die unsere algorithmischen
Ans¨atze implementieren und fu¨r die Analyse der MS-Daten kleiner Biomoleku¨le ange-
wandt werden k¨onnen. Wir pr¨asentieren Decomp, eine web-basierte Anwendung fu¨r
die Massenzerlegung u¨ber einen beliebigen Alphabet, und zeigen ihre Anwendbarkeit als
Teil eines Software-Werkzeuges CompNovo fu¨r die de-novo-Sequenzierung von Peptiden
iiiiv
durchTandem-MS.SchließlichstellenwirdieJava-basierteSoftwareSIRIUSvor,dieun-
sere Algorithmen zur Identifikation der Summenformel von Metaboliten implementiert,
und mit einer leicht bedienbaren graphischen Benutzeroberflac¨ he kombiniert.Acknowledgements
This work would not have been possible without the support of many people.
First of all, I would like to thank Prof. Dr. Sebastian B¨ocker, who has been a great
supervisor over these years, sharing lots of ideas, providing dozens of useful insights
into problems, dedicating much time for his students, and simply supporting them at
all levels. For me, working with Sebastian has been an incomparable and very valuable
experience. Also, I would like to thank Prof. Dr. Jens Stoye at Bielefeld University, who
has been for me an example of a brilliant organizer and supportive mentor. Working
with Jens in the group Genome Informatics in Bielefeld, I could particularly appreciate
the opportunity to study in a motivated and yet very friendly atmosphere, in which
things were getting managed as if by themselves.
I am grateful to the Deutsche Forschungsgemeinschaft (DFG), which has financed me
within the Computer Science Action Program (BO 1910/1).
IwouldliketoexpressmygratitudetoDr.MichaelJungfromthebj-diagnostikGmbH,
Gießen, for his kindness and immense support over the period of time before beginning
this PhD thesis.
IwishtoacknowledgeDr.DirkEvers, SilkeK¨olsch, andthewholeInternationalNRW
Graduate School in Bioinformatics and Genome Research, where I had an opportunity
to study during the first one and a half years at Bielefeld University.
I express many thanks to Dr. Hans-Michael Kaltenbach who has been a great office
mate in Bielefeld. I am also grateful to Dr. Zsuzsanna Lipt´ak, who has been a great
co-author and, in some sense, an elder tutor for me in my first publications. I have been
learning from Zsuzsa how to write clear and well-formulated papers with grammatically
correct English. I thank Marcel Martin, Henner Sudek, and Matthias Steinruc¨ ken who
helped me a lot in getting acquainted with realities of studying at Bielefeld University.
I also wish to thank Heike Samuel for her kindness and support during my first days at
my first German university.
For the very useful and successful cooperation, I wish to acknowledge the following
scientists: Dr. Matthias Letzel at Bielefeld University, Dr. Steffen Neumann at Leibniz
Institute of Plant Biochemistry (IPB) Halle, and Andreas Bertsch at Tub¨ ingen Uni-
versity. I wish to thank Henning Mersch and Jan Kru¨ger for their help with installing
Decomp at the Bielefeld University Bioinformatics Server (BiBiServ).
As during this PhD thesis, I had to change the location of my study, I would like to
thank Nicole Hinz, Frank M¨aurer, and Anke Truß who helped me a lot to easily change
the university, and to continue research at Friedrich-Schiller-University Jena.
In particular, I would like to thank my office neighbor Thasso Griebel, who joined our
newly created group at Jena University. I feel myself lucky that he landed at my office,
vvi
so that we could share a lot of ideas and have many useful discussions, in particular,
regarding the software design and development. Without his support in the initial stage
of creating SIRIUS, its release would have been much more complicated matter. I thank
Florian Rasche who came recently and could quickly adopt himself in our group, and
he is going to take over in the further development and maintenance of SIRIUS. I also
thank Martin Engler and Franzisca Huf¨ sky for their help with SIRIUS.
IwishtoacknowledgeFrankM¨aurerforhishelpincorrectingstudentassignments,and
AnkeTrußandQuangBaoAnhBuiforbeinggreatcoworkersinholdingvariousexercises
and seminars for students. And special thanks to Kathrin Schwotka, our beautiful
secretary, for her kindness and patience in helping us to get done all administrative
duties that typically accompany the academic research.
I thank Malte Brinkmeyer, Thasso Griebel, Florian Rasche, and Anke Truß for proof-
reading parts of this thesis.
Finally,Iwouldliketothankmyparents,GennadyandZareen,andmysisterVedanta,
who have accepted my long term leaves, and eventual move to Germany. I am deeply
grateful to them for their love and support, whenever being necessary.Contents
1 Introduction 1
1.1 Structure of the Thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Biological Background 5
2.1 Atoms and Molecules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Proteomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Metabolomics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Mass Spectrometry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 Instrumentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.2 Experimental Workflow . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Mass Spectrometry Data Analysis . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1 Types of Mass Spectrometric Analysis . . . . . . . . . . . . . . . . 21
2.5.2 Computational Problems . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.3 Protein Identification using Databases . . . . . . . . . . . . . . . . 24
3 Decomposition Algorithms 27
3.1 Integer Mass Decomposition . . . . . . . . . . . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents