Bioinformatics analyses of alternative splicing [Elektronische Ressource] : predition of alternative splicing events in animals and plants using machine learning and analysis of the extent and conservation of subtle alternative splicing / von Rileen Sinha
159 pages
English

Bioinformatics analyses of alternative splicing [Elektronische Ressource] : predition of alternative splicing events in animals and plants using machine learning and analysis of the extent and conservation of subtle alternative splicing / von Rileen Sinha

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
159 pages
English
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Bioinformatics Analyses of Alternative Splicing Prediction of alternative splicing events in animals and plants using Machine Learning and analysis of the extent and conservation of subtle alternative splicing Dissertation zur Erlangung des akademischen Grades doctor rerum naturalium (Dr. rer. nat.) vorgelegt dem Rat der Biologisch-Pharmazeutischen Fakultät der Friedrich-Schiller- Universität Jena von Rileen Sinha geboren am 06.01.1973 in Pittsburgh, U.S.A Jena 2009 2 Die vorliegende Arbeit wurde in der Zeit von April 2006 bis Oktober 2009 am Leibniz Institut für Altersforschung – Fritz-Lipmann-Institut in Jena und am Institut für Informatik, Albert-Ludwigs-Universität Freiburg angefertigt. Gutachter 1. ........................................................ 2. ........................................................ 3. 3 Table of Contents List of abbreviations ................................................................................................................... 4 Table of Figures ......................... 5 SUMMARY ............................... 7 Zusammenfassung .................. 9 Summary .............................................................................................................................. 11 INTRODUCTION .................... 13 Splicing ................................. 16 Alternative splicing ...........................

Sujets

Informations

Publié par
Publié le 01 janvier 2009
Nombre de lectures 18
Langue English
Poids de l'ouvrage 9 Mo

Extrait

Bioinformatics Analyses of Alternative Splicing

Prediction of alternative splicing events in animals and
plants using Machine Learning and analysis of the extent
and conservation of subtle alternative splicing

Dissertation

zur Erlangung des akademischen Grades doctor rerum naturalium
(Dr. rer. nat.)



vorgelegt dem Rat der Biologisch-Pharmazeutischen Fakultät
der Friedrich-Schiller- Universität Jena


von
Rileen Sinha

geboren am 06.01.1973 in Pittsburgh, U.S.A

Jena 2009 2

Die vorliegende Arbeit wurde in der Zeit von April 2006 bis Oktober 2009 am Leibniz
Institut für Altersforschung – Fritz-Lipmann-Institut in Jena und am Institut für Informatik,
Albert-Ludwigs-Universität Freiburg angefertigt.

























Gutachter
1. ........................................................
2. ........................................................
3. 3


Table of Contents

List of abbreviations ................................................................................................................... 4
Table of Figures ......................... 5
SUMMARY ............................... 7
Zusammenfassung .................. 9
Summary .............................................................................................................................. 11
INTRODUCTION .................... 13
Splicing ................................. 16
Alternative splicing .............................................................................. 18
The impact of alternative splicing ........................................................ 21
Non-EST based prediction of alternative splicing ............................... 23
Exon skipping ....................................................................................... 24
Accurate prediction of NAGNAG alternative splicing ........................ 25
Characterization and prediction of NAGNAG alternative splicing in the moss
Physcomitrella patens ........................................................................................................... 26
Conservation of tandem splice sites ..................... 27
A comprehensive resource for tandem splice sites .............................. 29
PUBLICATIONS AND MANUSCRIPTS .............. 31
Improved identification of conserved cassette exons using Bayesian networks .................. 33
Accurate prediction of NAGNAG alternative splicing ........................................................ 35
Identification and characterization of NAGNAG alternative splicing in the moss
Physcomitrella patens .......................................................................................................... 38
Assessing the fraction of short-distance tandem splice sites under purifying selection ...... 40
TassDB2 - A comprehensive database of subtle alternative splicing events ....................... 43
DISCUSSION .......................................................................................................................... 45
Improved identification of conserved cassette exons ........................... 47
Accurate prediction of NAGNAG alternative splicing ........................ 51
Characterization and prediction of NAGNAG alternative splicing in the moss
Physcomitrella patens .......................................................................................................... 53
Assessing the conservation of tandem splice sites ............................... 55
TassDB2 – a comprehensive resource on tandem splice sites ............. 56
BIBLIOGRAPHY .................................................................................................................... 59
Acknowledgements .................. 71
Declaration of Independent Assignment 72
Curriculum Vitae ...................... 73


4

List of abbreviations

AA alternative acceptor
AD alternative donor
AS alternative splicing
AUC area under the ROC curve
BN Bayesian Network
cDNA complementary DNA
DNA deoxyribonucleic acid
ESE exonic splicing enhancer
ESS exonic splicing silencer
EST expressed sequence tag
hnRNPs heterogeneous nuclear RNPs
ISE intronic splicing enhancer
ISRE intronic splicing regulatory element
ISS intronic splicing silencers
mRNA messenger RNA
NCBI National Center for Biotechnological Information
NGS next generation sequencing
NMD nonsense-mediated mRNA decay
nt nucleotides
PCR polymerase chain reaction
PPT polypyrimidine tract
PTC premature termination codon
RefSeq Reference sequence Database (of NCBI)
RNA ribonucleic acid
ROC receiver operating characteristic
RT-PCR reverse transcription coupled with polymerase chain reaction
SNP single-nucleotide polymorphism
snRNP small nuclear ribonucleoprotein
SR protein Serine-Arginine (Ser-Arg) protein
SS splice site
SVM support vector machine
TassDB tandem splice site database
UCSC University of California Santa Cruz
UTR untranslated region
WGS whole genome shotgun 5

Table of Figures

Figure 1. A simplified overview of spliceosome assembly. .................................................... 17
Figure 2. The major splicing signals and most common alternative splicing events. .............. 20
Figure 3. The possible isoforms in NAGNAG splicing. .......................... 26
Figure 4. Posterior probabilities of being alternative for constitutive and alternative exons. . 50 7

Bioinformatics Analyses of Alternative Splicing
SUMMARY 9

Zusammenfassung
Alternatives Spleißen (AS) ist ein Mechanismus, durch den ein Multi-Exon-Gen verschiedene
Transkripte und damit verschiedene Proteine exprimieren kann. AS trägt wesentlich zur
Komplexität und Vielfalt eukaryotischer Transkriptome und Proteome bei. Die Bioinformatik
hat in den vergangenen zehn Jahren entscheidenden Beiträge zu unserem Verständnis des
AS in Bezug auf Verbreitung, Umfang und Konservierung der verschiedenen Klassen,
Evolution, Regulierung und biologische Funktion geliefert. Zum Nachweis des AS im großen
Maßstab wurden meist Verfahren zur Genom- und Transkriptom-weiten Alignierung von
EST- und mRNA-Daten sowie Microarray-Analysen eingesetzt, die weitestgehend auf
bioinformatischen Methoden basieren. Diese wurden durch rechnergestützte Verfahren zur
Charakterisierung und Vorhersage von AS ergänzt, die zeigen, wie sich konstitutive und
alternative Spleißorte sowie Exons unterscheiden.
Die vorliegende Dissertationsschrift beschäftigt sich mit bioinformatischen Analysen
ausgewählter Aspekte des AS. Im ersten Teil habe ich Verfahren zur Vorhersage des AS
entwickelt, ohne dabei auf Datensätze exprimierter Sequenzen zurückzugreifen.
Insbesondere habe ich Ansätze zur Vorhersage von Kassetten-Exons mittels Bayessches
Netze (BN) weiterentwickelt und neue diskriminierende Merkmale etabliert. Diese
verbesserten deutlich die Richtig-Positiv-Rate von publizierten 50% auf 61%, bei einer
stringenten Falsch-Positiv-Rate von nur 0,5%. Ich konnte zeigen, dass Exons, die als
konstitutiv gekennzeichnet waren, denen aber durch das BN eine hohe Wahrscheinlichkeit
zugeweisen wurde, alternativ zu sein, in der Tat durch neueste Expressionsdaten als
alternativ bestätigt wurden. Bei gleichen Datensätzen und Merkmalen entspricht die
Leistungsfähigkeit eines BN der einer publizierten Support-Vektor-Maschine (SVM), was
darauf hinweist, dass verlässliche Ergebnisse bei der Klassifikation mehr von den
Merkmalen als von der Wahl des Klassifikators abhängen.
Im zweiten Teil habe ich den BN-Ansatz auf eine umfangreiche und evolutionär weit
verbreitete Klasse von AS-Ereignissen ausgeweitet, die als NAGNAG-Tandem-Spleißstellen
bezeichnet werden und bei denen die alternativen Spleißorte nur 3 Nukleotide (nt)
voneinander getrennt sind. Die sorgfältige Zusammenstellung der Trainings- und Test-
Datensätze bei der Vorhersage des NAGNAG-AS trug zu einer ausgewogenen Sensitivität
und Spezifität von 92% bei. Vorhersagen eines auf dem vereinigten Datensatz trainierten BN
konnten in 81% (38/47) der Fälle experimentell bestätigt werden. Im Rahmen dieser Studie
wurde damit einer der gegenwärtig umfangreichsten Datensätze zur experimentellen
Verifizierung von Vorhersagen des AS generiert. Ein BN, trainiert anhand menschlicher
Daten, erzielt ähnliche gute Ergebnisse bei vier anderen Wirbeltier-Genomen. Nur leichte
Einbußen bei Vorhersagen für Drosophila melanogaster und Caenorhabditis elegans weisen
darauf hin, dass der zugrunde liegende Spleißmechanismus über weite evolutionäre 10

Distanzen konserviert zu seien scheint. Schließlich verwendete ich die
Vorhersagegenauigkeit der experimentellen Validierung, um die Zahl der noch unentdeckten
alternativen NAGNAGs abzuschätzen. Die Ergebnisse deuten darauf hin, dass der
Mechanismus

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents