Semiparametric Bayesian count data models [Elektronische Ressource] / Leyre Estíbaliz Osuna Echavarría
215 pages
Deutsch

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Semiparametric Bayesian count data models [Elektronische Ressource] / Leyre Estíbaliz Osuna Echavarría

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
215 pages
Deutsch
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Semiparametric BayesianCount Data ModelsLeyre Est´ ıbaliz Osuna Echavarr´ ıaDissertationat the Faculty of Mathematics, Computer Sciences and StatisticsLudwig–Maximilians–UniversityMunichst1 June 2004Semiparametric BayesianCount Data ModelsLeyre Est´ ıbaliz Osuna Echavarr´ ıaDissertationat the Faculty of Mathematics, Computer Sciences and StatisticsLudwig–Maximilians–UniversityMunichst1 June 2004Leyre Est´ıbaliz Osuna Echavarr´ıaSevilla, Spainst1 Referee: Prof. Dr. Ludwig Fahrmeirsd2 Referee: PD Dr. Helmut Kuchenhof¨ frd3 Referee: Prof. Dr. Claudia CzadothRigorosum: 26 July 20045VorwortDiese Arbeit wurde finanziell von der Deutschen Forschungsgemeinschaft gefor¨ dert,zum Teil durch den Sonderforschungsbereich ’Statistische Analyse diskreter Strukturen’(SFB 386) am Department fur¨ Statistik der Ludwig–Maximilians–Universitat¨ Munchen¨und zum Teil durch ein Stipendium im Graduiertenkolleg ’Angewandte AlgorithmischeMathematik’ (GKAAM) am Zentrum Mathematik der Technische Universitat¨ Munchen.¨Als erstes bedanke ich mich von ganzem Herzen bei Prof. Dr. Ludwig Fahrmeir, dersich freundlicherweise angeboten hat, meine Promotion zu betreuen. Er hat mir auchdie Chance gegeben, diese Arbeit in der lockeren und angenehmen Atmosphar¨ e seinesLehrstuhls zu machen.Mein Dank gilt auch Frau Gabriele Schnabel (immer so aufmerksam mit uns allen) undFrau Brigitte Maxa (die mir nicht nur in Sachen Uni sehr geholfen hat).

Sujets

Informations

Publié par
Publié le 01 janvier 2004
Nombre de lectures 42
Langue Deutsch
Poids de l'ouvrage 2 Mo

Extrait

Semiparametric Bayesian
Count Data Models
Leyre Est´ ıbaliz Osuna Echavarr´ ıa
Dissertation
at the Faculty of Mathematics, Computer Sciences and Statistics
Ludwig–Maximilians–University
Munich
st1 June 2004Semiparametric Bayesian
Count Data Models
Leyre Est´ ıbaliz Osuna Echavarr´ ıa
Dissertation
at the Faculty of Mathematics, Computer Sciences and Statistics
Ludwig–Maximilians–University
Munich
st1 June 2004
Leyre Est´ıbaliz Osuna Echavarr´ıa
Sevilla, Spainst1 Referee: Prof. Dr. Ludwig Fahrmeir
sd2 Referee: PD Dr. Helmut Kuchenhof¨ f
rd3 Referee: Prof. Dr. Claudia Czado
thRigorosum: 26 July 20045
Vorwort
Diese Arbeit wurde finanziell von der Deutschen Forschungsgemeinschaft gefor¨ dert,
zum Teil durch den Sonderforschungsbereich ’Statistische Analyse diskreter Strukturen’
(SFB 386) am Department fur¨ Statistik der Ludwig–Maximilians–Universitat¨ Munchen¨
und zum Teil durch ein Stipendium im Graduiertenkolleg ’Angewandte Algorithmische
Mathematik’ (GKAAM) am Zentrum Mathematik der Technische Universitat¨ Munchen.¨
Als erstes bedanke ich mich von ganzem Herzen bei Prof. Dr. Ludwig Fahrmeir, der
sich freundlicherweise angeboten hat, meine Promotion zu betreuen. Er hat mir auch
die Chance gegeben, diese Arbeit in der lockeren und angenehmen Atmosphar¨ e seines
Lehrstuhls zu machen.
Mein Dank gilt auch Frau Gabriele Schnabel (immer so aufmerksam mit uns allen) und
Frau Brigitte Maxa (die mir nicht nur in Sachen Uni sehr geholfen hat).
Ich mochte¨ mich bei folgenden Kollegen bedanken: Andi Brezger, Andrea Hennerfeind,
Alex Jerak, Stefan Lang, Gunter¨ Rasser, Volker Schmid und Renata Zambrzycka. Alle
haben wirklich eine schwere Leistung gebracht. Es gab extrem produktive Diskussion
srunden, aus denen ich viel gelernt habe (und nicht nur uber¨ Statistik). Sie haben un
endlich viel Geduld mit meinen Deutsch– oder Englisch–Fragen gehabt und waren im
mer hilfsbereit. Sie haben zahlreiche Aufmunterungsstunden hinter sich und mir stets
gute Tipps gegeben. Andi und Stefan, danke auch fur¨ die Programmierhilfe und langen
Aufklarungssitzungen¨ in Sachen BayesX. Es hat echt Spaß gemacht, mit euch allen zu
arbeiten!
Ich danke auch meinem Freund Torsten Loos fur¨ seine Geduld und Trost an den nicht
immer frohlichen¨ Abenden nach stundenlangem Forschungsfrust. Und naturlich¨ auch
meinen Mitbewohnern im Geschwister–Scholl–Heim, die fur¨ die notige¨ Ablenkung am
Abend und am Wochenende gesorgt haben. Ich will nicht meine Freunde Ana, Mar´ıa,
David und Javi vergessen, die mich trotz der Distanz immer aufgemuntert haben.
Ich widme diese Arbeit meinen Eltern. Mit ihrer klugen Erziehungsart und vollem Ver-6
trauen haben sie mir alle Tur¨ en fur¨ meine akademische Bildung geof¨ fnet. Sie haben mich
in jedem Schritt liebevoll unterstutzt¨ und dafur¨ bin ich ihnen sehr dankbar.
Leyre Est´ıbaliz Osuna Echavarr´ıa
Munchen,¨ August 20047
Zusammenfassung
Zahldaten¨ Modelle finden zahlreiche Anwendungen in der Praxis. Dennoch steht man
¨oft einem oder mehreren der folgenden Probleme gegenuber, die von der Benutzung
der Standard Poisson Regression abraten. Individuum spezifische unbeobachtete Het
erogenitat,¨ verursacht durch nichtvorhandene Kovariablen, und/oder Exzess von Null–
Beobachtungen konnten¨ in den Daten festgestellt werden. Beide Verteilungsprobleme be
wirken Abweichungen der Verteilung der Responsevariable von der klassischen Poisson
Annahme. Andererseits wollen wir den Pradiktor¨ vielleicht mit zeitlichen oder raum ¨
lichen Korrelationen und moglicherweise¨ Effekten von stetigen Kovariablen oder Zeit
skalen, vorhanden in den Daten, zusatzlich¨ erweitern.
Hier werden semiparametrische Zahldaten¨ Modelle entwickelt, die diese Probleme losen¨
¨konnen.¨ Die Poisson Verteilung wird erweitert, um Uberdispersion und/oder Exzess
von Null–Beobachtungen aufzufassen. Zusatzlich¨ werden entsprechende Komponen
ten in strukturierter additiver Form in den Pradiktor¨ eingefugt.¨ Die Modelle sind vollig¨
Bayesianisch und Inferenz wird mit Hilfe von effizienten Markov Chain Monte Carlo
(MCMC) Methoden durchgefuhrt.¨ Mit Simulationsstudien wird untersucht, wie gut die
verschiedenen Komponenten mit den vorliegenden Daten erkannt werden. Die Ansatze¨
werden zum Schluß auf zwei Datensatze¨ angewendet: auf Patentdaten und auf die An
zahl der Schaden¨ eines großen Kfz Datensatzes.
Abstract
Count data models have a large number of pratical applications. However there can
be several problems which prevent the use of the standard Poisson regression. We may
detect individual unobserved heterogeneity, caused by missing covariates, and/or excess8
of zero observations in our data. Both distributional issues results in deviations of the
response distribution from the classical Poisson assumption. We may in addition want
to extend our predictor to model temporal or spatial correlation and possibly nonlinear
effects of continuous covariates or time scales available in the data.
Here we study and develop semiparametric count data models which can solve these
problems. We have extended the Poisson distribution to account for overdispersion
and/or zero inflation. Additionally we have incorporated corresponding components
in structured additive form into the predictor. The models are fully Bayesian and infer-
ence is carried out by computationally efficient MCMC techniques. In simulation studies,
we investigate how well the different components can be identified with the data at hand.
Finally, the approaches are applied to two data sets: to a patent data set and to a large
data set of claim frequencies from car insurance.Contents
1 Introduction 1
1.1 Count data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Log–linear Poisson Regression and extensions . . . . . . . . . . . . 2
1.1.2 Problems with classical count data regression . . . . . . . . . . . . 4
1.2 Overview of the thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Overdispersion 9
2.1 Negative Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Latent variables approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Poisson–Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Poisson–Inverse Gaussian . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3 Poisson–Gaussian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3 Hierarchical centering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Resum´ e´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Excess of Zero Counts 21
3.1 Zero Inflated Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.1 Zero Inflated Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1.2 Zero Negative Binomial . . . . . . . . . . . . . . . . . . . . 27
3.1.3 Zero Inflated Poisson with latent variables . . . . . . . . . . . . . . 28
3.2 Hierarchical centering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Resum´ e´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Priors and modeling of covariate effects 33
4.1 Priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Predictors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 Fixed and random effects . . . . . . . . . . . . . . . . . . . . . . . . 36
910 Contents
4.2.2 Metrical covariates . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.3 Spatial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Hierarchy of the models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Resum´ e´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Posterior inference 47
5.1 Posteriors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Posteriors for groups A and C . . . . . . . . . . . . . . . . . . . . . . 49
5.1.2 for groups B and D . . . . . . . . . . . . . . . . . . . . . . 50
5.1.3 Posterior for group E . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Full conditionals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Predictor terms and their hyperparameters . . . . . . . . . . . . . . 52
5.2.2 Model specific parameters . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Sampling Schemes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3.1 Predictor terms and their hyperparameters . . . . . . . . . . . . . . 61
5.3.2 Model specific parameters . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6 Simulation studies 75
6.1 Overdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.1.1 Data simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.1.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.1.3 Resum´ e´ .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents