Modeling different dependence structures involving count data with applications to insurance, economics and genetics [Elektronische Ressource] / Vinzenz Martin Erhardt
117 pages
Deutsch

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Modeling different dependence structures involving count data with applications to insurance, economics and genetics [Elektronische Ressource] / Vinzenz Martin Erhardt

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
117 pages
Deutsch
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Technische Universita¨t Mu¨nchenZentrum MathematikLehrstuhl fu¨r Mathematische StatistikModeling different dependence structures involvingcount data with applications to insurance, economicsand geneticsVinzenz Martin ErhardtVollsta¨ndiger Abdruck der von der Fakulta¨t fu¨r Mathematik der Technischen Universit¨at Mu¨nchenzur Erlangung des akademischen Grades einesDoktors der Naturwissenschaften (Dr. rer. nat.)genehmigten Dissertation.Vorsitzender: Univ.-Prof. Dr. Rudi ZagstPru¨fer der Dissertation: 1. Univ.-Prof. Claudia Czado, Ph.D.2. Univ.-Prof. Dr. Ludwig FahrmeirLudwig-Maximilians-Universit¨at Mu¨nchen3. Prof. Arnoldo FrigessiUniversity of Oslo, Norwegen(nur schriftliche Beurteilung)Die Dissertation wurde am 01.04.2010 bei der Technischen Universit¨at Mu¨nchen eingereicht unddurch die Fakulta¨t fu¨r Mathematik am 14.06.2010 angenommen.ZusammenfassungIn dieser Arbeit werden etliche Abha¨ngigkeitsstrukturen fu¨r Z¨ahlvariablen, aber auch stetige¨Zielvariablen, untersucht. Diese Z¨ahlvariablen weisen typischerweise nicht nur Uberdispersionauf, sondern haben auch einen hohen Anteil an Nullen; zwei Eigenschaften, die kaum von klas-sischen Verteilungen erkl¨art werden k¨onnen. Regressionsmodelle fu¨r abha¨ngige beschreibendeVariablen werden ebenfalls untersucht.

Sujets

Informations

Publié par
Publié le 01 janvier 2010
Nombre de lectures 25
Langue Deutsch
Poids de l'ouvrage 3 Mo

Extrait

Technische Universit¨at Mu¨nchen
Zentrum Mathematik
Lehrstuhl fu¨r Mathematische Statistik
Modeling different dependence structures involving
count data with applications to insurance, economics
and genetics
Vinzenz Martin Erhardt
Vollsta¨ndiger Abdruck der von der Fakult¨at fu¨r Mathematik der Technischen Universit¨at Mu¨nchen
zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften (Dr. rer. nat.)
genehmigten Dissertation.
Vorsitzender: Univ.-Prof. Dr. Rudi Zagst
Pru¨fer der Dissertation: 1. Univ.-Prof. Claudia Czado, Ph.D.
2. Univ.-Prof. Dr. Ludwig Fahrmeir
Ludwig-Maximilians-Universit¨at Mu¨nchen
3. Prof. Arnoldo Frigessi
University of Oslo, Norwegen
(nur schriftliche Beurteilung)
Die Dissertation wurde am 01.04.2010 bei der Technischen Universita¨t Mu¨nchen eingereicht und
durch die Fakulta¨t fu¨r Mathematik am 14.06.2010 angenommen.Zusammenfassung
In dieser Arbeit werden etliche Abha¨ngigkeitsstrukturen fu¨r Z¨ahlvariablen, aber auch stetige
¨Zielvariablen, untersucht. Diese Z¨ahlvariablen weisen typischerweise nicht nur Uberdispersion
auf, sondern haben auch einen hohen Anteil an Nullen; zwei Eigenschaften, die kaum von klas-
sischen Verteilungen erkl¨art werden k¨onnen. Regressionsmodelle fu¨r abha¨ngige beschreibende
Variablen werden ebenfalls untersucht. In einer Anwendung aus der Genetik werden verschiedene
Ansa¨tze verglichen, um mittels ”QTL mapping” auf dem Genom nach signifikanten Regionen
zu suchen, die ursa¨chlich fu¨r bestimmte Ph¨anotypen sind. Dabei werden u¨berraschende Ein-
¨blicke in die Ursachen von Uberdispersion pr¨asentiert. Zeitliche Abh¨angigkeit wird im Kon-
text von ”generalized estimating equations” fu¨r verallgemeinerte Poisson Zielvariablen betra-
chtet. Damit soll das Outsourcingverhalten von Patentanmeldungen von 107 Firmen u¨ber
acht Jahre beschrieben werden. Fu¨r die Jahresgesamtsch¨aden in der Versicherung wird ein
Abha¨ngigkeitsmodell basierend auf Pair-Copula-Konstruktionen entwickelt. Die Herausforderung
bei diesem Problem liegt darin, daß die Versicherungssch¨aden aus einigen der abha¨ngigen Margi-
nalien Null sein k¨onnen, die marginalen Schadenho¨henverteilungen daher nicht in das klassische
Copula-Konzept passen. Pair-Copula-Konstruktionen sind deshalb sehr attraktiv, da sie er-
lauben, eine hochdimensionale Dichtefunktion als Produkt bivariater Copulas und marginaler
Dichten zu definieren. Zuletzt wird ein Verfahren zur Erzeugung hochdimensionaler Z¨ahlvariablen
mit vorab spezifizierter Pearson-Korrelation entwickelt. Dieser neue Ansatz basiert ebenfalls
auf Pair-Copula-Konstruktionen und hat eine h¨ohere Genauigkeit als ein bekannter Vergleichs-
Ansatz.Abstract
In this thesis, several dependence structures for dependent count responses and continuous
responses will be investigated. These count variables are typically not only overdispersed but
also show a large share of zero observations which cannot be described by classical distributions.
Therefore, zero-inflated generalized Poisson count regression and other regression models will be
considered. Dependence in the responses as well as in the describing variables will be considered.
In an application to genetics several methods of searching for causal genome regions for a certain
trait will be compared. Surprising insights on another source of overdispersion will be presented.
Temporal dependence will be addressed in the context of generalized estimating equations for
generalized Poisson responses. We apply this approach to fit models for the outsourcing behavior
of patent applications processes of 107 companies over eight years. In the field of dependent
insurance claim totals, a dependence model based on pair-copula constructions will be developed.
The challenge of this problem is that the insurance claims of some of the dependent margins may
be zero, and a marginal claim size distribution will therefore not fit in the general framework
of copula modeling. Pair-copula applications are especially appealing since they allow to define
a high dimensional density function by a product of bivariate copulas and marginal densities.
Finally this thesis will deal with an input modeling problem: a method for sampling from
high-dimensional count random vectors with a specified Pearson correlation will be developed.
For this challenging problem a novel approach also based on pair-copula constructions will be
developed and prove to outperform a well-known benchmark approach. Software packages for
R related to many of the topics have been developed.Acknowledgment
I am greatly indebted to Prof. Claudia Czado for the perpetual and intensive supervision.
This thesis has gained a lot from many fruitful discussions, her astute analysis and ongoing advice
over the past four years. Likewise, I am very grateful for her encouragement to participate in
many scientific conferences and to exchange with esteemed scientists.
It is a particular pleasure for me to thank Prof. Ma lgorzata Bogdan for the very fruitful
collaboration and the many valuable debates. Also I would like to thank Prof. Ludwig Fahrmeir
and Prof. Arnoldo Frigessi for acting as referees of this thesis. I would like to thank my colleagues
at the Technische Universita¨t Mu¨nchen for a pleasant time during the last years.
Moreover, I want to express my explicit gratitude to Allianz Deutschland AG for the financial
support. I would also like to thank my former supervisor at Allianz, Pierre Joos, both for giving
me credit and for supporting me in the first year of the thesis. I am grateful to Dr. Beate Elfinger
for helpful discussions and to Dr. Florian Beigel and his colleagues for giving me valuable advice.
Last but not least I am very grateful for the love of my family and especially of my wife
Christine, and their support and patience throughout the years.Contents
Introduction 1
1 QTL mapping for ZIGP regression 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Zero-inflated generalized Poisson regression . . . . . . . . . . . . . . . . . . . . . 9
1.3 mBIC and EBIC for ZIGPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Real data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Sampling high-dimensional count variables 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Copulas and multivariate Distributions . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Sampling in dimension 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Derivation of the sampling algorithm for T = 3 . . . . . . . . . . . . . . . 29
2.4 Sampling in dimension T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Sampling algorithm in dimension T . . . . . . . . . . . . . . . . . . . . . 33
2.5 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 Simulation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7 Summary and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 GEE for longitudinal generalized Poisson 40
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 A GEE setup for longitudinal count data . . . . . . . . . . . . . . . . . . . . . . 41
3.3 A GEE approach for GPR(μ ,ϕ ,R (λ )) . . . . . . . . . . . . . . . . . . . . . 44it it 1 1
3.4 Small sample properties of the GEE estimates . . . . . . . . . . . . . . . . . . . . 46
3.5 Variable selection and model comparison . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 A variable selection criterion for nested models . . . . . . . . . . . . . . . 48
3.5.2 Assessing model fit for nonnested models . . . . . . . . . . . . . . . . . . 49
3.6 Application: Outsourcing of patent applications . . . . . . . . . . . . . . . . . . . 50
3.6.1 Data description and model comparison . . . . . . . . . . . . . . . . . . . 50
3.6.2 Model interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7 Conclusions and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
i4 Model selection for spatial count regression 58
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Spatial count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.1 Spatial effects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 MCMC including model selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 Non nested model selection . . . . . . . . . . . . . . . . . . . . .

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents