Contribution à l'estimation non-paramétrique par la méthode du noyau

Publié par

  • mémoire - matière potentielle : habilitation
  • mémoire
École doctorale Sciences Physiques et Mathématiques pour l'Ingénieur Universités de Rouen et du Havre, INSA de Rouen Mémoire d'Habilitation à Diriger des Recherches Spécialité : mathématiques appliquées, statistique Contribution à l'estimation non-paramétrique par la méthode du noyau présenté par Élie Youndjé Soutenu le 14 Octobre 2011 devant le jury composé de : Claude Dellacherie Directeur de recherche au CNRS Président André Mas Professeur, Université de Montpellier II Rapporteur Jérôme Saracco Professeur, Institut Polytechnique de Bordeaux Rapporteur Serguei Pergamenchtchikov Professeur, Université de Rouen Examinateur Pascal Sarda Professeur, Université de Toulouse Mirail Examinateur Philippe Vieu Professeur, Université de Toulouse III Examinateur
  • choix de la fenêtre pour l'estimation
  • propriétés de convergence
  • cross-validation method
  • méthode de validation
  • largeur de fenêtre
  • variable dépendante
  • variables dépendantes
  • estimateur
  • noyau
  • noyaux
  • estimation
  • estimations
Publié le : mercredi 28 mars 2012
Lecture(s) : 52
Source : univ-rouen.fr
Nombre de pages : 56
Voir plus Voir moins

École doctorale Sciences Physiques
et Mathématiques pour l’Ingénieur
Universités de Rouen et du Havre, INSA de Rouen
Mémoire d’Habilitation à Diriger des Recherches
Spécialité : mathématiques appliquées, statistique
Contribution à l’estimation
non-paramétrique par la
méthode du noyau
présenté par
ÉlieYoundjé
Soutenu le 14 Octobre 2011 devant le jury composé de :
ClaudeDellacherie Directeur de recherche au CNRS Président
AndréMas Professeur, Université de Montpellier II Rapporteur
JérômeSaracco Institut Polytechnique de Bordeaux Rapporteur
SergueiPergamenchtchikov Professeur, Université de Rouen Examinateur
Pascal Sarda Université de Toulouse Mirail
PhilippeVieu Professeur, Université de T III ExaminateurJe dédie ce travail à toute bonne volonté humaine
Au saumon qui nage à contre-courant pour aller pondre ses oeufs
Le voyage a été difficile, éprouvant, mais il en valait la peine
iTable des matières
Remerciements iv
1 Estimation d’une densité conditionnelle et applications 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Conditions nécessaires de convergence . . . . . . . . . . . . . . . . . . . . . 4
1.3 Propriétés se déduisant des résultats sur la densité . . . . . . . . . . . . . . 5
11.4 Convergence en norme L , pour x fixé . . . . . . . . . . . . . . . . . . . . 60
1.5 Application à l’estimation de fonctionnelles conditionnelles . . . . . . . . . 6
2 Choix du paramètre de lissage 8
2.1 Choix de la fenêtre pour l’estimation d’un densité conditionnelle . . . . . . 8
2.1.1 Cas d’un échantillon i.i.d. . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Cas d’un échantillon α-mélangeant . . . . . . . . . . . . . . . . . . 15
2.2 Choix de la fenêtre pour l’estimation d’une fonction de hasard . . . . . . . 17
2.2.1 Choix du paramètre de lissage lorsque les données sont complètes . 18
2.2.2 Choix du de lissage lorsque les données sont censurées . . 21
3 Déconvolution d’une densité 26
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Équivalence des mesures d’erreur . . . . . . . . . . . . . . . . . . . . . . . 29
ii3.3 Choix optimal de la largeur de fenêtre pour l’estimateur f . . . . . . . . . 31b
4 Résultats de convergence pour les processus à longue mémoire 34
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Estimation de la fonction de répartition . . . . . . . . . . . . . . . . . . . . 36
4.3 d’un quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Liste des travaux 39
Références 41
iiiRemerciements
Je tiens à exprimer ma profonde gratitude à ClaudeDellacherie pour l’hon-
neur singulier qu’il m’accorde en acceptant de présider le jury de mon habilitation.
Je lui suis particulièrement reconnaissant pour ses conseils et les corrections de mes
manuscrits.
J’exprime, du fond de mon coeur, ma profonde reconnaissance au Professeur
PhilippeVieu. Il a été mon guide dès mes premiers pas en recherche. En outre, il m’a
stimulé, encouragé à continuer de travailler même quand les “plombs” étaient au plus
bas. Je le remercie également pour les nombreuses invitations et accueils chaleureux
à Toulouse.
Je remercie le Professeur Pascal Sarda pour sa collaboration fructueuse, les
invitations et accueils chaleureux aussi bien à Toulouse qu’à Montpellier. Il m’a beau-
coup apporté d’idées de recherche et m’a initié à la simulation stochastique.
J’exprime ma gratitude au Professeur Martin T.Wells avec qui j’ai beaucoup
travaillé, notamment sur le problème de déconvolution. Je le remercie aussi pour
l’invitation et l’accueil convivial aux U.S.A. en 2000.
Je remercie les Professeurs André Mas, Jérôme Saracco et Michael Woo-
droofe pour avoir accepté la charge de lire ce mémoire et d’écrire un rapport. Je
suis très flatté qu’ils aient accepté d’être les rapporteurs de mon habilitation.
Je remercie également le Professeur SergePergamentchikov pour l’honneur
qu’il me fait en acceptant de participer au jury de cette habilitation.
Ma gratitude va également à Salima Taibi pour sa collaboration fructueuse.
Elle va aussi à tous les membres du LMRS pour pour le soutien qu’ils m’ont apporté.
ivRésumé
Ce travail se décline en quatre parties :
Dans la première partie nous présentons l’estimateur à noyau d’une densité condition-
nelle ainsi que ses propriétés de convergence. Nous y offrons de nombreuses références
bibliographiques sur le sujet. On y trouvera également des applications potentielles de
l’estimation non-paramétrique d’une densité conditionnelle.
Les propriétés de convergence d’un estimateur à noyau d’une fonction d’intérêt dé-
pendent d’une manière cruciale du paramètre de lissage ou de la largeur de fenêtre. Nous
présentons dans la deuxième partie de ce travail, la méthode de validation croisée pour
choisir la largeur de fenêtre pour l’estimation d’une densité conditionnelle quand l’échan-
tillon est indépendant ou mélangeant et d’une fonction de hasard lorsque les données sont
complètes ou censurées à droite. L’optimalité asymptotique de chaque méthode introduite
est énoncée. Nous exposons en même temps les résultats qui étendent ou améliorent ceux
que nous avons obtenus. Pour les problèmes d’estimation considérés, nous présentons aussi
des estimateurs alternatifs, ainsi que des méthodes alternatives de choix du paramètre de
lissage.
Dans la troisième partie l’estimateur à noyau multivarié de la déconvolution d’une
densité est introduit. L’équivalence asymptotique des mesures d’erreur quadratique (ISE,
MISE, ASE) est présentée. La décomposition du MISE met en lumière l’importance de la
largeurdefenêtresurlaperformancedel’estimateurdeladéconvolution.Nousintroduisons
une méthode de validation croisée pour sélectionner la largeur de fenêtre. L’optimalité
asymptotique de la méthode est énoncée.
La dernière partie est consacrée à des résultats de convergence pour les processus à
longue mémoire. Nous présentons un résultat de convergence uniforme (avec vitesse sur la
droite réelle entière) de l’estimateur à noyau d’une fonction de répartition. L’estimateur
d’un quantile construit à l’aide de l’estimateur à noyau d’une fonction de répartition est
introduit. Nous exposons un résultat de convergence de cet estimateur et précisons la
vitesse de convergence sous certaines hypothèses de régularité.Abstract
This work is organised in four parts:
In the first part, we present the kernel estimator of a conditional density along with
its consistencies properties. In this part, we will also exhibit potential applications of
conditional density estimation.
Consistencies properties of a kernel estimator of a target function (density, hazard
rate, etc.) depend heavily on the smoothing parameter. In the second part of this work,
we present the cross-validation method for choosing the bandwidth when estimating a
conditional density for independent and mixing samples and when estimating a hazard
rate with complete or right-censored data. The asymptotic optimality is stated for each
of the method. We also outline the results that extend or improve our own. For each
considered estimation problem, we present alternative estimation methods along with the
bandwidth selection methods associated.
In the third part, the multivariate deconvolution kernel estimator is introduced. The
asymptotic equivalence between quadratic measures of error (ISE, MISE, ASE) is stated.
The asymptotic representation of MISE illuminates the importance of the bandwidth on
the performance of the deconvolution estimator. We introduce a cross-validation criteria
for selecting the smoothing parameter. The asymptotic optimality of the cross-validation
method is presented.
The last part is devoted to convergence results under a general long-range dependence
framework. We present a uniform (with rate over the entire real line) consistency for the
kernel-type estimator of a distribution function. A kernel estimator of a quantile built
with the aid of the kernel estimator of a distribution is then introduced. We present
a consistency result of this and specify the rate of convergence under some
regularity conditions.6
Chapitre 1
Estimation d’une densité
conditionnelle et applications
1.1 Introduction
2Soit (X, Y ) un couple aléatoire à valeurs dansR , admettant une densitég. La densité
marginale f de X est obtenue par la formule
Z
f(x) = g(x,y)dx.
La densité conditionnelle de Y sachant X =x est définie par

g(x,y) si f(x) = 0 f(x)
ϕ(y|x) =
0 sinon.
Avant de continuer et présenter les résultats obtenus, il convient de dire pourquoi il
est intéressant d’estimer une densité conditionnelle. La littérature statistique regorge d’ex-
1pressions pour décrire la densité conditionnelle comme outil pour analyser la dépendance
entre variables aléatoires. Pour [Hall et al., 2004] la densité conditionnelle joue un rôle clef
en statistique appliquée et particulièrement en économie, pour [Fan and Yim, 2004] une
densité conditionnelle offre le résumé le plus informatif de la relation entre variable dé-
pendante et indépendante, enfin [Efromovich, 2007] dit que la densité conditionnelle de
la variable dépendante sachant le prédicteur décrit l’association ultime entre le prédicteur
et la variable dépendante. Pour notre part nous avons répertorié dans la littérature les
applications (potentielles ou effectives) suivantes d’une densité conditionnelle.
h Prévison par quantile conditionnel. Un “bon” estimateur de la densité condi-
tionnelle va permettre de déterminer si la densité conditionnelle deY sachantX =x
est asymétrique et uni-modale. Le cas échéant, il est plus intéressant de “prévoir”
Y à l’aide de la médiane conditionnelle. Pour cette approche de la prévision voir
[Matzner-Løber et al., 1998] (méthodes non-paramétriques) et [Koenker, 2005] (esti-
mation paramétrique).
h Prévision par mode conditionnel local. Lorsque la distribution condition-
nelle de Y sachant X = x est multimodale, il est plus judicieux de prévoir Y à
l’aide de l’un des modes conditionnels (pas nécessairement celui sur lequel la densité
conditionnelle est plus maximale). On pourra consulter [Einbeck and Tutz, 2006] et
[Matzner-Løber et al., 1998] pour avoir plus d’informations sur ce type de prévision.
h Sélection de variables expliquant une variable dépendante. Un produit
dérivé de l’estimation d’une densité conditionnelle est fourni dans [Hall et al., 2004].
Dans cet article les auteurs montrent comment on peut utiliser le critère de validation
croisée d’une densité conditionnelle pour sélectionner parmi des variables celles qui
sont pertinentes à l’analyse d’une variable dépendante.
Soit (X ,Y ),..., (X ,Y ) un n–échantillon de (X,Y ). Les estimateurs à noyau de1 1 n n
26
Parzen–Rosenblatt ([Parzen, 1962, Rosenblatt, 1956]) de g et f sont définis par
nX1 x−X y−Yi i
(1.1) g (x,y) = K , ,h 2nh h h
i=1
nX1 x−Xi
(1.2) f (x) = L ,h
nh hi=1
2 +K étant un noyau surR ,L un noyau surR eth =h(n)∈R le paramètre de lissage ou∗
largeur de fenêtre. Dans [1] nous avons considéré le problème de l’estimation de la fonction
ϕ, nous avons étudié l’estimateur à noyau de ϕ défini par

g (x,y)h si f (x) = 0 h f (x)h
ϕ (y|x) =h 0 sinon.
Àpartirdeladéfinitiondeϕ(y|x),onvoitqueàchaqueestimateurmultivariédeladensité
correspond un estimateur analogue de la densité conditionnelle. Certaines propriétés de
l’estimateurainsiobtenuvontdécoulerdemanièreanalytiquedespropriétésdel’estimateur
de densité correspondant. On peut ainsi définir, l’estimateur des “points les plus proches”,
l’estimateur “histogramme” et même l’estimateur “δ−suite” d’une densité conditionnelle.
Dans [1] nous nous sommes concentrés sur l’estimation par la méthode du noyau, car
l’estimateur à noyau d’une densité est l’un des estimateurs les plus étudiés et les plus
performants.
Des propriétés de convergence sur des estimateurs de la densité conditionnelle ont été
obtenues entre autres par Bosq ([Bosq, 1971], [Bosq, 1973]), Chahboun ([Chahboun, 1984])
et Delecroix ([Delecroix, 1975], [Delecroix, 1975]). Pour des reférences plus récentes sur le
sujet, on pourra consulter :
[Efromovich, 2007]; dans cet article, l’auteur expose la théorie minimax d’une densité
conditionnelle. Il montre en outre que l’estimateur des “séries orthogonales” atteint la
3

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.