MODÉLISATION STATISTIQUE ET APPLICATIONS BIOMÉDICALES

MODÉLISATION STATISTIQUE ET APPLICATIONS BIOMÉDICALES

Documents
463 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

UNIVERSITÉ VICTOR SEGALEN BORDEAUX 2
Institut de Santé Publique, d’Épidémiologie et de Développement (ISPED)
HABILITATION A DIRIGER DES RECHERCHES
“MODÉLISATION STATISTIQUE ET
APPLICATIONS BIOMÉDICALES”
présentée et soutenue le 7 décembre 2009 par
Benoît LIQUET
Maître de Conférences (section 26)
ISPED, Université de Bordeaux 2 - INSERM U 897
Membres du Jury
Monsieur Ali Gannoun Professeur, Université Montpellier 2 Président Bernard Bercu Université de Bordeaux 1 Rapporteur
Monsieur Laurent Bordes Professeur, Université de Pau et des Pays de l’Adour Rapp Nicolas Molinari Maître de conférences-PH, Université de Montpellier Rapporteur
Monsieur Ahmadou Alioum Professeur, Université de Bordeaux 2 Examinateur Remerciements
Je remercie tout d’abord très sincèrement Bernard Bercu, Laurent Bordes
et Nicolas Molinaripouravoir acceptéd’être rapporteur de cette habilitation.
Je les remercie vivement pour le temps qu’ils ont consacré à la lecture de mon
mémoire et à l’intérêt qu’ils lui ont porté.
Merci à Ali Gannoun et à Ahmadou Alioum, pour m’avoir fait l’honneur
de participer au jury de cette habilitation. Je leur adresse mes vifs remercie-
ments pour les suggestions concernant mes recherches et ce mémoire.
Merci infiniment à Jérôme Saracco avec qui j’ai grand plaisir à travailler
depuis 6 ans tant pour ses qualités scientifiques qu’humaines.
Quetousveuillentbienm’autoriseràconsacrerceparagrapheàl’ensemble
de mes co-auteurs à qui j’exprime toute ma gratitude. Avant de les citer, ...

Sujets

Informations

Publié par
Nombre de visites sur la page 81
Langue English
Signaler un problème
UNIVERSITÉ VICTOR SEGALEN BORDEAUX 2 Institut de Santé Publique, d’Épidémiologie et de Développement (ISPED) HABILITATION A DIRIGER DES RECHERCHES “MODÉLISATION STATISTIQUE ET APPLICATIONS BIOMÉDICALES” présentée et soutenue le 7 décembre 2009 par Benoît LIQUET Maître de Conférences (section 26) ISPED, Université de Bordeaux 2 - INSERM U 897 Membres du Jury Monsieur Ali Gannoun Professeur, Université Montpellier 2 Président Bernard Bercu Université de Bordeaux 1 Rapporteur Monsieur Laurent Bordes Professeur, Université de Pau et des Pays de l’Adour Rapp Nicolas Molinari Maître de conférences-PH, Université de Montpellier Rapporteur Monsieur Ahmadou Alioum Professeur, Université de Bordeaux 2 Examinateur Remerciements Je remercie tout d’abord très sincèrement Bernard Bercu, Laurent Bordes et Nicolas Molinaripouravoir acceptéd’être rapporteur de cette habilitation. Je les remercie vivement pour le temps qu’ils ont consacré à la lecture de mon mémoire et à l’intérêt qu’ils lui ont porté. Merci à Ali Gannoun et à Ahmadou Alioum, pour m’avoir fait l’honneur de participer au jury de cette habilitation. Je leur adresse mes vifs remercie- ments pour les suggestions concernant mes recherches et ce mémoire. Merci infiniment à Jérôme Saracco avec qui j’ai grand plaisir à travailler depuis 6 ans tant pour ses qualités scientifiques qu’humaines. Quetousveuillentbienm’autoriseràconsacrerceparagrapheàl’ensemble de mes co-auteurs à qui j’exprime toute ma gratitude. Avant de les citer, je tiens à remercier ici plus particulièrement les membres de l’équipe SAGAG de Grenoble : Remy Drouilhet, Pierre Lafaye de Micheaux, Franck Corset et Jean-François Coeurjolly. Merci aussi à Marie Chavent, Anne Gégout-Petit, Vanessa Kuentz, Pierre Joly, Virginie Rondeau. Merci à Daniel Commenges qui, en tant que directeur de l’équipe Biosta- tistique, m’a donné tous les moyens dans l’accomplissement de mon activité de recherche durant mon doctorat et depuis mon retour sur Bordeaux; et surtout pour l’ensemble du travail effectué ensemble. Je tiens également à adresser mes sincères remerciements à tous les autres membres de l’Equipe Biostatistique de l’ISPED, pour leur disponibilité et leurs précieux conseils. Merci également à tous mes collègues de Bordeaux 2 (qui se reconnaîtront) pour leur soutien et avec qui j’ai passé beaucoup de bons moments. Enfin, je tiens à remercier Marie Chavent et Jérome Saracco pour m’avoir motivé à rédiger cette habilitation, pour leurs relectures et leurs précieux conseils. Table des matières 1 Présentation générale 6 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Liste de publications . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.1 Articles publiés dans des revues avec comité de lecture 10 1.2.2 Livre et chapitres de livre . . . . . . . . . . . . . . . . 12 1.2.3 Articles soumis . . . . . . . . . . . . . . . . . . . . . . 12 1.2.4 Travaux collaboratifs en cours . . . . . . . . . . . . . . 12 1.2.5 Communications dans des congrès . . . . . . . . . . . . 13 1.3 Curriculum Vitæ . . . . . . . . . . . . . . . . . . . . . . . . . 15 2 Sélection de Modèle 21 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Théorie générale du risque de kullback-Leibler . . . . . . . . . 27 2.2.1 La divergence de Kullback-Leibler . . . . . . . . . . . . 27 2.2.2 Différence de risques de Kullback-Leibler . . . . . . . . 29 2.2.3 Critères pratiques de sélection : AIC et LCV . . . . . . 30 2.3 Choix d’estimateurs semi-paramétriques par Bootstrap . . . . 31 2.4 en présence de données incomplètes . . . 34 2.5 Choix entre un modèle à risques proportionnels et un modèle stratifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6 Choix entre modèle markovien et modèle non-markovien . . . 38 2.7 d’estimateurs basés sur des observations différentes . . . 41 2.8 Tirés à part des publications concernant le chapitre 2 . . . . . 48 3 Réduction de dimension et méthode SIR 138 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 3.2 Modèles semi-paramétriques de réduction de dimension . . . . 139 3.2.1 Cas où y2R . . . . . . . . . . . . . . . . . . . . . . . 140 3 q3.2.2 Cas où y2R . . . . . . . . . . . . . . . . . . . . . . . 141 3.3 Méthodes SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 3.3.1 Les méthodes SIR univariées de type “Slicing” . . . . . 142 3.3.2 Méthode SIR multivariée . . . . . . . . . . . . . . . . 147 3.4 Choix du nombre K d’indices et du paramètre dans la mé- thode SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 3.5 Choix du nombre H de tranches . . . . . . . . . . . . . . . . . 151 3.6 Cas des variables qualitatives . . . . . . . . . . . . . . . . . . 154 3.7 SIR et le “Bagging” . . . . . . . . . . . . . . . . . . . . . . . 157 3.8 Cas de modèles semi-paramétriques de sélection . . . . . . . . 160 3.9 Tirés à part des publications concernant le chapitre 3 . . . . . 169 4 Modèle de Survie et Modèle Multi-états 277 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 4.2 Modèle de survie et Modèle multi-états . . . . . . . . . . . . . 278 4.2.1 Modèle de survie . . . . . . . . . . . . . . . . . . . . . 278 4.2.2 Modèle multi-états . . . . . . . . . . . . . . . . . . . . 282 4.3 Modélisation de la pneumonie nosocomiale . . . . . . . . . . . 286 4.3.1 Modèle Multi-états proposé . . . . . . . . . . . . . . . 289 4.3.2 Prédiction d’une pneumonie nosocomiale . . . . . . . . 293 4.3.3 Estimation de la mortalité attribuable . . . . . . . . . 295 4.4 Modèle multi-états en sureté de fonctionnement . . . . . . . . 298 4.5 Analyse de données de Survie Corrélées . . . . . . . . . . . . . 300 4.6 Tiré à part concernant l’Analyse de donnée de Survie Corrélés 304 5 Thèmes satellites 323 5.1 Multiplicité des tests . . . . . . . . . . . . . . . . . . . . . . . 324 5.2 Didactique et Logiciel R . . . . . . . . . . . . . . . . . . . . . 354 5.3 Courbes de référence . . . . . . . . . . . . . . . . . . . . . . . 370 5.4 Méthode non-paramétrique pour l’analyse de niveaux d’ex- pression de gènes . . . . . . . . . . . . . . . . . . . . . . . . . 401 6 Perspectives 422 4 Chapitre 1 Présentation générale 1.1 Introduction Ce mémoire fait la synthèse de l’ensemble de mes travaux de recherche de- puis ma thèse d’Université (soutenue en décembre 2002). Les travaux présen- tés dans ce document s’inscrivent dans le cadre de la modélisation statistique en Biostatistique. Plus particulièrement ils s’articulent autour de plusieurs grands thèmes de la Statistique, à savoir la régression paramétrique et semi- paramétrique, les données de survie, les tests multiples. La majorité de ces travaux, sollicités par des problématique réelles, sont accompagnés par des développements et des outils informatiques à l’usage d’un plus large public. Danslasuitedecemémoire,j’airegroupémestravauxen5chapitresprin- cipaux : le thème du chapitre 2 concerne la sélection de modèle, le chapitre 3 concerne la réduction de dimension et la régression semi-paramétrique, le chapitre 4 porte sur l’analyse de survie et les modèles multi-états, et le cha- pitre 5 regroupe différents thèmes (que l’on peut qualifier de “satellites” par rapport aux trois précédents chapitres) en statistique appliquée. Présentons maintenant plus précisément ces quatre chapitres principaux. Dans le chapitre 2, nous nous intéressons au problème de la sélection de modèle. Le statisticien appliqué est non seulement confronté à la difficulté de sélectionner un modèle approprié à ses données mais aussi à l’embarras du choix entre les différents critères de sélection. Les différentes approches (tests d’hypothèses, critères bayésien, validation croisée) sont construites avec des espritsdifférents.Ellesselimitentsouventàdesquestionsprécisesetsontuti- 6 lisées dans un contexte particulier. Nous proposons dans ce chapitre d’unifier les différentes approches par un critère d’information répondant au principe de la sélection de modèles à la fois dans un cadre paramétrique et non- paramétrique. Le critère d’information proposé est basé sur l’information de Kullback-Leibler.L’informationdeKullback-Leiblerconstitue,parailleurs,le fondement du critère usuel AIC proposé par Akaike. Au cours de mon docto- rat, nous avons étendu le critère EIC au cadre semi-paramétrique. Ce critère 1présenté par Ishiguro, Sakamoto et Kitagawa (1997) dans un cadre paramé- trique est lui même une extension du critère d’Akaike (AIC). L’idée du EIC est de corriger le biais de la log-vraisemblance, considérée comme un esti- mateur de l’information de Kullback-Leibler, en utilisant le bootstrap. Nous avons développé ce critère pour l’utiliser dans un cadre d’estimation semi- paramétrique multivariée. En présence de données incomplètes, cas fréquent en analyse de survie, l’estimation de la divergence de Kullback-Leibler de- vient problématique. Nous proposons comme nouveau critère l’espérance de la log-vraisemblance observée. Les critères pratiques développés permettent enparticulierdesélectionnerleparamètredelissagedansl’estimationlissede la fonction de risque. Nous avons ensuite utilisé ce critère pour choisir entre des modélisations différentes de la fonction de risque : modèle à risque pro- portionnel ou modèle stratifié. L’intérêt s’est ensuite porté sur le choix d’es- timateurs semi-paramétriques dans des modèles multi-états. Nous proposons un critère permettant de choisir entre modèles markovien et non-markovien. Nous nous intéressons plus particulièrement a quantifier les différences de risques obtenues par les estimateurs en compétition. Enfin, nous proposons un critère de sélection afin de choisir entre des estimateurs définis sur des observations différentes. Le critère proposé sera défini sur les observations communes aux estimateurs. Deux exemples sont exposés : choix entre mo- dèle linéaire et modèle Probit ou Logit; choix entre modèle Multi-états et modèle de survie. Le chapitre 3 est consacré à la réduction de dimension et à la régression semi-paramétrique. Cette approche permet d’éviter le fameux “fléau de la dimension” bien connu en estimation non-paramétrique et rencontré dès que la dimension de la variable explicative x devient grande. Le modèle étudié 1Ishiguro, Sakamoto and Kitagawa , 1997, Bootstrapping log-likelihood and EIC, an extension of AIC, Ann. Inst. Statist. Math., vol. 49, 411-434. 7