Cet ouvrage et des milliers d'autres font partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour les lire en ligne
En savoir plus

Partagez cette publication

REVENUS
Estimation des inégalités dans l’enquête
Patrimoine 2004
Éric Gautier* et Cédric Houdré**
Dans les enquêtes sur le patrimoine, les questions sur les montants, celles où le ménage
doit par exemple donner un montant détenu sur tel ou tel produit fi nancier ou immobi-
lier, proposent souvent de fournir un intervalle plutôt qu’un montant précis. Cette stra-
tégie permet de réduire le taux de non-réponse. En contrepartie, les montants déclarés
ne sont plus des valeurs ponctuelles permettant de calculer directement des indicateurs
d’inégalités.
Cet article décrit une procédure générale permettant l’estimation ponctuelle d’indices
d’inégalité et l’obtention d’intervalles de confi ance. Cette méthode est adaptée à une
collecte par sondage et à des données en intervalles. Elle repose sur une modélisation
des indices d’inégalité à deux ou trois « étages », qui constituent, par emboîtement, un
modèle « hiérarchique ». Le premier étage décrit le sondage, les deux autres le processus
de génération des données de patrimoine total. La modélisation de ce processus utilise,
outre les observations de variables socio-démographiques disponibles dans l’enquête,
différents ensembles d’information : les intervalles déclarés par les ménages pour les
encours de patrimoine et des informations auxiliaires telles que l’imposition à l’Impôt
de Solidarité sur la Fortune (ISF). La procédure permet d’obtenir des intervalles de
confi ance tenant compte de l’aléa de sondage et de l’incertitude sur les montants qui sont
observés de manière imprécise. L’article discute plus particulièrement la modélisation
de la variable de patrimoine brut total et deux modèles sont considérés : un modèle décri-
vant directement la variable de patrimoine brut total qui est recueillie dans l’enquête,
ainsi qu’un modèle à équations simultanées décrivant simultanément plusieurs compo-
santes agrégées du patrimoine brut total.
En utilisant l’ensemble d’information le plus complet, le patrimoine brut moyen se situe-
rait début 2004 autour de 205 000 euros et l’indice d’inégalité de Gini vaudrait environ
0,65, ce qui constitue un niveau d’inégalité comparable à celui estimé par le passé sur les
enquêtes Patrimoine. Toutefois, l’ajout d’information sur l’imposition à l’ISF permet de
réduire signifi cativement la largeur des intervalles de confi ance.
* ENSAE - CREST, Timbre J120, 3 avenue Pierre Larousse, 92240 Malakoff, gautier@ensae.fr. Éric Gautier travaillait à l’Unité Méthodes
Statistiques de l’INSEE lorsque ce travail a été initié.
** Cédric Houdré appartenait à la Division Revenus et Patrimoine des Ménages de l’INSEE au moment de la rédaction de cet article,
cedric.houdre@dgtpe.fr
Les auteurs remercient leurs collègues à la Direction des Statistiques Démographiques et Sociales de l’INSEE et au CREST et les
membres du groupe de travail Patrimoine pour des discussions enrichissantes, parmi lesquels : Luc Arrondel, Céline Bessière, Pascal
Chevalier, Marie Cordier, Sibylle Gollac, Christian Robert, Muriel Roger, Catherine Rougerie, Alain Trognon et Daniel Verger. Nous remer-
cions également les participants des séminaires de la Direction des Statistiques Démographiques et Sociales, de recherche en écono-
métrie de Yale et de la European Conference on Quality in Survey Statistics de 2006 où une partie de ces résultats a été présentée. Les
remarques de deux rapporteurs anonymes ont permis d’améliorer substantiellement la présentation de l’article.
ÉCONOMIE ET STATISTIQUE N° 417-418, 2008 135’analyse microéconomique des inégalités location), ainsi que le patrimoine professionnel, Lde patrimoine s’appuie généralement sur exploité ou non par le ménage. Deux questions
des indicateurs synthétiques nécessitant l’uti- servent enfi n à collecter une information réca-
lisation de valeurs exactes pour les montants pitulative sur la somme des composantes du
de patrimoine ou les encours d’actifs patrimo- patrimoine fi nancier et sur le patrimoine total.
niaux. En France, les données sur le patrimoine Cependant, ces enquêtes font face, en France
ne sont pas très nombreuses. Il existe princi- comme à l’étranger, à une diffi culté majeure
palement des données d’origine fi scale, issues dans l’observation des encours : la non-réponse.
des déclarations à l’Impôt de Solidarité sur la Juster et Smith (1997) rapportent que dans les
Fortune (ISF) ou des enregistrements de suc- enquêtes américaines Health and Retirement
cessions, et des données d’enquêtes auprès des Study (HRS) et Aging and HEAlth Dynamics
ménages, réalisées par l’Insee. (AHEAD), les taux de non-réponse aux ques-
tions de montants peuvent atteindre 20 à 40 %.
Les données sur les successions ont l’avantage D’autre part, même lorsque le ménage fournit
d’être quasi exhaustives, mais les petites suc- pour un montant une valeur ponctuelle, celui-ci
cessions ne font pas l’objet d’une obligation de est souvent déclaré avec une marge d’erreur non
déclaration (1), ce qui peut conduire à sous-esti- négligeable. Pour contourner cet obstacle, il est
mer les inégalités, et ces données concernent possible de proposer au ménage de donner une
une population très spécifi que : les défunts. Il est réponse en intervalle. Cette stratégie a l’avantage
donc nécessaire, pour obtenir des indices d’iné- de conserver une part de l’information mais, en
galité pour la population totale, d’extrapoler le contrepartie, il n’est plus possible d’utiliser les
patrimoine au décès au patrimoine de la popula- procédures statistiques standards qui requièrent
tion en vie. Ceci repose sur l’utilisation de tables l’observation ponctuelle des montants pour tout
1 2de mortalité et d’hypothèses sur la relation entre l’échantillon.
mortalité et niveau de richesse (2).
La mesure des encours dans Les données sur le patrimoine assujetti à l’ISF
ont également leurs limites. D’une part, entre 2 l’enquête : valeurs ponctuelles,
et 3 % des foyers fi scaux seulement sont redeva- intervalles et non-réponse
bles de cet impôt, le seuil d’imposition s’élevant
à 770 000 euros en 2008. Par ailleurs, l’assiette
our favoriser la restitution d’information
d’imposition exclut pour une large part les actifs Psur les encours, même partielle, l’enquête
professionnels et les objets d’art. Ces données
Patrimoine retient deux stratégies suivant les
ne peuvent donc pas être utilisées en tant que
actifs patrimoniaux considérés. Pour la rési-
telles pour mesurer les inégalités de patrimoine
dence principale, le ménage est d’abord inter-
sur l’ensemble de la population. Elles ne peu-
rogé sur le montant exact de sa résidence. S’il
vent servir que de complément à des sources
répond une valeur, nous appelons par la suite
plus complètes à la fois en termes de compo-
ce type de réponse une valeur ponctuelle, sinon,
santes de patrimoine recensées et de population
il est invité à donner des bornes inférieures et
observée.
supérieures, qu’il choisit lui-même (des « four-
chettes »), encadrant la valeur de son bien.
Les enquêtes Patrimoine de l’Insee constituent Même pour ce type de bien, tangible et dont
une source naturelle pour la mesure des inégali- les ménages ont une connaissance pratique de
tés. Réalisées auprès d’environ 10 000 ménages la valeur d’usage, la fréquence des réponses
tous les six ans, elles portent sur l’ensemble de autres qu’une valeur ponctuelle est très élevée
la population métropolitaine et collectent une (tableau 1). Malgré ce procédé de collecte, envi-
information très détaillée sur l’ensemble des ron 8 % des ménages répondant à l’enquête et
éléments de patrimoine des ménages. Pour le possédant une résidence principale, ne décla-
seul patrimoine fi nancier, plus de 30 types de rent aucune valeur ponctuelle ou en intervalle.
produits différents sont recensés : des livrets Il s’agit du cas usuel de non-réponse partielle.
d’épargne règlementée aux valeurs mobiliè- Pour les actifs fi nanciers en revanche, le ménage
res en passant par les livrets soumis à l’impôt choisit des intervalles prédéfi nis parmi une
(livrets B, livrets Orange), les produits d’assu- grille proposée par l’enquêteur. C’est cette fois-
rance-vie et d’épargne-retraite, ceux d’épargne-
logement, ou encore d’épargne salariale. Le
1. Le seuil d’obligation de déclaration était par exemple de questionnaire recense également le patrimoine
50 000 euros en 2008 pour les successions en ligne directe ou immobilier de jouissance (résidence principale
entre conjoint et de 3 000 euros pour les autres.
et secondaire) et de rapport (logements mis en 2. Voir par exemple Piketty, Postel-Vinay et Rosenthal (2006).
136 ÉCONOMIE ET STATISTIQUE N° 417-418, 2008ci dans un système d’intervalles prédéfi nis (des détaillées de patrimoine. Notons enfi n que la
« tranches ») que les ménages doivent situer le détention des différentes composantes de patri-
total de leurs actifs fi nanciers, et le total de leur moine est ici supposée parfaitement observée.
patrimoine, y compris les biens durables, objets
d’art et de valeurs à travers deux questions réca- Pour illustrer l’apport d’information lié à la des-
pitulatives. Pour les actifs professionnels, la cription dans le détail du patrimoine des ména-
question recueille d’emblée un intervalle dont ges, le plus simple est de s’intéresser aux ména-
les bornes sont choisies par le répondant. ges dont le patrimoine brut total est supérieur à
450 000 euros, soit 1 059 ménages sur les 9 692
Le procédé permet de substituer une partie des ménages de l’enquête Patrimoine 2004. Compte
données qui seraient manquantes par des don- tenu des grandes disparités de patrimoine, ce seuil
nées en intervalles. Les intervalles peuvent est relativement bas. En utilisant les intervalles
être de nature légèrement différente : majorés, déclarés pour les composantes de patrimoines,
minorés par une valeur strictement positive et il est possible de réduire le niveau d’incertitude
non majorés. On pourrait aussi considérer que sur le montant de patrimoine total. Par exemple,
les valeurs ponctuelles et la non-réponse par- la somme des bornes inférieures des différentes
tielle correspondent à des intervalles particu- composantes peut dépasser 450 000 euros dans
liers. En pratique, les différents actifs sont plus certains cas. Par ailleurs, il est possible, en utili-
ou moins affectés par l’incertitude provenant de sant une décomposition adéquate du patrimoine
l’observation d’intervalles (tableau 1). Pour les total, de calculer des majorants et minorants du
contrats d’assurance-vie par exemple, la der- patrimoine assujetti à l’ISF (voir les formules ci-
nière tranche proposée au répondant avait une dessous), et, par appariement avec des sources
borne inférieure à 230 000 euros, mais si plus fi scales, d’utiliser l’imposition du ménage pour
de 95 % des réponses données sont des inter- préciser l’intervalle dans lequel se trouvent les
valles usuels (tableau 1), seulement 0,1 % des composantes de son patrimoine total (en mani-
contrats recensés sont situés dans cette dernière pulant les formules (1) et (2) et les bornes des
tranche. De même, le seuil de la dernière tran- différents intervalles) puis son patrimoine total.
che à 450 000 euros est moins préoccupant pour L’assiette d’imposition de l’ISF est moins large
le patrimoine fi nancier (puisque moins de 1 % que le patrimoine recensé dans l’enquête : le
des ménages déclarent disposer d’un patrimoine patrimoine professionnel n’est pas entièrement
fi nancier supérieur à ce montant) que pour le pris en compte (par exemple si l’on ne possède
patrimoine total (puisque c’est alors plus de 7 % qu’une part trop faible d’une entreprise, il n’est
des ménages qui se placent dans cette tranche pas possible de déduire ce montant du calcul du
supérieure). Par conséquent, si l’estimation des patrimoine imposable), la résidence principale
indices d’inégalité ne devait reposer que sur le bénéfi cie d’un abattement de 20 %, les objets
montant récapitulatif de patrimoine total, l’in- d’art ne sont pas non plus imposés. Pour pouvoir
certitude sur les montants liée à l’observation utiliser l’imposition à l’ISF, ce que nous propo-
d’intervalles serait vraisemblablement plus serons dans une des estimations, la décompo-
forte qu’avec une estimation qui utilise aussi les sition du patrimoine total doit au moins distin-
montants déclarés pour des composantes plus guer les composantes suivantes : le patrimoine
Tableau 1
Formulation des questions et comportements de réponse
En %
Résidence principale Assurance-vie Patrimoine fi nancier Patrimoine total
Part de ménages détenteurs 55,7 29,7 100,0 100,0
Valeur des actifs patrimoniaux
Ponctuelle 12,3 0,4 - -
Non-réponse 8,3 6,6 4,9 4,8
Intervalle 79,4 95,1 95,1 94,2
Dont
Borne inférieure nulle 0,5 24,9 24,5 7,1
Borne supérieure manquante 2,8 0,1 0,7 7,5
Lecture : 55,7 % des ménages sont propriétaires de leur résidence principale, et 12,3 % des valeurs de résidences principales déclarées
dans l’enquête par les propriétaires sont des valeurs ponctuelles.
Champ : ensemble des ménages de France métropolitaine.
Source : enquête Patrimoine 2004, Insee.
ÉCONOMIE ET STATISTIQUE N° 417-418, 2008 137fi nancier (FIN), la résidence principale (RP), moine professionnel non déductible construite
les autres logements (ALG), le patrimoine pro- à partir des informations détaillées.
fessionnel exploité à titre professionnel ou non
(PROF), le patrimoine professionnel non impo- Les intervalles renseignés pour des composan-
sable (NDED), les autres éléments de patri- tes permettent bien de défi nir une borne infé-
moine comme les biens meubles ou les objets rieure au-dessus de 450 000 euros pour près de
de valeur (RESTE) et les éléments de passif la moitié des ménages initialement situés dans
(PASSIF). Avec une telle décomposition, deux cette dernière tranche (tableau 2). L’imposition
situations sont possibles : à l’ISF apporte effectivement de l’information
puisque la somme des minorants des compo-
Lorsqu’un ménage est imposé à l’ISF, son santes dépasse alors 450 000 euros pour plus de
patrimoine imposable est supérieur, en 2003, 52 % des ménages de l’échantillon contre 40 %
à 720 000 euros. Le majorant suivant du patri- sinon. Plus généralement, utiliser l’informa-
moine imposable tion sur l’imposition à l’ISF et les minorants et
majorants des composantes permet de déplacer FIN + 0.8 * RP + ALG + MIN(PROF ,NDED ) k k k k max,k
vers le haut les minorants du patrimoine total.+ RESTE – PASSIF (1)k k
Il n’est pas possible de déduire de la non-impo-
doit donc être supérieur à 720 000 euros. La sition à l’ISF, par analogie, une borne supé-
variable NDED correspond à une borne rieure du patrimoine total, puisqu’une partie du max,k
supérieure de la valeur maximale de l’ensem- patrimoine professionnel et les biens durables
ble du patrimoine professionnel non déductible et objets d’art sont exclus du patrimoine impo-
construite à partir des informations détaillées. sable. Toutefois, cette information est utilisée
Nous supposons que le passif est constamment dans une des estimations et permet de détermi-
déduit. ner des bornes supérieures pour les composan-
tes qui constituent ce patrimoine imposable et
Lorsqu’un ménage n’est pas imposé à l’ISF, qui apparaissent dans la formule (2) ci-dessus.
son patrimoine imposable est inférieur à
720 000 euros. Le minorant suivant du patri- Les patrimoines élevés étant assez rares puisque
moine imposable la distribution du patrimoine est très concentrée,
le plan de sondage de l’enquête surreprésente
FIN + 0.8 * RP + ALG + NDED – PASSIF
k k k min,k k certaines catégories plus aisées que d’autres (ce
(2)
qui améliorerait la précision des estimations si
doit donc être inférieur à 720 000 euros. les montants étaient effectivement des valeurs
NDED est une borne inférieure du patri- ponctuelles). Néanmoins, il est relativement
min,k
Tableau 2
Distribution de la borne inférieure du patrimoine brut total pour les ménages se situant dans la
tranche supérieure (égale ou supérieure à 450 000 euros) de la question récapitulative
En %
Borne inférieure Information mobilisée
du patrimoine brut total
Variable Somme des bornes inférieures Somme des bornes inférieures
récapitulative seule des composantes sans prise des composantes avec prise
en compte de l’ISF en compte de l’ISF
Moins de 450 000 euros 0 59,9 47,4
Plus de 450 000 euros 100 40,1 52,6
Dont
Entr e 450 et 500 000 euros - 9,3 10,6
Entre 500 et 750 000 euros - 21,4 25,7
Entre 750 et 1 000 000 euros - 5,8 8,8
Entr e 1 000 et 3 000 000 euros - 3,4 6,7
Entre 3 000 et 10 000 000 euros - 0,2 0,7
Plus de 10 000 000 eur os - 0,0 0,1
Lecture : 25,7 % des ménages situant leur patrimoine brut total au-delà de 450 000 euros à la question récapitulative disposent en fait
d’un patrimoine dont on peut situer une borne inférieure entre 500 et 750 000 euros en s’appuyant sur les intervalles qu’ils ont déclarés
pour les différents actifs de patrimoine et sur leur imposition à l’ISF.
Champ : ménages interrogés dans l’enquête Patrimoine 2004.
Source : enquête Patrimoine 2004, Insee, calculs des auteurs.
138 ÉCONOMIE ET STATISTIQUE N° 417-418, 2008paradoxal d’utiliser un tel plan de sondage à valeur du patrimoine). De cette façon, l’estima-
probabilités inégales et de conjointement pro- tion peut intégrer dans la largeur des intervalles
céder à une collecte par intervalles avec une de confi ance de l’indice de Gini l’incertitude
question récapitulative dont le plancher de sur la valeur des patrimoines. Chaque valeur
450 000 euros de la dernière tranche est relati- aléatoire dans l’intervalle déclaré par le ménage
vement faible. Au vu de la seule variable réca- est, en quelque sorte, un scenario possible pour
pitulative du patrimoine brut total, un ménage la vraie valeur mesurée de façon imprécise.
milliardaire est parfaitement substituable à un Choisir tel ou tel processus de génération des
ménage au patrimoine de 451 000 euros. Nous données revient à choisir un modèle pour les
scenarios de valeurs ponctuelles de patrimoi-verrons dans la partie suivante comment nous
nes. Ce choix est critique et délicat. De manière parvenons à estimer, grâce à une approche basée
générale, si un modèle possible appartient à une sur la simulation, les résumés de la distribution
famille de modèles indexée par un paramètre de patrimoine malgré des données en interval-
θ, l’observation des intervalles déclarés peut les. Mais, pour autant, il semble très diffi cile de
permettre de choisir le « meilleur » paramètre pouvoir dire si un tel plan réduit la couverture
(ou le « meilleur » modèle) au sens d’un critère des intervalles de confi ance. On conçoit égale-
statistique à défi nir. Dans la suite de l’article, ment que pour vraiment exploiter les propriétés
les résultats d’estimation obtenus à partir de du plan de sondage il faille mobiliser le plus
deux familles de modèles seront comparés et d’information possible sur le patrimoine total et
discutés.ne pas se contenter de la variable synthétique de
patrimoine total.
Un modèle (PGD) est constitué d’une forme
fonctionnelle reliant la valeur du patrimoine pt à
Estimation d’indices d’inégalité de celles d’autres variables X observées dans l’en-
patrimoine des ménages à partir de quête, à un vecteur de paramètre θ et à un terme
d’erreur aléatoire u :données d’enquête et en présence de
non-réponse et de réponses en intervalles 3pt = f(X,θ,u)
Résumons à ce stade les données du problème.
Ainsi, du fait de l’observation de patrimoines L’objectif du travail est de produire des esti-
en intervalles, les grandeurs Ĝ et sont mations, ponctuelles ou en intervalles, de cer-
tains « résumés » de la distribution du patri- doublement aléatoires : d’une part parce que
moine des ménages, par exemple la moyenne, l’échantillon de répondants est un ensemble
la médiane, certains quantiles, des rapports aléatoire de la population totale (encadré 1) ;
inter-quantiles, ou encore des indices d’inéga- d’autre part parce que les valeurs des patrimoi-
lité plus complexes comme l’indice de Gini ou nes sont désormais supposées aléatoi-
l’indice de Theil. La démarche générale d’esti- res. Nous utilisons donc par la suite le modèle
mation est illustrée sur l’indice de Gini (3). Si hiérarchique, c’est à dire l’emboîtement de
tous les patrimoines dans l’échantillon étaient modèles, suivant :
des valeurs ponctuelles, on saurait donner un
estimateur Ĝ de l’indice de Gini et un inter-
(3)
valle de confi ance à 95 % tenant compte de
l’aléa de sondage (voir encadré 1).
pt = f(X,θ,u) (4)
Cependant, le patrimoine est observé sous forme
En statistique « fréquentiste », les valeurs de d’intervalles : il est impossible de calculer direc-
patrimoine (ici partiellement observées) sont tement l’estimateur Ĝ et une approximation de
issues d’un unique modèle, le modèle (4) pour sa variance asymptotique, puisqu’ils nécessitent
une unique valeur de paramètre θ = θ . Les tous les deux l’observation de valeurs ponctuel- 0
observations, ici des intervalles et des covaria-les du patrimoine des ménages répondants. La
bles, permettent en général, lorsque la taille de démarche d’estimation proposée dans cet article
l’échantillon tend vers l’infi ni, de trouver θ . Par repose sur une modélisation du niveau de patri- 0
moine des ménages à travers la description du
processus de génération des données (PGD). La
3. L’indice de Gini est un nombre compris entre 0 et 1 qui cor-valeur exacte du patrimoine de chaque ménage
respond à 2 fois l’aire entre la première bissectrice et la courbe
de Lorentz. Cette dernière représente la proportion du total du de l’ensemble de répondants r est considérée
patrimoine des Français possédée par chaque pourcentage des comme un nombre au hasard (qui sera en fait
ménages, ordonnés du plus pauvre au plus riche. La première
compris dans l’intervalle qui est observé pour la bissectrice correspond au cas d’égalité complète.
ÉCONOMIE ET STATISTIQUE N° 417-418, 2008 139contre, comme en pratique l’échantillon est de Une des étapes de l’estimation consiste à
taille fi nie, le paramètre est connu avec erreur simuler des valeurs ponctuelles du patrimoine
4et on ne dispose que d’un estimateur de θ . (encadré 2). Les valeurs fi ctives sont 0
En statistique bayésienne, on considère le para- « fabriquées » selon les hypothèses de modélisa-
mètre θ comme une variable inobservable. De tion et satisfont les contraintes propres à chaque
même que nous avons ajouté le modèle (4) au ménage (les intervalles, les valeurs observées
modèle (3), il convient de spécifi er une distribu-
tion au hasard, dite « a priori » (cf. annexe 1),
pour la variable inobservable θ. Nous introdui-
4. L’estimation des résumés de la distribution des patrimoines
sons dans ce cas un « troisième étage » à notre des ménages repose sur des simulations (cf. plus loin) obte-
nues par échantillonnage de Gibbs (cf., par exemple, Arnold modèle hiérarchique (3)+(4) :
(1993), Robert (1995)). Adopter le point de vue bayésien permet
de recourir exclusivement à de la simulation et ce suivant une θ est une variable aléatoire de loi π( θ) (5) suite d’étapes élémentaires. L’estimation de modèles à variables
cachées (le patrimoine ou ses composantes) par maximum de
vraisemblance (cf. par exemple Schafer (2001) et Train (2003)) Le modèle (5) sera utilisé plus loin lorsque le
est d’autant plus complexe que la dimension du modèle (nombre modèle (4) est multivarié et ce pour des raisons
de composantes de patrimoine modélisées conjointement) aug-
pratiques (4). mente mais aussi que le domaine d’intégration est complexe.
Encadré 1
L’ALÉA DE SONDAGE
Étant donnée la distribution des patrimoines
totaux de l’ensemble des ménages français numé-
rotés de 1 à N (taille de la population des ménages L’estimateur de la variance asymptotique de Ĝ
français), l’indice de Gini peut se calculer à l’aide de la peut être obtenu de différentes façons. La méthode
formule suivante : généralement utilisée à l’Insee repose sur la linéari-
sation puis la décomposition de la variance (Deville,
1999). Le calage sur marge permet d’utiliser des infor-
mations auxiliaires sur des totaux connus de certaines
variables pour améliorer la précision des estimateurs ièmeoù r(k) est le rang du patrimoine possédé par le k
(Deville et Särndal, 1992).ménage. Après tirage de l’enquête nous ne disposons
pas de tous les ménages mais d’un sous-ensemble In fine, la procédure d’estimation d’intervalle de
. L’ensemble s est tiré au hasard en res- confi ance de l’indice de Gini est la suivante :
pectant un plan de sondage préalablement spécifi é.
- Linéariser les estimateurs ;Chaque ménage de l’ensemble {1,…,N} est affecté
d’une probabilité d’être sélectionné. À chaque ménage - Récupérer les résidus d’une régression des linéari-
de l’échantillon s est alors associé un poids de son- sés sur les variables dont les totaux sont connus et qui
dage w égal à l’inverse de la probabilité de sélection. sont utilisés pour le calage sur marge ;k
Un estimateur de G est donné par :
- Calculer la variance d’un estimateur de total où les
variables sont les résidus, par décomposition en élé-
ments plus simples, permettant de tenir compte du
plan de sondage.
où = w1 . Cet estimateur Ĝ est une Des formules pour linéariser les estimateurs des gran-j { }
deurs étudiées ici sont données dans Dell et al. (2002). grandeur aléatoire du fait que s est tiré au hasard dans
Dans le cadre de l’enquête Patrimoine, le plan de son-{1,…,N} : si l’enquête était réalisée une seconde fois,
dage est un plan de sondage en trois phases, stratifi é d’autres ménages appartenant à un sous-échantillon
et à probabilités inégales. Le fait que certains ménages sʹ de {1,…,N} seraient interrogés et une autre valeur
n’aient pas répondu à l’enquête (non-réponse totale) de Ĝ serait obtenue. On fournit alors un intervalle de
conduit en fait l’échantillon de répondants r à être un confi ance approché pour G en faisant une approxima-
ensemble aléatoire inclus dans le sous-échantillon ini-
tion normale Ĝ ≈ G + où est une approxi-
tial s. Pour tenir compte de la non-réponse totale, les
mation de la variance asymptotique de Ĝ et ε est une poids de sondage sont modifi és en supposant la non-
variable aléatoire normale centrée réduite. Shao (1994)
réponse uniforme par groupes. Nous remplaçons dans
propose une justifi cation théorique à cette approxima-
la défi nition de Ĝ, s par r et les poids w par les nou-ktion normale. Ce qui par inversion donne :
veaux poids corrigés . La non-réponse totale est
interprétée comme une phase supplémentaire. Plus de
G ≈ Ĝ + . détails sur le plan de sondage et le traitement de la
non-réponse totale sont disponibles sur le site inter-
À partir de cette approximation, un intervalle de net de l’Insee http://www.insee.fr/fr/themes/detail.
confi ance à 95 % pour G est donné par asp?ref_id=fd-patri04.
140 ÉCONOMIE ET STATISTIQUE N° 417-418, 2008pour d’autres variables de l’enquête, etc.). Cette In fine, ce sont bien les estimations des « résu-
5phase correspond à une imputation (5). Dans més » de la distribution des patrimoines des
le problème d’estimation d’indices d’inéga- ménages, et plus particulièrement les interval-
lité abordé dans l’article, il ne s’agit que d’une les de confi ance, que nous cherchons à obtenir.
phase intermédiaire. Les imputations ne sont
pas intéressantes en elles-mêmes et sont tirées
5. On remplace les données manquantes ou en intervalles par
d’un PGD adapté au problème et aux données. des valeurs artifi cielles.
Encadré 2
ESTIMATION, UNE APPROCHE PAR MÉTHODE DE MONTE-CARLO
Choix optimal des estimateurs - modèle (4) sachant les observables, puis modèle (3)
si le paramètre est connu, c’est-à-dire si on fait l’ap-
Une fois un modèle de type (3)+(4) ou (3)+(4)+(5) défi ni, proximation que l’estimateur du paramètre est le vrai
l’estimateur ponctuel de l’indice de Gini est obtenu en paramètre ;
minimisant le risque a posteriori suivant :
- ou modèle (5) sachant les observables, puis modèle
(4) sachant les observables, puis étage (1).
2 Les simulations peuvent être obtenues dans des où ρ(G*,G) = (G* – G) est la fonction de perte (plus
lois indépendantes ou non. Si les tirages sont indé-l’estimateur s’éloigne de la vraie valeur, plus la perte
2 pendants, la moyenne empirique approche bien la est importante). L’espérance E[(G* – G) |observables]
moyenne théorique par la loi des grands nombres. est alors la perte moyenne sachant les observables,
Néanmoins, produire des simulations exactement qu’on appelle le risque a posteriori. Ici, les observables
dans les lois souhaitées et indépendantes entre elles sont les observations des variables X qui apparais-
k
est parfois diffi cile, par exemple si l’on souhaite simu-sent dans le processus de génération des données,
ler conjointement plusieurs composantes de patri-ainsi que des informations comme des intervalles pour
moine, ce qui sera fait dans la suite. Une alternative le patrimoine total, pour des composantes, l’imposi-
consiste alors à simuler une trajectoire de chaine tion ou non à l’ISF. Naturellement, il est possible de
de Markov bien choisie, il s’agit des méthodes de choisir des fonctions de perte très différentes, mais le
Monte-Carlo par Chaînes de Markov (MCMC) (cf., par choix fait ici est très courant et revêt un aspect très
exemple, Robert et Casella, 2004). Dans le cas d’une pratique puisque l’estimateur qui minimise le risque a
méthode de Monte-Carlo avec tirages indépendants, posteriori est alors :
ipar exemple, les valeurs simulées G s’obtiennent à
Ĝ = E[G|observables] (6) partir de tirages aléatoires de patrimoines des répon-
dants dans la loi du processus de généra-Pour une estimation de l’indice de Gini sous forme d’in-
èmetion des données (2 étage du modèle), sachant les tervalle de confi ance de niveau α (en pratique α = 95 %
observables (X ,…,X ), les intervalles sur le patrimoine ou α=90 %), l’intervalle est tel que la proba- 1 r
total et éventuellement ses composantes et l’imposi-bilité que l’intervalle contienne l’indice soit égale à α :
tion à l’ISF, et sachant θ conditionnellement aux obser-
ivables (modèle (5)) et des tirages aléatoires ε du terme P(G ∈ Î observables) =
α
d’erreur (modèle (3)).
Par simplicité, les bornes de cet intervalle ont été cal-
Les moyennes théoriques dans (6) et (7) étant appro-culées de manière à ce que :
chées par leur contrepartie empirique, l’estimateur de
G est donné par :
et
,
(7)

les bornes et de l’intervalle de confi ance
Approche par méthode de Monte-Carlo correspondent quant à elles aux quantiles empiri-
ques à α/2 et (1- α)/2 des valeurs simulées, pour les Les deux problèmes (6) et (7) requièrent le calcul de
simulations B à T. T peut être choisi arbitrairement moyennes théoriques (l’espérance E [ ] et les proba-
grand, plus T est grand meilleur est l’approximation bilités P( )). Une méthode de Monte-Carlo consiste à
des moyennes théoriques. La valeur B est appelée approcher la moyenne théorique par sa contrepartie
empirique sur des scenarios tirés au hasard. On rem- burn-in dans la littérature MCMC. B est nul dans le
place donc les moyennes théoriques par des moyen- cas de tirages indépendants. Lorsque l’on utilise une
méthode MCMC, on prend souvent B suffi samment nes d’un nombre fi ni de valeurs simulées de la gran-
deur d’intérêt G. Les simulations de G sont obtenues grand afi n de commencer le calcul de la moyenne
en utilisant successivement les différents étages du empirique lorsque la chaîne de Markov s’est stabilisée
modèle hiérarchique : proche de l’équilibre.
ÉCONOMIE ET STATISTIQUE N° 417-418, 2008 141Contrairement à l’approche par imputation aléa- en deçà du patrimoine médian et une forme
toire simple mise en œuvre à l’Insee depuis de parétienne au-delà. Même si les sources fi sca-
nombreuses années (cf., par exemple, Lollivier les sur l’impôt sur la fortune ou sur les actifs
et Verger, 1987), nous procédons à des impu- successoraux peuvent fournir des indications
tations multiples (6). Ces imputations multiples intéressantes sur la forme de la queue de distri-
permettent de fournir une estimation optimale bution, elles ne sont pas disponibles et ne corres-
(au sens où elle minimise le risque a posteriori) pondent pas non plus au concept de patrimoine
et d’ obtenir des intervalles de confi ance tenant brut total que nous étudions ici. Il est clair que
compte de l’aléa de sondage, de la non-réponse l’hypothèse de log-normalité a une incidence
totale par la troisième phase, de la réduction de sur les résultats et il est envisageable que l’utili-
variance par calage, et de l’incertitude sur les sation de lois de Pareto pourrait conduire à des
valeurs des patrimoines (intervalles et connais- indices d’inégalité plus élevés. Ceci pourrait
sance imprécise du paramètre). faire l’objet de travaux ultérieurs (7). Le modèle
retenu, noté PGD 1, distingue les propriétaires
de leur résidence principale et les non-proprié-La suite de l’article présente deux modélisations
taires afi n de tenir compte de l’hétérogénéité possibles du processus de génération des données
de ces deux sous-populations, et introduit des PGD 1 et PGD 2, en distinguant pour le modèle
variables explicatives standards dans l’analyse PGD 2 un ensemble d’observables qui inclut l’in-
6 7de l’accumulation patrimoniale (tableau 3). formation sur l’imposition ou non à l’ISF et un
autre qui l’exclut. La loi « a priori » et l’algo-
Travailler sur une unique variable a l’avantage de rithme de simulation dans le cadre du processus
la simplicité. Cependant, en travaillant directe-de génération des données PGD 2 ne sont que
ment sur le patrimoine total, il n’est pas possible brièvement présentés. Gautier (2008) développe
d’utiliser au mieux l’information de l’enquête de manière plus détaillée ces aspects.
et l’information auxiliaire sur l’imposition ou
non des ménages à l’ISF. D’une part, l’enquête
Le choix d’un processus de génération contient des informations très détaillées sur
des données : d’un modèle univarié à un chaque actif patrimonial, par exemple pour les
modèle multivarié contrats d’assurance-vie : l’année de souscription
et les versements annuels, pour la résidence prin-
Le patrimoine des ménages peut être modélisé cipale : la surface, etc. Le PGD sur la variable
de plusieurs façons. Un point de départ naturel récapitulative seule n’intègre pas ces informa-
pour le PGD est de modéliser une unique com- tions dans les variables observables. Seules des
observables relatives au ménage sont utilisées. posante de patrimoine - en fait, directement le
D’autre part, en l’absence de décomposition adé-patrimoine total - sous la forme d’une relation
quate du patrimoine, le modèle ne permet pas linéaire entre le logarithme du patrimoine, des
d’intégrer les intervalles construits en utilisant variables observables (comme la position dans
l’information auxiliaire sur l’ISF. Ceci conduit, le cycle de vie, les niveaux d’étude et de reve-
comme on le verra, à des intervalles de confi ance nus, le fait d’avoir reçu une donation ou un héri-
plus larges pour les indices d’inégalité. Quitte tage ou d’avoir transmis des biens en donation)
à travailler avec des composantes plus fi nes, il et un résidu de loi normale. De tels modèles sont
parait intéressant d’envisager de modéliser direc-depuis longtemps utilisés à l’Insee (Lollivier et
tement chaque composante, conjointement aux Verger, 1987) pour imputer des valeurs ponc-
autres composantes, afi n d’obtenir un modèle tuelles de patrimoine ou de revenu en présence
pour le patrimoine total comme somme de ses de non-réponse ou de réponse en intervalles. Le
composantes.choix d’une forme log-normale est souvent bien
adapté pour décrire la loi du revenu ou du salaire
conditionnelle à des observables. Cependant,
6. Néanmoins, notre méthode n’exige pas.de produire des
le patrimoine en général et certaines de ses imputations bayésiennes propres et ne repose pas sur des for-
mules pour combiner les variances (cf. Little et Rubin, 2002).composantes en particulier, comme les valeurs
7. L’hypothèse de log-normalité pose par ailleurs un autre pro-
mobilières ou les actifs immobiliers de rapport, blème lié à la sélection de notre échantillon. L’échantillon surre-
présente les catégories aisées et la sélection est donc volontai-ont des distributions nettement plus concentrées
rement liée à la variable d’intérêt. Néanmoins, en dehors de la
que celles des revenus ou des salaires. Des lois non-réponse totale que l’on connait mal, le tirage à probabilités
inégales correspond à une sélection exogène car nous dispo-de Pareto pourraient être mieux adaptées pour
sons des variables ayant servi à cette surreprésentation. Nous décrire la distribution du patrimoine (condition- avons donc veillé à inclure parmi les régresseurs ces variables
quand elles étaient signifi catives. Cela est essentiel car si l’hypo-nelle aux observables), au moins pour les ména-
thèse de log-normalité de la loi conditionnelle du patrimoine des ges aisés. D’autres travaux (Avery et al., 1988)
français est crédible, celle des ménages sélectionnés de façon
retiennent par exemple une forme log-normale endogène pourrait ne pas l’être.
142 ÉCONOMIE ET STATISTIQUE N° 417-418, 2008Le processus de génération des données PDG 2 portefeuilles différents (tableau 4) et, pour cha-
comprend cinq composantes de patrimoine : les que portefeuille, un modèle à équations simul-
actifs fi nanciers (FIN), la résidence principale tanées est spécifi é, avec autant d’équations que
(RP), les autres actifs immobiliers (ALG), les de composantes détenues dans le portefeuille
actifs professionnels (PROF) et les autres élé- considéré. Les systèmes portent sur le loga-
ments de patrimoine comme les biens durables, rithme des montants, la moyenne est linéaire
bijoux, objets d’art ou de valeur (RESTE). La en les variables explicatives, le vecteur des
prise en compte des comportements de déten- résidus suit une loi normale de dimension cor-
tion d’actifs est obtenue en spécifi ant autant respondant au nombre de composantes déte-
de modèles que de combinaisons de détention nues et a une matrice de variance-covariance
8possibles de ces cinq composantes. En réa- quelconque. Par souci de parcimonie (8),
lité, seules trois composantes sont suscepti-
bles d’être ou non détenues, tous les ménages
étant supposés détenir des actifs fi nanciers (les
8. Augmenter le nombre de paramètres, à taille d’échantillon
compte-chèques en font partie) et des éléments fi xée, augmente l’incertitude sur la valeur des paramètres. La par-
cimonie correspond à arbitrer entre la fl exibilité du modèle et la de patrimoine tels que des biens durables ou
taille des intervalles de confi ance. Ceci est relié au célèbre arbi-
d’autres objets de valeur. Il existe alors huit trage en statistique entre le biais et la variance.
Tableau 3
Variables explicatives retenues pour le modèle univarié
Variables explicatives \ Groupe Propriétaires Non propriétaires
Position dans le cycle de vie XX
Niveau socio-professionnel
Niveau de diplôme de la personne de référence
Ressources économiques
Niveau de revenus X X
Perception d’aides sociales X X
Perception d’une rente X X
Perception de revenus autres que revenus d’activité ou de remplacement X X
Zone géographique XX
Histoire du patrimoine
Existence d’une donation reçue X X
Existence d’une donation versée X X
Existence d’une aide reçue X X
Existence d’une aide versée X X
Décès des deux parents X X
Source : auteurs.
Tableau 4
Fréquence des portefeuilles dans l’échantillon
Portefeuille Actifs fi nanciers Résidence Autres actifs Actifs pro- Autres éléments Pourcentage de ménages
(FIN) principale immobiliers fessionnels de patrimoine disposant du portefeuille
(RP) (ALG) (PROF) (1) (RESTE) dans l’échantillon (en %)
1 x X 32,8
2 X X X 33,8
3 X X X 3,5
4 x X X 2,8
5 X X X X 10,2
6 X X X X 8,6
7 X X X X 1,5
8 XXXX X 6,8
1. Autres éléments de patrimoine comme les biens durables, bijoux, objets d’art ou de valeur.
Lecture : parmi les ménages constituant l’échantillon de l’enquête, 32,8 % possèdent un patrimoine composé uniquement d’épargne
financière et de biens durables ou objets de valeurs.
Champ : ménages interrogés dans l’enquête Patrimoine 2004.
Source : enquête Patrimoine 2004, Insee.
ÉCONOMIE ET STATISTIQUE N° 417-418, 2008 143nous faisons l’hypothèse que les coeffi cients ce sont des composantes agrégées. Les varia-
apparaissant dans les moyennes sont constants bles explicatives retenues (tableau 5) compren-
quel que soit le portefeuille. Par contre, nous nent des critères de position dans le cycle de vie
introduisons des indicatrices du type de por- (âge, composition familiale et interactions entre
tefeuille. Ainsi, pour chaque portefeuille, les ces variables), des variables sur les ressources
constantes des logarithmes des composantes culturelles et économiques du ménage (niveau
sont différentes, tout comme les matrices de d’études, niveau de revenu d’activité, percep-
variance-covariance. Néanmoins, les autres tion de revenu complémentaire comme des aides
coeffi cients restent égaux d’un portefeuille à sociales, ou des revenus de remplacement),
l’autre (cf. encadré 3 pour une version simpli- une variable de localisation et enfi n quelques
fi ée avec uniquement deux composantes). informations sur la trajectoire du patrimoine du
ménage (existence de donation reçue ou versée,
De nombreuses variables observées dans l’en- évolution récente du patrimoine, composition
quête sont introduites pour expliquer les diffé- du patrimoine des parents). Toujours par souci
rentes composantes de patrimoine. Pour la rési- de parcimonie, seul les régresseurs qui étaient
dence principale, il a été possible d’introduire signifi catifs ont été inclus dans le modèle.
des caractéristiques propres du bien immobilier
telles que la surface. En revanche, pour les autres La structure de variance-covariance des résidus
composantes, ceci n’était pas possible puisque des composantes détenues (entre 3 et 5) est la
Encadré 3
LE PROCESSUS DE GÉNÉRATIONS DES DONNÉES POUR DEUX COMPOSANTES
Pour simplifi er, l’encadré décrit le modèle retenu pour
le processus de générations des données (PGD) de Les lois des encours conditionnelles à des régres-
patrimoine dans le cas où le patrimoine total est la seurs sont modélisées sous forme log-normale. On
somme de deux composantes uniquement. Le PGD défi nit des variables z = (z ,z ) observées partielle-
k k1 k2
est proche de celui spécifi é dans par Heeringa et al. ment telles que :
(2002).
Soit le vecteur des deux composan-
tes patrimoniales en question pour le ménage k et D =
k
(D ,D ) le vecteur des indicatrices de détention de ces
k1 k2
composantes, qui défi nit les composantes présentes
(D = 1 si ) ou absentes (D = 0 si ) du Le portefeuille de type p = p comprend deux compo-ki ki 1
santes modélisées de la manière suivante :portefeuille du ménage. La détention est supposée
être parfaitement observée, c’est-à-dire que tous les
ménages déclarent détenir ou non chacune des com-
posantes. Il y a donc quatre types de portefeuilles,
qu’on indexe par {p}.
où ’ suit une loi normale de dimension 2,
Soit INF= (INF ,INF ) et SUP= (SUP ,SUP ) les k 1k 2k k 1k 2k
centrée, et de matrice de variance-covariance . bornes inférieures et supérieures observées des loga-
Pour le portefeuille de type p = p nous avons l’équa-rithmes des valeurs des deux composantes. Plusieurs 2
cas se présentent pour la composante j dont :
tion et pour p = p nous 3
l’observation est une avons où et INF = SUP :
jk jk valeur exacte, sont de loi normale centrée, indépendantes entre elles et indépendantes de résidus pour p = p , de variances
1INF = ∞ et SUP = +∞ : valeur complètement jk jk
manquante, et . Le modèle PGD 2 se limite à cinq compo-
l’observation est un inter- santes et permet l’utilisation de l’information sur l’im-INF = ∞ et SUP < +∞:
jk jk valle non minoré, position à l’ISF. Il serait possible de retenir une décom-
position plus fi ne en réduisant le nombre de variables -INF > ∞ et SUP = +∞:
jk jk valle non majoré, explicatives ou, de manière voisine à Heeringa et al.
(2002), en faisant des hypothèses plus fortes sur la -INF > ∞ et SUP < +∞ :
jk jk structure de variance-covariance.valle borné.
144 ÉCONOMIE ET STATISTIQUE N° 417-418, 2008

Un pour Un
Permettre à tous d'accéder à la lecture
Pour chaque accès à la bibliothèque, YouScribe donne un accès à une personne dans le besoin