L'Enquête Budget de Familles en 2006 en Guyane

De
Publié par

ENQUETE « BUDGET DE FAMILLE » 2005-2006 « L’après collecte » : redressements et imputations dans l’enquête Budget de Famille 2006 Vanessa Bellamy Septembre 2008 Sommaire INTRODUCTION ..................................................................................................................................... 4 PREMIÈRE PARTIE : ARCHITECTURE GÉNÉRALE........................................................................... 5 1.1 - Architecture des tables reçues......................................................................................................................... 5 1.2 - Schéma général des traitements........................... 8 1.2.1 Conversion en euros, annualisation et apurement ...................................................................................... 8 1.2.2 Traitement de la non-réponse..................................................................................................................... 8 1.2.3 Constitution d’une table dépense complète................................................................................................ 9 1.2.4 Schéma général des traitements.................... 10 DEUXIÈME PARTIE : PRÉSENTATION DES DIFFÉRENTES TECHNIQUES D’IMPUTATION ....... 11 2.1 - méthodes simples..........................................................................................................................................
Publié le : dimanche 30 décembre 2012
Lecture(s) : 28
Nombre de pages : 40
Voir plus Voir moins
           
 ENQUETE BUDGET DE FAMILLE » 2005-2006  «
 « Laprès collecte » : redressements et imputations dans lenquête Budget de Famille 2006  
                   Vanessa Bellamy Septembre 2008
Sommaire
INTRODUCTION ..................................................................................................................................... 4  
PREMIÈRE PARTIE : ARCHITECTURE GÉNÉRALE........................................................................... 5  1.1 - Architecture des tables reçues......................................................................................................................... 5  1.2 - Schéma général des traitements ...................................................................................................................... 8  1.2.1 Conversion en euros, annualisation et apurement ...................................................................................... 8  1.2.2 Traitement de la non-réponse ..................................................................................................................... 8  1.2.3 Constitution dune table dépense complète ................................................................................................ 9  1.2.4 Schéma général des traitements ............................................................................................................... 10  
DEUXIÈME PARTIE : PRÉSENTATION DES DIFFÉRENTES TECHNIQUES D IMPUTATION ....... 11  2.1 - méthodes simples.......................................................................................................................................... 11  2.1.1 - Méthode par déduction ou logique......................................................................................................... 11  2.1.2 - Imputation par la moyenne ou la médiane ............................................................................................. 11  2.2 - méthodes « économétriques »....................................................................................................................... 12  2.3 - méthodes de type « hot-deck »...................................................................................................................... 12  2.3.1 - Hot-deck aléatoire.................................................................................................................................. 13  2.3.2 - Hot-deck séquentiel ou itératif ? ............................................................................................................ 13  2.3.3 - Hot-deck métrique ou « plus proche voisin » ........................................................................................ 14  2.4 - Utilisation de ces méthodes dans lenquête Budget de Famille .................................................................... 14  
TROISIÈME PARTIE : REDRESSEMENT ET IMPUTATION DES REVENUS ................................... 15  3.1 - Des apurements plus poussés quen 2001..................................................................................................... 16  3.1.3 : Litération .............................................................................................................................................. 18  3.2 - Revenus individualisables : imputation ........................................................................................................ 18  3.2.1 : Les salaires............................................................................................................................................. 18  3.2.2 : Les revenus des indépendants ................................................................................................................ 19  3.2.3 : Les activités secondaires ........................................................................................................................ 20  3.2.4 : Les retraites ............................................................................................................................................ 20  3.2.5 : Lallocation chômage............................................................................................................................. 20  3.2.5 : Les autres allocations individuelles........................................................................................................ 21  3.2.6 : Les revenus de lépargne........................................................................................................................ 21  3.2.7 : Les programmes SAS............................................................................................................................. 21  3.3 - Revenus des ménages ................................................................................................................................... 21  3.4 - Agrégation .................................................................................................................................................... 22  
QUATRIÈME PARTIE : IMPUTATION DES DÉPENSES DANS LES QUESTIONNAIRES ............... 23  4.1 Questionnaire 1 ............................................................................................................................................. 23  -4.2 - Questionnaire 2 ............................................................................................................................................. 23  4.2 - Questionnaire 3 ............................................................................................................................................. 25  
Version du 19/10/2008.
2
EMENT DEE: TRAITEMP RAITCNIUQÈIGAM ,SESTE SNISAETRNCAS ENÉP(DS ..62....C).........2001....s quen ................mpiatutquni desérp esic noisulp..................72............................................5.2 techDes ................aT - 3.613.....ivesinit défbles................................................................................noitarédlac rap ....e.ag........................................................................................................................................................................................................- 2.noP ....603................STRU CONN DECTIOÈIEMSXIIT:EP RA DONTIRAIVITINÉF SESAB SÉDNOP TE.......36.1 - .E..............ue qiostainns.reisuFc noenra- st.3 -337 pro Lesem srgmaartiedt ............................................................................................................un.s................nemon - 2.7veres dee uratcl3............3...........................................................................................S...NEXE :NATREI EAPITMÈ33..EPS........................................................
0     
 5.1- Une méthode de collecte innovante par rapport aux enquêtes Budget antérieures. ....................................... 26  5.1.1 : Lhistorique............................................................................................................................................ 26  5.1.2 : Les améliorations ................................................................................................................................... 26   
................................
      
 7.1 - Bibliographie : redressements et études réalisées à partir des enquêtes budget............................................ 33    
Version du 19/10/2008.
3
40..............................s...nneé sod tedmene................................
 I NTRODUCTION   Lenquête Budget de Famille est réalisée auprès dun échantillon de 20 000 ménages, tous les cinq ans environ (1979, 1984, 1989, 1995, 2000/2001, 2005/2006). Elle vise à reconstituer toute la comptabilité des ménages : dépenses, consommations et ressources. Les données collectées étaient, jusquen 1995, essentiellement monétaires ; depuis lédition 2001, les quantités de produits consommés sont aussi collectées.  Lenquête utilise deux instruments de collecte : un questionnaire sous CAPI, qui enregistre les revenus et les dépenses importantes ou régulières sur les derniers mois, ainsi que des informations socio-démographiques et les caractéristiques du logement ; un carnet auto-administré dans lequel les ménages notent toutes leurs dépenses durant 14 jours.  Ainsi, on a, pour chaque ménage enquêté, la nature des dépenses, leur montant, et le cas échéant la quantité achetée ainsi que le lieu dachat. Les dépenses sont codées dans une nomenclature (compatible avec la nomenclature européenne COICOP) de plus de 900 postes. Dans lenquête Budget de Famille française, toutes les dépenses sont couvertes, y compris celles ne relevant pas de la consommation de biens et services au sens des Comptes nationaux comme les impôts, les taxes, les remboursements de crédits etc. Les magasins des carnets sont codés selon la nomenclature de lEAE commerce interne à lInsee.  Le champ de collecte est celui des ménages résidant en France, métropolitaine et dans les Dom. Chacun des Doms bénéficie de la même enquête sur un échantillon représentatif. On ne traitera ici que de lenquête métropolitaine, sachant que des traitements similaires sont appliqués aux fichiers des Doms. La collecte est effectuée quasiment toute lannée, en 6 vagues de 8 semaines chacune. La première vague a débuté le premier mars 2005 et la dernière sest terminée en mars 2006. Au final, 10 240 ménages ont été interrogés, ce qui correspond à 25 364 individus. Lenquête dans les DOM a porté sur 3 134 ménages et 9 118 individus.  Nous présentons ici le processus de redressement et de traitement des bases de lenquête BdF 2006 pour la France métropolitaine. Après une rapide description générale de larchitecture des bases et du processus général de redressement, nous présenterons les méthodes utilisées pour corriger la non-réponse partielle dans les questionnaires et les carnets, la non-réponse totale étant corrigée par repondération des ménages répondants afin dobtenir les poids finaux.  
Version du 19/10/2008.
4
P REMIÈRE PARTIE : ARCHITECTURE GÉNÉRALE  
 1.1 - Architecture des tables reçues  Les bases reçues peuvent être regroupées en 4 pôles, correspondant aux questionnaires de lenquête :  1. POLE QUESTIONNAIRE 1 et TCM : les variables de la fiche adresse, du tronc commun et du questionnaire 1. 2. POLE QUESTIONNAIRE 2 : les variables du questionnaire 2. 3. POLE QUESTIONNAIRE 3 : les variables du questionnaire 3. 4. POLE CARNET : les variables issues des carnets de compte, plus les variables des questionnaires QCARNET et QQUALITE.   Chacun de ces pôles comporte plusieurs tables SAS qui peuvent être de 3 types selon la clé utilisée pour identifier un enregistrement :  Clé ménage : la clé unique est lidentifiant ménage (unité de vie). On a donc un enregistrement par ménage. Clé individu : la clé unique est la combinaison de lidentifiant ménage (unité de vie) et du numéro dordre de lindividu dans le ménage. On a donc un enregistrement par individu.  Clé dépense : la clé unique est la combinaison de lidentifiant ménage (unité de vie), du numéro dordre de lindividu lorsque la dépense est individualisable, et du numéro dordre de la dépense. On a donc un enregistrement par dépense.  Les tables comportent toutes un identifiant logement (ident_log) et un identifiant ménage (ident_men). En effet, depuis lenquête BdF 2006, plusieurs unités de vie peuvent vivre dans un même logement. Les premières questions du TCM (tronc commun des enquêtes ménages) permettent de déterminer si les personnes dun même logement ont un budget séparé ou non. Si tel est effectivement le cas, ces individus forment un autre « ménage - Unité de vie ».  Les enquêtes Budget précédentes gardent lancienne définition du ménage, avec un lien univoque entre logement et ménage. Aussi, pour comparer 2006 aux éditions antérieures, il importerait en toute rigueur de travailler avec lidentifant logement et non lidentifiant ménage, en sommant les dépenses de 2006.  Cela étant, dans lenquête BdF 2006, 99,5 % des logements abritent un seul « ménage - unité de vie ». En outre, en 2001, lorsque se présentait une situation de budgets séparés au sein dun logement, certains enquêteurs ont, par commodité, considéré quil sagissait de ménages distincts, et donc effectué directement des entretiens séparés. Comparer les « ménages - unités de vie » de 2006 aux « ménages - logement » des éditions antérieures conduit donc certes à un biais, mais très très limité.             
Version du 19/10/2008.
5
QUEST1 Clé ménage
Le pôle questionnaire n°1  Il est constitué de 10 tables SAS (schéma 1) :    SOCIOIND  Clé individu     SOCIODEM  Clé ménage     ENFHORS  Clé individu    TRAVAUX  Clé ménage      Le pôle questionnaire n°2 : 8 tables SAS  Schéma 2       SERVIND  Clé individu    VETEMENTS  Clé individu     SANTE  Clé individu              Version du 19/10/2008.
SERVMEN Clé ménage
QUEST2 Clé ménage
AUTVEHIC Clé dépense AUTOMOBILE Clé dépense AUTLOG Clé dépense GARAGE Clé dépense PRETS Clé dépense
BIENSDUR Clé dépense
DEPVET Clé dépense
SEJOURS Clé dépense
6
VERSEMENT Clé dépense
QUEST3 Clé ménage
CADRECUS clé ménage
CADOFFER Clé ménage _ RESS MEN Clé ménage
PATRIMOINE Clé ménage
Le pôle questionnaire n°3 : 10 tables SAS  Schéma 3    SERFIN  Clé individu     DEPHORS  Clé individu    RESS IND _  Clé individu     EPARGNE  Clé individu         Le pôle carnet : 6 tables SAS  Schéma 4                     Les tables brutes, réceptionnées par la division « Conditions de vie des ménages », après contrôles, concaténation des différentes vagues et « labellisation » sont stockées sous le répertoire N:BDF2005\TABLES\BRUT 1 . Les fichiers traités seront progressivement stockés sur lespace N:BDF2005\TABLES\DEFINITIF.                                                      1 Six tables supplémentaires ont été reçues (qui proviennent plus directement du déchargement des données du Data Model): Version du 19/10/2008. 7
QQUALITE Clé individu
ACTDOM Clé individu
QCARNET Clé individu
CARNET Clé dépense
AUTOCONSO Clé ménage
PRODAUTO Clé dépense
 1.2 - Schéma général des traitements  Remarque préliminaire quant à la cohérence des dépenses entre les unités de vie dun même logement  Lintroduction du nouveau tronc commun dans lenquête BDF 2006 conduit à la possibilité de dépenses partagées entre les différentes unités de vie du logement. De fait, peu de logements (une soixantaine) présentent plusieurs unités de vie. Dans ce cas, la cohérence des dépenses a été contrôlée au cas par cas, de façon à éviter toute omission, comme tout double compte. Dans la grande majorité des cas, les déclarations des répondants sur le partage des dépenses est suffisant. Il subsiste quelques rares questionnaires où les co-habitants ne sont pas daccord sur le partage de telle ou telle dépense. Dans ces cas, le montant de la dépense est laissé tel que, et les règles de partage ne sont pas modifiées.  Dans les fichiers Dom est apparue une situation particulière pour 7 logements : seule une unité de vie du logement répond, et déclare payer 50% du loyer, etc. Ne rien faire conduirait à sous estimer les différentes dépenses. Les multiplier par 2 rétablirait la cohérence macro-économique, mais détruit léquilibre ressources/dépenses des ménages concernés. Il a donc été décidé, en concertation avec lUMS, dimputer une unité de vie complète à ces logements, tirée par hot deck stratifié dans lensemble des logements comportant plus dune unité de vie répondentes. Pour la cohérence densemble des fichiers, ces unités de vie manquantes dans les Dom ont été ajoutées à lensemble des tables lors de leur construction.  1.2.1 Conversion en euros, annualisation et apurement  Contrairement à 2001 où toute la collecte a été effectuée en francs (et la diffusion en euros), le ménage enquêté en 2005/2006 avait le choix des francs ou des euros (hors carnets). Il importe donc, préalablement à tout traitement, de convertir tous les montants relevés dans les questionnaires, ressources et dépenses, en euros.  A ce niveau, on peut alors effectuer un certain nombre dapurements. Par exemple certains montants manifestement trop élevés sont liés à des erreurs dans les fréquences des dépenses ou des revenus (par exemple 12 mois au lieu de 1).  Par rapport à 2001, cest un gros travail qui a été réalisé à partir de plusieurs méthodes/sources : -les fichiers de remarques des enquêteurs qui navaient jamais été utilisés dans les précédentes enquêtes budget, -des méthodes de détection des valeurs abbérentes avec des méthodes de régression robuste, -visuellement...   Au final, à ce stade, on dispose des ressources et des dépenses des ménages annuels en euros avant correction de la non-réponse.  1.2.2 Traitement de la non-réponse  On appelle « non-réponse » le fait que, dans une enquête donnée, certaines variables nont pu être observées pour toutes les unités enquêtées. On distingue la non-réponse « totale », qui affecte les                                                                                                                                                                      -REG_LOG, REG_MEN et REG_IND (tables registre) proviennent de la Base Brute Opérationnelle - BBO ;  -TCM_LOG, TCM_MEN et TCM_IND proviennent de la Base dExploitation. Pour lenquête BdF 2006, les informations contenues dans ces bases sont reprises quasi entièrement dans les bases « SOCIOIND » et « SOCIODEM ».
Version du 19/10/2008.
8
unités pour lesquelles aucune variable nest disponible (il sagit en général dunités refusant dêtre enquêtées ou nayant pu être contactées), et la non-réponse « partielle » qui correspond à une absence dinformation limitée à certaines variables de lunité interrogée.  Habituellement, on pallie la non-réponse partielle en « imputant » les valeurs manquantes. Ce sera lobjet des parties 2 à 5. Les revenus ont tout dabord été redressés (partie 3), car ils constituent le principal déterminant des dépenses, qui sont redressées dans un deuxième temps (partie 4 et 5). Celles-ci se trouvent à la fois dans les questionnaires et les carnets. Parallèlement, un certain nombre de redressements sont effectués dans les carnets sur les codes des magasins, les codes produits, les quantités déclarées et les montants (partie 5).  La non-réponse totale est généralement traitée par repondération. Ce point sera traité dans la sixième partie ; au final, chaque ménage aura un poids à utiliser lors des traitements statistiques.  1.2.3 Constitution dune table dépense complète  Après avoir effectué les redressements nécessaires dans chacun des fichiers concernés, toutes les informations concernant les dépenses sont rassemblées dans un unique fichier, issus à la fois des questionnaires et des carnets. Cette fusion entre carnets et questionnaires implique une gestion particilière des éventuels doubles comptes (par exemple un achat de machine à laver est déclaré à la fois dans le questionnaire et dans le carnet)  Cest lors de cette fusion quun code de la nomenclature COICOP est attribué à chaque dépense des questionnaires, à partir dun fichier Excel préparé à cet effet par lexpert variable. Cette façon de procéder, initiée en 2001, permet plus de souplesse lors des changements de nomenclature, puisque le codage intervient assez tard dans les traitements. Les carnets, eux, sont codés dans la nomenclature COICOP dès le passage de sycore, cest à dire très tôt dans le traitement des fichiers. Où se place sicore dans le schéma ?                             
Version du 19/10/2008.
9
Fichier carnets redressés
Fusion carnets questionnaires 
Fichiers revenus et dépenses total
Fichiers de diffusion
Fichiers revenus redréssés
1.2.4 Schéma général des traitements   Schéma 5 : Vue générale des traitements effectués   Fichiers reçus du CNI de Lille                                                
Concaténation, labellisation, et vérifications 
Corrections, imputations + Sycore ?
Version du 19/10/2008.
Fichiers bruts de travail
Passage à l euro, annualisation et apurement + codification des dépenses en clair
Fichiers dépenses redréssées (questionnaires)
10
D EUXIÈME PARTIE : P RÉSENTATION DES DIFFÉRENTES TECHNIQUES D IMPUTATION  
  La non-réponse totale est souvent due à limpossibilité dinterroger lunité sélectionnée (ici le ménage), soit parce quelle est impossible à joindre, soit quelle refuse de répondre. La non-réponse partielle correspond au cas où le ménage a accepté de répondre, mais certaines de ses réponses sont incomplètes. Il peut refuser de répondre à certaines questions ou répondre de manière imparfaite (donner une tranche de revenu plutôt quun montant exact par exemple). Dans certains cas, la non-réponse partielle est tellement importante (non-réponse pour un très grand nombre de variables), que lon pourra alors ignorer ce trop peu dinformation et considérer lunité correspondante comme affectée de non-réponse totale.  On présente ici les techniques générales qui seront utilisées non seulement pour le redressement des revenus, mais aussi des dépenses.  Dans lenquête budget de famille 2006, on pallie donc la non-réponse partielle en imputant les valeurs manquantes, cest à dire en leur affectant des valeurs « admissibles » au vu de linformation disponible sur lunité concernée, les autres unités renseignées, et la variable manquante, et dans un sens qui reste à définir.   Dans la suite, la variable dintérêt affectée de non-réponse sera notée Y, les variables complètement observées seront notées X, et lindicatrice de non-réponse sera notée R (R=1 si variable correctement enregistrée, 0 sinon).  2.1 - méthodes simples  2.1.1 - Méthode par déduction ou logique  Il est parfois possible de déduire la réponse manquante à une question à partir des réponses aux autres questions. La valeur manquante à imputer est déduite de règles de vérification. Par exemple, en théorie, on peut déduire, grâce aux informations que lon possède sur le ménage (nombre denfants, situation matrimoniale, âge, type de logement etc) un montant de prestations sociales. Cest une imputation déterministe, sur barême, facile à mettre en uvre si lon possède toutes les informations nécessaires.  2.1.2 - Imputation par la moyenne ou la médiane  On alloue la moyenne ou la médiane des observations renseignées à lobservation manquante. Il est préféré la médiane à la moyenne lorsque cette dernière est trop dépendante des valeurs extrêmes de la distribution. On peut effectuer ce remplacement strate par strate, et ainsi imputer par exemple la réponse moyenne des observations ayant les mêmes caractéristiques sur un certain nombre de variables.  Cela revient à modéliser Y comme une variable indépendante des autres variables. Cette procédure nest pas sans défaut : la variance de la variable imputée est sous estimée, les mécanismes de corrélations entre variables sont ignorés et lhistogramme de Y connaîtra un pic artificiel en sa moyenne (distorsion de la distribution). Cest pourquoi cette technique nest utilisée que lorsque très peu dobservations sont à imputer.  
Version du 19/10/2008.
11
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.