L'échantillonnage de la théorie à la pratique

De
Publié par

Les méthodes de sélection des échantillons des enquêtes de l’Insee auprès des ménages ont connu ces dernières années de profondes modifications: transformation du recensement de la population; émergence de nouvelles bases de sondage. Parallèlement, la demande sociale se diversifie, augmente ses exigences et s’oriente vers l’observation de populations de plus en plus spécifiques. Il en résulte une complexification des processus d’échantillonnage qui doivent toujours répondre à la double contrainte de qualité statistique et d’opérabilité. Au total, les grands principes de construction des échantillons des enquêtes ménages n’ont pas changé mais s’orientent vers la satisfaction de demandes de plus en plus précises. Pour ce faire, avec le recours quasi systématique à l’échantillonnage équilibré ou à la méthode du partage des poids, les outils récents mis à disposition par les avancées de la théorie des sondages sont mobilisés.
Publié le : dimanche 30 décembre 2012
Lecture(s) : 118
Tags :
Nombre de pages : 8
Voir plus Voir moins

L’échantillonnage de la théorie à la pratique
! Vincent Loonis*
Les méthodes de sélection des échantillons des enquêtes de l’Insee auprès des ménages ont connu ces dernières
années de profondes modifications : transformation du recensement de la population ; émergence de nouvelles bases
de sondage. Parallèlement, la demande sociale se diversifie, augmente ses exigences et s’oriente vers l’observation
de populations de plus en plus spécifiques. Il en résulte une complexification des processus d’échantillonnage qui
doivent toujours répondre à la double contrainte de qualité statistique et d’opérabilité. Au total, les grands principes de
construction des échantillons des enquêtes ménages n’ont pas changé mais s’orientent vers la satisfaction de deman-
des de plus en plus précises. Pour ce faire, avec le recours quasi systématique à l’échantillonnage équilibré ou à la
méthode du partage des poids, les outils récents mis à disposition par les avancées de la théorie des sondages sont
mobilisés.
près avoir rappelé les quatre pas vocation à fournir, à partir d’un Atypes d’échantillonnage utilisés échantillon, des estimations sur tout
ou partie de la population dans le à l’Insee pour les enquêtes auprès
cadre des procédures classiques de des ménages, cet article présente
l’inférence statistique. En revanche, les grands principes qui régissent
ce cadre est celui qui régit les trois la construction d’un plan de son-
autres catégories d’échantillonnage. dage, ainsi que les outils de base qui
Leur présentation constitue l’objet autorisent la mise en œuvre de ces
principal de cet article. principes. On verra dans une dernière
partie comment ces outils sont mobi-
Les échantillonnages standards sont lisés pour satisfaire les contraintes
utilisés pour les enquêtes en popu-des échantillons standards ou de
lation générale. Aucune surreprésen-celui de l’enquête Emploi en continu.
tation particulière n’y est demandée, Compte tenu de la complexité et
ou alors seulement pour des grou-de la richesse du sujet, on a pris la
pes de population ne constituant pas liberté de procéder à des simplifica-
des catégories trop spécifiques. Les tions – que le spécialiste des sonda-
échantillons des enquêtes Budget de ges remarquera aisément – afin de
famille et Emploi du temps répon-faciliter la compréhension globale du
dent à ces critères. On a recours à processus.
une procédure standardisée mise en
Une population dans un quartier commerçant place dans le cadre d’une application
informatique adaptée. Cette procé-Les quatre types
dure est appelée Échantillon-maître. d’échantillons res par les enquêtés et fournir des
éléments quantitatifs sur le temps
Certaines enquêtes s’intéressent à
On distingue généralement quatre de passation du questionnaire afin
des sous-populations qui ne peuvent
types d’échantillonnage dans les de calibrer correctement le budget
être captées par l’intermédiaire des
enquêtes nationales de l’Insee, réa- de l’enquête (voir articles de Paul
procédures classiques d’échantillon-1lisées en face-à-face auprès des Jansolin et de Pascale Pietri). On a
nage : Mode de garde, sur le champ
ménages : les enquêtes « standard », en général recours pour ces tests
des familles ayant au moins un enfant
les enquêtes dites ad hoc, l’enquête à la combinaison de méthodes « à
de moins sept ans et demi ; volet
Emploi en continu et les tests. choix raisonnés » et probabilistes.
« Descendants d’Immigrés » de l’en-
Les directions régionales de l’Insee se
Cette dernière catégorie se démarque déclarent volontaires pour participer
sensiblement des trois autres par ses * Vincent Loonis est responsable de la division aux tests, sur des zones géographi-
Échantillonnage et traitement statistique des objectifs et par ses méthodes. Elle ques où des enquêteurs sont mobili-
données à l’Insee.
est mobilisée dans une phase de sables. Dans ces zones, on procède 1. Sont exclues de ce papier l’enquête men-
suelle de conjoncture auprès des ménages préparation de l’enquête pour tester à la sélection aléatoire de logements
(CAMME) ainsi que l’enquête Technologies
l’ensemble des traitements informa- pour constituer un échantillon dont la de l’information et de la communication qui
sont réalisées exclusivement par téléphone. tiques intervenant dans le processus taille est généralement faible : quel-
L’enquête Emploi en continu ayant une
de collecte de l’information, tester ques dizaines à quelques centaines
première et une dernière interrogation en face-
la compréhension des questionnai- de logements. Les tests n’ont donc à-face fait partie du champ de cet article.
Courrier des statistiques n° 126, janvier-avril 2009 25
Source : WikipédiaVincent Loonis
quête Trajectoires et origines (TeO) ; un identifiant unique des logements. Les techniques statistiques
enquête Sans-domicile 2001... Il faut Toute autre information de la base de utilisées
dans ces cas mettre en place pour sondage caractérisant le logement
chaque enquête une méthodologie On peut assimiler la mise en place d’un ou ses occupants est appelée « infor-
ad hoc, adaptée aux attentes des plan de sondage à un jeu de construc-mation auxiliaire ». Une grande partie
concepteurs mais qui répond égale- tion. Il s’agit, pour parvenir à des de la qualité de l’échantillonnage
ment aux contraintes organisation- objectifs de qualité statistique et de dépend de la richesse de cette infor-
nelles de l’Institut. Les enquêtes en respect de contraintes organisationnel-mation supplémentaire. L’existence
population générale dont le proto- les, d’agencer au mieux des méthodes d’une base de sondage permet d’at-
élémentaires, dont on connaît parfai-cole est particulier rentrent également tribuer à chaque logement une pro-
tement les propriétés théoriques. Les dans cette catégorie. L’échantillon de
babilité, non nulle et contrôlée, d’être
résultats de l’empilement des métho-100 000 logements enquêtés par voie
sélectionné dans l’échantillon. Cette
des élémentaires peuvent être maî-postale de l’enquête Vie quotidienne
probabilité autorise, au moins en
trisés : le biais et la taille de l’échan-et santé (VQS) en 2007 en est un
principe, la maîtrise des propriétés tillon final par exemple. Ils peuvent exemple. La future enquête Famille
statistiques de la procédure d’échan- également n’être connus qu’une fois prévue pour être la première associée
tillonnage : biais et précision. La base l’ensemble de la construction réalisée. au nouveau recensement en 2011
de sondage traditionnelle de l’Insee C’est le cas de la précision.en constitue un autre. Compte tenu
est le recensement de la popula-des attentes croissantes vis-à-vis de
tion auquel on a adjoint depuis peu Les méthodes élémentaires appartien-la statistique publique, la fréquence
les fichiers de la taxe d’habitation nent à deux catégories selon qu’elles des échantillonnages ad hoc a eu
tendent principalement à amélio-(TH). Ponctuellement, d’autres bases tendance à fortement augmenter ces
rer la qualité statistique ou qu’elles peuvent être mobilisées : déclara-dernières années.
permettent de satisfaire les contrain-tions annuelles de données sociales
tes externes (change de travail, bud-Le protocole particulier de l’enquête (DADS), fichiers de paie des agents
get...). Emploi en continu pourrait contribuer de l’État… Elles sont surtout utili-
à classer cette enquête parmi les sées pour des enquêtes auprès des
Les méthodes statistiques élémentai-
échantillonnages ad hoc. Son impor- individus.
res peuvent aussi être classées selon
tance dans le système statistique et
la quantité et la qualité de l’informa-sa pérennité conduisent cependant à La recherche de qualité de l’informa-
tion auxiliaire disponible.la considérer comme un cas à part. tion collectée conduit l’Insee à privi-
légier les interviews en face-à-face
Le sondage aléatoire simpleau domicile des enquêtés. Dans les
Les grands principes panels, les interrogations, autres que
Quand aucune information n’est dis-
la première, peuvent avoir lieu par
ponible, la méthode élémentaire est le Les trois principaux types d’échan- téléphone. C’est le cas des enquêtes
sondage aléatoire simple (SAS). Elle tillonnages suivent les mêmes princi- Statistiques sur les revenus et les
garantit que chaque échantillon pos-pes généraux.
conditions de vie (SRCV), Loyers et
sible, de taille n, a une chance égale
charges et de l’enquête Emploi en d’être sélectionné. Cette méthode, Pour les enquêtes que réalise l’Insee
continu. bien que la plus simple à mettre en auprès des ménages, les bases de
œuvre, n’est jamais utilisée directe-sondage ne consistent pas en l’en-
Pour limiter les coûts liés aux dépla- ment. Elle conduit, en effet, à des semble des ménages eux-mêmes,
cements et améliorer le taux de échantillons dont la dispersion géo-car la notion de ménage est trop
réponse, les échantillons sont géo- graphique est incompatible avec les mouvante pour assurer la pérennité
graphiquement concentrés. budgets et la précision attendue. Elle de telles bases. On utilise donc l’en-
intervient en général en dernière étape semble des logements existants.
La charge de travail par enquêteur dans le processus de construction.
pour une enquête donnée et lissée Elle sert également d’étalon pour les Le cadre théorique de l’échantillon-
sur l’année est contrôlée. plans de sondage complexes, dont nage des enquêtes auprès des
on compare la précision à celle que ménages est celui des méthodes
Pour ne pas accroître la charge d’en- l’on aurait obtenue si on avait réalisé probabilistes, que l’on distingue
quête supportée par les ménages, on un sondage aléatoire simple de taille des méthodes à choix raisonnés.
équivalente.convient de ne pas réinterroger, dans Les probabilistes impli-
la mesure du possible, le même loge-quent que l’on dispose d’une liste
ment sur une période intercensitaire exhaustive, sans doubles comptes La stratification
ou, depuis que le recensement est et récente, de tous les logements
existants. Cette liste, appelée base annuel, sur un cycle de rQuand l’information auxiliaire est qua-
de sondage, contient au minimum de cinq ans. litative, on utilise le sondage stratifié.
26L’échantillonnage de la théorie à la pratique
Dans chaque strate – catégorie défi-
nie par les modalités des variables
auxiliaires – on réalise des sonda-
ges aléatoires simples. En pratique,
les critères de stratification les plus
utilisés sont les régions, et/ou une
typologie plus raffinée de l’espace :
tranche d’unités urbaines, zonage en
aires urbaines, typologie Tabard des
quartiers et communes selon la pro-
fession et l’activité économique de
leurs habitants.
Si l’échantillon est réparti par strate
proportionnellement à la population
d’origine, ce qui est le cas générale-
ment, on montre que l’on est assuré
de parvenir à une précision au moins
Échantillon de populationaussi bonne que celle que l’on aurait
eue sans utiliser la stratification. Le
gain en précision sera d’autant plus
satisfaisant, généralement appelé Échantillons) (Christine et Faivre,
important que le phénomène étudié
« la méthode du cube ». La trans- 2009). L’information auxiliaire utilisée
est corrélé au critère de stratification.
cription de cette méthode dans le est alors multiple : nombre total de
logiciel SAS a largement contribué logements, collectifs, sociaux, struc-
Sondage à probabilités inégales à la « populariser » (Rousseau et ture par sexe, par âge et répartition
géographique et par type d’espace Tardieu, 2004 ; Chauvet et Tillé, 2006 ;
Quand l’information auxiliaire est de la population…Chauvet, 2006).
quantitative, on a recours au son-
dage à probabilités inégales. Ce type Les méthodes élémentaires permet-La présentation théorique dépasse
tant de satisfaire les contraintes exter-de sondages est couramment utilisé largement le cadre de cet article (Tillé,
nes sont principalement le sondage à pour l’échantillonnage d’entités géo- 2001). Son concept est cependant
graphiques : cantons, communes, plusieurs degrés, le sondage en deux aisé à appréhender. Si on parvient à
agglomérations,… dont la popula- phases et la méthode du partage des construire des échantillons qui res-
tion est variable. Une entité pourra poids, même si cette dernière n’est pectent les probabilités d’inclusion
avoir une probabilité d’appartenir à pas à proprement parler une méthode (par exemple PPT) et qui fournissent
l’échantillon proportionnelle à sa taille d’échantillonnage.pour des totaux connus par ailleurs,
(PPT), par exemple. On montre que parce que disponibles dans la base
cette stratégie permet d’améliorer la de sondage, des estimations de Les sondages à plusieurs degrés
précision statistique quand le phéno- variance nulle, alors on peut espérer
mène étudié est corrélé à la variable que les estimations pour des varia- Pour satisfaire à la fois les contrain-
de taille. Ce résultat justifie que, dans bles d’intérêt corrélées à l’information tes de limitation des coûts, notam-
les enquêtes auprès des ménages qui auxiliaire utilisée seront également de ment de déplacement, et la gestion
sont en général issues d’une première bonne qualité. On montre que c’est de la charge de travail des enquê-
sélection géographique, les grandes effectivement le cas. teurs, l’Insee a recours au sondage
communes ou les grandes agglo-
à plusieurs degrés. C’est un proces-
mérations soient systématiquement La méthode du cube permet d’obtenir sus de sélection d’un échantillon à
enquêtées. Dans la pratique, strati- de tels échantillons. Elle est appliquée au moins deux degrés successifs
fication et probabilités inégales sont très fréquemment à l’Insee, par exem- emboîtés. Les unités qui constituent
utilisées conjointement. ple pour la création des groupes de le premier degré sont des entités
rotation des petites communes dans géographiques : cantons, commu-
le cadre du recensement rénové de la nes. Le dernier degré de tirage est Sondage équilibré
population, pour la sélection du nou- généralement constitué des loge-
vel échantillon de l’enquête Emploi Pour généraliser au cas où l’informa- ments que l’on sélectionne par un
en continu, pour la construction de tion auxiliaire disponible est à la fois sondage aléatoire simple. On peut
qualitative et quantitative, une solu- l’échantillon maître 1999, ou pour montrer que si, à chaque degré, les
tion est le sondage équilibré. Si l’idée celle du futur échantillon maître désor- unités sont sélectionnées proportion-
de cette méthode est ancienne, elle mais appelé Octopusse (Organisation nellement à leur taille en nombre de
n’a trouvé que récemment, (Deville Coordonnée de Tirages Optimisés logements et si l’on sélectionne au
et Tillé, 2004), un cadre théorique Pour une Utilisation Statistique des dernier degré un nombre constant de
Courrier des statistiques n° 126, janvier-avril 2009 27
Source : InseeVincent Loonis
logements, alors tous les logements degrés, à la fois dans ses objectifs et Les domaines d’application et la
ont la même probabilité d’appartenir dans son mode opératoire. théorie sous-jacente sont également
à l’échantillon. Cette propriété est trop vastes pour être exposés ici ; on
intéressante d’un point de vue sta- L’échantillonnage en plusieurs pha- se bornera à constater que le partage
tistique et pratique. des poids intervient fréquemment et ses est mobilisé lorsque l’on souhaite
dans des domaines variés : étudier un phénomène concentré sur
En théorie des sondages, chaque une population spécifique mais que
– pondérations des enquêtes par variable ou thème d’intérêt a son pro- l’on ne peut pas caractériser à l’aide
panel (SRCV) ; pre plan de sondage « optimal » avec des informations contenues dans la
son système de pondération adapté. base de sondage. On procède alors – gestion de la charge de travail des
Dans la pratique, les enquêtes sont à une première enquête auprès d’un enquêteurs (VQS 2006) ;
multi thèmes, ce qui signifie qu’il
très large échantillon pour récolter de
faudrait autant d’échantillons que de – possibilité de cibler des sous-l’information à la fois simple et dis-
thèmes ! C’est irréalisable. Choisir populations très spécifiques (Sans- criminante au regard du phénomène
un plan de sondage avec probabilité domicile 2001, Logement 2006) ;étudié. À l’aide de cette information
d’inclusion constante n’est donc opti-
et dans le premier échantillon, on
– dans les études préliminaires pour mal pour aucun thème, mais assure
construit un second échantillon de la construction de l’échantillon de que l’échantillon retenu ne conduira à
taille réduite ciblé sur la population l’enquête Famille 2011 ; une « catastrophe » pour aucun thème
à laquelle on s’intéresse. À chaque
traité. C’est pourquoi, dans la plupart
– dans la gestion au quotidien de niveau d’échantillonnage, on peut uti-des enquêtes de l’Insee, l’équipondé-
toutes les enquêtes pour le cas de liser une ou plusieurs des stratégies ration est recherchée. Cette équipon-
logements éclatés ou « fusionnés » ;précédentes. L’exemple le plus récent dération s’entend éventuellement au
est celui des enquêtes Vie quoti-sein d’une catégorie de population. – dans les enquêtes couplées
dienne et santé (VQS) et Handicap
(Famille-employeur 2004) etc.
santé (HS). La première a été admi-D’un point de vue pratique, les avan-
nistrée par voie postale auprès d’un tages sont évidents. Au dernier degré, De manière simplifiée, le partage des
on s’arrange pour choisir un nombre échantillon, équipondéré, de près de poids intervient dès lors que les indi-
de logements qui est compatible avec 100 000 logements. À cette occasion vidus peuvent potentiellement être
la charge de travail des enquêteurs : a été recueillie de l’information très présents plusieurs fois dans l’échan-
ni trop faible afin que celle-ci soit générale sur l’état de santé global des tillon final. Cette multiplicité peut être
suffisante pour assurer le revenu des individus résidant dans les logements le fait des sondages indirects ou de
enquêteurs ou pour justifier les coûts échantillonnés. Les réponses ont été l’existence de bases de sondages
de formation, ni trop important afin utilisées pour cibler un échantillon de multiples.
que les enquêteurs aient le temps de 20 000 individus en surreprésentant
réaliser toutes les interviews dans les Un exemple classique de sondage ceux qui avaient déclaré, au cours de
délais prescrits. indirect est celui des parents d’élèves. la première phase, connaître des sou-
Si on dispose seulement d’une base cis de santé. Ce second échantillon a
La contrepartie des sondages à plu- de sondage constituée par les élèves, été interviewé en face-à-face afin de
sieurs degrés est une moindre effi- on échantillonne dans cette base et on recueillir de l’information précise et de
cience en termes de précision qu’un interroge les parents des élèves échan-bonne qualité.
sondage aléatoire simple de taille tillonnés. Si un individu a plusieurs
équivalente. Cet argument est cepen- enfants, il pourra ainsi être sélectionné
dant la plupart du temps fallacieux Le partage des poids plusieurs fois. Il faut tenir compte de
car il n’intègre pas les coûts d’en- cet ordre de multiplicité, appelé nom-
quêtes. La vraie comparaison entre Le « partage des poids » est une bre de liens, dans l’établissement des
ces deux types de sondages devrait méthode d'estimation adaptée aux pondérations. On remarquera que ce
s’opérer sous contrainte de budget situations d'échantillonage plus com- qui importe dans la méthode du par-
et de structure des coûts constants. plexes : sondages indirects, bases tage des poids, c’est le nombre de
Malheureusement, ce ne peut que multiples, panels rotatifs... fois où un individu aurait pu être sélec-
rarement être établi. tionné, ce qui est très différent du
À l’instar de l’échantillonnage équili- nombre de fois où il a effectivement été
bré, si les idées sous-jacentes de ces sélectionné. C’est cette logique qui a Les sondages en plusieurs
techniques étaient déjà présentes au prévalu pour l’enquête Sans-domicile phases
début des années quatre-vingt, leur 2001. Les unités échantillonnées sont
application a été systématisée grâce Si les appellations se ressemblent, des services : repas, hébergement, et
à des travaux pionniers (Ernst, 1989 ; il n’en reste pas moins que l’échan- on cherche à interviewer in fine des
tillonnage en plusieurs phases est Deville, 1998) généralisés par la suite individus ; or, chaque individu peut
très différent du sondage à plusieurs (Lavallée, 2002). utiliser plusieurs services.
28L’échantillonnage de la théorie à la pratique
L’autre application classique du par- sondage n’étant pas interconnectées taire. Sachant que, chaque année, il y
tage des poids est celle des bases a en moyenne 10 enquêtes standard entre elles, il faut récolter l’informa-
multiples. On souhaite réaliser une tion auprès des ménages eux-mêmes de 20 000 logements et que pour
enquête en population générale en en insérant des questions prévues à chaque enquête on vise une charge
surreprésentant une sous-population cet effet. Ici, ces pourraient de travail de l’ordre de 30 logements
(par exemple les bénéficiaires de l’allo- paraître « exotiques », puisqu’il s’agit par enquêteur, on en déduit :
cation logement). On ne sait pas isoler de savoir si pour chacune des années
– le nombre de zones à sélectionner : cette sous-population dans la base de 2004 à 2008 le logement a constitué
20000/30 ≈ 660 zones ;sondage habituelle, mais on dispose la résidence principale d’au moins
pour elle d’une base de sondage spé- un agriculteur. On peut comprendre
– la taille minimale en nombre de
cifique. On y sélectionne un second l’étonnement des enquêtés face à de
logements des zones à construire :
échantillon. On dispose alors de deux telles questions dans le cadre d’une
30*10*durée de la période intercen-
échantillons que l’on souhaite récon- enquête sur le patrimoine. Ne pas
sitaire.
cilier. Les individus de la population poser ces questions, dans les agglo-
spécifique peuvent être sélectionnés mérations par exemple, revient à spé-
Pour les précédents échantillons-maî-
deux fois : dans la procédure standard cifier dans les applications informa-
tre, la durée intercensitaire était de
et dans la procédure ad-hoc. Pour les tiques des questionnaires différents
l’ordre de 10 ans, soit des zones de
repérer dans l’échantillon standard, il selon le type de logement, ce qui peut
taille minimale de 3 000 logements.
faut inclure dans le questionnaire des ne pas être simple, souhaitable ou
items permettant de les identifier. On souhaité. Ne poser ces questions à Pour le nouvel échantillon-maître,
pourra ainsi corriger en conséquence aucun des ménages implique d’émet- Octopusse, le principe est de sélec-
les pondérations. L’enquête Logement tre des hypothèses pour corriger de tionner les logements dans la dernière
2006 a mis en œuvre pas moins de l’ordre de multiplicité. Au total, cet campagne du recensement rénové.
sept bases de sondages différentes. exemple ne vise pas à dissuader Les zones appelées Zone Action
On ne cache pas que si le partage d’utiliser le partage des poids, bien Enquêteur (ZAE) doivent ainsi com-
des poids est bien maîtrisé d’un point au contraire, puisque l’Insee l’utilise porter des communes appartenant à
de vue théorique, il peut également régulièrement, mais à faire prendre chacun des groupes de rotation. Les
s’avérer parfois d’application pour le conscience aux concepteurs des communes d’un groupe de rotation
moins délicate. conséquences d’une telle méthode. Il doivent posséder, au total, un stock de
convient alors de les anticiper. logements suffisant pour une année
Un exemple révélateur des difficul-
d’enquête, soit 300 logements.
tés de collecte que peut engendrer
l’application du partage des poids Par des algorithmes adaptés, on Le cas de l’échantillon-maître
provient des travaux préparatoires construit automatiquement des zones
à l’échantillonnage de l’enquête L’objectif de e est vérifiant les contraintes précédentes.
Patrimoine 2009. Un scenario prévu la construction automatique d’échan- On s’impose également de respecter
pour cette enquête était de sélection- tillons pour les enquêtes standard. Il les limites communales et régionales
ner un échantillon en population stan- vise à respecter les contraintes d’équi- et, pour les précédents échantillons
dard dans le recensement 2008 et pondération des logements, - maître, une typologie des communes
une extension d’agriculteurs dans les répartition de la charge de travail par selon le type d’espace. Enfin, on se
recensements 2004 à 2008. Notons enquêteur et de concentration des donne comme objectif que ces zones
que l’information permettant de repé- interviews. Sa durée de vie est d’une soient le plus petites possible. Cette
rer les « ménages agriculteurs » n’est période intercensitaire, ou d’un cycle contrainte supplémentaire permet de
disponible que dans l’exploitation de recensement. Partant du constat minimiser les frais de déplacements
complémentaire du recensement. que sélectionner à chaque fois un mais aussi le taux de non-réponse.
Afin d’avoir localement suffisamment échantillon dans l’ensemble de la On sait en effet que les grandes dis-
d’agriculteurs à échantillonner, il fal- base de sondage peut être chrono- tances à parcourir pour réaliser des
lait recourir aux cinq campagnes du phage, l’échantillon-maître forme une enquêtes contribuent à une dégrada-
recensement. Finalement, tout se réserve de logements suffisamment tion du taux de réponse.
passe comme si on disposait de petite pour autoriser des traitements
six bases de sondages différentes : Conformément aux principes vus informatiques dans des délais non
population en 2008 et cinq popula- précédemment, une fois les zones prohibitifs mais suffisamment grande
tions de logements avec au moins construites sur l'ensemble du terri-pour alimenter l’ensemble des enquê-
un agriculteur (2004 à 2008). Pour toire et le nombre de zones à échan-tes prévues sur la période.
tenir compte de l’ordre de multipli- tillonner fixé, on procède à la sélec-
cité et corriger en conséquence, il Pour calibrer cette réserve de loge- tion proportionnellement au nombre
faut savoir, pour chaque logement ments, on part de l’hypothèse que de logements. Pour la sélection, on
d’un sous-échantillon donné, s’il chaque enquêteur se voit attribuer une introduit des critères de stratification
appartient à la population des autres zone géographique sur laquelle il tra- ou d’équilibrage. Cet échantillon de
bases de sondages. Les bases de vaillera pendant la période intercensi- zones est fixé pour la durée de vie de
Courrier des statistiques n° 126, janvier-avril 2009 29Vincent Loonis
l'échantillon-maître et alimentera l'en-
semble des enquêtes standard.
Pour une enquête donnée on sélec-
tionne dans chaque zone un nom-
bre fixe de logements ce qui assure
l’équipondération in fine. Quand un
échantillon est sélectionné, il est mar-
qué : les logements ne pourront plus
être « choisis » pour une enquête
future. On montre que ce principe ne
modifie pas le calcul des probabilités
tout en permettant d’assurer la dis-
jonction : un logement ne pourra être
enquêté qu’une seule fois au cours
d’un cycle de recensement.
Évidemment, la pratique est un peu
différente de celle présentée ici. Pour
autant, les raffinements méthodolo-
giques supplémentaires, qui peuvent
Diverses personnesparfois être très complexes, ne chan-
gent pas la philosophie d’ensemble.
tes conduit à ce que l’on soit nette- Dans chaque unité échantillonnée, Pour plus de détails, sur la pratique
ment plus exigeant sur les distances un secteur est sélectionné propor-on pourra se reporter à Marc Christine
à parcourir dans l’EEC que dans une tionnellement à sa taille. Il est ensuite et Sébastien Faivre, 2009.
enquête classique où la collecte peut découpé en six aires de 20 logements
s’étaler sur plusieurs mois. A la limite, contigus. Sachant que l’on souhaite Le cas de l’enquête emploi
on cherche à obtenir que les loge- obtenir un échantillon final de l’ordre en continu
ments attribués à un enquêteur soient de 51 000 logements, il faut sélec-
contigus si bien qu’il ne perdra pas de tionner en première approche 2 550 Pour comprendre la spécificité de
temps dans les déplacements. ( = 51 000/20) unités primaires. Le l’échantillonnage de l’EEC, il faut avoir
travail de découpage ne doit s’opérer présent à l’esprit la notion de « semaine
Ce type de contrainte classe l’échan- que sur ces seules unités et non pas de référence » et les objectifs de l’en-
tillon de l’EEC dans les échantillons sur l’ensemble du territoire. Ce travail quête qui sont de fournir à la fois des
dits aréolaires. On ne sélectionne pas a tout de même nécessité 140 000 estimations trimestrielles en niveau et
directement des logements mais des heures de travail dans les directions des évolutions trimestrielles.
aires de 20 logements contigus. Tout régionales de l’Insee en 2001.
le problème est de disposer d’une L’objet principal de l’EEC est la mesure
base de sondage aréolaire affectant Le nouvel échantillon de l’EEC est sur des niveaux du chômage, au sens
chacun des quelques 32 millions de le terrain depuis le mois de janvier du Bureau International du Travail, et
logements à une aire. Dans l’échan- 2009 (Loonis, 2009). La base de son-de l’activité des personnes. Pour y
tillon actuel, qui est sur le terrain dage qui y est utilisée est la taxe d’ha-parvenir, les enquêteurs posent aux
depuis 2001 (Christine, 2002), cette bitation (TH). On dispose, pour chacun ménages des questions concernant
base a été obtenue en suivant une des 32 millions de logements, de ses leur situation sur le marché du travail
logique descendante à partir du références cadastrales. Les références pendant une semaine qui a été fixée
recensement 1999. cadastrales sont constituées par la à l’avance. Cette semaine est appelée
section cadastrale (un quartier) et, à « semaine de référence ». La collecte Dans un premier temps, on sélec-
l’intérieur de la section, de la parcelle de l’EEC étant trimestrielle, les semai- tionne des entités géographiques
cadastrale (plus petite unité de pro-nes de référence sont réparties unifor- proportionnellement à leur nombre de
priété foncière). Sections et parcelles mément sur l’ensemble d’un trimestre. logements. Ces entités sont appelées
cadastrales sont codées de telle sorte Afin de limiter les risques d’oublis, on « unités primaires ». Elles sont le plus
que l’on peut obtenir « directement », demande aux enquêteurs de récolter petites possible parmi les regroupe-
l’information sur la semaine de réfé- par une procédure automatique et ments d’îlots (Iris) ou de communes,
informatique, des grappes d’une ving-rence au maximum 2 semaines et tout en ayant au moins 120 loge-
taine de logements, au prix cependant 2 jours après la fin de ladite semaine. ments. Les unités sélectionnées sont
de l’abandon de la contiguïté au profit Par ailleurs, chaque enquêteur a une découpées en « secteurs » à l’aide
vingtaine de logements à enquêter, de la proximité. Pour marquer le pas-des plans associés au recensement
tous sur la même semaine de réfé- 1999. Chaque secteur regroupe de sage de la contiguïté à la proximité, on
rence. L’ensemble de ces contrain- l’ordre de 120 logements contigus. utilisera dans l’échantillon construit à
30
Source : Site photo libreL’échantillonnage de la théorie à la pratique
partir de la TH le vocable « grappe » ches transversales et longitudinales, l’échantillon, l’enquêteur procède à une
alors que dans l’ancien échantillon opération dite de « ratissage ». Muni on utilise des échantillons rotatifs : une
des documents de collecte, l’enquê-on parlait plus volontiers d‘aires. Les fraction de l’échantillon est renouvelée
teur parcourt son aire pour y réperto-32 millions de logements ont ainsi été à chaque date d’observation.
rier l’ensemble des logements et ainsi répartis en 200 000 secteurs, ayant
Dans l’EEC, et en régime de croisière, repérer les logements nouveaux. Tous chacun 6 grappes de 20 logements.
l’échantillon est renouvelé par sixième les logements, qu’ils soient nouveaux Les secteurs ont été sélectionnés, de
tous les trimestres. Le renouvellement ou non, seront enquêtés. Dans le nou-manière équilibrée sur des critères
s’obtient en excluant des aires ou des veau dispositif, issu de la TH, l’aban-géographiques, financiers et démogra-
grappes entières. Ainsi, un trimestre don de la contiguïté n’autorise pas à phiques. Pour parvenir à un échantillon
donné, une seule aire ou grappe est utiliser le même système. Toutefois, la de 66 000 logements, la taille moyenne
enquêtée par secteur. Le trimestre mise à disposition annuelle des fichiers d’une grappe étant légèrement supé-
suivant, pour un secteur sur six, on de la TH et l’existence d’un identi-rieure à 20 résidences principales, le
enquête une autre aire ou grappe du fiant pérenne permettent de repérer la nombre de secteurs a été fixé à 3200.
même secteur. Cette méthode assure construction neuve. On recourt alors à
On a vu que la construction de l’échan- le renouvellement de l’échantillon mais une procédure d’échantillonnage adap-
tillon actuel (ou futur) fait intervenir aussi la pérennité de la charge de tra- tée pour mettre à jour l’échantillon.
la notion de « secteurs » qui est le vail pour les enquêteurs. Les grappes
Présenter l’ensemble, ou même ne regroupement de six aires ou de six ou aires d’un même secteur sont, par
serait-ce qu’une synthèse, des stra-grappes. Cette notion est la traduction construction, proches géographique-
tégies retenues pour les enquêtes ad de la dualité des objectifs de l’EEC : ment. Il en résulte que les mêmes
hoc est hors de portée de cet article. estimations des taux de chômage enquêteurs peuvent être mobilisés mal-
Il y a autant de stratégies que de pro-pour un trimestre donné, dites trans- gré le renouvellement de l’échantillon.
blèmes. Les principes présentés pré-versales, et mesure de son évolution
Pour l’EEC, l’échantillon est sélectionné cédemment restent d’actualité et four-entre deux trimestres. En théorie des
en une seule fois pour toute la durée nissent un cadre rassurant. On notera sondages, si l’on souhaite mesurer
de sa vie. C’est à ce stade qu’est établi cependant qu’une difficulté supplé-des évolutions, il est préférable de
notamment le calendrier de renouvelle- mentaire est le délai restreint dont on recourir à des panels, où les individus
ment des secteurs. Pour tenir compte dispose pour élaborer la stratégie qui sont interrogés plusieurs fois à inter-
de la construction neuve, l’échantillon satisfera à la fois les statisticiens, sur-valles réguliers. Dans les panels purs,
est régulièrement enrichi par des loge- tout sensibles aux questions de biais on sélectionne un échantillon initial
ments nouveaux. Dans l’échantillon et de variance, et les responsables que l’on suit sur une période donnée.
actuel, cet enrichissement est rendu du terrain, plus préoccupés par les Cette pratique est incompatible avec
possible par la contiguïté des aires. A questions de distance parcourue et la fourniture d’estimations transversa-
partir des découpages réalisés sur la de charge de travail. Cela est d’autant les. En effet, l’échantillon initial n’est
base des documents cartographiques plus vrai que les souhaits des diffé-représentatif que de la population à
associés au recensement de 1999, rents acteurs sont rarement stables la date à laquelle il a été sélectionné.
chaque aire a reçu une description phy- dans le temps. La recherche perma-Pour une date ultérieure, il ne tiendra
sique ainsi que la liste des logements nente de ce consensus est finalement pas compte des entrées (naissances
connus au moment de ce recense- tout ce qui fait l’attrait et l’intérêt de la ou immigration) ni des sorties (décès
ment. Avant que l’aire ne rentre dans construction des échantillons. nou émigration). Pour réconcilier appro-
Courrier des statistiques n° 126, janvier-avril 2009 31Vincent Loonis
Bibliographie
G. Chauvet et Y. Tillé, 2006, « A Fast Algorithm of Balanced Sampling », Computational Statistics, 21-53-61.
M. Christine, 2002, « La construction de l’échantillon de la future enquête Emploi en continu à partir du recensement de 1999 »,
Actes des Journées de Méthodologie Statistique, Insee Méthodes, n° 100, pp 175-229.
M. Christine et S. Faivre, 2009 « Octopusse : un système d’Échantillon-maître pour le tirage des échantillons dans la dernière
èmesEnquête Annuelle de Recensement », actes des X Journées de Méthodologie Statistique.
J.-C. Deville et Y. Tillés, 2004, « Efficient Balanced Sampling : The Cube Method », Biometrika, n° 91, 893-912.Deville, 1998, « Les enquêtes par panel : en quoi diffèrent-elles des autres enquêtes ? » suivi de : « Comment attraper
une population en se servant d’une autre. » Insee Méthodes, No. 84-85-86, pp. 63-82.
L. Ernst, 1989, « Weighting issues for Longitudinal Household and Family Estimates. » in Panel Surveys (eds Kasprzyk, D.,
Duncan, G., Kalton, G., Singh, M.P. s), John Wiley and Sons, New York, pp. 135-159.
P. Lavallée, 2002, « Le sondage indirect, ou la méthode généralisée du partage des poids », Éditions de l’Université de Bruxelles.
V. Loonis, 2009, « La construction du nouvel échantillon de l’enquête Emploi en continu à partir des fichiers de la taxe d’habi-
èmestation », acte des X Journées de Méthodologie Statistique.
F. Tardieu et S. Rousseau, 2004, « La macro SAS CUBE d’échantillonnage équilibré », disponible sur le site www.insee.fr.
Y. Tillé, 2001, Théorie des sondages : Échantillonnage et estimation en populations finies : cours et exercices, 284 pages,
Paris, Dunod.
32

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.