Les besoins des démo-économistes en matière d'appariements sécurisés

De
Publié par

La pauvreté française en matière de panels socio-économiques incite les auteurs à faire une proposition audacieuse d’utilisation coordonnée sécurisée des fichiers administratifs et à appeler à un débat entre les institutions statistiques, le Cnis et la Cnil pour la mettre en oeuvre.

Publié le : dimanche 30 décembre 2012
Lecture(s) : 78
Tags :
Nombre de pages : 4
Voir plus Voir moins

Les besoins des démo-économistes
en matière d’appariements sécurisés
Nathalie Picard*, Benoît Riandey**, Anne Solaz** et Catherine Quantin***
La pauvreté française en matière de panels socio-économiques incite les auteurs à faire une
proposition audacieuse d’utilisation coordonnée sécurisée des fichiers administratifs et à
appeler à un débat entre les institutions statistiques, le Cnis et la Cnil pour la mettre en œuvre.
es économètres peinent à la re- Emploi en France, ils ne permettent de Les panels de la statistique
cherche de données longitudina- disposer sur un ménage que de don- publique aujourd’huiLles sur les ménages. Hormis les nées à court terme (six trimestres pour
panels européens récents des ménages l’enquête Emploi en continu). De plus, Il est assez facile d’imaginer l’enri-
(ECHP, European Community House- ces panels étrangers sont de taille suf- chissement de panels d’individus
hold Panel 1994-2001 et EU-SILC, fisante pour permettre d’étudier des pour les traitements précédents à
European Union Statistics on Income événements rares comme les consé- l’aide de données administratives
and Living Conditions à partir de quences du divorce ou du veuvage, ou anonymisées. Mais il semble que ce
2001), les panels sont rares en France la mobilité résidentielle de longue dis- soit plus difficile en France dès que
malgré quelques avancées récentes ap- tance. Reproduire ce type d’études sur l’on s’intéresse à l’entité du couple,
puyées par le rapport au Cnis de Stéfan les parties françaises des panels euro- contrairement aux pays disposant de
2Lollivier et Mylène Chaleix, notam- péens (ECHP puis SILC) serait très vite registres de population . Le couple est
ment sur le changement d’échelle en limité par la petite taille des échantil- une entité qui varie au cours du
cours de l’échantillon démographique lons malgré leur suivi sur huit ans. Les temps, qui peut se former puis se
permanent (EDP). Aussi les économè- chercheurs voudraient donc, dans le dissoudre. Étudier par exemple les
tres sont-ils souvent conduits à utiliser respect de la confidentialité, apparier trajectoires professionnelles de
des panels étrangers offrant de plus données d’enquêtes ou de panels et couples n’a été possible en France
grands échantillons et de plus longues sources administratives. qu’à partir des enquêtes disposant
périodes de suivi, notamment les pa- d’un calendrier retraçant de manière
nels anglais BHPS (British Household rétrospective l’histoire profession-
Panel Survey), allemand GSOEP ( nelle et conjugale comme dans l’en-
)ouaméri- quête Jeunes et Carrières 1997 ou
1cains. Le panel PSID ( Familles et Employeurs 2005. Mais
) du Michigan est ces enquêtes ont trois inconvénients :
l’exemple type de sources qui appor- les biais liés aux problèmes de
tent sur les ménages et pour une très mémoire ; le fait de ne disposer au
longue durée (depuis 1968) « tout ce moment de l’enquête que des
que les chercheurs désirent savoir ». couples stables (n’ayant pas connu de
Certes, on peut débattre de la représen- séparation à ce jour) ; l’impossibilité
tativité dans le temps de ces panels, d’obtenir en rétrospectif des données
mais leur durée autorise des études de très précises sur les salaires. Enfin,
long terme tant sur les carrières profes- n’utiliser que les seuls fichiers admi-
sionnelles et salariales que sur les par- nistratifs exhaustifs reste insuffisant
cours familiaux. Quant aux panels pour observer les biographies profes-
renouvelés par partie comme l’enquête sionnelles de couples.
Si l’échantillon démographique* Université de Cergy-Pontoise, Ined et Ecole Poly-
technique, ** Ined, *** CHU Dijon permanent décrit bien la composition
1. Pour plus d’informations sur le PSID, voir le site
du ménage, il ne semble pas pouvoirLe panel PSID ( )duhttp://psidonline.isr.umich.edu/
2. Voir le site de l’Insee pour une synthèse des Michigan est l’exemple type de sources qui apportent s’enrichir de la biographie profes-
types de recensement de populations sur les ménages et pour une très longue durée (depuis sionnelle du conjoint. La requête des
http://www.insee.fr/fr/publics/default.asp? 1968) « tout ce que les chercheurs désirent savoir ».
économistes n’est donc pas simple àpage=communication/recensement/particuliers/ Source : Institut for social Resarch - University of
etranger.htm Michigan satisfaire.
Courrier des statistiques n° 129, juin 2010 1Les besoins des démo-économistes en matière d’appariements sécurisés
L’enquête Emploi en continu semble Les statisticiens publics s’accommo- l’Insee et la Drees (service statistique
donc l‘unique source permettant de dent mal de cette incompatibilité et du ministère de la santé et des sports)
répondre à ce besoin, mais seulement de ces limites (Cnis ). Un anthropo- pour l’appariement de l’enquête
dans une perspective de court terme logue aurait immédiatement suggéré : Santé-Handicap 2009 et des données
(six trimestres), perspective insuffi- « Hé bien, mariez les ! ». C’est ce d’assurance maladie : le recueil du
sante pour appréhender, par qu’autoriserait un appariement sécu- NIR (numéro d’inscription au réper-
exemple, une mesure longitudinale risé de l’enquête Emploi et de fichiers toire, couramment appelé numéro de
des transferts publics et privés, sauf à administratifs de ce domaine. sécurité sociale), autorisé par décret
la prolonger par des années de par le Conseil d’État, avait été mené
carrière observées dans les fichiers Les appariements sécurisés entre après la collecte de l’enquête à partir
administratifs. Cette piste ne prend enquêtes et fichiers administratifs du répertoire de l’état civil. Notons
pas en compte la dynamique de la permettraient idéalement d’apporter cependant que la saisie du NIR –
composition du ménage. Faute de aux fichiers administratifs les concepts immédiatement haché par cryptage
registre de population et d’exhaustivi- mis en œuvre et la richesse informa- irréversible par l’intéressé lui-même -
té du recensement, la source fiscale tive des questionnaires d’enquêtes. donc parfaitement anonyme - aurait
semble la seule source administrative Ainsi pourrait-on répondre aux dispensé de cette lourde démarche.
exhaustive qui puisse rendre compte demandes locales grâce à la mise en
des revenus sur plusieurs années, œuvre des modèles d’estimation sur Les techniques anonymes d’apparie-
4malgré la réserve signalée ci–dessus les petits domaines que Pascal Ardilly ments sécurisés par hachage permet-
concernant les couples non mariés et (voir bibliographie) a introduits dans la traient donc d’envisager le suivi
non pacsés. statistique publique française. anonyme de carrières individuelles
en rapprochant les données des
La comparaison des fichiers adminis- DADS et celles de l’Unedic ou de
Marier enquête tratifs et des enquêtes ouvre encore l’ex-ANPE. Ainsi les économistes
et fichiers de l’emploi ? d’autres perspectives : si des données étofferaient leurs analyses de la
contemporaines de l’Unedic et des dynamique de l’emploi et de sa
Sur ce thème de l’emploi et plus DADS (déclarations annuelles des recherche. Plus généralement,
précisément du chômage, les statisti- données sociales des employeurs) l’usage du NIR dans la sphère sociale
ciens publics opposent les qualités et étaient appariées aux données de ouvre en théorie une très large
limites de ces deux types de sources : l’enquête Emploi, pourquoi ne pas palette de données appariables. Les
continuer à les apparier au fichier en épidémiologistes l’ont bien compris
aval, c’est-à-dire après le sixième puisqu’ils marient leurs cohortes aux- seule l’enquête Emploi permet de
trimestre quand le ménage est sorti de fichiers d’emploi. Ainsi en sera-t-ilmesurer un taux de chômage au sens
la collecte par questionnaire ? L’en- de la « Cohorte Constances » dedu BIT (Bureau international du
quête Emploi deviendrait alors une 200 000 patients avec la plate-formetravail) ainsi que l’emploi dit « inadé-
3 sorte de panel administratif perma- Plastico destinée à gérer les apparie-quat » . L’enquête Emploi permet
nent qui pourrait s’accroître de 9 000 ments entre diagnostics dans lesaussi de mener des analyses sociodé-
ménages par trimestre (18 000 après centres de santé, consommationsmographiques fines grâce à la
doublement de l’échantillon). médicales enregistrées par l’assu-richesse du questionnaire. Cepen-
rance maladie, carrières (Caissedant, l’analyse de l’emploi et du
nationale d’assurance vieillesse),chômage au niveau local n’est pas Explorons cette idée jusqu’au bout :
état civil (Insee) et causes de décèspossible avec cette source. De plus, ne serait-il pas possible également
(Inserm) ; autant dire un projet autre-le suivi individuel dans le temps est d’apparier ces données de manière
ment sensible et ambitieux que notreeffectué sur une durée trop courte rétrospective sur une période de quel-
proposition d’appariement dans lepour calculer les droits à presta- ques années antérieures ? Disposer
domaine de l’emploi.tions sociales ou analyser la dyna- par exemple d’une description des
mique de l’emploi au niveau situations professionnelles dans les
individuel ; cinq années qui précèdent serait une
3. Un individu est en situation d´emploi « inadéquat »information cruciale pour les écono-
s´il ne peut pas optimiser sa productivité suite à des
- le recensement rénové de la popula- mistes afin de simuler les prestations
contraintes autres que la durée effective du travail tel-
tion et les fichiers administratifs four- publiques auquel l’individu pourrait les que le faible niveau de rémunération, les mauvai-
ses conditions matérielles, l´inadéquationnissent quant à eux des estimations au prétendre au moment où il est interro-
formation-emploi, la difficulté d´accès au lieu du tra-
niveau local, par exemple par bassin gé lors de l’enquête Emploi. Cette vail, etc.
d’emploi, mais ne peuvent en information constituerait déjà une 4. La première communication de Catherine Quantin
proposant le transfert de ces méthodes de l’épidémio-revanche prétendre à mesurer le taux bonne base d’analyse des transferts
logie à la statistique publique date des Journées de
de chômage au sens du BIT, ni à une en direction des familles. méthodologie de décembre 2000 ; les pre-
mières applications à la statistique publique (loi deanalyse sociodémographique fine. Ils
1951) par Alain Goy et la Depp datent de 2004 ; leurne disposent pas en effet des variables Techniquement, on pourrait s’inspi-
enseignement à l’Ensai est intervenu pour la première
et des questions nécessaires. rer de la solution appliquée par fois au printemps 2009.
2 Courrier des statistiques n° 129, juin 2010Nathalie Picard, Benoît Riandey, Anne Solaz et Catherine Quantin
Une nouvelle architecture anonyme mais appariable après en clair. Il n’y a pas lieu de compliquer
des appariements décryptage déclenché par l’autorité ce qui est autorisé et réalisé avec
de contrôle. La statistique administra- souplesse, mais même ces panels
Dans sa mission protectrice, le tive française approcherait l’efficacité fondés sur le NIR pourraient de ce fait
hachage des identifiants ne permet de celle des pays nordiques férus bénéficier d’appariements avec des
que les appariements préalablement d’appariements, mais avec des procé- fichiers anonymes qui ne leur sont pas
définis à la mise en œuvre du projet. dures sécurisées anonymes. aujourd’hui autorisés.
Comment ne pas exclure technique-
ment un traitement ultérieur qui Certes, il ne s’agit pas de refuser le Si l’on mettait en place la validation
aurait l’aval de la Cnil ? maintien dans leur technique actuelle des identifiants sectoriels (tel l’INE) à
des opérations menées à l’aide du NIR l’aide du NIR haché (comme suggéré
Par exemple, pour la seule finalité
de recherche, les épidémiologistes
Encadré - Articuler les thèmes au niveau du ménage
peuvent souhaiter apparier des
fichiers de recherche initialement Trop souvent les économistes ne trouvent pas leur compte auprès des enquêtes
indépendants (par exemple une sociodémographiques. Ils en déplorent fréquemment l’absence d’informations
recherche exhaustive sur le diabète économiques essentielles comme le revenu, ou la faible qualité des informations
dans les fichiers d’assurance économiques disponibles.
maladie avec une recherche sur une
Les économistes réclament des informations essentielles sur la composition dumaladie aggravée par le diabète).
ménage, l’emploi et les ressources, sur des panels de taille et de durée suffisantes,
Mais le hachage d’emblée de l’iden-
dans lesquels les mêmes individus seraient suivis dans le temps (par opposition aux
tifiant avec deux clés différentes fait pseudo-panels).
obstacle à cet appariement.
Plus précisément, les informations généralement manquantes ou incomplètes
concernent par exemple :Catherine Quantin propose une solu-
tion que la profession a approuvée et
- l’offre de travail (salaire, durée hebdomadaire) des différents membres d’unqui, si elle était adoptée, renouvelle-
ménage, avec suivi des conjoints en cas de séparation et des «nouveaux» conjoints
rait profondément la statistique admi-
en cas de remise en couple après constitution du panel initial, avec continuité
nistrative : l’identifiant santé est d’observation en cas de non emploi (chômage, inactivité) ;
haché (de façon irréversible) dans - l’histoire démographique de l’individu tout au long de son cycle de vie, avec des
toutes les études épidémiologiques renseignements sur ses conjoints successifs, ses enfants, leur éducation, etc.
- l’historique des différentes résidences des individus ;avec la même clé, puis est crypté (de
- l’historique du patrimoine individuel/familial ;façon réversible) avec une clé spéci-
- des panels de consommation renseignant sur les consommations de chaquefique à chaque recherche conservée
membre du ménage.
par une autorité de gestion des clés
émanant de la Cnil. Pour un apparie- L’idéal, si l’on s’autorise à imaginer un monde idéal du point de vue des statisticiens
ment autorisé, le décryptage des et des économètres, serait évidemment d’avoir toutes ces informations pour les
identifiants permet de revenir à mêmes individus. Mais, avec moins d’exigences et plus de réalisme, pouvoir déjà
relier deux de ces domaines constituerait un pas en avant considérable.l’identifiant haché pour constituer le
fichier joint .
Quand la collecte ne peut prendre l’extension rêvée, il faut se résoudre à mettre en
place une vision simplifiée sous certaines hypothèses, c’est-à-dire sous un modèle.
Cette architecture, déjà mise en
Ainsi, les modèles de micro-simulation permettent de prédire les déplacements, la
œuvre pour la statistique de santé survie des populations, l’avenir des retraites, mais aussi les comportements de
suisse et par le service statistique de consommation ou d’offre de travail.
l’Éducation nationale française sur la
Néanmoins, s’ils constituent un bon outil pour élaborer des projections, évaluer lesbase de l’identifiant sectoriel INE
transferts publics, ou simuler des politiques économiques, ils restent limités pour(identifiant national des étudiants ou
5 étudier les interactions entre différents domaines. Ils représentent donc plutôt unélèves) est envisageable pour la
complément qu’un substitut à l’appariement.
statistique publique à une grande
échelle : tout fichier administratif Les individus effectuent tout au long de leur cycle de vie des choix ayant des
transmis à la statistique publique le implications à court, moyen et long termes sur eux-mêmes et sur les autres membres
serait avec son identifiant (le NIR de leur famille, ce qui implique de considérer les décisions jointes au sein du
ménage. Les appariements, s’ils permettaient de suivre sur une période assez longuelà où il existe) communément haché
les différents membres d’un ménage, pourraient, par exemple, permettre de mieuxet spécifiquement crypté, donc
comprendre certains comportements complexes, en particulier parce qu’ils
impliquent plusieurs acteurs ou plusieurs domaines. On peut penser par exemple
aux choix de localisation des ménages, aux investissements immobiliers, aux
décisions de fécondité, aux décisions conjointes d’offre de travail au cours du cycle
5. Cf. X. Hardy, « le projet FAERE », communication
de vie, aux transferts financiers au moment d’événements particuliers comme lorsau séminaire Appariements sécurisés de la SFdS, le16
d’un départ d’un grand enfant, d’une séparation conjugale.novembre 2009, site www.Sgds.asso- page groupe
Statistique et Société
Courrier des statistiques n° 129, juin 2010 3Les besoins des démo-économistes en matière d’appariements sécurisés
en 2007), cette architecture sécurisée Autorité de santé) à leur accès au NIR Bibliographie
s’étendrait à l’ensemble des identi- sous un de ses avatars, avec toutes les
fiants sectoriels. Bien sûr, la sécurité garanties apportées par leur finalité à
Ardilly P., « Panorama des principales mé-
d’un identifiant haché n’apporte la fois médicale, statistique et scienti-
thodes d’estimation sur les petits domaines »,
aucune garantie quant au caractère fique. Insee, , n° M0602,
potentiellement indirectement nomi- cours du Cepe, septembre 2006.
Chaleix M., Lollivier S., « Des panels pour lesnatif du fichier par recoupement entre L’enjeu mérite cette peine. L’article
statistiques sociales », Courrier des statistiques,variables. Cette vigilance reste néces- du Courrier des statistiques de mai
n° 113-114, p. 53-56, mars-juin 2005.
saire. 2007 apporte une vision renouvelée
Cnis, « Emploi, chômage, précarité. Mieux
de la qualité et des mises en mesurer pour mieux débattre et mieux agir. Pré-
connexion des identifiants secto- sentation du Rapport du groupe présidé par
7 Jean-Baptiste de Foucauld », n° 8,Engager riels . Quand, au début des années
p. 1-6, octobre 2008une réflexion collective 1980, la Cnil a imposé la sectorisation
n° 108, septembre 2008.
des identifiants, aucune solution n’a
Cnis, « Transcription en droit français de la
La mise en œuvre d’une telle archi- été apportée à leur validation ni à directive européenne n°95/46/CE du 24 oc-
tecture constituerait une vraie révo- l’éventualité d’échanges entre tobre 1995 », n° 55, janvier
2000.lution statistique. Elle supposerait et secteurs. Les techniques actuelles
Gensbittel M-H., Riandey B., Quantin C.,mériterait la reprise d’une concerta- permettent d’apporter une cohérence
« Appariements sécurisés : statisticiens
tion identique à celle menée en 1999 globale à cette politique.
ayez de l’audace ! »,
sur la transposition de la directive n° 121-122, p. 49-58, mai-décembre
européenne du 24 octobre 1995 à En conclusion, la réflexion des 2007.
Goldberg M., Quantin C., Guéguen A., Zinsl’initiative de la Commission de démo-économistes sur l’insuffisance
M., “Bases de données médico-administrativesdéontologie de la SFdS (Société fran- de données longitudinales disponi-
et épidémiologie : intérêts et limites »,
çaise de statistique), avec le Cnis, la bles les a conduits à réfléchir ambi-
n° 124, p. 59-70, mai-octobre
Cnil, l’Insee, les épidémiologistes et tieusement à des palliatifs, 2008.
d’autres chercheurs, qui a abouti le micro-simulations ou appariements Goy A., « L’appariement sécurisé de fichiers
6 d’étudiants grâce au hachage des identifiants »,6 août 2004 . Ce groupe de travail sécurisés de/avec des sources admi-
n° 113-114,s’est penché sur l’accès aux bases de nistratives. Souhaitons que leurs
p. 23-32 mars-juin 2005 et
sondages, mais il n’y fut jamais ques- demandes soient jugées nécessaires
vol 146 n°3, 2005.
tion de l’usage du NIR. C’est la Cnil qui et raisonnablement réalistes pour Gravel, N, C. Hagneré, N. Picard, A. Tran-
prit l’initiative d’infléchir l’article 18 qu’ils accèdent à de telles données. noy (2001), « Une évaluation de l’impact inci-
tatif et redistributif d’une réforme des minimade la loi de 1978 en l’article 27 de
sociaux », vol.celle de 2004 pour tenir compte des Cette réflexion les a portés à envisa-
XVI, p. 125-167.
usages différenciés du NIR, affirmant ger la relation, jamais antérieurement
Quantin C., « Méthodologie pour le chaî-
régulièrement que le NIR haché n’est soulignée, entre appariements sécuri- nage de données sensibles tout en respectant
pas le NIR et ne relève donc pas de sés d’enquête et de sources adminis- l’anonymat : application au suivi des informa-
e
tions médicales », VII Journées de Méthodo-l’obligation d’un décret en Conseil tratives avec les estimations sur petits
logie Statistique de l’Insee, session 3,d’État. domaines, validées par les estima-
décembre 2000 ou
tions d’enquête des extensions régio-
n°113-114, juin 2005 et Jo
Confrontés au besoin de rapprocher nales (enquête Santé 2000 ; enquête vol 146 n°3,
les diagnostics et les dépenses de Logement récente). 2005
Quantin C., Fassa M., Coatrieux G., Rian-santé dans le respect du secret médi-
dey B., Trouessin G., Allaert F.A., « Chainagecal, les épidémiologistes réfléchissent En définitive, leurs échanges avec les
de bases de données anonymisées pour les
donc avec la Cnil et la HAS (Haute épidémiologistes leur font espérer un
études épidémiologiques multicentriques na-
système de données administratives tionales et internationales : proposition d’un
anonymisées, mais systématique- algorithme cryptographique »,
6. Rappelons que c’est à la demande de ce groupe de vol 57,ment appariables après autorisation.
travail que la transcription de la directive a incorporé p. 33-39, 2009Le devoir de guérir des médecinsla reconnaissance des garanties apportées par les fina- Vallet L. A., (2005), « L’apport des échantil-
lités de statistique et de recherche scientifique ou his- produit à nouveau des solutions
lons longitudinaux des personnes : deux expé-
torique (article 6 de la loi modifiée) et, plus d’une grande utilité pour la statistique riences étrangères »,difficilement d’ailleurs, la dispense pour l’Insee et les
publique. n° 113-114, mars juin 2005.services statistiques ministériels de l’accord exprès
pour le recueil des données sensibles après avis du
Cnis (article 8, alinéa II.7). La communauté statistique
doit être particulièrement reconnaissante à Gérard
Lang pour avoir porté efficacement ces demandes au
cours des longues négociations interministérielles.
7. Les identifiants sectoriels créés à l’instigation de la
Cnil pour les impôts et l’Education nationale ont
souffert d’un grand nombre de doublons, un même
contribuable ou étudiant pouvant être enregistré sous
deux identifiants distincts. La validation de
l’identifiant sectoriel pourrait se faire à partir des seuls
NIR hachés.
4 Courrier des statistiques n° 129, juin 2010

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.