Appariements sécurisés et statistique (2000-2011) : une décennie d expériences
7 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Appariements sécurisés et statistique (2000-2011) : une décennie d'expériences

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
7 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

En novembre 2010 s'est tenu un séminaire sur les appariements sécurisés organisé par la Société française de statistiques (SFdS). C'est l'occasion ici de faire le point sur le recours à cette technique d'enrichissement des données statistiques au cours de la dernière décennie.

Sujets

Informations

Publié par
Nombre de lectures 45
Langue Français

Extrait

Appariements sécurisés et statistique
1(2000-2011) : une décennie d'expériences
Michel-Henri Gensbittel et Benoît Riandey , Université de Paris Sorbonne et Ined
Responsables du séminaire « Appariements sécurisés de la Société française de statistique »
En novembre 2010 s'est tenu un séminaire sur les appariements sécurisés organisé par la
Société française de statistique (SFdS). C'est l'occasion ici de faire le point sur le recours à
cette technique d'enrichissement des données statistiques au cours de la dernière décennie.
En décembre 2000, le professeur par les enquêtes spécifiques. Nos sitif de suivi de l'ensemble des trajec-
Catherine Quantin, épidémiologiste hôtes canadiens s'en font une obliga- toires scolaires au sein des principaux
responsable du Département d'infor- tion (Cloutier, 2010), les Néerlandais, systèmes de formation). Tous ces
mation médicale du CHU de Dijon, une nécessité (Bethlehem, 2010). fichiers administratifs constituent des
était invitée à présenter les techni- Plusieurs Etats membres de l'Union gisements riches de données statisti-
ques d'appariements sécurisés de européenne ont décidé de recenser ques concernant les ménages. Par
fichiers administratifs aux Journées de leur population à partir de registres : ailleurs, dans la sphère des entrepri-
méthodologie statistique de l'Insee. les Pays-Bas et l'ensemble des pays ses, l'Insee a récemment mis en
Le 16 novembre 2010, la Société nordiques. Mais, plus largement, œuvre le programme Resane (refonte
française de statistique (SFdS) organi- c'est la richesse des fichiers adminis- des statistiques annuelles d'entrepri-
2
sait, comme chaque année, un sémi- tratifs qui incite à ce développement, ses) dont un des objectifs principaux
naire afin de décrire les principales bien au-delà des statistiques est de recourir davantage aux sources
réalisations et les projets actuels de démographiques : il s'agit d'utiliser administratives, en particulier aux
cet outil d'enrichissement des simultanément et en toute légalité fichiers fiscaux et aux DADS (déclara-
données statistiques (encadré 1). La (encadré 2) les informations adminis- tions annuelles de données sociales)
décennie écoulée invite en effet à tratives individuelles issues de multi- (Brion, 2011).
établir un rapport d'étape sur sa diffu- ples sources comme les différents
sion dans la statistique publique fran- chapitres d'un questionnaire d'en-
çaise alors que, parallèlement, le quête. L'exemple des données
traitement des fichiers administratifs de l'assurance maladie
monte en puissance dans de nombreux Les exemples décrits dans l'article
pays, y compris la France. Les apparie- illustrent les potentialités de l'appa- Depuis 1998, avec le dispositif clas-
ments sécurisés peuvent-ils contribuer riement de fichiers mais aussi la sique du tiers de confiance (encadré 1),
vigoureusement à ce mouvement ? nécessité de sécuriser l'information et les l'Irdes (Institut de recherche et de
limites et risques à maîtriser (encadré 3). documentation en économie de la
Le symposium 2010 de Statistique santé) apparie son enquête Santé -
Canada était centré sur les « interac- Protection sociale avec les données
tions entre recensement, enquêtes et Le potentiel des fichiers de l'assurance maladie, et prochaine-
fichiers administratifs ». Tant pour des administratifs français ment avec des données des assuran-
raisons de rigueur budgétaire qu'en ces complémentaires (projet
raison d'une baisse des taux de Le système statistique français béné- expérimental Monaco). Depuis cette
réponse aux enquêtes, très marquée ficie de l'existence de nombreux date, le système d'information de l'as-
dans certains pays, les statisticiens fichiers administratifs et en fait plus surance maladie a fait l'objet d'une
publics voient l'avenir statistique largement usage que dans le passé. profonde évolution.
beaucoup plus porté par l'exploita- Citons par exemple les fichiers d'em-
tion des données administratives que ploi et de chômage, les données dites Présenté par F. Lenormand dans Le
médico-administratives de l'assu- Courrier des statistiques (2005), le
rance maladie, les sources fiscales et système d'information de l'assurance
éducatives. Alain Goy (2005) a par maladie repose sur une base de
1. Les propos tenus dans cet article n’engagent que
exemple impulsé le premier usage de données, le SNIIR-AM (systèmeleurs auteurs, qui remercient particulièrement
Catherine Quantin dont les idées et l’expérience pra- l'appariement déterministe dans la national inter-régimes d'information
tique ont alimenté leur réflexion. statistique publique française dans le de l'assurance maladie). Cette base
2. Pour un rappel de la signification des sigles, voir
vaste projet longitudinal Faere (dispo- rassemble l'ensemble des rembourse-annexe 1
Courrier des statistiques n° 131, septembre 2011 1Appariements sécurisés et statistique (2000-2011) : une décennie d’expériences
Encadré 1 - Appariements sécurisés : de quoi s’agit-il ?
Objectif : enrichissement, à des fins Enjeux : relier entre elles des informa- nus dans les différents fichiers avant leur
statistiques, de l’information concernant tions, même sensibles, avec l’accord de transmission pour appariement. Le fichier
des individus par rassemblement des la Cnil, pour constituer des bases de transmis est donc déjà anonymisé.
informations contenues sur eux dans des données statistiques autrement inaccessi- Concrètement, le hachage transforme,
fichiers administratifs ou médicaux diffé- bles ; éviter la multiplication d’enquêtes après le choix d’une clef, un identifiant en
rents (ou des versions successives des coûteuses ou difficiles à réaliser, en une suite absconse de caractères ne lais-
mêmes fichiers, constituant un histo- mobilisant des informations déjà existan- sant rien deviner de la variable initiale.
rique), comportant des éléments d’identi- tes, mais se trouvant dans des fichiers À la différence du cryptage, la connais-
fication communs. administratifs et/ou des fichiers d’enquê- sance simultanée de l’algorithme de
tes non reliés entre eux. hachage, de la clef et de l’identifiant
Contraintes : le fichier statistique résul- haché ne permet pas de reconstituer
tant des appariements ne doit contenir Outils : de longue date, sous l’appella- l’identifiant d’origine. Ainsi les informa-
que des données anonymes, qui ne sont tion appariement en tiers de confiance, tions relatives à la même personne dans
donc plus des données à caractère l’opération d’appariement sécurisé a été les différents fichiers se verront toujours
personnel soumises aux obligations de la confiée à des tiers de confiance (hommes attribuer le même identifiant haché dès
loi de 1978. Un identifiant peut être attri- ou robots) chargés de gérer des tables de lors qu’on aura utilisé la même clé de
bué à chaque individu, à condition qu’il correspondance confidentielles entre les hachage, ce qui permet leur apparie-
ne permette pas de retrouver son identité. différents identifiants. On parlera de ment. Au contraire, en l’ignorance de
Il fait alors bénéficier le statisticien de procédure en double aveugle quand le cette clé, l’identifiant haché serait tout
tous les avantages des fichiers nominatifs, tiers de confiance transforme les identi- autre ; l’appariement serait donc impos-
en respectant toutes les règles de confi- fiants sans avoir accès à l’ensemble des sible, ce qui empêche toute intrusion
dentialité. informations à rassembler sur la même d’un tiers indésirable.
personne. Personne ne dispose ainsi des
Limites : l’enrichissement des données identifiants et de l’ensemble des informa-
concernant des individus permet plus tions sur cette personne. L’appariement peut être déterministe en
facilement, même si les fichiers ne présence d’un identifiant commun fiable,
comportent pas d’identifiant direct, Depuis une quinzaine d’années, diverses ou probabiliste en l’absence d’identifiant
des inférences sur leur identité par méthodes cryptographiques dispensent ou en présence d’un identifiant de qualité
recoupement d’informations, ou leur du lourd détour par un tiers de confiance : incertaine. L’appariement probabiliste a
identification indirecte, dans des si le cryptage n’est q

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents