Glossaire du controle de la divulgation statistique

13 pages

Français

Glossaire du controle de la divulgation statistique

langagement - Aavv

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

13 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Version préliminaire du glossaire du controle de la divulgation statistique établi par un groupe d'experts participant aux sessions de travail CEE-NU/Eurostat sur la confidentialité des données statistiques.Glossaire en français

Sujets

Glossaire

Statistique

Contrôle

Français

Informations

Publié par	langagement
Publié le	04 juillet 2011
Nombre de lectures	249
Langue	Français

Extrait

GLOSSAIRE DU CONTRÔLE DE LA DIVULGATION STATISTIQUE Mark Elliot (University of Manchester) Anco Hundepool (Statistics Netherlands) Eric Schulte Nordholt (Statistics Netherlands) Jean-Louis Tambay (Statistique Canada) Thomas Wende (Destatis, Allemagne) Version préliminaire 4 novembre 2003

GlossaireFR.doc

Introduction Lidée de ce glossaire a été lancée à Luxembourg lors de la session de travail conjointe CEE-NU/Eurostat sur la confidentialité des données statistiques (7-9 avril 2003). Les cinq personnes qui lont élaboré étaient réunies à cette occasion et se sont également rencontrées le 18 août 2003 lors de la session de lIIS à Berlin. Leur objectif est de présenter un nouveau glossaire consacré au contrôle de la divulgation statistique en 2005, à la prochaine séance de travail conjointe CEE-NU/Eurostat sur la confidentialité des données statistiques. Dici là, des versions préliminaires seront diffusées, afin que les experts du monde entier dans ce domaine puissent les commenter. Le but de ce glossaire est double: aider les personnes qui débutent dans cette discipline à se familiariser avec la terminologie du contrôle de la divulgation statistique et servir de matériel didactique dans des cours consacrés à cette matière. Nous espérons que ce glossaire sera utile et que ces deux buts seront atteints. Si vous avez des commentaires ou des questions, nhésitez pas à les communiquer à Eric Schulte Nordholt (adresse électronique: ESLE@CBS.NL ) pour quil puisse en être tenu compte dans la version définitive.

2/13

A Accès restreint : limposition de conditions pour laccès aux microdonnées. Un utilisateur peut soit avoir accès à toute la gamme de données brutes protégées et traiter individuellement les informations qui lintéressent  ce qui est la situation idéale  soit avoir un accès restreint aux données protégées, auquel cas il ne peut accéder quà un certain nombre de tableaux, voire quà des tableaux ayant une certaine structure. Laccès restreint est parfois nécessaire pour faire en sorte quil ne puisse y avoir de dérivations entre des tableaux. Accord de licence : autorisation, accordée à certaines conditions à des chercheurs, dutiliser des données confidentielles à des fins spécifiques et pour une durée déterminée. Cet accord implique des obligations contractuelles et éthiques ainsi que des sanctions en cas de divulgation illicite dinformations identifiables. Ces sanctions peuvent aller du retrait de la licence et du refus de laccès à dautres ensembles de données jusquà la perte de la garantie déposée avant lobtention du fichier de microdonnées en cas de non-respect, par lutilisateur, des dispositions de laccord de licence. Un accord de licence saccompagne presque toujours de la conclusion dun contrat. Ce contrat comprend un certain nombre dexigences: détermination de lutilisation prévue des données; interdiction de transmettre le fichier de microdonnées à dautres; examen et approbation préalables, par lorganisme qui fournit les données, de tous les produits destinés aux utilisateurs avant leur publication ou leur diffusion; conditions et lieu de laccès aux données et sanctions applicables. Argus: deux progiciels de contrôle de la divulgation statistique portent le nom dArgus. µ-Argus est un outil logiciel spécialisé de protection des microdonnées. Les deux principales techniques employées dans ce domaine sont le recodage global et la suppression locale. Le recodage global consiste à fusionner plusieurs catégories dune variable en une seule. À travers la suppression locale, une ou plusieurs valeurs dune combinaison peu sûre sont supprimées, c.-à-d. remplacées par une «valeur manquante». Le recodage global et la suppression locale conduisent tous deux à une perte dinformations,

3/13

GlossaireFR.doc

dans la mesure où soit des informations moins détaillées sont fournies, soit certaines informations ne sont pas communiquées du tout. τ -Argus est un outil logiciel spécialisé de protection des données tabulaires. Il a pour objet la production de tableaux sûrs. Il emploie les deux mêmes techniques que µ-Argus: recodage global et suppression locale. Arrondi aléatoire : afin de réduire la quantité de données perdues lors de la suppression, dautres méthodes ont été étudiées en vue de protéger les cellules sensibles des tableaux de fréquence. Des méthodes de perturbation, telles que larrondi aléatoire et larrondi contrôlé constituent des exemples en la matière. Avec larrondi aléatoire, la valeur des cellules est arrondie, mais au lieu dappliquer des conventions darrondis déterminées, on décide de manière aléatoire deffectuer un arrondi vers le haut ou vers le bas. Au terme de cette opération, la nature additive du tableau est généralement perdue. Arrondi classique: lorsquon utilise larrondi classique à base fixe b = 5, le nombre est arrondi au chiffre le plus proche se terminant par 0 ou par 5. Ainsi, les nombres se terminant par 1 ou par 2 sont arrondis vers le bas et remplacés par des nombres finissant par 0, tandis que les nombres se terminant par 3 ou 4 sont arrondis vers le haut et remplacés par des nombres finissant par 5. Les nombres dont le dernier chiffre est 0 ou 5 ne changent pas. Arrondi contrôlé: pour résoudre le problème de ladditivité, une procédure appelée «arrondi contrôlé» a été mise au point. Il sagit dune forme darrondi aléatoire, qui est toutefois contraint de manière à ce que la somme des entrées publiées dans chaque ligne et chaque colonne soit égale aux totaux marginaux correspondants publiés. Des méthodes de programmation linéaire sont utilisées pour déterminer larrondi contrôlé dun tableau. Arrondi ordinaire : larrondi ordinaire est lexemple le plus simple. Les chiffres dun tableau peuvent, par exemple, être arrondis au multiple de 5 le plus proche. Lorsque les chiffres concernés sont très élevés, cette opération na guère deffet sur la valeur informative des tableaux. Si toutes les cellules dun tableau sont arrondies selon les mêmes règles, les totaux ne correspondent pas

toujours à la somme des cellules détaillées. Si on souhaite léviter, on peut arrondir les cellules les plus détaillées, puis les additionner pour obtenir les totaux aux divers niveaux. Arrondi : larrondi appartient à la catégorie des méthodes de contrôle de la divulgation fondées sur la perturbation de la production. Il est utilisé pour protéger contre la divulgation les nombres réduits contenus dans les données tabulaires. Le principe de cette méthode est darrondir chaque nombre vers le haut ou vers le bas, de manière déterministe ou probabiliste, au multiple entier le plus proche dune base darrondi entière. B Brouillage: le brouillage remplace une valeur déclarée par une moyenne. Il peut sopérer de nombreuses façons différentes. On peut choisir des groupes denregistrements pour calculer la moyenne en fonction dautres variables ou en sélectionnant la variable concernée. Le nombre denregistrements dun groupe (dont les données serviront à calculer la moyenne) peut être fixe ou aléatoire. La moyenne associée à un groupe particulier peut être attribuée à tous ses membres, ou au membre «médian» (comme dans une moyenne mobile). Cette opération peut porter sur plusieurs variables, avec des regroupements différents pour chacune. C CDS : les techniques de contrôle de la divulgation statistique peuvent être définies comme un ensemble de méthodes visant à réduire le risque de divulguer des informations sur des individus, des entreprises ou dautres organismes. Ces méthodes ne concernent que le stade de la diffusion et sont habituellement fondées sur une restriction de la quantité dinformations publiées. Cellule sensible : cellule dont la valeur, si elle était connue, permettrait une estimation trop précise de la contribution dun certain déclarant. Cellules confidentielles: les cellules d'un tableau qui ne sont pas publiables en raison du risque de divulgation statistique sont appelées cellules confidentielles. Par définition, il existe trois sortes de données confidentielles susceptibles d'être divulguées. En conséquence, les cellules

4/13

GlossaireFR.doc

confidentielles sont les suivantes: nombres réduits, prédominance et confidentialité secondaire. Clé didentification : les variables clés sont celles qui ont un pouvoir didentification plus important. Une combinaison de variables clés, utilisée pour identifier un individu, sera une «clé didentification». Confidentialité passive : pour les statistiques du commerce extérieur, les pays de lUE appliquent généralement le principe de la «confidentialité passive». Cela signifie qu'ils prennent les mesures appropriées uniquement à la demande des importateurs ou des exportateurs qui considèrent que leurs intérêts seraient lésés par la diffusion des données. Confidentialité primaire: elle couvre les données dont la diffusion permettrait l'identification d'une unité. Les deux principales raisons pour lesquelles des données peuvent être déclarées couvertes par la confidentialité primaire sont:  le faible nombre d'unités dans une cellule;  la prédominance d'une ou de deux unités dans une cellule. Les limites de «faible nombre» et de «prédominance» varient selon le domaine statistique considéré. Confidentialité secondaire : concerne les données non couvertes par la confidentialité primaire, mais dont la diffusion permettrait l'identification d'une unité par combinaison avec d'autres données. Consentement éclairé : principe éthique fondamental de la recherche scientifique sur les populations humaines. Les sociologues neffectuent pas de recherches portant sur un être humain sans le consentement éclairé de celui-ci ou de son représentant légal, sauf indication contraire du présent code. D Diffusion : fourniture de données sous quelque forme que ce soit: publication, accès aux bases de données, microfiches, communication par téléphone, etc.

Divulgation approximative: il y a divulgation approximative si un utilisateur est en mesure de déterminer un estimateur qui est proche de la valeur réelle. Si lestimateur correspond à la valeur réelle, il y a divulgation exacte. Divulgation complète: synonyme de divulgation exacte. Divulgation dattributs: il y a divulgation dattributs lorsque des informations confidentielles sur une personne sont révélées et peuvent être attribuées à cette personne. La divulgation dattributs peut se produire lorsque des informations confidentielles sont révélées de manière exacte ou peuvent faire lobjet dune estimation proche de la valeur exacte. En conséquence, la divulgation dattributs inclut lidentification de la personne concernée et la divulgation dinformations confidentielles relatives à celle-ci. La divulgation dattributs est la forme de divulgation qui constitue la préoccupation première des INS pour leurs données tabulaires. Des méthodes de limitation de la divulgation appliquées aux tableaux assurent que les données des déclarants ne sont publiées quagrégées à celles dun nombre suffisant dautres déclarants, afin de prévenir la divulgation dattributs. Divulgation didentité : il y a divulgation didentité si un tiers peut identifier un sujet ou un déclarant à partir des données publiées. Révéler quun individu est un déclarant ou une personne concernée par une collecte de données peut éventuellement constituer une violation des exigences de confidentialité. Dans le cas des tableaux, la révélation de lidentité ne constitue généralement pas une divulgation, sauf si lidentification conduit à divulguer des informations confidentielles (divulgation dattributs) sur les individus identifiés. Divulgation exacte : il y a divulgation exacte quand l'utilisateur d'une statistique est en mesure de déterminer l'attribut exact d'une entité individuelle représentée dans un ensemble de données. Divulgation par appariement : la divulgation peut être réalisée à laide de clés à haute résolution, en appariant lensemble de données et un répertoire contenant les clés ainsi que les noms et les adresses.

5/13

GlossaireFR.doc

Divulgation par connaissance de la réponse : connaissance du fait quune personne a été interrogée dans le cadre dune enquête particulière; si un investigateur sait quun certain individu a participé à lenquête, et donc que les informations le concernant figurent dans lensemble de données, lidentification et la divulgation peuvent être facilitées. Divulgation par déduction : il y a divulgation par déduction lorsque des informations peuvent être déduites, avec un degré de confiance élevé, de propriétés statistiques des données publiées. Par exemple, les données peuvent indiquer une forte corrélation entre le revenu et le prix dachat du domicile. Cette dernière information étant généralement publique, un tiers pourrait lutiliser pour déduire le revenu dun individu. Dune manière générale, les INS ne sont pas concernés par la divulgation par déduction, et ce pour deux raisons: premièrement, lun des buts essentiels des données statistiques est de permettre aux utilisateurs de déduire et de comprendre les relations entre les variables. Si les INS assimilaient la déduction à la divulgation, aucune donnée ne pourrait être publiée. Deuxièmement, les déductions visent à prévoir le comportement dagrégats et non des attributs individuels, et donc, souvent, ne permettent guère de déterminer la valeur des données individuelles. Divulgation par reconnaissance spontanée : reconnaissance dindividus rares, la divulgation pouvant être accidentelle. Divulgation partielle : synonyme de divulgation approximative. Divulgation statistique : il y a divulgation statistique si la diffusion d'une statistique permet à l'utilisateur extérieur des données d'effectuer une meilleure estimation d'une information confidentielle qu'il n'aurait pu le faire sans cette diffusion. Divulgation : attribution inappropriée dinformations à un sujet, quil sagisse dun individu ou dun organisme. Divulgations basées sur la probabilité (approximatives ou exactes) : parfois, bien quun fait ne soit pas divulgué de manière certaine, les données publiées peuvent être utilisées pour formuler une déclaration qui, dans le

cadre dun modèle de probabilité implicite, a une forte probabilité dêtre correcte. Données à caractère personnel : toute information concernant une personne physique identifiée ou identifiable (personne concernée); est réputée identifiable une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro d'identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale. Une personne physique n'est pas considérée comme «identifiable» si cette identification nécessite des délais ou des activités déraisonnables. Lorsqu'une personne physique n'est pas identifiable, les données sont dites anonymes. Données anonymisées: des microdonnées sont dites «anonymisées» si tous les enregistrements de ces microdonnées sont anonymisés. Données confidentielles: les données sont considérées comme confidentielles lorsqu'elles permettent l'identification, directe ou indirecte, d'unités statistiques, ce qui aurait pour effet de divulguer des informations individuelles. Pour déterminer si une unité statistique est identifiable, il est tenu compte de tous les moyens qui pourraient raisonnablement être utilisés par un tiers pour identifier ladite unité statistique. Les données confidentielles permettent donc uniquement l'identification indirecte des unités statistiques auxquelles elles se rapportent. Données didentification : les données personnelles qui permettent lidentification directe de la personne concernée et qui sont nécessaires pour la collecte, la vérification et lappariement des données, mais qui ensuite ne sont pas utilisées pour établir des résultats statistiques. Données restreintes : la confidentialité de certaines informations peut être protégée en limitant la quantité dinformations dans les tableaux et les fichiers de microdonnées publiés. Données tabulaires : informations agrégées relatives à des entités individuelles. E

6/13

GlossaireFR.doc

Échantillonnage : publication uniquement dune faible proportion des données dorigine sous la forme dun fichier de microdonnées. Empreinte : combinaison (ensemble) de valeurs prises par des variables didentification qui sont uniques dans lensemble de microdonnées en question et qui, en outre, ne contiennent aucun sous-ensemble proprement dit possédant cette propriété (il sagit donc dun ensemble minimal ayant la propriété dunicité). Le fait quune combinaison de valeurs constitue ou non une empreinte dépend donc de lensemble de microdonnées dans lequel elles se trouvent. Lidée est que les enregistrements qui contiennent «beaucoup» dempreintes «courtes» sont «risqués» et ne devraient pas être publiés. Bien entendu, il appartient au responsable de la protection des données de décider quand une empreinte est «courte» et quand un enregistrement contient «beaucoup» dempreintes. Enregistrement unique spécial : enregistrement unique dans léchantillon par rapport à lensemble de variables clés T qui est également unique dans léchantillon par rapport à lensemble de variables t, sous-ensemble de T. Enregistrements anonymisés: lidée est de supprimer de chaque enregistrement les identificateurs directs avant la diffusion des microdonnées. Après lanonymisation, un déclarant ne peut être identifié quà laide de ses variables didentification. Un enregistrement est dit «totalement anonymisé» lorsquil est tellement bien protégé quaucune information sensible sur un individu ou une entreprise ne peut être déduite. Il est dit «partiellement anonymisé» sil est partiellement protégé, en dautres termes sil subsiste un certain risque que des informations sensibles sur les individus ou les entreprises puissent être déduites. Il convient, donc, de modifier les enregistrements statistiques individuels afin de minimiser, selon les meilleures pratiques actuelles, le risque d'identification des unités statistiques auxquels ils se rapportent. F G H

GlossaireFR.doc tenu compte à la fois des aspects physiques et I informatiques de la sécurité. Linstallation sur place inclut également des infrastructures Identificateurs formels : le nom et ladresse du adméinistrrsa, tiveet s aet de soutien aux utilisateurs déclarant, ou un numéro de registre de la ext rieu ssure le respect des conditions population. Si linvestigateur connaît lidentificateur convenues pour laccès aux données. formel, il lui est directement possible didentifier Intrus : utilisateur extérieur qui tente détablir un un individu cible, sans devoir acquérir des connaissances supplémentaires avant dexaminer limeinc roednotrnen éuens . déclarant et un enregistrement de les microdonnées. Identification directe: identification d'une unité J statistique à partir de son nom, de son adresse ou d'un numéro d'identification officiellement attribué K et rendu public. Identification indirecte : possibilité de déduire L lidentité dune unité statistique autrement que par identification directe. M Identification : elle intervient sil est possible Macrodonnées : synonyme de données détablir une relation univoque correcte entre un tabulaires. enregistrement contenu dans les microdonnées et un individu. Si lenregistrement diffusé dans un Méthode de la dérogation : au lieu de fichier de microdonnées inclut des identificateurs supprimer des données, certains organismes formels tels que le nom et ladresse, alors demandent aux déclarants lautorisation de publier lidentification du déclarant est possible des cellules même si elles sont sensibles. On instantanément pour linvestigateur. Toutefois, les appelle cette façon de procéder la «méthode de la identificateurs formels sont généralement retirés dérogation». Les dérogations sont les documents des microdonnées avant la diffusion. En signés par les déclarants afin dautoriser la conséquence, la seule possibilité détablir un lien publication. Cette méthode a son utilité maximale correct repose sur une connaissance préalable des dans le cas denquêtes de faible envergure ou de valeurs des quasi-identificateurs de lindividu cible. jeux de tableaux ne contenant que quelques Si tous les identificateurs formels sont supprimés petites cellules, pour lesquelles seul un faible et que lintrus na pas dinformations préalables sur nombre de dérogations est nécessaire. Bien le déclarant cible, lidentification est impossible. entendu, pour signer les dérogations, les déclarants doivent considérer que les données ne INS : institut national de statistique. sont pas particulièrement sensibles. Installation sur place : installation établie dans Méthodes basées sur des perturbations : les les locaux de divers INS. Il sagit dun lieu où des méthodes basées sur des perturbations falsifient chercheurs extérieurs peuvent obtenir laccès à les données avant leur publication en y des données confidentielles, dans le cadre introduisant délibérément un élément d'erreur daccords contractuels régissant le respect de la pour des raisons de confidentialité. L'erreur peut confidentialité et instaurant des contrôles stricts être introduite dans les valeurs des cellules après sur les utilisations qui peuvent être faites des la création du tableau, ce qui signifie qu'elle est données. Linstallation sur place peut être vue introduite dans la production de données (on comme un «espace sécurisé» dans lequel on peut parlera alors de perturbations de la production). analyser des données confidentielles. Linstallation Elle peut également être introduite dans les en tant que telle consiste dans un environnement informations initiales au niveau des microdonnées de travail et de stockage de données hermétique, qui entrent dans l'établissement des tableaux que dans lequel la confidentialité des données l'on souhaite créer (on parlera alors de destinées à la recherche peut être assurée. Il est perturbations des données; en fait, l'expression 7/13

«perturbations des informations de base» est plus correcte, mais elle est rarement utilisée). Les méthodes suivantes peuvent être appliquées:  arrondi;  perturbations aléatoires;  méthodes de prévention de la violation du secret pour les microstatistiques appliquées aux données tabulaires. Méthodes basées sur des restrictions : techniques par lesquelles on réduit le contenu de l'information fournie aux utilisateurs des données tabulaires, en ne publiant pas l'ensemble des chiffres dérivés des données collectées ou en publiant des informations moins détaillées que ne le permettraient les données brutes, en vue d'assurer la protection des données dans des cas confidentiels. Méthodes de divulgation basées sur des perturbations : techniques de publication des données tabulaires consistant à modifier les données avant leur diffusion, de façon à ce que le risque de divulgation des données confidentielles soit réduit, mais que le contenu en informations soit préservé autant que possible. Méthodes de protection contre la violation du secret : deux grandes méthodes peuvent être appliquées pour assurer la protection contre la violation du secret. La première consiste à réduire le contenu en informations des données fournies à l'utilisateur extérieur. Dans le cas des données tabulaires, cette méthode est appelée «protection contre la violation du secret sur la base de restrictions»; dans le cas des microdonnées, on parlera de protection contre la violation du secret « par la réduction des données». La seconde méthode consiste à modifier les données avant leur diffusion, de façon à ce que le risque de divulgation des données confidentielles soit réduit, mais que le contenu en informations soit préservé autant que possible. Dans le cas des données tabulaires, on parlera de méthodes basées sur les perturbations et, dans le cas des microdonnées, de méthodes faisant appel à la modification des données. Micro-agrégation : les enregistrements sont groupés en fonction dune mesure de proximité de toutes les variables concernées, et les mêmes groupes restreints denregistrements sont utilisés pour calculer les agrégats de ces variables.

8/13

GlossaireFR.doc

Microdonnées : un ensemble de microdonnées est un ensemble denregistrements contenant des informations sur des déclarants ou des entités économiques déterminés. Mise en forme des données en vue dassurer la confidentialité (confidentiality edit): procédure mise au point par le Bureau du recensement des États-Unis afin dassurer la protection des tableaux établis à partir du recensement de 1990. Il existe deux méthodes différentes: lune a été employée pour les données du recensement décennal régulier, lautre pour le formulaire «long» du recensement, rempli par un échantillon de la population. Toutes deux reposent sur lapplication de techniques de limitation de la divulgation statistique aux fichiers de microdonnées avant quils ne servent à établir des tableaux. Les fichiers modifiés ne sont pas publiés, ils sont utilisés uniquement pour confectionner des tableaux. Dans le cas du fichier contenant 100 % des microdonnées, la mise en forme en vue dassurer la confidentialité consiste dans la «permutation» de données. On procède de la manière suivante: premièrement, on extrait un échantillon denregistrements du fichier de microdonnées; deuxièmement, on trouve une correspondance pour ces enregistrements dans une autre région géographique, en fonction dun ensemble déterminé dattributs importants; troisièmement, on permute tous les attributs des enregistrements mis en correspondance. Pour les petits blocs de données, le Bureau augmente le taux de sondage afin dassurer une protection supplémentaire. Une fois que le fichier de microdonnées a fait lobjet dun tel traitement, il peut être utilisé directement pour établir des tableaux, aucune analyse supplémentaire de divulgation statistique nétant nécessaire. Le fichier des données relatives à léchantillon concerne  par définition  uniquement un échantillon de la population et, comme on la remarqué précédemment, léchantillonnage assure la protection de la confidentialité. Des études ont montré que cette protection était suffisante, sauf dans des régions géographiques restreintes. Pour accroître la protection dans de tels cas, un ménage a été sélectionné de manière aléatoire et un échantillon de ses champs de données a été effacé. Ces champs ont ensuite été remplacés par des valeurs imputées. Après avoir fait lobjet dun tel traitement, le fichier de microdonnées est utilisé directement pour établir des tableaux,

GlossaireFR.doc aucune analyse supplémentaire de divulgation la confidentialité en ce qui concerne les tableaux statistique nétant nécessaire. Le but de la mise en de fréquence. forme des données en vue dassurer la confidentialité est de protéger les tableaux de Perturbation aléatoire : méthode de contrôle de fréquence contre la divulgation. Pour ce faire, des la divulgation consistant à ajouter un bruit, sous la modifications sont apportées au fichier de forme dune variable aléatoire, à la valeur réelle microdonnées avant létablissement des tableaux. dans un tableau à double entrée, puis à remplacer la valeur réelle par la valeur perturbée. N Perturber les données : ce procédé implique que O lon modifie les chiffres dun tableau de manière systématique, de telle sorte que leur exactitude soit insuffisante pour divulguer des informations P sur les cas individuels, mais quils ne soient pas faussés au point de porter atteinte à la valeur PDS : la protection des données statistiques est un informative du tableau. concept plus général que le contrôle de la divulgation statistique et prend en compte les trois Problème de divulgation : un problème de stades de la production. La PDS est pdirvéulgae tiond e se l'ipnrféosremntaeti osni ucnoen fiedsetinmtiaeltlieo n tdr'oupn multidisciplinaire et allie linformatique (sécurité déccliasrant est possible. des données), la statistique et la recherche opérationnelle. Processus de couplage des enregistrements : Permutation de données: méthode de contrôle processus par lequel on sefforce de classer les de la divulgation utilisée pour la publication de fpiacihresr sd Au ne t eBs,p adcaen sp rMo,d uliet nAsxeBm, brlée sduletsa nlite ndse vdreaiusx, microdonnées et reposant sur une modification et Ui,e lensemble de liens non vrais. des données. Dans la littérature, elle est également appelée «transformation Protection contre la violation d secret sur multidimensionnelle». Il sagit dune technique de u transformation qui garantit le maintien dun l d a e b d a o s n e n é d e e s r t e a s b t u r l i a c i t r i e o s n s q:u i mcétohnosidset e deà pruébdliuciraeti olne ensemble de statistiques. contenu en informations des données fournies à Permutation de rang : la permutation de rang l'utilisateur extérieur. permet dutiliser des variablesn ts cào nptienrumeust erp. oAuur Protection de la vie privée : la protection de la définir les paires denregistreme vie pri ée est u v n concept qui sapplique aux lieu de devoir correspondre (exactement), les evant re o personnes concernées, tandis que la confidentialité évtarroiiatbelemse nts osnutr ledéfi nireos xicmoitmé msuer udne liste clapssséeer a trait aux données. Il est défini de la manière en fonction deu rlpa variable continue. Les suivante: «statut accordé aux données, décidé enregistrements dont le rang est proche pour ce dun commun accord par la personne ou ituent l aire lorganisme qui fournit les données et lorganisme qui est de la variable classée const es p s qui les reçoit, et décrivant le degré de protection à permuter. Lors de la permutation de rang, cest souvent la variable utilisée r le classem qui sera assuré.» Il existe une relation claire entre e utée. pou ent qui la confidentialité et la protection de la vie privée. est p rm La violation de la confidentialité peut entraîner une Permutati ermutation consiste à divulgation de données qui nuit à lindividu. Cest on : lah antpillon denreune atteinte à la vie privée, dans la mesure où il sélectionner un écsongistrements, à sagit dune ingérence dans la manière dont une tdroonunvéere s uenne focnocrtrieonp dudna necne sedmabnlse ldae vbaarsiea bldese personne détermine comment ses données prédéterminées et à permuter toutes les autres personnelles sont utilisées. s. L ermutatio vdaer ilaa blmeise ean pforme des nd oan nétéée si lleuns tvréuee dà apsrsouproers Protection primaire : protection qui consiste dans lapplication de méthodes de contrôle de la divulgation statistique à toutes les cellules 9/13

contenant des nombres réduits et des cas de prédominance. Q Quasi-identificateurs : ces identificateurs sont des variables telles que lâge, le sexe, létat civil, la nationalité, la région de domicile, lactivité professionnelle, etc. Lidentification à laide de ces quasi-identificateurs nest pas possible de manière directe. Lintrus doit connaître les caractéristiques de lindividu cible ou doit avoir accès à ces informations avant dutiliser le fichier de microdonnées; en dautres termes, lintrus doit avoir une connaissance préalable de lensemble ou dune partie des quasi-identificateurs de lindividu cible. R Recodage global : les problèmes de confidentialité peuvent souvent être résolus en modifiant la structure des tableaux de manière à éliminer la possibilité de divulgation. On peut, par exemple, combiner des lignes ou des colonnes pour obtenir des intervalles de classe plus grands ou de nouveaux regroupements de caractéristiques. Cette solution peut être plus simple que la suppression de certains éléments, mais elle a tendance à réduire la valeur descriptive et analytique du tableau. Cette technique de protection, qui réduit le risque de reconnaissance dinformations sur des individus ou des entreprises en fusionnant des catégories de variables didentification, peut également être employée pour protéger des microdonnées. Recodage : le fait de recoder des variables selon des catégories de classification plus vastes afin de réduire le niveau de détail. Règle (n,k) : une cellule est considérée comme confidentielle si les n unités les plus importantes interviennent pour plus de k % dans le total de la cellule. Les valeurs de n et de k sont données par l'autorité statistique et peuvent varier considérablement. Ainsi, on peut avoir n = 2 et k = 85, ce qui signifie qu'une cellule est définie comme confidentielle si les deux unités les plus importantes interviennent pour plus de 85 % dans le total de la cellule.

10/13

GlossaireFR.doc

Règle (p,q) : il est supposé que, sur la base des informations librement disponibles, la contribution d'une entité au total de la cellule peut être estimée avec une marge de p pour cent (p = erreur avant publication); après la publication des statistiques, la valeur peut être estimée avec une marge de q pour cent (q = erreur après publication). Dans la règle (p,q), le ratio p/q représente le gain d'information réalisé par la publication. Si le gain d'information est inacceptable, la cellule est déclarée confidentielle. La valeur des paramètres p et q est donnée par l'autorité statistique, et définit donc le niveau acceptable du gain d'information. Règle avant/après publication : synonyme de règle (p,q). Règle de concentration: synonyme de règle (n,k). Règle de lambiguïté: synonyme de règle (p,q). Règle de prédominance : synonyme de règle (n,k). Règle de seuil : selon la règle de seuil, une cellule dun tableau de fréquence est définie comme sensible si le nombre de déclarants est inférieur à un nombre déterminé. Certains organismes exigent au moins cinq déclarants par cellule, dautres trois. Un organisme peut restructurer des tableaux et combiner des catégories, ou recourir à la suppression de cellules, à larrondi aléatoire ou contrôlé, ou encore à la mise en forme des données en vue dassurer la confidentialité. Regroupement des valeurs extrêmes supérieures et inférieures: cette opération consiste à fixer des codes supérieurs ou inférieurs pour les variables continues. Un code supérieur est une limite supérieure sappliquant à toutes les valeurs publiées de la variable concernée. Toute valeur qui excède cette limite est remplacée par le code supérieur lui-même ou nest pas publiée du tout dans le fichier de microdonnées. De même, un code inférieur est une limite inférieure sappliquant à toutes les valeurs publiées dune variable. Réponse aléatoire : technique utilisée pour collecter des informations sensibles auprès dindividus, en vertu de laquelle les enquêteurs et les personnes qui traitent les données ne savent