Version préliminaire du glossaire du controle de la divulgation statistique établi par un groupe d'experts participant aux sessions de travail CEE-NU/Eurostat sur la confidentialité des données statistiques.Glossaire en français
GLOSSAIRE DU CONTRÔLE DE LA DIVULGATION STATISTIQUE Mark Elliot (University of Manchester) Anco Hundepool (Statistics Netherlands) Eric Schulte Nordholt (Statistics Netherlands) Jean-Louis Tambay (Statistique Canada) Thomas Wende (Destatis, Allemagne) Version préliminaire 4 novembre 2003
GlossaireFR.doc
IntroductionLidée de ce glossaire a été lancée à Luxembourg lors de la session de travail conjointe CEE-NU/Eurostat sur la confidentialité des données statistiques (7-9 avril 2003). Les cinq personnes qui lont élaboré étaient réunies à cette occasion et se sont également rencontrées le 18 août 2003 lors de la session de lIIS à Berlin. Leur objectif est de présenter un nouveau glossaire consacré au contrôle de la divulgation statistique en 2005, à la prochaine séance de travail conjointe CEE-NU/Eurostat sur la confidentialité des données statistiques. Dici là, des versions préliminaires seront diffusées, afin que les experts du monde entier dans ce domaine puissent les commenter. Le but de ce glossaire est double: aider les personnes qui débutent dans cette discipline à se familiariser avec la terminologie du contrôle de la divulgation statistique et servir de matériel didactique dans des cours consacrés à cette matière. Nous espérons que ce glossaire sera utile et que ces deux buts seront atteints. Si vous avez des commentaires ou des questions, nhésitez pas à les communiquer à Eric Schulte Nordholt (adresse électronique: ESLE@CBS.NL ) pour quil puisse en être tenu compte dans la version définitive.
2/13
A Accès restreint : limposition de conditions pour laccès aux microdonnées. Un utilisateur peut soit avoir accès à toute la gamme de données brutes protégées et traiter individuellement les informations qui lintéressent ce qui est la situation idéale soit avoir un accès restreint aux données protégées, auquel cas il ne peut accéder quà un certain nombre de tableaux, voire quà des tableaux ayant une certaine structure. Laccès restreint est parfois nécessaire pour faire en sorte quil ne puisse y avoir de dérivations entre des tableaux. Accord de licence : autorisation, accordée à certaines conditions à des chercheurs, dutiliser des données confidentielles à des fins spécifiques et pour une durée déterminée. Cet accord implique des obligations contractuelles et éthiques ainsi que des sanctions en cas de divulgation illicite dinformations identifiables. Ces sanctions peuvent aller du retrait de la licence et du refus de laccès à dautres ensembles de données jusquà la perte de la garantie déposée avant lobtention du fichier de microdonnées en cas de non-respect, par lutilisateur, des dispositions de laccord de licence. Un accord de licence saccompagne presque toujours de la conclusion dun contrat. Ce contrat comprend un certain nombre dexigences: détermination de lutilisation prévue des données; interdiction de transmettre le fichier de microdonnées à dautres; examen et approbation préalables, par lorganisme qui fournit les données, de tous les produits destinés aux utilisateurs avant leur publication ou leur diffusion; conditions et lieu de laccès aux données et sanctions applicables. Argus: deux progiciels de contrôle de la divulgation statistique portent le nom dArgus. µ-Argus est un outil logiciel spécialisé de protection des microdonnées. Les deux principales techniques employées dans ce domaine sont le recodage global et la suppression locale. Le recodage global consiste à fusionner plusieurs catégories dune variable en une seule. À travers la suppression locale, une ou plusieurs valeurs dune combinaison peu sûre sont supprimées, c.-à-d. remplacées par une «valeur manquante». Le recodage global et la suppression locale conduisent tous deux à une perte dinformations,
3/13
GlossaireFR.doc
dans la mesure où soit des informations moins détaillées sont fournies, soit certaines informations ne sont pas communiquées du tout. τ -Argus est un outil logiciel spécialisé de protection des données tabulaires. Il a pour objet la production de tableaux sûrs. Il emploie les deux mêmes techniques que µ-Argus: recodage global et suppression locale. Arrondi aléatoire : afin de réduire la quantité de données perdues lors de la suppression, dautres méthodes ont été étudiées en vue de protéger les cellules sensibles des tableaux de fréquence. Des méthodes de perturbation, telles que larrondi aléatoire et larrondi contrôlé constituent des exemples en la matière. Avec larrondi aléatoire, la valeur des cellules est arrondie, mais au lieu dappliquer des conventions darrondis déterminées, on décide de manière aléatoire deffectuer un arrondi vers le haut ou vers le bas. Au terme de cette opération, la nature additive du tableau est généralement perdue. Arrondi classique: lorsquon utilise larrondi classique à base fixe b = 5, le nombre est arrondi au chiffre le plus proche se terminant par 0 ou par 5. Ainsi, les nombres se terminant par 1 ou par 2 sont arrondis vers le bas et remplacés par des nombres finissant par 0, tandis que les nombres se terminant par 3 ou 4 sont arrondis vers le haut et remplacés par des nombres finissant par 5. Les nombres dont le dernier chiffre est 0 ou 5 ne changent pas. Arrondi contrôlé: pour résoudre le problème de ladditivité, une procédure appelée «arrondi contrôlé» a été mise au point. Il sagit dune forme darrondi aléatoire, qui est toutefois contraint de manière à ce que la somme des entrées publiées dans chaque ligne et chaque colonne soit égale aux totaux marginaux correspondants publiés. Des méthodes de programmation linéaire sont utilisées pour déterminer larrondi contrôlé dun tableau. Arrondi ordinaire : larrondi ordinaire est lexemple le plus simple. Les chiffres dun tableau peuvent, par exemple, être arrondis au multiple de 5 le plus proche. Lorsque les chiffres concernés sont très élevés, cette opération na guère deffet sur la valeur informative des tableaux. Si toutes les cellules dun tableau sont arrondies selon les mêmes règles, les totaux ne correspondent pas
toujours à la somme des cellules détaillées. Si on souhaite léviter, on peut arrondir les cellules les plus détaillées, puis les additionner pour obtenir les totaux aux divers niveaux. Arrondi : larrondi appartient à la catégorie des méthodes de contrôle de la divulgation fondées sur la perturbation de la production. Il est utilisé pour protéger contre la divulgation les nombres réduits contenus dans les données tabulaires. Le principe de cette méthode est darrondir chaque nombre vers le haut ou vers le bas, de manière déterministe ou probabiliste, au multiple entier le plus proche dune base darrondi entière. B Brouillage: le brouillage remplace une valeur déclarée par une moyenne. Il peut sopérer de nombreuses façons différentes. On peut choisir des groupes denregistrements pour calculer la moyenne en fonction dautres variables ou en sélectionnant la variable concernée. Le nombre denregistrements dun groupe (dont les données serviront à calculer la moyenne) peut être fixe ou aléatoire. La moyenne associée à un groupe particulier peut être attribuée à tous ses membres, ou au membre «médian» (comme dans une moyenne mobile). Cette opération peut porter sur plusieurs variables, avec des regroupements différents pour chacune. C CDS : les techniques de contrôle de la divulgation statistique peuvent être définies comme un ensemble de méthodes visant à réduire le risque de divulguer des informations sur des individus, des entreprises ou dautres organismes. Ces méthodes ne concernent que le stade de la diffusion et sont habituellement fondées sur une restriction de la quantité dinformations publiées. Cellule sensible : cellule dont la valeur, si elle était connue, permettrait une estimation trop précise de la contribution dun certain déclarant. Cellules confidentielles: les cellules d'un tableau qui ne sont pas publiables en raison du risque de divulgation statistique sont appelées cellules confidentielles. Par définition, il existe trois sortes de données confidentielles susceptibles d'être divulguées. En conséquence, les cellules
4/13
GlossaireFR.doc
confidentielles sont les suivantes: nombres réduits, prédominance et confidentialité secondaire. Clé didentification : les variables clés sont celles qui ont un pouvoir didentification plus important. Une combinaison de variables clés, utilisée pour identifier un individu, sera une «clé didentification».Confidentialité passive : pour les statistiques du commerce extérieur, les pays de lUE appliquent généralement le principe de la «confidentialité passive». Cela signifie qu'ils prennent les mesures appropriées uniquement à la demande des importateurs ou des exportateurs qui considèrent que leurs intérêts seraient lésés par la diffusion des données. Confidentialité primaire: elle couvre les données dont la diffusion permettrait l'identification d'une unité. Les deux principales raisons pour lesquelles des données peuvent être déclarées couvertes par la confidentialité primaire sont: le faible nombre d'unités dans une cellule; la prédominance d'une ou de deux unités dans une cellule. Les limites de «faible nombre» et de «prédominance» varient selon le domaine statistique considéré. Confidentialité secondaire : concerne les données non couvertes par la confidentialité primaire, mais dont la diffusion permettrait l'identification d'une unité par combinaison avec d'autres données. Consentement éclairé : principe éthique fondamental de la recherche scientifique sur les populations humaines. Les sociologues neffectuent pas de recherches portant sur un être humain sans le consentement éclairé de celui-ci ou de son représentant légal, sauf indication contraire du présent code. D Diffusion : fourniture de données sous quelque forme que ce soit: publication, accès aux bases de données, microfiches, communication par téléphone, etc.
Divulgation approximative: il y a divulgation approximative si un utilisateur est en mesure de déterminer un estimateur qui est proche de la valeur réelle. Si lestimateur correspond à la valeur réelle, il y a divulgation exacte. Divulgation complète: synonyme de divulgation exacte. Divulgation dattributs: il y a divulgation dattributs lorsque des informations confidentielles sur une personne sont révélées et peuvent être attribuées à cette personne. La divulgation dattributs peut se produire lorsque des informations confidentielles sont révélées de manière exacte ou peuvent faire lobjet dune estimation proche de la valeur exacte. En conséquence, la divulgation dattributs inclut lidentification de la personne concernée et la divulgation dinformations confidentielles relatives à celle-ci. La divulgation dattributs est la forme de divulgation qui constitue la préoccupation première des INS pour leurs données tabulaires. Des méthodes de limitation de la divulgation appliquées aux tableaux assurent que les données des déclarants ne sont publiées quagrégées à celles dun nombre suffisant dautres déclarants, afin de prévenir la divulgation dattributs. Divulgation didentité : il y a divulgation didentité si un tiers peut identifier un sujet ou un déclarant à partir des données publiées. Révéler quun individu est un déclarant ou une personne concernée par une collecte de données peut éventuellement constituer une violation des exigences de confidentialité. Dans le cas des tableaux, la révélation de lidentité ne constitue généralement pas une divulgation, sauf si lidentification conduit à divulguer des informations confidentielles (divulgation dattributs) sur les individus identifiés. Divulgation exacte : il y a divulgation exacte quand l'utilisateur d'une statistique est en mesure de déterminer l'attribut exact d'une entité individuelle représentée dans un ensemble de données. Divulgation par appariement : la divulgation peut être réalisée à laide de clés à haute résolution, en appariant lensemble de données et un répertoire contenant les clés ainsi que les noms et les adresses.
5/13
GlossaireFR.doc
Divulgation par connaissance de la réponse : connaissance du fait quune personne a été interrogée dans le cadre dune enquête particulière; si un investigateur sait quun certain individu a participé à lenquête, et donc que les informations le concernant figurent dans lensemble de données, lidentification et la divulgation peuvent être facilitées. Divulgation par déduction : il y a divulgation par déduction lorsque des informations peuvent être déduites, avec un degré de confiance élevé, de propriétés statistiques des données publiées. Par exemple, les données peuvent indiquer une forte corrélation entre le revenu et le prix dachat du domicile. Cette dernière information étant généralement publique, un tiers pourrait lutiliser pour déduire le revenu dun individu. Dune manière générale, les INS ne sont pas concernés par la divulgation par déduction, et ce pour deux raisons: premièrement, lun des buts essentiels des données statistiques est de permettre aux utilisateurs de déduire et de comprendre les relations entre les variables. Si les INS assimilaient la déduction à la divulgation, aucune donnée ne pourrait être publiée. Deuxièmement, les déductions visent à prévoir le comportement dagrégats et non des attributs individuels, et donc, souvent, ne permettent guère de déterminer la valeur des données individuelles. Divulgation par reconnaissance spontanée : reconnaissance dindividus rares, la divulgation pouvant être accidentelle. Divulgation partielle : synonyme de divulgation approximative.Divulgation statistique : il y a divulgation statistique si la diffusion d'une statistique permet à l'utilisateur extérieur des données d'effectuer une meilleure estimation d'une information confidentielle qu'il n'aurait pu le faire sans cette diffusion. Divulgation : attribution inappropriée dinformations à un sujet, quil sagisse dun individu ou dun organisme. Divulgations basées sur la probabilité (approximatives ou exactes) : parfois, bien quun fait ne soit pas divulgué de manière certaine, les données publiées peuvent être utilisées pour formuler une déclaration qui, dans le
cadre dun modèle de probabilité implicite, a une forte probabilité dêtre correcte. Données à caractère personnel : toute information concernant une personne physique identifiée ou identifiable (personne concernée); est réputée identifiable une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro d'identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale. Une personne physique n'est pas considérée comme «identifiable» si cette identification nécessite des délais ou des activités déraisonnables. Lorsqu'une personne physique n'est pas identifiable, les données sont dites anonymes. Données anonymisées: des microdonnées sont dites «anonymisées» si tous les enregistrements de ces microdonnées sont anonymisés. Données confidentielles: les données sont considérées comme confidentielles lorsqu'elles permettent l'identification, directe ou indirecte, d'unités statistiques, ce qui aurait pour effet de divulguer des informations individuelles. Pour déterminer si une unité statistique est identifiable, il est tenu compte de tous les moyens qui pourraient raisonnablement être utilisés par un tiers pour identifier ladite unité statistique. Les données confidentielles permettent donc uniquement l'identification indirecte des unités statistiques auxquelles elles se rapportent. Données didentification : les données personnelles qui permettent lidentification directe de la personne concernée et qui sont nécessaires pour la collecte, la vérification et lappariement des données, mais qui ensuite ne sont pas utilisées pour établir des résultats statistiques. Données restreintes : la confidentialité de certaines informations peut être protégée en limitant la quantité dinformations dans les tableaux et les fichiers de microdonnées publiés. Données tabulaires : informations agrégées relatives à des entités individuelles. E
6/13
GlossaireFR.doc
Échantillonnage : publication uniquement dune faible proportion des données dorigine sous la forme dun fichier de microdonnées. Empreinte : combinaison (ensemble) de valeurs prises par des variables didentification qui sont uniques dans lensemble de microdonnées en question et qui, en outre, ne contiennent aucun sous-ensemble proprement dit possédant cette propriété (il sagit donc dun ensemble minimal ayant la propriété dunicité). Le fait quune combinaison de valeurs constitue ou non une empreinte dépend donc de lensemble de microdonnées dans lequel elles se trouvent. Lidée est que les enregistrements qui contiennent «beaucoup» dempreintes «courtes» sont «risqués» et ne devraient pas être publiés. Bien entendu, il appartient au responsable de la protection des données de décider quand une empreinte est «courte» et quand un enregistrement contient «beaucoup» dempreintes. Enregistrement unique spécial : enregistrement unique dans léchantillon par rapport à lensemble de variables clés T qui est également unique dans léchantillon par rapport à lensemble de variables t, sous-ensemble de T. Enregistrements anonymisés: lidée est de supprimer de chaque enregistrement les identificateurs directs avant la diffusion des microdonnées. Après lanonymisation, un déclarant ne peut être identifié quà laide de ses variables didentification. Un enregistrement est dit «totalement anonymisé» lorsquil est tellement bien protégé quaucune information sensible sur un individu ou une entreprise ne peut être déduite. Il est dit «partiellement anonymisé» sil est partiellement protégé, en dautres termes sil subsiste un certain risque que des informations sensibles sur les individus ou les entreprises puissent être déduites. Il convient, donc, de modifier les enregistrements statistiques individuels afin de minimiser, selon les meilleures pratiques actuelles, le risque d'identification des unités statistiques auxquels ils se rapportent. F G H
GlossaireFR.doctenu compte à la fois des aspects physiques et I informatiques de la sécurité. Linstallation sur place inclut également des infrastructures Identificateurs formels :lenometladresseduadméinistrrsa,tiveetsaetdesoutienauxutilisateursdéclarant, ou un numéro de registre de la ext rieu ssure le respect des conditions population. Si linvestigateur connaît lidentificateur convenues pour laccès aux données. formel, il lui est directement possible didentifier Intrus : utilisateur extérieur qui tente détablir un un individu cible, sans devoir acquérir des connaissancessupplémentairesavantdexaminerlimeincroednotrnenéuens.déclarantetunenregistrementdeles microdonnées. Identification directe: identification d'une unité J statistique à partir de son nom, de son adresse ou d'un numéro d'identification officiellement attribué K et rendu public. Identification indirecte : possibilité de déduire L lidentité dune unité statistique autrement que par identification directe. M Identification : elle intervient sil est possible Macrodonnées : synonyme de données détablir une relation univoque correcte entre un tabulaires. enregistrement contenu dans les microdonnées et un individu. Si lenregistrement diffusé dans un Méthode de la dérogation : au lieu de fichier de microdonnées inclut des identificateurs supprimer des données, certains organismes formels tels que le nom et ladresse, alors demandent aux déclarants lautorisation de publier lidentification du déclarant est possible des cellules même si elles sont sensibles. On instantanément pour linvestigateur. Toutefois, les appelle cette façon de procéder la «méthode de la identificateurs formels sont généralement retirés dérogation». Les dérogations sont les documents des microdonnées avant la diffusion. En signés par les déclarants afin dautoriser la conséquence, la seule possibilité détablir un lien publication. Cette méthode a son utilité maximale correct repose sur une connaissance préalable des dansle cas denquêtes de faible envergure ou de valeurs des quasi-identificateurs de lindividu cible. jeux de tableaux ne contenant que quelques Si tous les identificateurs formels sont supprimés petites cellules, pour lesquelles seul un faible et que lintrus na pas dinformations préalables sur nombre de dérogations est nécessaire. Bien le déclarant cible, lidentification est impossible. entendu, pour signer les dérogations, les déclarants doivent considérer que les données ne INS : institut national de statistique. sont pas particulièrement sensibles. Installation sur place : installation établie dans Méthodes basées sur des perturbations : les les locaux de divers INS. Il sagit dun lieu où des méthodes basées sur des perturbations falsifient chercheurs extérieurs peuvent obtenir laccès à les données avant leur publication en y des données confidentielles, dans le cadre introduisant délibérément un élément d'erreur daccords contractuels régissant le respect de la pour des raisons de confidentialité. L'erreur peut confidentialité et instaurant des contrôles stricts être introduite dans les valeurs des cellules après sur les utilisations qui peuvent être faites des la création du tableau, ce qui signifie qu'elle est données. Linstallation sur place peut être vue introduite dans la production de données (on comme un «espace sécurisé» dans lequel on peut parleraalors de perturbations de la production). analyser des données confidentielles. Linstallation Elle peut également être introduite dans les en tant que telle consiste dans un environnement informations initiales au niveau des microdonnées de travail et de stockage de données hermétique, quientrent dans l'établissement des tableaux que dans lequel la confidentialité des données l'on souhaite créer (on parlera alors de destinées à la recherche peut être assurée. Il est perturbations des données; en fait, l'expression 7/13
«perturbations des informations de base» est plus correcte, mais elle est rarement utilisée). Les méthodes suivantes peuvent être appliquées: arrondi; perturbations aléatoires; méthodes de prévention de la violation du secret pour les microstatistiques appliquées aux données tabulaires. Méthodes basées sur des restrictions : techniques par lesquelles on réduit le contenu de l'information fournie aux utilisateurs des données tabulaires, en ne publiant pas l'ensemble des chiffres dérivés des données collectées ou en publiant des informations moins détaillées que ne le permettraient les données brutes, en vue d'assurer la protection des données dans des cas confidentiels.Méthodes de divulgation basées sur des perturbations : techniques de publication des données tabulaires consistant à modifier les données avant leur diffusion, de façon à ce que le risque de divulgation des données confidentielles soit réduit, mais que le contenu en informations soit préservé autant que possible. Méthodes de protection contre la violation du secret : deux grandes méthodes peuvent être appliquées pour assurer la protection contre la violation du secret. La première consiste à réduire le contenu en informations des données fournies à l'utilisateur extérieur. Dans le cas des données tabulaires, cette méthode est appelée «protection contre la violation du secret sur la base de restrictions»; dans le cas des microdonnées, on parlera de protection contre la violation du secret « par la réduction des données». La seconde méthode consiste à modifier les données avant leur diffusion, de façon à ce que le risque de divulgation des données confidentielles soit réduit, mais que le contenu en informations soit préservé autant que possible. Dans le cas des données tabulaires, on parlera de méthodes basées sur les perturbations et, dans le cas des microdonnées, de méthodes faisant appel à la modification des données. Micro-agrégation : les enregistrements sont groupés en fonction dune mesure de proximité de toutes les variables concernées, et les mêmes groupes restreints denregistrements sont utilisés pour calculer les agrégats de ces variables.
8/13
GlossaireFR.doc
Microdonnées : un ensemble de microdonnées est un ensemble denregistrements contenant des informations sur des déclarants ou des entités économiques déterminés. Mise en forme des données en vue dassurer laconfidentialité(confidentialityedit): procédure mise au point par le Bureau du recensement des États-Unis afin dassurer la protection des tableaux établis à partir du recensement de 1990. Il existe deux méthodes différentes: lune a été employée pour les données du recensement décennal régulier, lautre pour le formulaire «long» du recensement, rempli par un échantillon de la population. Toutes deux reposent sur lapplication de techniques de limitation de la divulgation statistique aux fichiers de microdonnées avant quils ne servent à établir des tableaux. Les fichiers modifiés ne sont pas publiés, ils sont utilisés uniquement pour confectionner des tableaux. Dans le cas du fichier contenant 100 % des microdonnées, la mise en forme en vue dassurer la confidentialité consiste dans la «permutation» de données. On procède de la manière suivante: premièrement, on extrait un échantillon denregistrements du fichier de microdonnées; deuxièmement, on trouve une correspondance pour ces enregistrements dans une autre région géographique, en fonction dun ensemble déterminé dattributs importants; troisièmement, on permute tous les attributs des enregistrements mis en correspondance. Pour les petits blocs de données, le Bureau augmente le taux de sondage afin dassurer une protection supplémentaire. Une fois que le fichier de microdonnées a fait lobjet dun tel traitement, il peut être utilisé directement pour établir des tableaux, aucune analyse supplémentaire de divulgation statistique nétant nécessaire. Le fichier des données relatives à léchantillon concerne par définition uniquement un échantillon de la population et, comme on la remarqué précédemment, léchantillonnage assure la protection de la confidentialité. Des études ont montré que cette protection était suffisante, sauf dans des régions géographiques restreintes. Pour accroître la protection dans de tels cas, un ménage a été sélectionné de manière aléatoire et un échantillon de ses champs de données a été effacé. Ces champs ont ensuite été remplacés par des valeurs imputées. Après avoir fait lobjet dun tel traitement, le fichier de microdonnées est utilisé directement pour établir des tableaux,
GlossaireFR.docaucune analyse supplémentaire de divulgation la confidentialité en ce qui concerne les tableaux statistique nétant nécessaire. Le but de la mise en de fréquence. forme des données en vue dassurer la confidentialité est de protéger les tableaux de Perturbation aléatoire : méthode de contrôle de fréquence contre la divulgation. Pour ce faire, des la divulgation consistant à ajouter un bruit, sous la modifications sont apportées au fichier de formedune variable aléatoire, à la valeur réelle microdonnées avant létablissement des tableaux. dans un tableau à double entrée, puis à remplacer la valeur réelle par la valeur perturbée. N Perturber les données : ce procédé implique que O lon modifie les chiffres dun tableau de manière systématique, de telle sorte que leur exactitude soit insuffisante pour divulguer des informations P sur les cas individuels, mais quils ne soient pas faussés au point de porter atteinte à la valeur PDS : la protection des données statistiques est un informative du tableau. concept plus général que le contrôle de la divulgation statistique et prend en compte les trois Problème de divulgation : un problème de stadesdelaproduction.LaPDSestpdirvéulgaetiondesel'ipnrféosremntaetiosniucnoenfiedsetinmtiaeltlieontdr'oupnmultidisciplinaireetallielinformatique(sécuritédéccliasrantestpossible.des données), la statistique et la recherche opérationnelle.Processus de couplage des enregistrements : Permutation de données: méthode de contrôle processus par lequel on sefforce de classer les deladivulgationutiliséepourlapublicationdefpiacihresrsdAuneteBs,padcaensprMo,dulietnAsxeBm,brléesduletsanlitendsevdreaiusx,microdonnéesetreposantsurunemodificationetUi,elensembledeliensnonvrais.des données. Dans la littérature, elle est également appelée «transformation Protection contre la violation d secret sur multidimensionnelle». Il sagit dune technique de u transformation qui garantit le maintien dun l d a e b d a o s n e n é d e e s r t e a s b t u r l i a c i t r i e o s n s q:uimcétohnosidsetedeàpruébdliuciraetiolneensemble de statistiques. contenu en informations des données fournies à Permutation de rang : la permutation de rang l'utilisateur extérieur. permetdutiliserdesvariablesntscàonptienrumeusterp.oAuurProtection de la vie privée : la protection de la définir les paires denregistreme vie pri ée est u v n concept qui sapplique aux lieu de devoir correspondre (exactement), les evant re o personnes concernées, tandis que la confidentialité évtarroiiatbelemsentsosnutrledéfinireosxicmoitmémsuerudnelisteclapssséeeratraitauxdonnées.Ilestdéfinidelamanièreenfonctiondeurlpavariablecontinue.Lessuivante:«statutaccordéauxdonnées,décidéenregistrements dont le rang est proche pour ce dun commun accord par la personne ou ituent l aire lorganisme qui fournit les données et lorganisme qui est de la variable classée const es p s qui les reçoit, et décrivant le degré de protection à permuter. Lors de la permutation de rang, cest souvent la variable utilisée r le classem qui sera assuré.» Il existe une relation claire entre e utée. pou ent qui la confidentialité et la protection de la vie privée. est p rm La violation de la confidentialité peut entraîner une Permutati ermutation consiste à divulgation de données qui nuit à lindividu. Cest on :lahantpillondenreuneatteinteàlavieprivée,danslamesureoùilsélectionnerunécsongistrements,àsagitduneingérencedanslamanièredontunetdroonunvéeresuennefocnocrtrieonpdudnanecnesedmabnlseldaevbaarsieabldesepersonnedéterminecommentsesdonnéesprédéterminées et à permuter toutes les autres personnelles sont utilisées. s. L ermutatio vdaerilaablmeiseeanpformedesndoannétééesilleunstvréueedàapsrsouproersProtection primaire : protection qui consiste dans lapplication de méthodes de contrôle de la divulgation statistique à toutes les cellules 9/13
contenant des nombres réduits et des cas de prédominance.Q Quasi-identificateurs : ces identificateurs sont des variables telles que lâge, le sexe, létat civil, la nationalité, la région de domicile, lactivité professionnelle, etc. Lidentification à laide de ces quasi-identificateurs nest pas possible de manière directe. Lintrus doit connaître les caractéristiques de lindividu cible ou doit avoir accès à ces informations avant dutiliser le fichier de microdonnées; en dautres termes, lintrus doit avoir une connaissance préalable de lensemble ou dune partie des quasi-identificateurs de lindividu cible. R Recodage global : les problèmes de confidentialité peuvent souvent être résolus en modifiant la structure des tableaux de manière à éliminer la possibilité de divulgation. On peut, par exemple, combiner des lignes ou des colonnes pour obtenir des intervalles de classe plus grands ou de nouveaux regroupements de caractéristiques. Cette solution peut être plus simple que la suppression de certains éléments, mais elle a tendance à réduire la valeur descriptive et analytique du tableau. Cette technique de protection, qui réduit le risque de reconnaissance dinformations sur des individus ou des entreprises en fusionnant des catégories de variables didentification, peut également être employée pour protéger des microdonnées. Recodage : le fait de recoder des variables selon des catégories de classification plus vastes afin de réduire le niveau de détail. Règle (n,k) : une cellule est considérée comme confidentielle si les n unités les plus importantes interviennent pour plus de k % dans le total de la cellule. Les valeurs de n et de k sont données par l'autorité statistique et peuvent varier considérablement. Ainsi, on peut avoir n = 2 et k = 85,ce qui signifie qu'une cellule est définie comme confidentielle si les deux unités les plus importantes interviennent pour plus de 85 % dans le total de la cellule.
10/13
GlossaireFR.doc
Règle (p,q) : il est supposé que, sur la base des informations librement disponibles, la contribution d'une entité au total de la cellule peut être estimée avec une marge de p pour cent (p = erreur avant publication); après la publication des statistiques, la valeur peut être estimée avec une marge de q pour cent (q = erreur après publication). Dans la règle (p,q), le ratio p/q représente le gain d'information réalisé par la publication. Si le gain d'information est inacceptable, la cellule est déclarée confidentielle. La valeur des paramètres p et q est donnée par l'autorité statistique, et définit donc le niveau acceptable du gain d'information. Règle avant/après publication : synonyme de règle (p,q). Règle de concentration: synonyme de règle (n,k). Règle de lambiguïté: synonyme de règle (p,q). Règle de prédominance : synonyme de règle (n,k). Règle de seuil : selon la règle de seuil, une cellule dun tableau de fréquence est définie comme sensible si le nombre de déclarants est inférieur à un nombre déterminé. Certains organismes exigent au moins cinq déclarants par cellule, dautres trois. Un organisme peut restructurer des tableaux et combiner des catégories, ou recourir à la suppression de cellules, à larrondi aléatoire ou contrôlé, ou encore à la mise en forme des données en vue dassurer la confidentialité. Regroupement des valeurs extrêmes supérieures et inférieures: cette opération consiste à fixer des codes supérieurs ou inférieurs pour les variables continues. Un code supérieur est une limite supérieure sappliquant à toutes les valeurs publiées de la variable concernée. Toute valeur qui excède cette limite est remplacée par le code supérieur lui-même ou nest pas publiée du tout dans le fichier de microdonnées. De même, un code inférieur est une limite inférieure sappliquant à toutes les valeurs publiées dune variable. Réponse aléatoire : technique utilisée pour collecter des informations sensibles auprès dindividus, en vertu de laquelle les enquêteurs et les personnes qui traitent les données ne savent