Couplage de données pour les études démographiques - article ; n°4 ; vol.24, pg 653-684

De
Publié par

Population - Année 1969 - Volume 24 - Numéro 4 - Pages 653-684
Des données pour un même individu se trouvent souvent sur des documents différents; leur utilisation concomitante pose des problèmes techniques parfois difficiles ou entraine de grandes pertes de temps. On peut citer, par exemple, le cas de la mortalité infantile selon la catégorie socio-professionnelle du père étudié en France dès 1951, par couplage de données appartenant à deux statistiques. M. H. B. Newcombe, biologue et généticien canadien, attaché à la recherche nucléaire, étudie le problème dans son aspect le plus général, expose les méthodes techniques de couplage des données, les diverses recherches déjà faites grâce à elles et les possibilités considérables qu'ouvrent, dans ce domaine, l'utilisation des ordinateurs les plus récents et diverses techniques apparentées, tant pour la collecte de renseignements que pour des contrôles administratifs.
32 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.
Publié le : mercredi 1 janvier 1969
Lecture(s) : 27
Nombre de pages : 33
Voir plus Voir moins

Howard B. Newcombe
Couplage de données pour les études démographiques
In: Population, 24e année, n°4, 1969 pp. 653-684.
Résumé
Des données pour un même individu se trouvent souvent sur des documents différents; leur utilisation concomitante pose des
problèmes techniques parfois difficiles ou entraine de grandes pertes de temps. On peut citer, par exemple, le cas de la mortalité
infantile selon la catégorie socio-professionnelle du père étudié en France dès 1951, par couplage de données appartenant à
deux statistiques. M. H. B. Newcombe, biologue et généticien canadien, attaché à la recherche nucléaire, étudie le problème
dans son aspect le plus général, expose les méthodes techniques de couplage des données, les diverses recherches déjà faites
grâce à elles et les possibilités considérables qu'ouvrent, dans ce domaine, l'utilisation des ordinateurs les plus récents et
diverses techniques apparentées, tant pour la collecte de renseignements que pour des contrôles administratifs.
Citer ce document / Cite this document :
Newcombe Howard B. Couplage de données pour les études démographiques. In: Population, 24e année, n°4, 1969 pp. 653-
684.
http://www.persee.fr/web/revues/home/prescript/article/pop_0032-4663_1969_num_24_4_14003COUPLAGE DE DONNÉES
POUR LES ÉTUDES DÉMOGRAPHIQUES
pertes statistiques. sur des en infantile France Des problèmes des de documents données temps. selon dès 1951, techniques la On pour catégorie différents; peut par un couplage citer, parfois même socio-professionnelle par leur difficiles de exemple, individu utilisation données ou le se entraine appartenant cas concomitante trouvent de du la père de mortalité grandes souvent à étudié deux pose
M. H. B. Newcombe, biologue et généticien canadien, attaché
à la recherche nucléaire, étudie le problème dans son aspect le
plus général, expose les méthodes techniques de couplage des
données, les diverses recherches déjà faites grâce à elles et les
possibilités considérables qu'ouvrent, dans ce domaine, l'utilisa
tion des ordinateurs les plus récents et diverses techniques appar
entées, tant pour la collecte de renseignements que pour des
contrôles administratifs.
INTRODUCTION
Par suite de récents développements, c'est à une échelle bien accrue qu'on
peut rapprocher, « coupler » ^', des données recueillies séparément, mais se
rapportant aux mêmes individus ou aux mêmes familles. La présente étude
décrit les méthodes utilisées pour assurer ce « couplage » de données à l'échelle
des statistiques et certains emplois possibles de cette technique en démograp
hie, dans les domaines voisins de 1' epidemiologie et de la génétique de popul
ation, ainsi que dans l'élaboration des statistiques sanitaires.
Lorsqu'on rapproche des séries de données recueillies indépendamment
et se rapportant au même individu, elles nous apprennent beaucoup plus sur
l'histoire et les caractéristiques de cette personne que l'une quelconque de ces
séries prise individuellement. De même, lorsque de tels couplages sont éta
blis à grande échelle, on peut en extraire une information statistique sensibl
ement plus riche que de quelque tableau que ce soit, établi à partir des données
séparées.
La manière dont, par exemple, se constitue la famille est fort bien collectée
dans les registres d'état-civil. Cependant l'importante information sur la fécon
dité des familles ne peut en être extraite que lorsque des séries de données ra
ssemblées tout au long d'une période étendue sont couplées par familles.
í1) N.D.T. « To link » signifiant « lier, associer, rapprocher, coupler », nous avons choisi de
le traduire par ce dernier mot et de rendre « linkage » par « couplage ». COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES 654
L'emploi du couplage des données, pour diverses sortes d'études de popul
ation, n'est nullement nouvelle, mais les laborieuses méthodes manuelles
utilisées dans le passé ont toujours limité à des enquêtes de peu d'envergure
l'application de cette technique. Avec l'avènement des ordinateurs,fon pouvait
au moins envisager l'expansion des couplages de données, mais^l'efficacité
de ces machines dans les opérations d'appariement nécessaires ^demeurait
incertaine. Il semblait que les principales difficultés surgiraient dans les cou
plages fondés sur les noms de personnes et sur divers autres éléments d'iden
tification sujets à caution par essence ou enregistrés sans uniformité.
Par le passé, les employés chargés de tenir des fichiers se voyaient, pour
cette raison même, obligés d'exercer, dans une large mesure, des jugements
apparemment subjectifs pour apparier avec exactitude les données relatives
à une même personne.
Ce n'est qu'avec le développement de méthodes qui permettent aux ma
chines d'appliquer des règles de jugement analogues à celles employées par
les humains qu'il est devenu possible de coupler d'importantes séries de don
nées à la fois vite, avec précision et à peu de frais.
Puisque c'est de l'efficacité de telles méthodes que dépend le succès ou
l'échec des efforts pour utiliser le couplage automatique des données à une grande
échelle, nous insisterons sur les techniques de couplage qui ont été élaborées
et sur les possibilités de perfectionner et de mener à bien les diverses sortes
de couplage pouvant intéresser les démographes.
HISTORIQUE DU COUPLAGE DES DONNÉES
L'idée de rapprocher des données sanitaires recueillies indépendamment,
pour reconstituer, à grande échelle, l'histoire des personnes, a commencé à
attirer l'attention, il y a environ un siècle. En 1861, William Farr a proposé
au Parlement britannique que l'histoire médicale des soldats soit tenue à
jour, de leur entrée dans l'armée à la date de leur congé définitif ou de leur
mort ; en 1875, il recommanda, dans son annexe au 35e rapport du « Registrar
General », comme objectif à long terme, la constitution pour la population
civile, de sortes de livrets médicaux où seraient consignés, au fur et à mesure,
tous les faits de mauvaise santé et le décès, « afin de permettre au médecin de
déterminer la durée et la létalité de toutes les formes de maladies, pour les
divers systèmes de soins, dans les différentes conditions, sanitaires et sociales
de la population... »
L'expression» Record Linkage » (couplage des données) fut employée pour
la première fois en 1946 par Halbert L. Dunn, à l'époque chef de Y Office
national des statistiques d'état civil des États-Unis, au cours d'une all
ocution prononcée devant un groupe de spécialistes canadiens des stati
stiques d'état civil, au moment où le Canada introduisait, pour la première
fois, à l'échelle nationale, un système uniforme d'immatriculation des nais
sances. Dunn considérait les faits d'état civil et les incidents de santé d'un COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES 655
individu comme les données d'un « livret de vie », qui s'ouvre le jour de la
naissance et se termine à la mort. Le nouveau système canadien d'immatricul
ation des naissances était destiné à faciliter le rapprochement des actes de et des archives d'assistance sociale de différentes sortes, et tout par
ticulièrement de celles du système canadien d'allocations familiales univers
elles, pour s'assurer que les enfants en faveur desquels on demandait les
allocations étaient effectivement venus au monde. Cette utilisation administ
rative des actes de naissances pour établir la composition des familles, pour
virtuellement tous les enfants canadiens, a nécessité l'organisation d'une vaste
opération manuelle de couplage de données, qui s'est poursuivie sans inter
ruption depuis 1946.
Il y a eu aussi de nombreuses utilisations démographiques du couplage
manuel des données, à des échelles plus modestes, pour des études qui auraient
pu être grandement facilitées et étendues, si les chercheurs avaient pu profiter
des méthodesjnécaniques.
C'est ainsi qu'on s'est servi des méthodes manuelles pour reconstituer les
familles et étudier la venue et l'échelonnement d'événements familiaux
tels le mariage, les naissances et le divorce (Christensen et ses collaborateurs
1939, 1953, 1958, Gautier et Henry 1958; Leslie et al 1955; Mehlan et Falken-
thal 1964; Sheps 1964). Une étude démographique au moins a substitué les
méthodes électro-mécaniques au couplage manuel des données (Sutter et al
1965), et bon nombre de démographes ont reconnu les avantages potentiels
de l'emploi d'ordinateurs pour de tels couplages (Henry 1966; Keyfitz 1964;
Monahan 1960).
Des méthodes d'utilisation des ordinateurs dans le couplage des actes de
mariage, de naissance et de décès des enfants, pour reconstituer des familles,
ont été d'abord développées au Canada (Newcombe et al. 1959; Kennedy
1961; voir également Newcombe 1967 a). Elles comportaient la comparaison
de noms et d'autres éléments d'identification, qui, pris isolément, sont sujets
à caution, mais permettent, quand on les considère ensemble, de déterminer
quelle probabilité ont deux séries de données de se rapporter ou non à la
même personne ou à la même famille. Ces méthodes seront décrites par la
suite.
Une entreprise plus récente, mais également fort avancée, qui utilise les
méthodes électroniques pour coupler les actes de naissances, les sorties d'hôpit
al et les actes de décès, reconstituer l'histoire sanitaire des individus aux
fins d'études épidémiologiques, est en cours en Angleterre (Acheson 1964',
1968 b). D'autres enquêtes utilisant le couplage des données sont en cours
de réalisation, dans de nombreux centres, un peu partout dans le monde :
à Pavie, pour des études de génétique des populations humaines (Barrai
et al. 1968) ; à Honolulu, pour une enquête sur la transmission héréditaire des
groupes sanguins (M. P. Mi, 1967); à Reykjavik, à des fins statistiques et
génétiques variées (Bjarnason et al. 1968); à Maryland (États-Unis), pour
l'étude suivie de maladies mentales (Bahn et al. 1968).
9 249004 5 3 656 COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES
On peut citer comme témoignage de l'intérêt croissant qu'inspire l'emploi
de cette technique les deux congrès internationaux en moins de trois ans
sur le couplage des données médicales, ayant eu lieu à Oxford, Angleterre
(voir Acheson 1968 /o); en Grande-Bretagne, aux Etats-Unis, en Irlande du
Nord et au Canada, des commissions officielles ont récemment passé en revue
les conséquences possibles du couplage des données, pour les statistiques
d'état civil et les statistiques sanitaires, pour la démographie et pour la recher
che médicale (voir MCR du Canada 1968). Un volume consacré à cette méthode
et à ses nombreuses applications possibles aux études épidémiologiques et
autres a été publié (Acheson 1967). Le même sujet a connu en outre la vedette,
lors d'un récent symposium international consacré à l'automatisation des pro
cédés d'enregistrement de la population, tenu à Jérusalem (1967).
TECHNIQUE DU COUPLAGE
Lorsqu'on émit, pour la première fois, l'idée de coupler, à grande échelle,
les actes de mariage, de naissance et de décès, pour reconstituer des familles
à une échelle substantielle, on objecta que des difficultés ne manqueraient pas
de surgir en raison des erreurs et du manque d'uniformité des éléments d'iden
tification contenus dans les données diverses sur le même individu ou de la
même famille. Les actes d'état civil comportent, heureusement, ce qu'on pourr
ait considérer comme une pléthore d'éléments d'identification, de sorte qu'à
l'examen de deux d'entre eux un employé peut presque toujours savoir avec
certitude s'ils se rapportent ou non à la même personne. Ce n'est pourtant
qu'à une époque relativement récente, qu'on a vraiment pensé à mettre sur
pied des méthodes permettant aux machines d'exercer un jugement du même
type. Vu qu'un haut degré de raffinement dans les méthodes d'appariement
de données est essentiel pour le succès de presque toute opération de couplage
d'une certaine envergure, les traits saillants de la technique seront examinés
par le menu. Les lecteurs qui pourraient désirer des renseignements encore
plus détaillés peuvent se rapporter à certaines publications antérieures : New-
combe et al. 1959; Newcombe et Kennedy 1962; Kenney et al. 1964; 1967 b; voir également Sunter 1968).
La forme des données de base. L'étude du couplage des données de
Colombie Britannique est fondée princ
ipalement sur l'utilisation de cartes perforées existantes, pour les actes d'état
civil et, à un degré moindre, sur les données de morbidité.
Depuis le début de 1946, deux sortes de cartes perforées ont été établies
systématiquement pour chaque fait d'état civil dans tout le Canada ; elles sont
connues respectivement sous le nom de « carte statistique » (statistics card)
et de « carte nominative » (name-index card). Ces deux sortes de cartes com
portent l'une et l'autre un numéro d'immatriculation qui identifie l'év
énement en cause, de sorte que l'information statistique sur une naissance,
un décès ou un mariage peut être rapprochée, sans difficulté, du rense
ignement nominatif approprié. COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES 657
Les cartes statistiques sont utilisées pour l'élaboration des statistiques
annuelles d'état civil, les cartes nominatives servent à certaines fins administ
ratives. Lorsque les cartes sont'triées par ordre alphabétique et
mises en liste, elles fournissent un code des numéros d'enregistrement sous
lesquels sont classés les formulaires dans les bureaux provinciaux d'état civil.
En outre, les listes établies à partir des cartes nominatives de naissance sont
remises périodiquement, au cours de l'année, aux bureaux régionaux de l'admi
nistration des allocations familiales, pour leur permettre de vérifier que les
postulants viennent effectivement d'avoir un enfant.
Ainsi, l'opération actuelle de couplage utilise les archives de cartes
perforées, qui sont régulièrement produites à d'autres fins.
Une modification mineure s'est révélée nécessaire pour les cartes nominat
ives de naissance et de décès. Les perforations antérieures ne fournissaient
pas les noms des parents de l'individu, bien que ce renseignement fût compris
dans les actes. Pour faciliter le couplage des actes de naissance et de décès,
d'une part, et des actes de mariage des parents, d'autre part, ainsi que des
actes concernant d'autres enfants du même couple, des cartes nominatives
modifiées furent établies pour toutes les naissances ayant eu lieu en Colombie
Britannique, depuis le début de 1946, ainsi que pour les décès d'enfants pen
dant ces mêmes années.
Les cartes nominatives ainsi modifiées, ajoutées aux cartes satistiques exis
tantes, fournissent, comme renseignements d'identité :
— le nom de famille du père, le nom de jeune fille de la mère, ainsi que
deux initiales pour chacun d'eux,
— les provinces ou les pays de naissance du couple des parents, sous la
forme d'un numéro de code à deux chiffres ;
— l'âge des parents à la date de la naissance;
— la date et le Heu de la naissance ou du décès;
— les prénoms de l'enfant (avec une carte de renvoi si le nom de famille
de celui-ci diffère du nom de son père) ;
— le sexe de l'enfant et, dans le cas d'une naissance, le rang de naissance
et la légitimité.
De cette manière, une grande partie des renseignements d'identité d'un
couple marié apparaît aujourd'hui sur les cartes perforées relatives aux nais
sances et décès des enfants de ce couple.
Des cartes perforées relatives aux mariages, fournissent sans modification,
les renseignements d'identité suivants :
— les noms de famille et les prénoms du mari et de la femme,
■ — les provinces ou les pays de naissance du couple sous la forme d'une paire
de numéros de code à deux chiffres,
— l'âge des conjoints à l'époque du mariage,
3. COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES 658
— La date et le lieu du mariage.
On a sérieusement envisagé, ces derniers temps, d'inclure, dans les actes
de mariage et de naissance, les dates de naissance des conjoints. La présence
de ce détail sur la carte perforée facilitera encore le couplage et contribuera
beaucoup à résoudre toute ambiguïté qui pourrait se présenter.
La combinaison d'éléments d'identification donne une puissance de di
scrimination très grande. En outre, les cartes nominatives modifiées de nais
sance et de décès ont été adoptées pour le Canada tout entier et sont employées
depuis bon nombre d'années. Ainsi, il existe à présent, pour l'ensemble du
pays, une masse de cartes perforées susceptibles d'être utilisées pour recons
tituer des familles.
Pour la Colombie Britannique, les cartes perforées relatives aux mariages,
aux naissances et aux décès d'enfants de 1946-1965 sont en cours de couplage.
Elles représentent environ un million d'événements, pour une population
qui atteint aujourd'hui le chiffre d'environ deux millions.
Étapes dans l'opération Le couplage des données comporte deux étapes,
de couplage. une étape de recherche, où les paires de données
susceptibles d'être couplées sont confrontées en vue
de leur comparaison, et une étape ď appartement, au cours de laquelle l'examen
de ces données aboutit à une décision concernant la probabilité qu'elles se
réfèrent, ou non, au même individu ou à la même famille.
Ces deux étapes font d'ailleurs normalement partie de nombreuses opéra
tions de tenue à jour de fichiers, qu'elles soient effectuées par une machine
ou par un employé. Dans l'opération type, on relève le nom qui figure sur une
lettre, ou tout autre document reçu, et on le cherche dans un fichier classé par
ordre alphabétique ; les fiches portant le même nom de famille sont comparées
plus en détail avec la lettre reçue, et l'on décide laquelle il convient de retenir,
sur le vue des similitudes entre les prénoms, les adresses et autres renseigne
ments du même ordre.
Le processus de recherche et de comparaison n'est pas toujours simple
et un fichiste expérimenté met en œuvre des stratagèmes divers. Si un nom
de famille demeure introuvable dans le fichier central, des recherches pour
ront être entreprises, parmi les variantes orthographiques connues du dit
nom. Si l'on trouve un appariement vraisemblable, bien que tous les éléments
d'identité du fichier central et des données reçues ne concordent pas, le juge
ment définitif sera souvent fondé sur l'appréciation subjective de l'importance
relative qu'il convient d'attacher aux divers points d'accord et de désaccord.
Pour trancher, on attachera, par exemple, plus d'importance à la concor
dance entre noms rares qu'à celle entre noms répandus. De même, des désac
cords portant sur des particularités peu sujettes à changement et habituell
ement transcrites de façon correcte plaideront avec plus de force contre l'appa-
riement que des écarts concernant la profession ou l'adresse postale. COUPLAGE DE DONNÉES POUR LES ÉTUDES DÉMOGRAPHIQUES 659
De telles appréciations doivent donc être fondées sur la connaissance
préalable des archives et l'on peut mettre à la disposition de la machine, sous
forme numérique, des renseignements du même genre que ceux sur lesquels
se fondent les jugements humains. Il faut seulement que les règles du jugement
humain soient clairement comprises. En fait, la machine possède certains
avantages sur la personne humaine :
a. elle est plus rapide;
b. elle suit un ensemble déterminé de règles avec une uniformité parfaite;
c. elle est capable d'exprimer, sous forme numérique, le degré de certitude
qu'a une paire de données de former ou non. un appariement exact.
Dans les sections ci-après, on trouve la description des méthodes utilisées
pour coupler les actes d'état civil de Colombie Britannique, ainsi que la discus
sion des fondements théoriques de raffinements plus poussés.
L'étape de recherche. Dans l'étape de recherche, il est souhaitable de ré
duire :
a. la proportion des échecs dans les opérations d'assemblage, aux fins
de comparaison, de données susceptible? d'être rapprochées;
b. le nombre moyen de données du fichier central avec lesquelles il faudra
comparer, dans le détail, une donnée nouvellement reçue.
Si les fichiers sont trop finement subdivisés, de légers manques d'unifor
mité dans les renseignements qui servent au classement (comme par exemple
des variantes dans l'orthographe d'un nom de famille) peuvent empêcher la
comparaison de données susceptibles d'être couplées. Si, en revanche, le
classement des fiches est trop grossier le nombre de comparaisons inutiles sera
accru, ainsi d'ailleurs que le prix de revient de l'opération. Bien qu'il faille
dans une certaine mesure, trouver un compromis entre ces deux inconvén
ients contraires, le mieux est, évidemment, de classer les fichiers d'après les
éléments d'identification qui ont la plus grande puissance de discrimination et
qui, simultanément, présentent le moins de risques de varier dans la suite
des données relatives au même individu ou à la même famille.
Pour éviter le plus possible que des paires de données, susceptibles d'être
couplées, ne soient pas comparées, on utilise, dans l'étude de Colombie Bri
tannique, un code phonétique des noms de famille connu sous le nom de
« Russel Soundex Code ». On a constaté qu'environ les deux tiers des variantes
orthographiques les plus répandues pour les noms de famille n'affectaient pas
la forme codifiée de ces noms ; par ailleurs, la fraction des renseignements
d'identification omise dans la forme codifiée des noms a peu de puissance de
discrimination ^1}.
(1' Parce qu'il permet de laisser de côté les éléments peu sûrs de l'information contenue
dans les noms de famille, sans pour autant perdre plus qu'une très faible fraction de leur puis-
(Suite de cette note page suivante) COUPLAGE DE DONNEES POUR LES ÉTUDES DÉMOGRAPHIQUES 660
Ce code a déjà largement été utilisé (par ex. par le département de l'immi
gration des États-Unis), mais aucune appréciation objective de son efficacité
n'était disponible lorsque nous l'avons adopté.
Afin de réduire le nombre de données figurant au fichier central avec lequel
il s'agira de comparer les données nouvellement reçues, on utilise deux noms
de famille pour subdiviser et ordonner les fichiers, à savoir le nom de famille
du mari et le nom de jeune fille de l'épouse, tous les deux sous forme phoné
tique chiffrée. La puissance de discrimination de cette combinaison de deux
noms de famille est difficile à saisir, si l'on n'a pas effectivement travaillé sur
un fichier ainsi subdivisé. Ceux qui se sont familiarisés avec les méthodes tra
ditionnelles de recherche sur les actes de naissance se sont parfois inquiétés
des ambiguïtés qui pourraient surgir en raison du grand nombre de noms
particulièrement répandus tels Smith et Brown (cf. en français : Dupont et
Martin). Cependant, dans un fichier de mariages couvrant dix années et conte
nant les données d'environ 114.000 actes, aucune des paires composées de
noms répandus n'est apparue plus de 25 fois, et approximativement 80 %
des paires de noms de familles étaient uniques.
sance totale de discrimination, le « Russell Soundex Code » se révèle comme la méthode à
préconiser pour la plupart des populations européennes. Ce code est moins utile là où les noms
sont en majeure partie d'origine orientale et comptent surtout sur les sons des voyelles pour
leur puissance de discrimination ; il peut, toutefois, donner satisfaction dans le cas de populations
comportant une faible proportion de noms orientaux.
Les règles sont les suivantes :
1° La première lettre du nom de famille est utilisée telle quelle, sans chiffrement, et sert
de lettre préfixe;
2° II n'est tenu aucun compte des lettres W et H, ailleurs qu'en lettre préfixe;
3° A, E, I, O, U, Y ne sont pas chiffrés mais servent de séparateurs (voir l'alinéa 5°, ci-des
sous) ;
4° Les autres lettres sont chiffrées comme suit jusqu'à concurrence de trois chiffres (aucun
compte n'est tenu des lettres restantes) :
B, P, F, V chiffrés 1
D, T3
L chiffrés 4
M, N5
R chiffrés 6
Toutes les autres consonnes (C, G, J, K, Q, S, X, Z) sont chiffrées 2 ;
5° Font exception les lettres qui suivent la lettre préfixe et qui recevraient, si elles étaient
chiffrées, le même chiffre; on n'en tient aucun compte, à moins qu'elles ne soient précédées
par un séparateur (voir l'alinéa 3° ci-dessus).
Exemples :
Andreozzi, Andreussi A 536
Barre, Barrie, Barry В 600
Caouette, Cayouette С 300
Daignault, Daigneault D 254
Laurin, Larin, Laurain, Lorrain, Lorin L 650
Une discussion des méthodes, pour comparer de manière numérique l'efficacité de tels
systèmes de codification, se trouve aux pages 339 à 341 d'une précédente étude (Newcombe
1967 b). D'autres systèmes moins efficaces sont décrits aux pages 356-359 de la même étude. COUPLAGE DE DONNEES POUR LES ÉTUDES DEMOGRAPHIQUES 661
C'est à M. S. J. Axford, de la Division de la santé et des affaires sociales
du Bureau de statistiques du Dominion du Canada, qu'il convient de rendre
hommage, pour avoir montré l'utilité de classer les fichiers, au moyen des
doubles codes « Soundex ». Il est le premier à avoir mis à l'épreuve cette tech
nique, en interclassant en « double Soundex » les actes de naissance de mort
nés issus du même couple.
Puisque la vitesse des couplages opérés par un ordinateur s'accroît en
même temps que la finesse de subdivision du fichier central, des mesures
précises de cette finesse présentent un intérêt tout spécial. On a établi que
chaque case d'un fichier «double Soundex» de mariages, riche de 114.000 actes,
contenait en moyenne 1,6 acte. Au cours de l'opération de couplage, les actes
de naissance nouvellement reçus sont comparés de façon détaillée avec les
actes de mariage seulement, lorsque les paires « Soundex » concordent, c'est-
à-dire qu'il y a une moyenne de 1,6 comparaison par acte de naissance nou
vellement reçu. Pour les actes de naissance relatifs à des couples déjà repré
sentés dans le fichier des de mariage, il y aurait ainsi un peu moins de
0,6 « comparaisons inutiles » pour chaque comparaison menant à un couplage.
Avec un dossier moins finement subdivisé, le nombre de comparaisons inut
iles se serait trouvé augmenté en proportion.
Puisque tout renseignement utilisé pour établir le classement des fichiers
est sujet à des erreurs et à des variations dans les données successives relatives
aux mêmes personnes, la subdivision fine du fichier ne se réalise qu'au prix
de quelques omissions dans la comparaison des données susceptibles d'être
couplées. Il faut donc arriver à un compromis entre, d'une part, la vitesse de
couplage des données et, d'autre part, la proportion de couplages omis faute
d'avoir comparé les données. D'après l'étude du couplage des actes de nais
sance et des actes de mariage de Colombie Britannique, on a établi que 4,4 %
environ des paires susceptibles d'être couplées comportaient des divergences
dans l'orthographe de l'un ou l'autre des deux noms de famille, et que pour
1,6 % des paires, il s'ensuivait une divergence dans un des codes « Soundex ».
Ainsi, environ 1,6 % des actes de naissance reçus et susceptibles d'être cou
plés avec un acte de mariage ne le seraient pas. Il a semblé que ce n'était pas
payer d'un prix excessif la vitesse élevée de l'opération de couplage.
Si une plus grande précision était requise, on pourrait, dans une large
mesure, éviter de telles pertes de couplages, en refaisant, à partir d'autres
renseignements, le classement des parties non couplées des deux fichiers, et
en répétant, ensuite, l'opération de couplage. Des études effectuées à la main
selon cette technique ont été couronnées de succès, lorsqu'on y a employé
deux classements supplémentaires, fondées respectivement sur l'emploi du
« Soundex» de l'épouse sans celui du mari, et sur l'emploi du « Soundex»
du mari sans celui de l'épouse. On pourrait, en outre, dans chaque cas, faire
appel à d'autres renseignements, moins sûrs, tels que les initiales et les lieux
de naissance, pour réaliser des classements suffisamment fins, sans pertes
appréciables sur les couplages possibles qu'on s'efforce de retrouver.

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.