Commentaire : Les méthodes de testing permettent-elles d'identifier et de mesurer l'ampleur des discriminations ?

De
Publié par

Parmi les méthodes utilisées pour détecter la présence de phénomènes discriminatoires, les expériences de terrain de type testing font aujourd'hui l'objet d'un intérêt tout particulier. La mesure de ces phénomènes à l'aide des sources statistiques usuelles soulève en effet un certain nombre de difficultés auxquelles le testing est présumé apporter une réponse simple et efficace. Il était donc tout naturel qu'Économie et Statistique ouvre ses colonnes à cette approche et l'article de Yannick L'Horty, Emmanuel Duguet, Loïc du Parquet, Pascale Petit et Florent Sari est une très bonne occasion de le faire. Comme c'est souvent le cas pour ce type de travail, les résultats obtenus sont relatifs à un terrain particulier, mais ils sont intéressants par la tentative de croiser différentes sources potentielles de discrimination et d'analyser leur interaction. Et leur article est surtout une introduction concrète très utile à la méthodologie du testing, avec une présentation détaillée du protocole suivi et de ses justifications. Pour autant, il importe de rappeler que cette méthodologie n'est pas sans limites, et que ses résultats doivent donc être considérés avec précaution. Le présent commentaire ne va pas reprendre point par point les différents aspects du travail de L'Horty et de ses co-auteurs, mais il va s'efforcer de rappeler les principaux éléments du débat dont les méthodes de testing sont actuellement l'objet.
Publié le : dimanche 30 décembre 2012
Lecture(s) : 13
Nombre de pages : 6
Voir plus Voir moins

COMMENTAIRE
LES MÉTHODES DE TESTING PERMETTENT-ELLES D’IDENTIFIER ET DE MESURER
L’AMPLEUR DES DISCRIMINATIONS ?
Romain Aeberhardt*, Denis Fougère** et Roland Rathelot***
Parmi les méthodes utilisées pour détecter la Le premier grand type de méthode consiste à
présence de phénomènes discriminatoires, construire un modèle de fonctionnement d’un
les expériences de terrain de type testing font marché (marché du logement, du travail, etc.)
aujourd’hui l’objet d’un intérêt tout particu- caractérisé par l’existence de comportements
lier. La mesure de ces phénomènes à l’aide des discriminatoires et d’estimer, en utilisant des
données non-expérimentales, les paramètres sources statistiques usuelles soulève en effet
de ce modèle. Parmi ces paramètres, certains un certain nombre de diffcultés auxquelles
sont relatifs à la discrimination. Cette méthode le testing est présumé apporter une réponse
a deux avantages : elle s’appuie sur des hypo-simple et effcace. Il était donc tout naturel
thèses clairement énoncées et la validation du qu’Économie et Statistique ouvre ses colonnes
modèle est fondée sur l’analyse statistique de à cette approche et l’article de Yannick L’Horty,
grands échantillons constitués de données non-Emmanuel Duguet, Loïc du Parquet, Pascale
expérimentales. Dans le cas malencontreux, Petit et Florent Sari est une très bonne occasion
mais probable, où le modèle est par trop réduc-de le faire. Comme c’est souvent le cas pour ce
teur, ce type d’approche peut fournir des résul-type de travail, les résultats obtenus sont relatifs
tats fortement biaisés.à un terrain particulier, mais ils sont intéressants
par la tentative de croiser différentes sources
Une autre méthode consiste à comparer les situa-potentielles de discrimination et d’analyser leur
tions auxquelles font face le groupe de person-interaction. Et leur article est surtout une intro-
nes potentiellement discriminées et le groupe de duction concrète très utile à la méthodologie du
celles qui ne le sont pas. Pour être acceptable, testing, avec une présentation détaillée du pro-
une telle comparaison doit évidemment tenir tocole suivi et de ses justifcations.
compte des différences de caractéristiques entre
les deux groupes.
Pour autant, il importe de rappeler que cette
méthodologie n’est pas sans limites, et que Par exemple, que reste-t-il de l’écart de taux
ses résultats doivent donc être considérés avec d’emploi entre les Français dont les parents
précaution. Le présent commentaire ne va pas sont immigrés et les Français de parents nés
reprendre point par point les différents aspects en France, une fois que l’on a tenu compte du
du travail de L’Horty et de ses co-auteurs, mais fait que les premiers sont plus jeunes et moins
il va s’efforcer de rappeler les principaux élé- diplômés ? Cette méthode, qui est facile à met-
ments du débat dont les méthodes de testing tre en œuvre et qui utilise comme la précédente
sont actuellement l’objet. des données non-expérimentales, a un inconvé-
nient majeur : l’écart non expliqué par les dif-
férences de caractéristiques observables, telles Le testing : la seule méthode permettant
que l’âge, le niveau d’éducation, la commune de détecter la discrimination ?
ou le quartier de résidence, etc., ne peut être
imputé avec certitude à de la discrimination. On
Les expériences de testing sont-elles les seules
ne peut jamais exclure totalement que les écarts
méthodes empiriques permettant de mettre en
inexpliqués soient au moins partiellement dus à
évidence l’existence de discrimination ? Dans
des différences qui n’ont pas pu être prises en
la littérature économique, deux autres types
compte dans l’analyse statistique.
de procédures statistiques sont utilisées pour
détecter la présence de discriminations à l’en- Le testing serait de ce fait la seule méthode per-
contre d’un groupe de personnes (ce groupe mettant de détecter directement l’existence de
pouvant être défni par son genre, son âge, son
origine géographique ou nationale, son appa-
rence physique, ou son orientation sexuelle) et
* Dares et Crest.sur un marché particulier : marché du travail, du
** CNRS, Crest, LIEPP (Sciences PO Paris), CEPR et IZA.
logement, ou encore du crédit bancaire. *** Crest et Insee.
ÉCONOMIE ET STATISTIQUE N° 447, 2011 97comportements discriminatoires. Néanmoins, sion qui ne s’apparente pas directement à un
comme le rappellent Duguet et al. (2009), pro- comportement discriminatoire. Deux exemples
céder à un testing est long et coûteux puisqu’une permettent d’illustrer ce problème.
telle procédure oblige à concevoir et mettre sur
pied une expérimentation et ensuite à recueillir Commentant les résultats obtenus par Bertrand
des données spécifques. En outre, les résultats et Mullainathan (2004) à l’issue d’un testing par
d’une telle expérience n’ont souvent qu’une por- envoi de CV, Fryer et Levitt (2004) ont mon-
tée limitée ; il n’est pas possible de les extrapoler tré que les prénoms choisis pour signaler aux
au-delà du contexte particulier de moment, de recruteurs qu’ils ont affaire à des candidats
lieu, de marché, etc., au sein duquel s’est dérou- Afro-américains sont généralement des pré-
lée l’expérience. Une troisième limite, inhérente noms qui sont non seulement plus souvent por-
aux expériences de testing reposant par exemple tés par des Afro-américains, mais également par
sur l’envoi de CV, est de se limiter à la première des personnes par ailleurs plus désavantagées
étape de la sélection des candidats, en ce cas à que la moyenne (ayant une mère plus pauvre,
la convocation à un rendez-vous d’embauche fait moins d’études, etc.). Dans ce cas, les écarts
ou à un entretien. Mais ces limites ne sont pas mesurés entre les deux groupes ne distinguent
les seules et plusieurs précautions doivent donc pas le désavantage lié à l’ethnicité de celui lié
être prises par les chercheurs au moment de la à une origine sociale plus défavorisée. Cette
conception du protocole de l’expérience et lors critique s’applique-t-elle au cas français ? Les
de l’analyse statistique de ses résultats. Français d’origine maghrébine portant un pré-
nom moins « typé » (Inès, Sofa, etc.) ont-ils des
origines sociales, géographiques, etc., différen-
Ce que l’on veut tester n’est pas toujours tes de ceux dont le prénom est plus caractéristi-
ce que l’on teste que (Aicha, Fatima, etc.) ? Pour répondre à cette
question, il serait donc utile, avant de procéder
à un testing, d’examiner la corrélation empi-Lorsque la caractéristique qui est source poten-
rique entre la fréquence des prénoms et l’ori-tielle de discrimination (l’âge, l’origine sociale
gine sociale ou géographique des personnes du ou ethnique, le genre, etc.) n’est pas directe-
groupe considéré.ment identifable dans le dossier, le CV ou l’ap-
parence de l’acteur qui participe au testing, les
chercheurs doivent faire des hypothèses implici- Le deuxième exemple, extrait d’un article
tes sur la manière dont les agents qui choisissent d’Heckman et Siegelman (1993), est celui d’un
un candidat (employeurs, propriétaires, agences protocole où des acteurs participent à des entre-
de location, organismes de crédit, etc.) inter- tiens d’embauche pour tester l’existence éven-
prètent l’information effectivement transmise. tuelle d’une discrimination ethnique à l’embau-
Par exemple, puisqu’il n’est pas courant que les che. Sauf cas exceptionnel, les acteurs sont peu
personnes postulant à un emploi mentionnent nombreux et jouent chacun un rôle bien déter-
sur leur CV leur origine ethnique, l’hypothèse miné : ainsi, un acteur Noir ne peut pas prendre
souvent faite est que les employeurs déduisent la place d’un acteur Blanc. Même si ces acteurs
du nom ou du prénom des candidats leur origine sont censés être les plus comparables possibles
nationale ou ethnique. Stricto sensu, lorsque l’on (à l’exception de la caractéristique qui fait l’ob-
construit un testing visant à mettre en évidence jet du test), on ne peut jamais complètement
par le biais de l’envoi de CV la discrimination à exclure qu’il subsiste de légères différences
l’encontre des immigrés ou de leurs descendants comportementales (par exemple, en termes de
au moment de l’embauche, on mélange souvent dynamisme, d’élocution, d’enthousiasme, etc.)
deux questions pourtant distinctes : quel type qui favorisent l’un ou l’autre des acteurs au
d’information un employeur déduit-il d’un nom moment de l’entretien. Puisque les acteurs ne
ou d’un prénom que les chercheurs considèrent peuvent pas changer de rôle, ces différences sont
comme « typiquement maghrébin », et quelle systématiques, et de ce fait, en leur présence, il
est la réaction de l’employeur face à un candi- est diffcile de repérer l’existence d’éventuels
dat d’origine maghrébine ? À l’évidence, dans comportements discriminatoires. L’estimation
cet exemple, la diffculté provient du fait qu’au reposant sur la comparaison des moyennes de
vu du nom ou du prénom (voire de l’adresse) résultats (ici, le nombre de propositions d’em-
du candidat, l’employeur peut prendre une déci- bauche) est donc biaisée ; en outre, le signe et
98 ÉCONOMIE ET STATISTIQUE N° 447, 2011l’amplitude de ce biais sont diffcilement pré- une mesure exacte du phénomène ? Si l’on fait
visibles. La seule solution consiste ici à multi- l’hypothèse que les serveurs plus âgés utilisent
plier le nombre d’acteurs, ce qui peut augmenter plus fréquemment les contacts personnels et
signifcativement le coût de l’expérience. moins souvent les annonces et les candidatu-
res spontanées lorsqu’ils cherchent un emploi,
alors il se peut que le testing conduit par Riach
La discrimination potentielle n’est pas et Rich (2010) ne refète pas vraiment le com-
portement de recherche d’emploi des candidats nécessairement la discrimination réelle
âgés, et que la discrimination à leur encontre
soit moindre que celle suggérée par le résultat Heckman (1998) met en doute la pertinence de
de leur étude.la discrimination mesurée par testing. Pour lui,
la procédure de testing mesure la discrimina-
tion potentielle, c’est-à-dire la discrimination
Détecter la discrimination ou en mesurer qui surviendrait dans le cas hypothétique où le
l’ampleur ?groupe potentiellement discriminé se comporte-
rait comme les chercheurs administrant le tes-
ting l’imaginent. En réalité, le comportement de Sous réserve de s’assurer que la variable utili-
ce groupe peut être très différent de celui qui sée pour défnir les deux groupes correspond
est postulé par les chercheurs. La discrimina- bien à la caractéristique dont on souhaite tester
tion réellement subie sur le marché considéré l’infuence et que les offres sont représentatives
peut de ce fait être d’une ampleur sensiblement du marché dont on étudie le fonctionnement, le
différente de celle mesurée par la procédure de testing permet de calculer un écart moyen de
testing. Pour le dire plus précisément encore, le la variable d’intérêt entre les deux groupes. Un donne des informations statistiques sur test de la signifcativité statistique de cet écart
les comportements de demande observés sur correspond à un test de l’hypothèse nulle : « Le
le marché considéré, mais pas nécessairement côté demande du marché traite de manière iden-
sur la situation prévalant à l’équilibre sur ce tique les individus des deux groupes ». Il s’agit
marché. donc d’un test de l’existence d’un processus
discriminatoire.
Une expérience de testing par CV consiste à
envoyer pour chaque offre d’emploi déposée Quid de la taille du coeffcient estimé ?
deux types de CV, qu’un seul critère différencie. Peut-on dire qu’il mesure l’ampleur de la dis-
Parmi les entreprises contactées, certaines sont crimination ? On peut penser à deux obstacles.
susceptibles d’adopter un comportement discri- Premièrement, comme souligné précédemment,
minatoire. Cependant, dans certains cas, lorsque la discrimination mise en évidence par le testing
les personnes potentiellement discriminées sont correspond à une discrimination potentielle et
relativement peu nombreuses, il se peut qu’elles non nécessairement à la discrimination effec-
trouvent suffsamment d’offres parmi les entre - tivement subie. Deuxièmement, l’écart mesuré
prises qui ne discriminent pas et ne soient de ce entre les deux groupes dépend crucialement de
fait que rarement victimes des comportements la qualité des candidatures. Ce deuxième point
des employeurs qui discriminent. est important car il rend diffcile les comparai -
sons d’une expérience à l’autre. L’écart mesuré
entre les deux groupes sera en général différent Un autre exemple est fourni par Riach et Rich
si les chercheurs envoient des candidatures de (2010) qui utilisent le testing pour mesurer la
plus ou moins bonne qualité. Sous l’hypothèse discrimination à l’encontre des travailleurs âgés.
d’une discrimination relativement homogène, il Dans les entreprises du secteur de l’hôtellerie
est probable que l’écart mesuré entre les grou-et de la restauration qui offrent des emplois, les
pes sera croissant en fonction de la qualité des chercheurs envoient des candidatures sponta-
candidatures.nées de serveurs jeunes et d’autres plus âgés.
Leurs résultats indiquent un écart de réponse
important en faveur des candidats plus jeunes. Idéalement, on souhaiterait que les candidatures
Cet écart est en toute vraisemblance la consé- soient représentatives des candidatures existan-
quence d’une discrimination à l’encontre des tes, c’est-à-dire que soit utilisé un mélange de
travailleurs les plus âgés. Mais est-il pour autant candidatures de bonne, moyenne et mauvaise
ÉCONOMIE ET STATISTIQUE N° 447, 2011 99qualité. En pratique, lors d’un testing sur la dis- de CV pour détecter avec une certaine puissance
crimination à l’embauche, par exemple, le nom- (souvent fxée à 80 %) un écart d’une certaine
bre d’offres est très grand, mais le nombre de valeur entre les groupes. Plus l’écart postulé est
CV est faible. Il est souvent peu crédible que élevé, plus l’hypothèse nulle est facile à rejeter
les CV utilisés soient représentatifs de la totalité et plus le nombre de CV devant être envoyés
des CV envoyés par les candidats. Là encore, un est faible. Ce genre d’exercice permet de savoir
moyen de résoudre cette diffculté serait d’aug- a priori si le budget de l’expérience permet ou
menter le nombre de CV envoyés et de s’assurer non de détecter un écart d’une certaine ampleur.
de leur représentativité, par exemple en exami- Lorsque les chercheurs rédigent leur rapport,
nant des CV réellement envoyés. joindre le calcul de puissance permet d’infor-
mer le lecteur sur les hypothèses faites ex ante
par les chercheurs. Des calculs de puissance Une fois ce point résolu, on obtiendrait un esti-
sont présentés par exemple dans l’article de mateur crédible de la discrimination potentielle
Dufo et al. (2008).sur le marché examiné. Parvenir à mesurer la
discrimination réelle, c’est-à-dire être capable
de savoir quelle part des écarts empiriques (de
taux d’emploi, par exemple) entre deux popula-
De plus en plus souvent, les chercheurs s’ef-tions est attribuable à de la discrimination, n’est
forcent de défnir et d’annoncer à l’avance les pas possible sans hypothèse supplémentaire sur
hypothèses qui vont être testées, tout en res-le fonctionnement du marché considéré.
treignant leur nombre de façon à maximiser la
puissance statistique des procédures de test. Si
tel n’est pas le cas, la tentation peut être grande Que peuvent apporter les
de chercher à faire apparaître a posteriori des expérimentations contrôlées au testing ?
résultats signifcatifs sur certaines sous-popula-
tions ou dans des dimensions qui n’étaient pas a Un testing est un cas particulier d’expérimenta-
priori prévues par l’expérimentation. Avec des tion contrôlée. Deux pratiques, courantes dans
tests d’un niveau de 10 %, on fnit par trouver la littérature utilisant l’expérimentation contrô-
des effets signifcatifs dans 10 % des cas, même lée pour évaluer l’impact de politiques publi-
si les effets réels sont nuls. Par exemple, l’un ques, pourraient être adaptées au testing.
des objectifs de l’article est de comparer l’effet
du lieu de résidence sur l’accès à un entretien
1Premièrement, un calcul de puissance permet d’embauche. Les auteurs concluent peut-être de
de calibrer ex ante le protocole expérimental. manière trop hâtive à une hétérogénéité de cet
Prenons l’exemple d’un testing utilisant des CV effet en fonction du sexe et de l’origine natio-
pour tester la discrimination à l’embauche selon nale des candidats à partir de sous-échantillons
le groupe ethnique. Préalablement au lancement de faible taille. Ainsi, leurs estimations, trop
de l’opération, les chercheurs doivent commen- imprécises, ne leur permettent pas d’affrmer
cer par choisir leurs populations d’intérêt (ici, que le lieu de résidence a un effet différent pour
les groupes ethniques) et le marché sur lequel les femmes et les hommes d’origine maghré-
ils souhaitent tester la présence de discrimina- bine vivant à Enghien ou à Villiers-le-Bel (cf. le
tion (par exemple, les techniciens informatiques (1)tableau 4 de l’article).
sortant du système universitaire). Ils énon-
cent ainsi la question à laquelle ils souhaitent
1. La puissance statistique est la probabilité que l’hypothèse répondre et spécifent l’hypothèse nulle corres-
nulle (ici, l’absence de différence de traitement entre les deux
pondante (ici, il n’existe pas de différence de groupes considérés) soit rejetée et que le testing ne puisse donc
pas permettre de repérer l’association réellement existante entre traitement entre les deux groupes). Ils doivent
la caractéristique sociodémographique considérée (par exemple,
également faire des hypothèses concernant l’es- l’âge, le genre, l’origine sociale ou nationale, etc.) et la variable
de résultat (par exemple, l’accès à un entretien d’embauche). La pérance mathématique de la variable d’intérêt
puissance est déterminée par différents facteurs, parmi lesquels
dans le groupe potentiellement non discriminé la fréquence de la variable de résultat considérée, le protocole de
l’expérience et la taille de l’échantillon. Lors de la mise en place (par exemple, le taux de retour est en moyenne
de l’étude, les chercheurs doivent opter pour une certaine puis-strictement positif pour ces personnes). Ces sance en fonction de laquelle la taille de l’échantillon est ensuite
déterminée. Une puissance statistique de 80 % est généralement hypothèses leur permettent ensuite de calculer,
considérée comme le minimum exigible. Ce qui signife qu’il y a compte tenu du plan d’expérience, le nombre
80 % de chance que l’étude puisse mettre en évidence l’effet
d’offres à laquelle il faut envoyer les deux types recherché.
100 ÉCONOMIE ET STATISTIQUE N° 447, 2011Choisir le plan d’expérience le plus adapté d’étude ayant plus particulièrement examiné ce
type d’éventualité et les biais possibles qu’elle
introduit dans les résultats. En outre, ce risque L’expérience de testing la plus élémentaire est
de détection est amplifé lorsque les chercheurs celle qui consiste à comparer la situation de
envoient un assez grand nombre de candidatures deux groupes. Même dans ce cas simple, deux
à la même offre. Il en est ainsi lorsqu’ils souhai-plans d’expérience sont envisageables. Il est
tent tester simultanément plusieurs hypothèses tout d’abord possible d’envoyer une et une seule
à l’aide d’une même expérience de testing, et candidature à chaque offre d’emploi disponible,
qu’ils sont pour cela obligés de construire plus en appariant de manière aléatoire les candidatu-
de deux groupes de candidats. C’est le cas dans res aux offres déposées. Toutefois, plus souvent,
la présente étude qui utilise douze groupes de les candidatures sont groupées par paires, une
candidats pour tester l’existence concomitante candidature de chaque groupe étant adressée de
de plusieurs types de discrimination, en fonc-ce fait à une même offre. Laquelle de ces deux
tion de l’origine ethnique, du genre et du lieu possibilités correspond au meilleur plan d’ex-
de résidence.périence ? Tout dépend de l’hétérogénéité des
offres d’emploi. Dans le cas où celles-ci sont de
natures très différentes, le second type de plan Si l’on connaissait, au moins grossièrement,
d’expérience permet de gagner de la puissance la manière dont la probabilité de détection des
statistique. Sur ce point, les travaux relatifs à « fausses » candidatures augmente avec le nom-
la mise en place des plans d’expérience dans bre de candidatures associées à la même offre
le domaine de la bio-statistique peuvent être d’emploi, il serait possible d’en déduire un plan
avantageusement mobilisés (voir, par exemple, d’expérience optimal. Un plus grand nombre
Montgomery, 2008). de candidatures pour chaque offre augmente
certes la puissance des tests statistiques mais
Pour qu’un testing soit valide, il est nécessaire elle accroît aussi la probabilité de détection des
qu’il ne soit pas détecté, c’est-à-dire que les « fausses » candidatures par les employeurs. En
candidatures envoyées par les chercheurs soient présence d’un tel arbitrage, quel est le nombre
traitées par les employeurs contactés de la même optimal de candidatures qui doit être adressé à
manière que les candidatures adressées par de chaque offre ? Cette question est aujourd’hui
« vrais » candidats. Nous ne connaissons pas largement sans réponse.
BiBLiographie
Bertrand M. et Mullainathan S. (2004), « Are heckman J.J. et Siegelman p. (1993), « The
Emily and Greg More Employable Than Lakisha Urban Institute Audit Studies : Their Methods and
and Jamal ? A Field Experiment on Labor Market Findings », dans Clear and Convincing Evidence :
Discrimination », American Economic Review, Measurement of Discrimination in America, édité
vol. 94, nº 4, pp. 991-1013. par M. Fix et R. Struyk, Washington DC, The
Urban Institute Press.
Duflo e., glennester r. et Kremer M. (2008), Fryer r.g. Jr. et Levitt S.D. (2004), « The
« Using Randomization in Development Causes and Consequences of Distinctively Black
Economics Research : A Toolkit », dans Handbook Names », Quarterly Journal of Economics,
of Development Economics, édité par T. Paul vol. 119, nº 3, pp. 767-805.
Schultz et John A. Strauss, Elsevier.
Montgomery D. C. (2008), Design and Analysis
of Experiments, Wiley.
Duguet e., L’horty Y. et petit p. (2009),
riach p .a. et rich J. (2002), « Field Experiments « L’apport du testing à la mesure des discrimina-
of Discrimination in the Market Place », Economic tions », Connaissance de l’Emploi, Centre d’Étu-
Journal, vol. 112, pp. 480-518.des de l’Emploi, nº 68.
riach p .a. et rich J. (2010), « An Experimental
heckman J.J. (1998), « Detecting Discrimination », Investigation of Age Discrimination in the English
Journal of Economic Perspectives, vol. 12, nº 2, Labor Market », Annales d’Économie et de
pp. 101-116. Statistique, nº 99/100, pp. 169-186.
ÉCONOMIE ET STATISTIQUE N° 447, 2011 101

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.