E XEMPLE ADAPTE DE JEAN BOUYER Analyse d’une enquête épidémiologique L’enquête sur laquelle est fondé cet exercice avait pour objectif général d’examiner les liens entre les expositions chimiques rencontrées dans l’environnement professionnel et le risque de cancer de la vessie. Elle avait les caractéristiques générales suivantes : Critères de sélection des cas − Hospitalisés en 83, 84, 85 aux services d’Urologie de Cochin et la Pitié Salpêtrière à Paris. − Hommes, résidant en France, âgés de 80 ans et moins. − Diagnostic de tumeur primitive maligne de la vessie confirmé histologiquement, porté eraprès le 1 janvier 1982. Critère de sélection des témoins − Tirés au sort dans les listes d’admission de l’hôpital simultanément à l’inclusion du cas (et dans le même hôpital). − Hommes résidant en France, âgés de 80 ans et moins. − Appariés aux cas sur l’âge ± 5 ans, la zone de résidence (région parisienne et extérieur). Exclusions Chez les cas, comme chez les témoins, ont été exclus les sujets atteints de bilharziose (qui est une cause connue de cancer de la vessie), et ceux ayant des antécédents de cancer. Parmi les témoins, ont été exclus les sujets atteints de maladies respiratoires, de maladies d’origine professionnelle, ou de cancers. Informations − Recueillies par interview − Expositions professionnelles évaluées (à l’aveugle du statut cas-témoin)par 3 chimistes industriels. Les résultats sur lesquels porte l’exercice concernent les 164 premiers ...
E XEMPLE ADAPTE DE J EAN B OUYER Analyse d’une enquête épidémiologique
Lenquête sur laquelle est fondé cet exercice avait pour objectif général dexaminer les liens entre les expositions chimiques rencontrées dans lenvironnement professionnel et le risque de cancer de la vessie. Elle avait les caractéristiques générales suivantes :
Critères de sélection des cas
− Hospitalisés en 83, 84, 85 aux services dUrologie de Cochin et la Pitié Salpêtrière à Paris.
− Hommes, résidant en France, âgés de 80 ans et moins.
− Diagnostic de tumeur primitive maligne de la vessie confirmé histologiquement, porté après le 1 er janvier 1982.
Critère de sélection des témoins
− Tirés au sort dans les listes dadmission de lhôpital simultanément à linclusion du cas (et dans le même hôpital).
− Hommes résidant en France, âgés de 80 ans et moins.
− Appariés aux cas sur lâge ± 5 ans, la zone de résidence (région parisienne et extérieur).
Exclusions
Chez les cas, comme chez les témoins, ont été exclus les sujets atteints de bilharziose (qui est une cause connue de cancer de la vessie), et ceux ayant des antécédents de cancer. Parmi les témoins, ont été exclus les sujets atteints de maladies respiratoires, de maladies dorigine professionnelle, ou de cancers.
Les résultats sur lesquels porte lexercice concernent les 164 premiers sujets de lenquête (72 paires cas-témoin). Modèles multivariés Master M1 Nov 2005
1
E XEMPLE ADAPTE DE J EAN B OUYER PARTIE I : ANALYSE DESCRIPTIVE
1. Expliquez les raisons des exclusions qui ont été décrites plus haut. 2. Les tableaux statistiques 1 à 6 donnent les résultats concernant certaines des variables relevées dans lenquête. a) Commentez et résumez linformation quapporte chacun des tableaux par rapport à la stratégie générale danalyse dune enquête. Précisez notamment quelle est lutilité du tableau 1 et indiquez comment vous interprétez les résultats du tableau 2 dans le cadre de lobjectif principal de cette enquête (études des expositions professionnelles). b) Dans tous les tableaux figure le degré de signification des tests statistiques. Ces tests sont-ils tous utiles ? Pour le savoir, essayez de déterminer si la conclusion que vous tirez du tableau serait modifiée si le résultat du test était différent. Tableau 1 Description statistique générale VARIABLE N MOYENNE ECART- VALEUR VALEUR TYPE MINIMUM MAXIMUM hopital 164 1.573171 0.49613 1.0 2.0 kt 164 0.500000 0.50153 0.0 1.0 tabac 164 0.804878 0.39751 0.0 1.0 fumee 164 0.158536 0.36636 0.0 1.0 coupe 164 0.091463 0.28915 0.0 1.0 solvants 164 0.274390 0.44757 0.0 1.0 csp 164 4.121951 2.21202 1.0 7.0 zonehab 164 1.158537 0.36636 1.0 2.0 age 164 2.682927 1.19177 1.0 4.0 agediag 164 62.085366 8.99039 43.0 78.0
Certaines variables se comprennent delles-mêmes. Pour les autres, précisons que : − KT représente le statut de cas (codé 1) ou de témoin (codé 0), − Tabac est codé : 0 = Non fumeurs, 1 = Fumeurs, − Fumée, Coupe et Solvants représentent les expositions respectives aux fumées de soudage, aux huiles de coupe et aux solvants. Elles sont codées : 1=avoir été exposé au moins 6 mois dans sa vie professionnelle, 0 sinon. − CSP est la catégorie socio-professionnelle (codée en 7 classes, voir tableau 3) − ZONHAB est la zone de résidence (1= région parisienne, 2 = extérieur), − AGE est lâge codé en 4 classes : 1 : ≤ 54 ans, 2 : 55- 59 ans, 3 : 60-64 ans, 4 : ≥ 65 ans AGEDIAG est la variable quantitative correspondante.
Modèles multivariés
Master M1 Nov 2005
2
E XEMPLE ADAPTE DE J EAN B OUYER Tableau 2: Répartition des sujets par âge et par hôpital Cas Témoins P Effectifs 82 82 Age au diagnostic (années) Age moyen 62,2 ± 1,0 62,0 ± 1,0 NS ≤ 54 ans 19 (23,2 %) 20 (24,4 %) 55- 59 ans 16 (19,5 %) 17 (20,7 %) NS 60-64 ans 16 (19,5 %) 17 (20,7 %) ≥ 65 ans 31 (37,8 %) 28 (34,2 %) Hôpital Cochin 35 (42,7 %) 35 (42,7 %) NS La Pitié 47 (57,3 %) 47 (57,3 %) Zone de résidence Région parisienne 69 (84,1 %) 69 (84,1 %) NS Extérieur 13 (18,9 %) 13 (18,9 %) Tableau 3: Répartition des sujets par catégorie socio-professionnelle (C.S.P.) Cas Témoins P C.S.P. n = 82 n = 82 1. Personnel des pr libéralesetassimiléoefsessionsscientifiques,techniques,16(19,5%)9(11,0%)2. Directeurs et cadres daministratifs supérieurs 7 (8,5 %) 12 (14,5 %) 3. Personnel administratif et treavailleurs assimilés 18 (22,0 %) 12 (14,6 %) 4. Personnel commercial et vendeurs 12 (14,6 %) 18 (22,0 %) NS 5. Travailleurs spécialisés dans les services 4 (4,9 %) 3 (3,7 %) 6. Agriculteurs, éleveurs, forestiers, chasseurs et pêcheurs 0 (0,0 %) 3 (3,7 %) 7. Ouvriers 25 (30,5 %) 25 (30,5 %) Tableau 4: Association entre la consommation de tabac et la maladie Cas Témoins OR IC 95 % P Effectifs 82 82 Consommation de cigarettes Non fumeurs 6 26 1 Fumeurs 76 56 5,9 [2,3 15,2] p<1 Consommation de cigarettes Non fumeurs 6 26 1 Fumeurs actuels 35 26 5,8 [2,1 16,2] p<1 Anciens fumeurs 41 30 5,9 [2,2 16,2] p<1 Modèles multivariés Master M1 Nov 2005 3
E XEMPLE ADAPTE DE J EAN B OUYER Tableau 5: Fréquence des expositions professionnelles dans l’échantillon total et selon les autres expositions Ensemble de léchantillon fumée de soudage Huiles de coupe Solvants E- E+ E- E+ E- E+ Effectifs 164 138 26 149 15 119 45 Fumées de soudage 15,8 % 12,8 % 46,7 % 13,5 % 22,2 % p < 1 NS Huiles de coupe 9,1 % 5,8 % 26,9 % 5,9 % 17,8 % p < 1 ‰ p < 5% Solvants 27,4 % 25,4 % 38,5 % 24,8 % 53,3 % NS p < 5 % Tableau 6: Associations entre les expositions professionnelles et la maladie Cas Témoins OR IC 95 % p Fumées de soudage E- 64 74 1 E+ 18 8 2,6 [1,1 6,4] p < 5 % Huiles de coupe E- 70 79 1 E+ 12 3 4,5 [1,2 16,6] p < 5 % Solvants E- 56 63 1 E+ 26 19 1,5 [0,8 3,1] NS Tableau 7: Associations entre les expositions professionnelles et l’âge ou le tabac Effectifs Age au diagnostic (âge Consommation de tabac moyen) % fumeurs Fumées de soudage E- 138 62,1 77,5 % E+ 26 61,8 96,2 % NS p < 5 % Huiles de coupe E- 149 61,8 79,9 % E+ 15 64,9 86,7 % NS NS Solvants E- 119 62,6 76,5 % E+ 45 60,8 91,1 % NS p < 5 %
Modèles multivariés
Master M1 Nov 2005
4
E XEMPLE ADAPTE DE J EAN B OUYER PARTIE II : ANALYSE STRATIFIEE On sintéresse maintenant plus particulièrement à lexposition aux huiles de coupe. Les résultats des analyses de lassociation entre lexposition aux huiles de coupe et le cancer de la vessie stratifiées sur le tabac et sur lexposition aux fumées de soudage sont indiqués ci-dessous : Variable dajustement OR IC Tabac Non fumeur 5,00 [0,27 ; 93,96] Fumeur 4,57 [0,97 ; 21,51] Ajustement 4,66 [1,18 ; 18,34] Test dinteraction x2 = 0,003 p = 0,96 Fumées de soudage Non exposés 3,72 [0,72 ; 19,15] Exposés 3,50 [0,35 ; 35,37] Ajustement 3,65 [0,96 ; 13,88] Test dinteraction x2 = 0,002 p = 0,97 Retrouver les estimations des OR bruts et ajustés ainsi que leur IC à partir des tableaux suivants : Controlling for fumeur=0 Controlling for fumeur=1 coupe(expo huile de coupe) coupe(expo huile de coupe) kt(0:tem 1;cas) kt(0:tem 1;cas) Fr 2 Frequen10cy150151Tot3a20lequenc01y542061511Tot1a11l93 Total 26 6 32 Total 56 76 132 Controlling for fumee=0 Controlling for fumee=1 coupe(expo huile de coupe) coupe(expo huile de coupe) kt(0:tem 1;cas) kt(0:tem 1;cas) Frequency 0 1 Total quen10722581380Frec01y7101261Tota1l97 6 Total 74 64 138 Total 8 18 26 Le tabac et lexposition aux fumées de soudage sont-ils facteurs de confusion ? Modèles multivariés Master M1 Nov 2005 5
E XEMPLE ADAPTE DE J EAN B OUYER PARTIE III : ANALYSE MULTIVARIEE
1. Codage de la variable tabac La consommation de tabac était recueillie initialement en trois catégories : non fumeurs, ex-fumeurs, fumeurs actuels. Trois autres modes de codage sont envisagés ; ils vous sont donnés ci-dessous ainsi que les résultats des modèles logistiques correspondants. Quel codage proposez-vous de retenir ?
Codage 1 : deux variables (TB 0 et TB 1 ) Définition TB 0 1 : ex fumeurs 0 : les autres TB 1 1 : fumeurs actuels 0 : les autres
Résultat du modèle logistique LnV 3 - 105,4 = s TB0 1,764 0,522 TB1 1,779 0,513
Codage 2 : une variable en 2 classes (TB 2 ) Définition Résultat du modèle logistique LnV 2 = - 105,4 0 : non fu meurs s 1 : fumeurs actuels ou passés TB 2 1,772 0,486
Codage 3 : une variable en 3 classes (TB 3 ) Définition 0 : non fumeurs 1 : ex fumeurs 2 : fumeurs actuels
Modèles multivariés
Résultat du modèle logistique LnV 1 = - 108,4 s TB 3 0,686 0,226
Master M1 Nov 2005
/ s 3,4 5,9
/ s 3,7
/ s 3,0
6
E XEMPLE ADAPTE DE J EAN B OUYER 2. On décide danalyser lassociation entre exposition aux huiles de coupe et cancer de la vessie par régression logistique en sélectionnant les variables par une méthode pas à pas descendante. Les variables incluses dans le modèle initial sont : AGE, HOPITAL, ZONEHAB, COUPE, FUMEE, SOLVANTS, TABAC, et les interactions COUPE*FUMEE, COUPE*SOLVANTS et COUPE*TABAC. • Le choix de ces variables initiales vous semble-t-il justifié en fonction de ce qui a été trouvé en I et II ? • Certaines variables doivent-elles être forcées dans le modèle (cest à dire y rester indépendamment de la signification de leur coefficient) ? • Quelle valeur donnez-vous pour lodds ratio attaché à lexposition aux huiles de coupe et pour son intervalle de confiance ? • Même question pour lexposition conjointe aux huiles de coupe et au tabac ?
Modèles multivariés
Master M1 Nov 2005
7
E XEMPLE ADAPTE DE J EAN B OUYER LISTING DU PROGRAMME DE REGRESSION LOGISTIQUE DE BMDP Exemple fourni par Jean BOUYER. BMDPLR - STEPWISE LOGISTIC REGRESSION Release: 7.0 (BMDP/DYNAMIC) Date: 11/15/05 at 15:46:08 Site: s2u01847ck Biostatistique _ --- Following output appended to C:\ MC\BMDPOUT&.OUT ---/ INPUT FILE = 'c:\ mc\vessie.por'. _ CODE = VESSIE. PORT. / VARIABLE NAMES= hopital, kt, fumeur, fumee, coupe, solvants, csp, zonehab, age, agediag, tabac. use= hopital, kt, tabac, fumee, coupe, solvants, zonehab, age. / REGRESS depend=kt. model = age, hopital, zonehab, coupe, fumee, solvants, tabac, coupe*fumee, coupe*solvants, coupe*tabac. start = in, in, in, in, in, in, in, in, in, in. move = 3*0, 7*2. method = mlr. / END. CASE 1 2 11 4 5 6 8 9 NO. hopital kt tabac fumee coupe solvants zonehab age ----- -------- -------- -------- -------- -------- -------- -------- -------- 1 1.000000 1.000000 0.000000 0.000000 0.000000 0.000000 1.000000 4.000000 2 1.000000 0.000000 1.000000 1.000000 0.000000 0.000000 1.000000 4.000000 3 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 4.000000 4 1.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1.000000 3.000000 5 1.000000 1.000000 1.000000 0.000000 0.000000 0.000000 1.000000 3.000000 6 1.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1.000000 3.000000 7 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 8 1.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 1.000000 9 1.000000 1.000000 1.000000 0.000000 0.000000 0.000000 1.000000 3.000000 10 1.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 3.000000 NUMBER OF CASES READ. . . . . . . . . . . . . . 164 TOTAL NUMBER OF RESPONSES USED IN THE ANALYSIS 164. SUCCESS . . . . . . 82. FAILURE . . . . . . 82. NUMBER OF DISTINCT COVARIATE PATTERNS . . . . . 67
Modèles multivariés
Master M1 Nov 2005
8
E XEMPLE ADAPTE DE J EAN B OUYER DESCRIPTIVE STATISTICS OF INDEPENDENT VARIABLES -----------------------------------------------VARIABLE GROUP DESIGN VARIABLES NO. N A M E INDEX FREQ ( 1) ( 2) ( 3) 9 age 1 39 0 0 0 2 33 1 0 0 3 33 0 1 0 4 59 0 0 1 1 hopital 1 70 0 2 94 1 8 zonehab 1 138 0 2 26 1 5 coupe 0 149 0 1 15 1 4 fumee 0 138 0 1 26 1 6 solvants 0 119 0 1 45 1 11 tabac 0 32 0 1 132 1 DESIGN VARIABLES FOR INTERACTION TERMS ARE GENERATED FROM THE DESIGN VARIABLES OF MAIN EFFECTS. SEE EXPLANATION IN BMDP MANUAL. STEP NUMBER 0 --------------- LOG LIKELIHOOD = -101.346 GOODNESS OF FIT CHI-SQ (2*O*LN(O/E)) = 59.726 D.F.= 54 P-VALUE= 0.275 GOODNESS OF FIT CHI-SQ (HOSMER-LEMESHOW)= 2.764 D.F.= 8 P-VALUE= 0.948 GOODNESS OF FIT CHI-SQ ( C.C.BROWN ) = 2.648 D.F.= 2 P-VALUE= 0.266 STANDARD 95% C.I. OF EXP(COEF) TERM COEFFICIENT ERROR COEF/SE EXP(COEF) LOWER-BND UPPER-BND age (1) -0.6392E-02 0.527 -0.121E-01 0.994 0.351 2.81 (2) -0.8387E-01 0.520 -0.161 0.920 0.329 2.57 (3) 0.1783 0.471 0.379 1.20 0.472 3.03 hopital -0.1663 0.374 -0.445 0.847 0.404 1.77 zonehab -0.2319 0.481 -0.482 0.793 0.307 2.05 coupe 1.437 1.52 0.948 4.21 0.211 84.1 fumee 0.6154 0.534 1.15 1.85 0.644 5.32 solvants 0.6020E-01 0.402 0.150 1.06 0.480 2.35 tabac 1.799 0.536 3.36 6.05 2.10 17.4 c*f -0.3408 1.67 -0.204 0.711 0.262E-01 19.3 c*s 0.5626 1.63 0.346 1.76 0.706E-01 43.6 c*t -0.3368 2.11 -0.160 0.714 0.111E-01 46.0 CONSTANT -1.615 0.630 -2.56 0.199 0.573E-01 0.691
Modèles multivariés
Master M1 Nov 2005
9
E XEMPLE ADAPTE DE J EAN B OUYER CORRELATION MATRIX OF COEFFICIENTS ---------------------------------- age (1) age (2) age (3) hopital zonehab coupe age (1) 1.000 age (2) 0.481 1.000 age (3) 0.531 0.544 1.000 hopital 0.161 0.189 0.262 1.000 zonehab -0.153 -0.099 -0.113 -0.246 1.000 coupe 0.010 0.004 -0.085 0.073 -0.008 1.000 fumee -0.108 -0.080 -0.009 -0.141 -0.046 -0.009 solvants 0.082 0.042 0.086 0.029 -0.091 0.031 tabac -0.011 -0.040 0.018 -0.080 -0.074 0.278 c*f 0.104 -0.045 -0.046 0.050 -0.077 0.012 c*s 0.131 0.058 0.031 0.019 -0.083 -0.002 c*t -0.104 -0.006 0.047 -0.082 0.092 -0.722 CONSTANT -0.420 -0.416 -0.542 -0.371 0.103 -0.248 fumee solvants tabac c f c*s c*t * fumee 1.000 solvants -0.033 1.000 tabac -0.057 -0.085 1.000 c*f -0.323 0.019 0.026 1.000 c*s -0.004 -0.230 0.026 0.092 1.000 c*t 0.047 0.016 -0.243 -0.420 -0.429 1.000 CONSTANT 0.029 -0.139 -0.682 0.006 -0.017 0.197 CONSTANT CONSTANT 1.000 STATISTICS TO ENTER OR REMOVE TERMS ----------------------------------- APPROX. APPROX. TERM CHI-SQ. D.F. CHI-SQ. D.F. LOG ENTER REMOVE P-VALUE LIKELIHOOD age 0.35 3 0.9494 -101.5236 age IS IN MAY NOT BE REMOVED. hopital 0.20 1 0.6562 -101.4452 hopital IS IN MAY NOT BE REMOVED. zonehab 0.23 1 0.6294 -101.4626 zonehab IS IN MAY NOT BE REMOVED. coupe IS IN MAY NOT BE REMOVED. fumee IS IN MAY NOT BE REMOVED. solvants IS IN MAY NOT BE REMOVED. tabac IS IN MAY NOT BE REMOVED. c*f 0.04 1 0.8387 -101.3669 c*s 0.12 1 0.7299 -101.4058 c*t 0.03 1 0.8736 -101.3588 CONSTANT 7.49 1 0.0062 -105.0914 CONSTANT IS IN MAY NOT BE REMOVED. ENTER TERM TO MOVE. !V to View Output; ENTER to accept: c*t --->