47 pages

Français

Introduction à Stata 11

piervalcor11 - Benoît-Paul Hébert

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

47 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Notes pour un atelier d'introduction au progiciel Stata 11.

Sujets

Logiciel de statistiques

Informations

Publié par	piervalcor11
Publié le	20 janvier 2012
Nombre de lectures	6 076
Langue	Français

Extrait

Introduction à Stata 11

Benoît-Paul Hébert benoit.hebert@hrsdc-rhdcc.gc.ca

Atelier de RHDCC Novembre 2010



Atelier de RHDCC

1 Introduction....................................................................................................................................................5 2 Aperçu de Stata...............................................................................................................................................6 2.1 Fenêtres et types de fichiers de Stata............................................................................................................6 2.2 Modes interactif et par lot.............................................................................................................................7 2.3 Syntaxe de base des commandes ..................................................................................................................7 3 Lecture des données et création de fichiers de données ..............................................................................9 3.1 Lecture dun fichier de données Stata ..........................................................................................................9 3.2 Lecture de fichiers de données brutes...........................................................................................................9 3.3 Exportation de données dans un fichier ASCII ..........................................................................................12 3.4Descriptiondesdonnées.............................................................................................................................134 Gestion des données......................................................................................................................................16 4.1 Création et transformation de variables ......................................................................................................16 4.2 Noms et étiquettes ......................................................................................................................................18 4.3 Sélection de variables et dobservations.....................................................................................................19 4.4 Transformations conditionnelles et utilisation du préfixe « by » ...............................................................19 5 Statistiques sommaires, tableaux de fréquences, mesures d’association et visualisation des données..........................................................................................................................22 5.1 Statistiques sommaires ...............................................................................................................................22 5.2 Tableaux de fréquences ..............................................................................................................................22 5.3 Corrélation et autres mesures dassociation ...............................................................................................23 5.4 Visualisation des données...........................................................................................................................24 6 Analyse de données d’enquête complexes ..................................................................................................26 6.1 Utilisation de poids de sondage ..................................................................................................................26 6.2 Utilisation de poids de sondage et de ré-échantillonnage...........................................................................28 6.3 Programmes non officiels : bswreg et bs4rw..............................................................................................28 7 Commandes de base pour l’analyse de transitions ....................................................................................30 7.1 Caractérisation des « données de durée » ...................................................................................................30 7.2 Modèles de risque paramétriques ...............................................................................................................31 7.3 Modèle semi paramétrique à risques proportionnels de Cox......................................................................32 7.4 Traçage des fonctions de survie, de risque et de risque cumulé .................................................................32 7.5 Covariables variant dans le temps et découpage des épisodes ...................................................................34 7.6 Modèle exponentiel par morceaux et modèle à spline cubique ..................................................................37 8 Divers.............................................................................................................................................................39 8.1 Relier des enregistrements..........................................................................................................................39 8.2 Répétition de commandes et opérations en boucle.....................................................................................39 8.3 Combinaison de fichiers de données ..........................................................................................................40 8.4 Transposition des fichiers de données ........................................................................................................43 8.5 Travailler avec des fichiers do....................................................................................................................44 9 Références.....................................................................................................................................................45 10 Commandes d’estimation et de post-estimation ........................................................................................46 10.1 Commandes destimation .......................................................................................................................46 10.2 Commandes de post-estimation..............................................................................................................47

1 Introduction

Atelier de RHDCC

Le présent document vise à fournir au lecteur une connaissance pratique de Stata et de ses commandes de base pour la gestion, la description et lanalyse des données. À lexception de celles qui portent spécifiquement sur lanalyse de transitions, les commandes destimation utilisées pour effectuer des analyses multivariées ou multidimensionnelles (régression, analyse factorielle, etc.) ne sont pas traitées dans ce document, mais une liste de ces commandes est fournie dans la section 10 (p. 46). Stata dispose de bonnes capacités de manipulation des données et offre toutes les techniques courantes danalyse statistique univariée et multivariée. Il sagit aussi dun bon outil pour la visualisation des données (quoique seulement en 2D). Le principal avantage de ce progiciel dans le contexte du cours toutefois est quil comporte des commandes spécialisées pour traiter des données longitudinales et des données provenant denquêtes complexes. Quelques caractéristiques de Stata : ▪ La syntaxe détaillée de chaque commande est disponible dans le menu daide (Help). ▪ Les noms des variables et des fichiers peuvent comporter jusquà 32 caractères et ils sont sensibles à la casse (ThisVaretthisvarne désignent pas la même variable). ▪ Le nombre de commandes est facilement extensible car les utilisateurs peuvent écrire leurs propres commandes au moyen du langage de programmation de Stata. Plusieurs commandes écrites par des utilisateurs sont disponibles sur le site Web de Stata et sur des sites miroirs. ▪ Dans le cas de StataIntercooled, le nombre dobservations dans un fichier de données est, en pratique, limité seulement par la mémoire disponible de lordinateur, mais le nombre de variables est limité à 2 047, pour une largeur maximale de 24 564 colonnes, et la taille maximale dune matrice est de 800. Dautres versions de Stata,SEetMP, permettent lutilisation dun maximum de 32 766 variables et de matrices dont la taille peut atteindre 11 000 × 11 000 (à la condition que lordinateur utilisé dispose de mémoire suffisante). 

Introduction à Stata 11 2 Aperçu de Stata

2.1 Fenêtres et types de fichiers de Stata Stata utilise un environnement multifenêtres : ▪ La fenêtreCommand, où lon peut taper les commandes que Stata exécutera. Lorsque cette fenêtre est active, on peut utiliser les touchesPage Up(Précédente) etPage Down(Page suivante) pour parcourir les commandes soumises précédemment. ▪ La fenêtreResults, où Stata affiche le produit de lexécution des commandes (résultats et messages derreur, le cas échéant). La fenêtreReview, qui ▪ énumère les commandes soumises à Stata pendant la session en cours. Cliquer sur un élément de la liste le rappelle dans la fenêtre Command. ▪ Si un fichier de données est chargé, la fenêtreVariablesénumère les variables contenues dans celui-ci. Cliquer sur une variable de la liste fait apparaître son nom dans la fenêtreCommand. ▪ La fenêtreGraphest utilisée pour afficher les graphiques. Elle souvre lorsquune commande graphique est soumise. ▪ La fenêtreVieweraffiche les fichiers daide et les fichiers journaux. Les deux premières fenêtres sont toujours affichées dans lespace de travail de Stata, mais vous pouvez fermer les autres comme il vous convient (pour les ouvrir à nouveau, sélectionnerWindowdans la barre de menu). Les types de fichiers associés à Stata, selon leur extension, sont : *.ado écrit en langage de programmation Stata  la plupart des commandes utilisées: programme pendant le cours sont des fichiersado. *.do: fichier «to do », c.-à-d. un fichier texte contenant des commandes que Stata exécute en lot. *.dta: fichier de données en format Stata. *.gph enregistré en format Stata.: graphique *.logjournal enregistre ce qui est affiché dans la journal enregistré en format texte (un fichier : fichier fenêtreResults). *.smcl: fichier journal enregistré enStata Markup and Control Language(sorte dhypertexte). Un fichier .smcla meilleure apparence quun fichier.loglorsquil est affiché par leViewer. Les fichiers ayant le suffixe.adoou.smclcontiennent des codes Stata, mais ne sont que des fichiers texte. Ils peuvent donc être édités avec tout éditeur de texte ou traitement de texte. Il est à noter que le contenu de la fenêtreResultsnest pas enregistré automatiquement. Il faut ouvrir un fichier journal oulogpour ce faire (les commandes nécessaires sont présentées dans la section 2.3).

Atelier de RHDCC

2.2 Modes interactif et par lot Stata peut être utilisé en mode « interactif » ou « par lot ». En mode interactif, on saisit et on fait exécuter une commande à la fois dans la fenêtre de commande de Stata ou en utilisant les menus déroulants. Dans le mode par lot, ou mode différé, on saisit les commandes voulues dans un fichier, puis on fait exécuter ce fichier par Stata. Un tel fichier est appelé « fichier do » et est en format texte. Stata comporte un éditeur de fichier do, leDo-file Editor la barre de boutons ou en tapant, que lon lance au moyen du bouton dedoeditdans la fenêtre Command. Il est recommandé demployer le mode par lot. Il est beaucoup plus facile de suivre les manipulations appliquées aux données ou de reproduire les résultats si les commandes spécifiques utilisées au cours dune session Stata sont enregistrées dans un fichier do. De plus, le recours aux fichiers do permet dutiliser des commandes de programmation de Stata qui ne peuvent être utilisées en mode interactif. Cest pourquoi le présent guide porte principalement sur la syntaxe des commandes, même si celles-ci peuvent être lancées à partir des menus déroulants.

2.3 Syntaxe de base des commandes Presque toutes les commandes de Stata font appel à la même syntaxe de base, comme ci-dessous : command[varlist] [if exp] [in range] [wghttype=wghtvar] [,options] Les arguments encadrés par des crochets sont facultatifs et ne sont pas utilisés avec toutes les commandes. Plus précisément : ▪ commandprogramme Stata conçu pour remplir une tâche spécifiqueest le nom (ou labréviation) dun (p. ex.,regressest la commande utilisée pour estimer un modèle de régression linéaire) ; ▪ varlistvariables (ou de leurs abréviations) séparés par des espaces ;est une liste de noms de ▪ if exprestreint lexécution de la commande aux observations satisfaisant aux conditions énoncées parexp, oùexpest une expression logique valide (p. ex.,varname1 < varname2) ; ▪ in rangelexécution de la commande aux observations contenues dans une plagerestreint spécifique (p. ex.,in 1/10sélectionne les dix premières observations contenues dans le fichier de données) ; ▪ wghttype=wghtvarrequiert que les données soient pondérées avec les poids contenus dans la variablewghtvar (ne sutilise quavec les commandes pouvant traiter des données pondérées). Stata distingue quatre types de poids (p. ex. poids de fréquence et poids déchantillonnagevoirhelp weightpour plus de détails) ; ▪ options. Elles sont toujours précédées dune virgule. Les options modifient les paramètres par défaut dune commande et sont habituellement propres à chaque commande.

Un exemple sera utile pour illustrer ces notions. La commande ouvrant un journal (oulog) est la suivante : log using "[path\]filename[.log]"[,append | replace] ▪ Les arguments entre crochets sont facultatifs. Les autres sont obligatoires. ▪ filenameque lutilisateur donne au journal dans lequel les commandes et les résultatsest le nom seront enregistrés. Vous pouvez indiquer un répertoire (path) si vous souhaitez que le fichier soit enregistré ailleurs que dans le répertoire de travail par défaut de Stata, qui est habituellement c:\data (vous pouvez modifier le répertoire de travail au moyen de la commandecd, p. ex.cd d:\mydata). ▪ Les guillemets droits (") sont requis seulement sipathoufilenamecontiennent des espaces.

Introduction à Stata 11

▪ Sifilenamene comporte pas dextension, Stata enregistre le journal comme fichier.smcl(c.-à-d. avec du code smcl). Sifilenamecomporte lextension.log, Stata enregistre le journal sans code smcl (préférable si vous souhaitez importer le journal dans un traitement de texte). ▪ Les optionsappendetreplacedoivent être utilisées sil existe déjà un journal nommé filename.Dans ce cas,appendajoute la sortie produite pendant la session en cours à ce qui se trouve dansfilename, alors quereplaceremplace le fichier. Lorsquun journal est ouvert, il est automatiquement enregistré et fermé lorsquon ferme Stata. Vous pouvez toutefois préférer le fermer avant de fermer Stata si, par exemple, vous voulez enregistrer différentes analyses dans des journaux distincts. Vous pouvez aussi vouloir suspendre temporairement lenregistrement dun journal pendant que vous exécutez diverses commandes, puis reprendre lenregistrement dans ce journal. Dans ce cas, vous taperiez : log close(fermer le journal) log off(suspendre lenregistrement du journal) log on(reprendre lenregistrement du journal) Un journal enregistre les commandes et leurs sorties, mais non les graphiques, qui doivent être enregistrés séparément. On peut aussi invoquer la commandelog .en cliquant sur le bouton

Si vous utilisez Stata en mode interactif, vous pouvez souhaiter enregistrer les commandes dans un fichier distinct qui pourra être utilisé plus tard afin de reproduire les résultats obtenus. La commandecmdlogremplit ce rôle. Sa syntaxe est presque identique à celle delog: cmdlog using "[path\]filename"[,append replace] cmdlog{on|off|close} ▪ Les options de la deuxième ligne sont mutuellement exclusives. ▪ Les journaux de commande sont des fichiers ASCII ordinaires dont lextension est.txt. Pour plus de détails au sujet de la syntaxe, tapezhelp languagedans la fenêtreCommandou sélectionnez Stata Commanddans le menuHelpet entrezlanguage. Lorsquon sélectionneSearch(recherche) dans le menuHelp, on peut chercher un mot clé dans les fichiers daide locaux, dans les manuels en pdf ainsi que dans la documentation en ligne.



Atelier de RHDCC

3 Lecture des données et création de fichiers de données La présente section passe en revue diverses manières de lire et dexporter des données avec Stata. Elle présente aussi quelques commandes de base pour inspecter les données.

3.1 Lecture d un fichier de données Stata ’ Pour ouvrir un fichier de données Stata existant, vous pouvez cliquer sur le bouton ou sélectionnerOpen... dans le menuFile, puis cliquer sur le nom du fichier requis. Vous pouvez aussi utiliser la commandeuse: use"[path\]filename" [,clear] Quelques points à noter au sujet de la commandeuse: ▪ Le répertoire (path) doit être précisé uniquement si le fichier nest pas stocké dans le répertoire de travail (habituellement c:\data). Noubliez pas que vous pouvez changer le répertoire de travail au moyen de la commandecd, p. ex.,cd d:\données. Stata ne peut avoir quun seul fichier de données en mémoire à la fois. Si vous souhaiter ouvrir un ▪ fichier de données lorsquun autre est déjà chargé, utilisez loptionclear(il existe aussi une commandeclearpour fermer les jeux de données). ▪ Si le nom de fichier (filename) est spécifié sans extension, il est présumé que celle-ci est .dta. Pour lire le fichiercensus.dtastocké dans le dossier c:\stata, par exemple, on tapera :use c:\stata\census. Pour voir les données, on peut utiliser la commandebrowse: browse[varlist] [if exp] [in range] (ou cliquer sur le bouton ). Cette commande affiche les données dans un chiffrier, mais ne permet pas dy faire des changements. Pour ce faire, on utilisera plutôt : edit[varlist] [if exp] [in range] Léditeur de données peut aussi être lancé en cliquant sur le bouton ou en tapant Ctrl+7. Léditeur de données peut être utilisé pour saisir des données. À noter que les changements apportés au moyen de léditeur de données sappliquent seulement aux données en mémoire (cela vaut aussi dans le cas des changements apportés par dautres commandes). Pour enregistrer les changements sur disque (en remplaçant le fichier original ou en créant un nouveau), on utilisera la commande save: save["[path\]filename"] [,replace] Par exemple,save myfilesauvegardera le fichier nommémyfile.dtadans le répertoire de travail courant, à la condition quil ny ait pas déjà un fichier portant ce nom. Pour remplacer le fichier existant, on doit utiliser loptionreplace.

3.2 Lecture de fichiers de données brutes Les données brutes sont stockées dans des fichiers texte (ASCII). Comme Stata ne peut pas lire directement les fichiers de données créés par des applications comme SAS ou SPSS, convertir ces fichiers au format texte constitue un moyen commode pour les importer dans Stata (à défaut de les convertir grâce à un logiciel spécialisé comme Stat/Transfer). La commande spécifique requise pour lire des données brutes avec Stata dépend de la manière dont les données sont stockées dans le fichier texte.

Introduction à Stata 11

Fichiers de données séparées par des tabulations ou des virgules La commande qui permet de lire les données brutes séparées par des virgules ou des tabulations est la suivante : insheet[varlist]using"[path\]filename" [,delimiter("char") clear] ▪ insheetou par des tabulations. Si un autredétecte si les données sont séparées par des virgules séparateur est utilisé (p. ex., le point-virgule), ajoutez loptiondelimiter(";"). ▪ insheetaussi détecter si la première ligne de texte contient des données ou des noms depeut variables. Il nest donc pas nécessaire de fournir les noms des variables sils figurent dans la première ligne. Si lon ne fournit pas les noms des variables et que le fichier nen contient pas,insheetnomme les variablesvar1,var2, etc., dans lordre où elles figurent dans le fichier. ▪ Pour quinsheetdoit comporter une seule observation par ligne. Sipuisse lire un fichier, celui-ci plusieurs observations se trouvent sur la même ligne ou si une même observation occupe plusieurs lignes, il faut plutôt utiliser la commandeinfile. L ple_ Exem 1 montre deux fichiers de données brutes. Le fichierexample1 tab.txtcontient des noms de variables sur la première ligne et toutes les données sont séparées par des tabulations. Le fichier example1_comma.txtcontient seulement des données (sans nom de variable) et celles-ci sont séparées par des virgules. Dans les deux fichiers, deux séparateurs juxtaposés indiquent quune donnée est manquante. Ex m 1 e ple example1 tab.txt example1 comma.txt _ _ idnum gender age educ income 101 31 16 39731 101,,31,16,39731 102 f 22 12 25490 102,f,22,12,25490 103 m 58 48658 103,m,58,,48658 104 m 27 19 61302 104,m,27,19,61302

La commande permettant de lireexample1_tab.txtest simplement : insheet using example1 tab.txt _ alors que la commande permettant de lireexample1_comma.txtfournit les noms des variables : _ insheet idnum gender age educ income using example1 comma.txt

Fichiers de données séparées par des espaces La commande Stata pour lire des données brutes séparées par des espaces (aussi nommées données en format libre) est la suivante : infile varlist using"[path\]filename" [ifexp] [in range] [,clear] ▪ Les noms des variables à lire doivent être fournis (varlistnest pas un argument facultatif). La première ligne du fichier de données ne doit donc pas contenir de noms de variable. ▪ Les données alphanumériques doivent être encadrées par des guillemets droits (") dans le fichier si elles comportent des espaces ou des virgules. ▪ Il peut y avoir plus dune observation par ligne et les observations peuvent occuper plus dune ligne. ▪ infilepeut traiter les données séparées par des tabulations ou par des virgules, mais dans ce cas il est plus facile dutiliserinsheet. ▪ infiledonnées disposées en colonnes plutôt quen lignes. Voirpeut aussi traiter des help infile1pour plus de détails.

Atelier de RHDCC

Dans lExemple 2, le fichierexample1_free.txtcontient des données séparées par des espaces et les valeurs manquantes sont codées «.». La commande permettant de lire ce fichier avec Stata est : _ infile idnum str1 gender age educ income using example1 free.txt Remarquez «str1» précédant le nom de variablegender: cela indique quegenderest une variable alphanumérique (string variable) dune longueur de 1 caractère. De façon générale, une variable alphanumérique ayant # caractères sera précédée parstr#et toutes les variables alphanumériques qui se trouvent dans un fichier de données doivent être déclarées de la sorte. Un type de stockage est sélectionné automatiquement dans le cas des variables numériques, bien quil soit possible de spécifier le type voulu (voirhelp datatypespour plus de détails). example1 free.txt _ 101 . 31 16 39731 102 f 22 12 25490 103 m 58 . 48658 104 m 27 19 61302

Exemple 2 _ example1 fixed.txt 101 311639731 102f221225490 103m58 48658 104m271961302

Fichiers de données en format fixe Dans un fichier de données en format fixe, les variables occupent la même position dans tous les enregistrements et il ny a pas de séparateur entre les variables. Pour lire un tel fichier, il est nécessaire de connaître la position exacte de chaque variable, c.-à-d. les colonnes de début et de fin. La commande Stata requise pour lire un fichier de données en format fixe est la suivante : infix specifications using"[path\]filename" [if] [in] [,clear] Lesspecificationsle cas le plus simple, il sagit seulement des noms desdoivent être fournies. Dans variables qui doivent être lues, chacun suivi par les positions de début et de fin de la variable (voir lexemple ci-dessous). La commande peut aussi traiter des observations occupant plus dune ligne, auquel cas les specifications doivent préciser quelles variables se trouvent sur chaque ligne. Voirhelp infixpour plus de détails. Dans le fichier à format fixeexample1_fixed.txt(mêmes données que dansexample1_free.txt, Exemple 2), les espaces indiquent des valeurs manquantes. La commande pour lire ce fichier est : infix idnum 1-3 str1 gender 4 age 5-6 educ 7-8 income 9-13 using _ example1 fixed.txt Ci-dessus,idnum 1-3signifie quune variable nomméeidnumse trouve dans les trois premières colonnes de chaque enregistrement. La seconde variable estgender(ici encore précédée de «str1» parce que cest une variable alphanumérique formée dun caractère), qui se trouve dans la quatrième colonne. Lorsquon a affaire à de gros fichiers de données comme ceux des enquêtes de Statistique Canada, mieux vaut utiliser undictionnaireleur contenu (c.-à-d. le nom des variables, leur position, leurafin dinstruire Stata sur étiquette, leur type de stockage et les formats daffichage). Les commandesinfixetinfilepeuvent toutes deux utiliser des dictionnaires de données ; voirhelp infixethelp infile2pour plus de détails. LExemple 3 montre un extrait du dictionnaire (GSS2001_M5.dctpour lire le fichier principal de) utilisé lEnquête sociale générale de 2001 (c15pumfm.dat) et la syntaxe dutilisation de ce dictionnaire avec infile.