Le langage R au quotidien

Le langage R au quotidien

-

Livres
320 pages

Description

Le langage R est un langage open source de traitement des données et d'analyse statistique. 
L'objectif de cet ouvrage est d'apprendre le traitement des données avec R à tous ceux qui doivent produire des statistiques descriptives, des graphiques et des exports de tableaux.
Le contenu ne se limite pas à la modélisation statistique, mais il montre tout ce qu'il faut savoir faire avant, autour et après la construction du modèle qu'il s'agisse d'importation et de préparation des données ou de restitution des résultats.

Ce livre a été conçu pour tirer pleinement parti de R en se concentrant sur les outils les plus courants  (packages de base, reshape2, dplyr, tidyr, data.table) et en proposant des exercices sur de très gros volumes de données.
Ces exercices accessibles en ligne utilisent des données en open data mises à disposition du public par AirBnB (réservation de 35 000 logements parisiens sur 700 jours).
 

Sujets

Informations

Publié par
Ajouté le 07 mars 2018
Nombre de lectures 1
EAN13 9782100780143
Licence : Tous droits réservés
Langue Français
Signaler un problème
LE LANGAGERAU QUOTIDIEN
75463
75993
SAS l’essentiel O. Decourt (2011)
Big data et machine learning
P. Lemberger et al.
Machine learning avec Scikit learn A. Géron
Deep learning avec TensorFlow A. Géron
code 76540
LE LANGAGER AU QUOTIDIEN
Traitement et analyse de données volumineuses
Olivier Decourt
© Dunod, 2018 11 rue Paul Bert, 92240 Malakof www.dunod.com ISBN 978-2-10-077076-2
TABLE DES MATIÈRES
Avantpropos...................................................................................................................................................
Données utilisées comme exemples dans ce livre.............................................................
PREMIÈRE PARTIE Découvrir R.........................................................................................................................................................
1
Introduction à R...................................................................................................................................... 1.1Origines de R..................................................................................................................................... 1.1.1R et S-Plus............................................................................................................................ 1.1.2CRAN et projet R.............................................................................................................. 1.1.3Logiciels utilisant le langage R................................................................................. 1.2aprRségérsFichier....................................................................................................................... 1.2.1Scripts..................................................................................................................................... 1.2.2Objets......................................................................................................................................1.2.3Environnements................................................................................................................ 1.2.4Historique de commandes......................................................................................... 1.2.5Gestion de la mémoire.................................................................................................. 1.3Interfaces pour la programmation R.................................................................................... 1.3.1Interface R basique......................................................................................................... 1.3.2Interface RStudio..............................................................................................................
2Principes du langage........................................................................................................................... 2.1tscripS.................................................................................................................................................... 2.1.1Ponctuation des scripts et règles d’écriture..................................................... 2.1.2Commentaires.................................................................................................................... 2.1.3Conventions de notation de syntaxe dans ce livre....................................... 2.2dinformationSotkcgae............................................................................................................... 2.2.1Notion d’objet..................................................................................................................... 2.2.2Noms des objets............................................................................................................... 2.2.3Supprimer un objet.......................................................................................................... 2.3dans R tout est fonctionFonctions : .................................................................................... 2.3.1Fonctions et opérateurs................................................................................................ 2.3.2Résultat d’une fonction, affectation...................................................................... 2.3.3Appel de fonction, transfert d’arguments, ellipse........................................ 2.3.4Fonctions génériques..................................................................................................... 2.3.5Vectorisation........................................................................................................................ 2.3.6Création de fonctions..................................................................................................... 2.4Pacsegak.............................................................................................................................................. 2.4.1Principe d’un package.................................................................................................... 2.4.2Récupération d’un package........................................................................................ 2.4.3Chargement d’un package.......................................................................................... 2.4.4Packages utilisés dans ce livre.................................................................................
11
13
17
19 19 19 19 20 21 21 21 21 22 22 22 22 24
33 33 33 34 34 34 34 35 35 35 35 36 36 37 38 38 39 39 39 40 41
6
Table des matières
2.4.5Version des packages.................................................................................................... 2.4.6bon packagedu » Identification « ............................................................................ 2.5rincipauesPdedénnoytxsep.................................................................................................. 2.5.1Textes...................................................................................................................................... 2.5.2Numériques et entiers.................................................................................................. 2.5.3Dates........................................................................................................................................ 2.5.4Booléens................................................................................................................................ 2.5.5Facteurs.................................................................................................................................. 2.5.6Formules................................................................................................................................ 2.5.7Chemins................................................................................................................................. 2.5.8Valeurs spéciales.............................................................................................................. 2.5.9Conversions......................................................................................................................... 2.6euscntérretudaelisponsedsPcnir....................................................................................... 2.6.1Vecteurs et listes..............................................................................................................2.6.2Matrices et arrays............................................................................................................. 2.6.3Data.frame, data.table, tibbles................................................................................. 2.6.4Types spécifiques à des fonctions......................................................................... 2.6.5Fonctions de conversion..............................................................................................
DEUXIÈME PARTIE Manipuler des données.........................................................................................................................
3Récupération de données............................................................................................................... 3.1Import de fichiers externes....................................................................................................... 3.1.1Fichiers plats........................................................................................................................3.1.2Classeurs Excel................................................................................................................. 3.1.3Fichiers statistiques : SAS, SPSS et Stata......................................................... 3.2Connexion à une base de données...................................................................................... 3.3Récupération d’objets R sauvegardés................................................................................ 3.3.1Fichiers Rdata..................................................................................................................... 3.3.2Fichiers RDS........................................................................................................................
4Filtres et requêtes.................................................................................................................................. 4.1Listes et résumés de données...............................................................................................4.1.1Liste de données.............................................................................................................. 4.1.2Affichage du type des données............................................................................... 4.1.3Statistiques sommaires................................................................................................4.1.4Taille et noms associés à un objet......................................................................... 4.2Dimensions entre [ ]...................................................................................................................... 4.2.1Utilisation d’indices......................................................................................................... 4.2.2Utilisation de booléens.................................................................................................. 4.2.3Utilisation de noms d’éléments............................................................................... 4.2.4Utilisation des crochets selon le type d’objet manipulé........................... 4.3Filtres et conditions....................................................................................................................... 4.3.1Utilisation d’indices à partir d’une condition.................................................... 4.3.2Filtres avec la fonction subset.................................................................................. 4.3.3Filtres avec le package dplyr......................................................................................
44 44 46 46 46 46 47 47 48 48 49 49 50 50 51 51 52 52
53
55 55 55 60 61 63 64 64 65
67 67 67 70 72 73 74 74 74 75 75 82 82 85 87
Table des matières
4.3.4Filtres sur un data.table................................................................................................ 4.3.5Choix de la meilleure syntaxe................................................................................... 4.4Tirages d’échantillons...................................................................................................................
5Création de variables.......................................................................................................................... 5.1Vie des variables.............................................................................................................................. 5.1.1Création de variables...................................................................................................... 5.1.2Changement de nom de certaines variables................................................... 5.1.3Suppression de variables............................................................................................. 5.2Formules systématiques............................................................................................................5.2.1Fonctions pour les nombres...................................................................................... 5.2.2Fonctions pour les textes............................................................................................ 5.2.3Fonctions pour les Dates............................................................................................. 5.2.4Conversions......................................................................................................................... 5.2.5Gestion des facteurs...................................................................................................... 5.2.6Gestion des valeurs manquantes........................................................................... 5.3Formules conditionnelles........................................................................................................... 5.3.1Condition unique............................................................................................................... 5.3.2Conditions multiples....................................................................................................... 5.3.3Affectation partielle......................................................................................................... 5.3.4Appartenance à un quantile....................................................................................... 5.4Rangs, cumuls et blocs...............................................................................................................5.4.1Rangs....................................................................................................................................... 5.4.2Cumuls.................................................................................................................................... 5.4.3Repérage dans des blocs............................................................................................ 5.4.4Opérations par blocs......................................................................................................5.5Vectorisation...................................................................................................................................... 5.6Création d’une fonction sur mesure....................................................................................
6on.......................................................................................................... Tri, jointure et transpositi 6.1Tri et doublons.................................................................................................................................. 6.1.1Tri simple............................................................................................................................... 6.1.2Tri d’un data.table............................................................................................................. 6.1.3Repérage et suppression de doublons................................................................ 6.2: combiner des donnéesEmpilement et jointure ......................................................... 6.2.1Empilement.......................................................................................................................... 6.2.2Jointures................................................................................................................................ 6.3Transposition...................................................................................................................................... 6.3.1Verticalisation...................................................................................................................... 6.3.2Pivot et statistiques........................................................................................................
90 93 95
99 99 99 101 102 103 103 107 113 119 121 127 128 128 129 130 131 131 132 133 134 136 137 140
143 143 143 146 147 148 149 150 154 155 157
7
8
Table des matières
TROISIÈME PARTIE Produire des statistiques et des graphiques.....................................................................
7Statistiques descriptives.................................................................................................................. 7.1Statistiques simples...................................................................................................................... 7.1.1Fonctions de base............................................................................................................ 7.1.2Gestion des données manquantes........................................................................ 7.1.3Production de plusieurs statistiques à la fois.................................................. 7.1.4Production des mêmes statistiques sur toutes les variables................ 7.2Statistiques par groupes............................................................................................................ 7.2.1Cas général.......................................................................................................................... 7.2.2Agrégations statistiques avec le package dplyr............................................. 7.2.3Cas particulier des data.tables................................................................................. 7.3Tableaux de fréquence................................................................................................................ 7.3.1Fréquences et proportions.......................................................................................... 7.3.2Tableaux complets........................................................................................................... 7.4Tableaux statistiques sur mesure......................................................................................... 7.4.1Organisation du tableau................................................................................................ 7.4.2Statistiques du tableau................................................................................................. 7.4.3Esthétique du tableau....................................................................................................
8Graphiques................................................................................................................................................. 8.1Packages graphiques et paramètres................................................................................... 8.1.1Différents packages, différentes logiques......................................................... 8.1.2Paramètres graphiques................................................................................................. 8.2Nuages de points et courbes.................................................................................................. 8.2.1Nuages de points............................................................................................................. 8.2.2Courbes.................................................................................................................................. 8.3Diagrammes en bâtons et circulaires................................................................................. 8.3.1Diagrammes en bâtons................................................................................................ 8.3.2Diagrammes circulaires ou camemberts........................................................... 8.3.3Nuages de points qualitatifs oudot plots.......................................................... 8.4Graphiques statistiques.............................................................................................................. 8.4.1Histogrammes.................................................................................................................... 8.4.2Boîtes à moustaches ou boxplots.......................................................................... 8.5Ajout d’éléments personnalisés............................................................................................ 8.5.1Titres........................................................................................................................................8.5.2Marqueurs isolés.............................................................................................................. 8.5.3Lignes de référence........................................................................................................ 8.5.4Légende.................................................................................................................................8.5.5Axes.......................................................................................................................................... 8.6Introduction au package ggplot2........................................................................................... 8.6.1Grammaire des graphiques........................................................................................ 8.6.2Nuage de points................................................................................................................ 8.6.3Courbes.................................................................................................................................. 8.6.4Diagrammes en bâtons................................................................................................ 8.6.5Boîtes à moustaches...................................................................................................... 8.6.6Éclatement oufacetting...............................................................................................
161
163 163 163 165 166 169 172 172 174 177 179 179 182 184 184 186 188
191 191 191 191 193 193 197 199 199 205 207 209 209 210 212 212 214 216 219 222 224 224 226 227 229 232 235
Table des matières
9 Export et reporting............................................................................................................................... 9.1Sauvegarde et export de données....................................................................................... 9.1.1Sauvegarde d’objets....................................................................................................... 9.1.2Export vers Excel.............................................................................................................. 9.1.3Export en fichier plat....................................................................................................... 9.2Reporting............................................................................................................................................. 9.2.1Construction d’un document Rmd......................................................................... 9.2.2Insertion de résultats dans un document Rmd.............................................. 9.2.3Création d’un document Word ou PowerPoint avec ReporteRs........... 9.2.4Insertion de résultats dans un document ReporteRs................................. 9.2.5Reporting interactif avec shiny.................................................................................
Index......................................................................................................................................................................
239 239 239 240 243 244 246 253 258 265 272
277
9