Initiation au logiciel R

De
Publié par

Cet ouvrage en couleur, agrémenté de nombreuses captures d'écrans, présente les techniques d'analyse de données les plus connues. Il s'articule en deux parties : l'une axée sur la présentation et l'utilisation du logiciel R. L'autre expose les principales méthodes d'analyse de données. Chaque exemple comprend sa solution détaillée et explicite les sorties du logiciel R. Ce livre s'adresse principalement aux débutants même si les lecteurs plus avertis pourront, eux aussi, y trouver leur compte.
Publié le : lundi 8 décembre 2014
Lecture(s) : 91
EAN13 : 9782806107473
Nombre de pages : 218
Voir plus Voir moins
Cette publication est uniquement disponible à l'achat

00714_couv_v2.indd 1 n°00714 - pel. BR - format 155x240 mm dos=12.5 mm 27/11/2014 16:00:12



Initiation au logiciel R : premiers
pas en analyse de données JEAN-PIERRE ASSELIN DE BEAUVILLE
SACHA VARIN



Initiation au logiciel R : premiers
pas en analyse de données
Survol théorique et applications avec Rcmdr et
FactoMineR
















D/2014/4910/56 ISBN : 978-2-8061-0196-9
© Academia – L’Harmattan
Grand’Place 29
B-1348 Louvain-la-Neuve
Tous droits de reproduction, d’adaptation ou de traduction, par quelque
procédé que ce soit, réservés pour tous pays sans l’autorisation de l’auteur ou
de ses ayants droit.
www.editions-academia.be Table des matières

Prologue 9
Organisation de l’ouvrage 10
Introduction à l’analyse de données 13
Notion de données 13
L’objet de l’Analyse des données 14
Les deux grandes catégories de variables 15
Deux questions qui se posent souvent en analyse de données 16
CHAPITRE 1
Présentation du logiciel R dans le contexte de l’analyse de données 17
Le logiciel R, son interface RStudio, packages : utilisation 17
Comment télécharger R ? 17
L’interface RStudio – téléchargement 18
Présentation des quatre zones de RStudio 19
Les packages sous R 20
Qu’est-ce qu’un package et quels sont les intérêts d’utiliser des
packages sous R ? 21
Le package R Commander (Rcmdr) 21
Installer les packages Rcmdr et FactoMineR en Plug-ins 21
Installer le package FactoMineR 25
Installer les packages Rcmdr et FactoMineR grâce à RStudio 25
Utilisation du package Rcmdr 28
Importer le tableau de données sous Rcmdr 29
Faire des statistiques basiques univariées avec Rcmdr 32
Statistiques descriptives 35
Les graphiques sous Rcmdr 37
L’histogramme 38
Le graphique en camembert (pour une variable qualitative) 40
Comment enregistrer et sauvegarder les données ? 42
Quitter R 44
L’analyse de données multivariées et FactoMineR 45
Le package FactoMineR 45
Synthèse de cette partie 52
CHAPITRE 2
L’Analyse factorielle des correspondances (AFC) 55
Généralités et définitions 55
Nuages, masses (poids), distances, inerties 57
Le modèle d’indépendance 61
Un exemple 62
Recherche des axes factoriels 64Initiation au logiciel R : premiers pas en analyse de données
Relations entre les deux ajustements 65
Aides à l’interprétation 66
Positionnement d’éléments supplémentaires ou illustratifs 67
Suite de l’étude de l’exemple 68
Éléments d’interprétation 70
Réaliser une analyse factorielle des correspondances (AFC) à l’aide de
FactoMineR 71
Présentation du jeu de données – matrice Excel 71
Règles et usages 77
Interprétations des axes factoriels 80
Interprétation des axes factoriels (axe par axe) 81
Compléments (effets Guttman) 83
Synthèse de cette partie 84
CHAPITRE 3
L’Analyse factorielle des correspondances multiples (AFCM) 85
Données et notations 85
Un exemple 85
Différentes représentations des données brutes 86
AFCM par analyse du tableau disjonctif complet 92
Variables et individus supplémentaires/illustratifs 97
Principales règles d’interprétation 98
Réaliser une AFCM avec FactoMineR du logiciel R 99
La réalisation de l’AFCM 103
Aide à l’interprétation des résultats 115
Combien d’axes conserver pour l’analyse ? 116
Les variables 116
Les individus 120
Interprétation des résultats 129
Synthèse de cette partie 130
CHAPITRE 4
L’Analyse en composantes principales (ACP) 133
Présentation 133
Les données 134
Un exemple 134
Ajustement du nuage des points-individus 137
Ajustement du nuage des points-variables 139
Qualité des représentations obtenues 141
Principales règles d'interprétation en ACP normée 142
Exemple d’ACP normée 142
Réaliser une ACP avec FactoMineR 144
Comment introduire des variables qualitatives ordinales ou nominales
dans une ACP ? 145
Les valeurs propres 153
6 Table des matières
Les variables 154
Interprétations des composantes principales 159
Les individus (ici les 25 pays) 162
Quels sont les pays bien représentés (COS2) et qui ont fortement
contribué (CTR) à la fabrication des axes ? 167
Interprétations des résultats de l’ACP 168
Classification ascendante hiérarchique 169
Synthèse de cette partie 173
CHAPITRE 5
La Classification automatique (CA) 175
Généralités 175
Un exemple 175
Notions de distances et de similarités (ou de dissimilarités) 178
Ressemblance entre groupes d’individus ou d’objets 180
La Classification ascendante hiérarchique (CAH) 180
Aides à l’interprétation des résultats d’une CAH 184
Classification par recherche directe d'une partition : algorithme
d’agrégation autour de centres mobiles 184
Méthode des centres mobiles 184
Autres méthodes connexes de partitionnement direct 186
Réaliser des classifications (CAH) et (K-means) grâce à Rcmdr et
FactoMineR 187
Présentation d’un extrait du jeu de données (fichier Excel) 188
Effectuer une extension à la classification grâce à FactoMineR 193
FactoMineR permet d’aller bien plus loin 197
Sorties du logiciel R 200
Réaliser une classification k-means grâce à Rcmdr 207
Sorties du logiciel R 210
Synthèse de cette partie 211
Éléments de bibliographie et de sitographie 213
7 Prologue
Cet ouvrage présente les principales techniques descriptives d’analyse de
données et leur mise en pratique à l’aide du logiciel R. En fait, deux aspects
distincts mais néanmoins complémentaires sont traités dans cet ouvrage : le
premier concerne la découverte, la pratique et la connaissance des méthodes
d’analyse de données, alors que le second est relatif à la présentation,
l’utilisation et la compréhension générale du logiciel R, de son interface
Rstudio et de quelques packages de R.
Plus précisément, le livre présente les techniques descriptives d’analyse de
données, les plus utilisées : l’Analyse en composantes principales (ACP),
l’Analyse factorielle des correspondances (AFC), l’Analyse factorielle des
correspondances multiples (AFCM) et la classification automatique (CA). Il
illustre leur pratique à l’aide de deux packages du logiciel R : R Commander
(Rcmdr) et FactoMineR.
Cet ouvrage possède plusieurs atouts. Le premier est d’être écrit en langue
française, le deuxième est d’être présenté de façon attrayante (couleur,
graphiques…), le troisième est d’offrir simultanément une formation aux
principales techniques d’analyse de données et à l’emploi de certains
packages spécialisés du logiciel R. Le dernier, et non des moindres, réside
dans le fait que l’ouvrage est conçu comme un « mode d’emploi », montrant
étape par étape les manipulations à effectuer avec R de manière détaillée et
illustrée.
Actuellement, il existe de nombreux logiciels d’analyse de données. Nous
avons opté pour R car celui-ci présente à nos yeux plusieurs avantages : il est
gratuit, très complet, simple à télécharger, facile d’utilisation grâce à
différents packages et en développement permanent. C’est, en outre, de nos
jours un des logiciels les plus utilisés pour l’exploration et l’analyse des
données.
L’analyse de données, est très souvent perçue comme une discipline dont
l’apprentissage est difficile. L’objectif de ce livre est de démontrer aux
personnes qui pensent que cette discipline est compliquée à comprendre et à
mettre en œuvre, qu’ils se trompent. En effet, sans posséder de grandes
connaissances mathématiques et statistiques, tout un chacun, en parcourant
cet ouvrage pourra être capable de faire appel à ces techniques ; la
présentation des différentes méthodes exposées dans cet ouvrage étant faite
de sorte que la compréhension soit rendue la plus facile possible pour le
lecteur.
Ce livre a été conçu principalement pour des étudiants qui ne se destinent
pas au métier de la statistique mais qui auront à traiter un jour ou l’autre des
données que ce soit dans leurs études, dans leur emploi ou dans un tout autre
cadre. Initiation au logiciel R : premiers pas en analyse de données
Cet ouvrage répond à une réelle demande de la part des étudiants,
principalement des niveaux du Bachelor ou Master de différentes filières,
telles que les sciences économiques, de l’éducation, les sciences humaines et
sociales. En effet, notre expérience dans le domaine de l’enseignement de
l’analyse de données à des publics non issus des sciences exactes, nous a
démontré que, non seulement les étudiants étaient demandeurs de ce type
d’analyses pour leurs travaux de mémoire ou tout autre type de travail de
recherche, mais aussi qu’ils désiraient connaître et utiliser ces techniques de
manière la plus autonome possible.
Ainsi, l’ouvrage est conçu de telle manière à ce que le lecteur puisse
effectuer, comprendre et analyser seul ses propres résultats d’enquête. Il se
veut donc accessible et utile aussi bien aux débutants qu’à toute personne
déjà familière de l’analyse de données et du logiciel R.
Enfin, il propose à ceux qui le désirent, les éléments théoriques minimums
nécessaires à la compréhension profonde des principales méthodes d’analyse
de données. Les développements mathématiques ont été réduits et ne font
appel qu’à des connaissances du niveau de l'enseignement secondaire, soit
du lycée (gymnase).
Organisation de l’ouvrage
Ce livre s’articule en trois parties.
La première est une courte introduction à l’analyse de données.
La seconde partie est centrée sur le logiciel R, son interface Rstudio et les
deux packages (Rcmdr et FactoMineR), la troisième sur la mise en œuvre
des différentes techniques d’analyse de données grâce au package
FactoMineR.
La seconde partie est composée d’un seul chapitre (chapitre 1), dans lequel
nous expliquons le fonctionnement général du logiciel R, de son interface
Rstudio, des packages Rcmdr et FactoMineR et de leurs
applications/utilisations générales.
La troisième partie regroupe les chapitres 2, 3, 4 et 5.
Plus précisément, le deuxième chapitre s’intéresse à l’analyse factorielle des
correspondances, connue sous l’acronyme AFC. Nous y exposons une partie
théorique simplifiée, puis une démonstration de la marche à suivre détaillée
grâce au package FactoMineR du logiciel R, en traitant un exemple concret.
Le troisième chapitre s’occupe de l’extension de l’AFC, à savoir l’analyse
factorielle des correspondances multiples, connue sous l’acronyme AFCM.
Ici à nouveau, nous proposons une partie théorique simplifiée et une autre
qui expose la démarche détaillée à suivre afin de réaliser une AFCM sur un
jeu de données concret sous FactoMineR.
Le quatrième chapitre aborde l’analyse en composantes principales, connue
sous l’acronyme ACP. Ici aussi nous présentons les choses en deux parties :
l’une liée à la théorie mathématique et l’autre relative à la présentation d’un
exemple concret réalisé grâce à FactoMineR.
10 Prologue
Le cinquième et dernier chapitre traite de la classification automatique selon
le même schéma.
En plus des nombreux exemples détaillés rencontrés au fil de notre livre, il
est important de signaler que des jeux de données et des exercices corrigés
sont disponibles sur le site Internet suivant : www.sachavarin.ch. Par
ailleurs, ce site est souvent alimenté de nouveaux documents et remis à jour.
Au terme de notre travail, nous espérons vraiment que chacun aura autant de
plaisir à consulter et travailler avec ce livre que nous en avons eu à le
rédiger.


Bonne lecture !

Les auteurs.
11 Introduction à l’analyse de données
Notion de données
Généralement l’objet d’une étude n’est pas quantifiable directement. Par
exemple, il est impossible de mesurer précisément l’effet d’une crise
économique sur la consommation des ménages sans passer par la définition de
critères mesurables… Dans d’autres situations, ce phénomène est encore
plus évident. Si l’on veut, par exemple, connaître les effets d’un tremblement
de terre sur une centrale nucléaire, il sera difficile de provoquer un
tremblement de terre pour en mesurer les effets…
D’une façon plus générale, la mesure d’un phénomène quelconque
nécessitera de faire appel, soit à l’expérimentation (mesure de l’effet de champs
électromagnétiques sur les êtres vivants…), soit à l’observation (prévisions
climatiques, sondages d’opinion…), soit à la simulation (prévision de
catastrophes naturelles…), et parfois on pourra faire appel à plusieurs de ces
approches simultanément. Cette mesure repose donc sur la définition et le
choix de variables. C’est par cet intermédiaire que l’analyste disposera de
mesures concrètes sur lesquelles il pourra s’appuyer pour produire des
résultats d’analyse de ses données.
Souvent, ces variables devront subir au préalable une étape de codification
avant de pouvoir être collectées et analysées.
Dans le cas particulier du logiciel R, il convient de coder les variables
qualitatives (voir plus bas) en format texte. Ce type de variable est dénommé
« factor » par R. Par exemple, on codera la variable Sexe par « homme » et
« femme » et non pas par 1 et 0. En effet, dans ce dernier cas, R
interpréterait ces codes comme des valeurs numériques. De la même façon, ce logiciel
impose de coder l’absence d’information par « NA » (« Not Available ») et
n’accepte pas les accents (les accents ne sont pas tolérés en première ligne,
c’est-à-dire pour le nom des variables) ni les caractères spéciaux. Les
majuscules quant à elles sont tolérées.
À l’issue de ce processus on aboutit enfin à la notion de « données ».
Tableau 1 : Exemple de tableau de données : temps passé dans différentes
activités au cours d’une journée (temps en centième d’heure).
Individus Professionnelle Menage Loisirs Sexe Etat civil
1 610 60 315 homme NA
2 475 250 305 femme NA
3 10 495 430 femme NA
4 140 65 305 homme marie Initiation au logiciel R : premiers pas en analyse de données

5 615 421 373 femme celibataire
6 20 50 385 homme celibataire
Chaque ligne de ce tableau représente une observation ou un individu.
Pour illustrer la difficulté de l’opération de collecte des données, on peut
imaginer l’expérience virtuelle suivante :
Une personne a les yeux bandés (le « reconnaisseur ») et elle doit
reconnaître le sexe d’une autre personne placée à proximité sans avoir la possibilité
de la toucher ou de l’entendre. Elle dispose pour cela d’un assistant dont le
rôle est d’effectuer les mesures demandées par le « reconnaisseur » et de lui
transmettre ces informations par la parole. Elle n’a le droit de demander que
trois prises de mesures au plus. Supposons que se présente devant le
« reconnaisseur » une femme. Supposons de plus, qu’il demande à son
assistant de prendre les mesures suivantes : poids, taille et pointure des
chaussures. Imaginons que, placé devant la même personne inconnue, un autre
« reconnaisseur » demande la prise des mesures suivantes : tour de poitrine,
tour de taille et longueur des cheveux. Il paraît alors évident que le second
« reconnaisseur » aura plus de chances de trouver le sexe de l’inconnue car
les mesures choisies ont plus de pouvoir de discrimination entre les deux
sexes que le choix des mesures du premier « reconnaisseur ».
Cette expérience fictive montre bien que le choix de variables
représentatives est en soi une question difficile. Dans le même ordre d’idées, les
statisticiens ont mis au point des méthodes susceptibles de permettre la
construction d’un questionnaire d’enquête qui fournisse des données aussi
représentatives que possible du phénomène étudié.
L’objet de l’Analyse des données
L’analyse statistique de données multidimensionnelles ou Analyse de
données est une branche des Statistiques qui peut poursuivre deux catégories
d’objectifs :
- Des objectifs descriptifs : dans ce cas, on cherche à rendre perceptible les
proximités existant entre des individus ou/et entre des variables (ou des
modalités de réponses). On suppose que sur chaque individu a été collecté un
nombre p ( > = 2) de variables. On ne fait aucune hypothèse concernant les
lois de probabilité a priori suivies par ces variables. On est conduit à
représenter ces individus (ou observations) comme un ensemble de points plongé
dans un espace de dimension p. L’étude des proximités dans cet espace
oblige à le munir d’une distance (ou plus généralement d’une métrique ou
d’une similarité). Il est clair que, dans la pratique, p est un entier supérieur à
2 ou 3 (il arrive souvent que l’on collecte des dizaines de variables par
individu) et, dans ces conditions, l’analyste ne pourra pas « regarder » les
données afin d’en tirer de l’information utile. En effet, l’œil humain ne peut rien
voir au-delà de 3 dimensions. Un des objectifs de l’Analyse des données
14 Introduction à l’analyse de données
dans ce contexte, sera de trouver un espace de dimension réduite (2 ou 3 en
pratique) dans lequel il pourra voir ces données et, ainsi, en tirer le
maximum d’informations quant à leur structuration (typologie par exemple). Les
principales méthodes associées à ce type d’objectif sont :

- l’Analyse en Composantes Principales (ACP) ;
- l’Analyse Factorielle des Correspondances (AFC) ;
- l’Analyse Factorielle des Correspondances Multiples (AFCM) ;
- la Classification Automatique (CA).

- Des objectifs explicatifs : dans ce cas, les variables sont partagées en deux
ou plusieurs groupes entre lesquels on étudiera les liens afin de pouvoir
déduire les propriétés d’un groupe en fonction de celles des autres groupes.
Sans être exhaustif, les méthodes associées à ce type d’objectif sont :
- l’Analyse de Variance ;
- la Régression linéaire ou non ;
- l’Analyse Discriminante.
Dans cet ouvrage on se limitera aux objectifs descriptifs et on ne présentera
que les méthodes associées à ces objectifs.
Les deux grandes catégories de variables
On distingue généralement deux types de variables :

Les variables quantitatives : ce sont des variables qui se mesurent par des
valeurs numériques entières ou réelles. Par exemple : la taille d’une
personne, le poids, l’âge, le revenu…
On distingue les variables quantitatives continues et les variables
quantitatives discrètes. Les premières peuvent être exprimées par un nombre réel
(vitesse d’un véhicule, taille ou poids, temps…). Les secondes ne peuvent
prendre leurs valeurs que sur l’ensemble des nombres entiers (nombre
d’items, nombre d’enfants dans une famille…).

Les variables qualitatives : elles sont représentées par des codes
alphanumériques avec lesquels on ne peut pas faire de calculs. Par exemple : le sexe
codé « M » pour masculin et « F » pour féminin, la couleur qui peut être
codée par une chaine de caractères « jaune » ou « bleu » ou…
Parmi les variables qualitatives on distingue les variables ordinales et les
variables nominales. Les premières prennent des valeurs susceptibles de
pouvoir être ordonnées, ce qui n'est pas le cas des secondes. Par exemple :
Sexe est une variable qualitative nominale car on ne peut pas ordonner les
sexes. On ne peut que les dénombrer. Il en va de même pour la variable
couleur…
er e ePar contre, la variable Classement dans une course (1 ou 2 ou 3 ou…) est
une variable qualitative ordinale car l’ordonnancement des valeurs a un sens.
15 Initiation au logiciel R : premiers pas en analyse de données

Il en est de même pour les réponses à un questionnaire sur une échelle de
Likert (1 : pas du tout d’accord ; 2 :… ; 5 : entièrement d’accord).
Deux questions qui se posent souvent en analyse de données
1) Y a-t-il un nombre d’individus minimum pour une analyse
factorielle (ACP, AFCM, etc.) ?
2) En admettant travailler sur un échantillon représentatif, peut-on
généraliser les résultats à l’ensemble de la population ?
Normalement, ces méthodes multivariées (multidimensionnelles ou
multifactorielles) nécessitent un nombre élevé d’individus par rapport aux
variables (ou modalités de réponses).
Toutefois, il ne faut pas oublier qu’il s’agit de techniques descriptives, dès
lors le nombre d’individus ne joue pas un grand rôle.
Il est néanmoins toujours préférable – mais pas obligatoire – d’utiliser ces
méthodes multifactorielles sur un tableau de données qui possède plus
d’individus que de variables (ou de modalités de réponse).
Ce qui rend ces techniques très intéressantes, c’est justement qu’elles
peuvent s’utiliser même sur de petits échantillons afin d’en décrire les
caractéristiques principales.
De la même manière, les résultats d’une analyse factorielle effectuée sur un
échantillon représentatif ne pourront pas être généralisés sans une étude
supplémentaire à l’ensemble de la population. En effet, s’agissant de techniques
purement descriptives, la vocation première de l’analyse factorielle (ACP,
AFCM) n’est pas la généralisation des résultats à l’ensemble de la
population même si les résultats de l’analyse factorielle issus de l’échantillon
donnent des tendances pour l’ensemble de la population.
Remarque
Le lecteur intéressé par des éléments d’histoire de l’Analyse des données
pourra consulter l’ouvrage Méthodes factorielles pour l’analyse des
données, Michel Crucianu, Jean-Pierre Asselin de Beauville, Romuald Boné,
Éditions Hermès-Lavoisier, Paris (France), 2004.
16
CHAPITRE 1
Présentation du logiciel R dans le contexte de l’analyse
de données
Le logiciel R, son interface RStudio, packages : utilisation
Le logiciel R a été initialement créé par Robert Gentleman et Ross Ihaka du
Département de statistiques de l’Université d’Auckland en
Nouvelle-Zélande (François & Marin, 2007, Bertrand F., & Maumy-Bertrand M., 2010).
Pour information R a été inspiré par l’environnement du logiciel S (Carlier,
1991 ; Fayet, 1991 ; Venables and Ripley, 2002 ; Bertrand F., &
MaumyBertrand M., 2010). Ce logiciel peut donc être considéré comme un
« dialecte » du langage S, à l’instar du langage S-Plus (François & Marin,
2007).
R est un logiciel libre (Open Source en anglais), donc gratuit et
multiplateforme, il est compatible avec la plupart des systèmes d’exploitation
d’ordinateur (MacOS, Windows, Linux, etc.). Il s’agit d’un logiciel utilisé
surtout par de nombreux chercheurs spécialisés en mathématiques et
analyses statistiques.
En effet, R fournit un environnement intégrant un grand nombre de
fonctionnalités statistiques et graphiques qui en font un outil particulièrement
adapté au traitement et à l’analyse des données.
R se développe grâce au bon vouloir de nombreux contributeurs qui
s’occupent principalement de proposer des packages (bibliothèques
logicielles qui contiennent de nombreuses fonctions). D’un point de vue
juridique, R est sous une licence GPL (General Public License ou Licence
Publique Générale).
Un peu partout en Europe et dans le monde, des entreprises et des universités
utilisent R au détriment de logiciels-propriétaires comme SPSS, Statistica,
SAS pour ne citer que ceux-ci.
R présente un certain nombre d’atouts : d’abord, il permet l’application des
méthodes statistiques classiques à l’aide de fonctions prédéfinies ; ensuite
– parce qu'il est aussi un langage de programmation – il permet de créer ses
propres sous-programmes. Cette dernière possibilité est toutefois assez
difficile d’emploi ; enfin il donne la possibilité d’exploiter des techniques
statistiques innovantes et récentes à l’aide de packages développés et mis à jour
par les chercheurs et disponibles sur le site du CRAN (Comprehensive R
Archive Network) (http://cran.r-project.org/).

Comment télécharger R ?
Il suffit de se rendre sur le site http://www.r-project.org/ qui n’est rien
d’autre que la « page d’accueil » de R. La langue utilisée par défaut est Initiation au logiciel R : premiers pas en analyse de données

l’anglais, toutefois on trouve souvent des adaptations aux diverses langues
du monde, dont le français.
Pour commencer, cliquez à gauche sur CRAN (Comprehensive R Archive
Network) pour choisir le miroir (serveur par lequel vous voulez passer).
Prenez par exemple le serveur de l’ETHZ (École polytechnique fédérale de
Zurich, le seul serveur disponible pour la Suisse) ou alors un des cinq
serveurs disponibles pour la France (le problème de compréhension par rapport
à la langue sera probablement moins important).
Maintenant on peut directement trouver l’installateur adéquat pour tout
système d’exploitation (Linux, MacOS ou Windows). Par la suite, il suffit de
suivre les instructions jusqu’à ce que R soit téléchargé et installé.
Il vaut mieux télécharger la dernière version de R afin de bénéficier des plus
récents développements.
Remarque
Le lecteur pourra se rendre compte que la version R installée et qui a servi à
la réalisation de cet ouvrage est la version R 2.15.2 de 2012. Cf. Figure n° 1
ci-dessous ; première ligne d’écriture en haut à gauche. Par ailleurs, la
version de Rstudio utilisée pour cet ouvrage est la version v097.551.
L’interface RStudio – téléchargement
Le logiciel R fonctionne initialement par lignes de commandes, mais des
interfaces permettent désormais une utilisation plus conviviale, moins
austère. Nous proposons ici de travailler avec l’interface RStudio,
téléchargeable sur : http://www.rstudio.com/
RStudio est un outil apparu récemment et sert à combler un manque dans la
collection des outils associés à R : il s’agit plus précisément d’un
environnement de développement intégré (IDE en anglais), environnement qui
facilite la saisie, l’exécution de codes, la visualisation des résultats, etc.
Tout comme R, RStudio est libre, gratuit et multiplateforme. Il suffit de se
rendre sur le site suivant pour télécharger RStudio : http://www.rstudio.org/
download/. À nouveau, il suffit de suivre les instructions.
L’interface se présente sous la forme d’une unique fenêtre découpée en
quatre zones que l’on peut redimensionner, masquer ou maximiser selon ses
préférences.
18 Présentation du logiciel R dans le contexte de l’analyse de données
Présentation des quatre zones de RStudio
L’interface RStudio (Figure n° 1 ci-dessous) est composée de quatre zones :

a) Zone d’édition (en haut à gauche) : dans cette zone apparaissent les
fichiers contenant les scripts/écritures/codes R que l’utilisateur est en train de
développer. En en-tête de cette zone, des icônes permettent de sauvegarder
le fichier, d’exécuter un morceau de code sélectionné (icône run) ou
l’intégralité du code contenu dans le fichier (icône source).

b) Zone de commande (en bas à gauche), attention cette zone est non séparée
de la zone d’édition : cette zone contient une console dans laquelle les codes
R (qui apparaissent de couleur bleue) sont saisis pour être exécutés. Les
commandes et les instructions sont tapées à la suite du prompt de R signalé
par le symbole « > ».

c) Zone espace de travail/historique (en haut à droite) : elle contient les
objets en mémoire, que l’on peut consulter en cliquant sur leurs noms, ainsi
que l’historique des commandes exécutées.

d) Zone explorateur/graphique/package/aide (en bas à droite) : l’explorateur
permet de se déplacer dans l’arborescence des répertoires, la fenêtre
graphique contient les graphiques tracés via R (il est possible de les exporter), la
zone package montre les packages installés et actuellement chargés et la
fenêtre d’aide contient la documentation sur les fonctions et les packages.
Au final, nous obtenons une interface à la fois claire et complète, dont le seul
inconvénient est d’être uniquement disponible en anglais pour le moment.
19 Initiation au logiciel R : premiers pas en analyse de données

Figure n° 1 : L’interface RStudio (quatre zones) sous Mac OS (très similaire
sous Windows)


Remarque
Le symbole > bleu pour RStudio et rouge pour R, appelé prompt signifie que
R attend une commande. C’est donc à la suite de > que doivent être inscrites
les lignes de commandes de R. Une fois la commande écrite, on doit
toujours la valider en appuyant sur la touche « Entrée » du clavier.
En admettant que la commande soit incomplète, le symbole > est remplacé
par +. Cela signifie que R attend la suite de la commande. Si on ne sait pas
comment compléter la commande ou tout simplement que le code R présente
une erreur, on peut appuyer sur la touche « Echap » afin d’annuler la
commande et ainsi créer un nouveau symbole >.
Les packages sous R
Dans cette partie, le but n’est pas de présenter tous les packages de R (plus
de 2000 à l’heure actuelle), mais plutôt d’illustrer concrètement cette notion
de package. Deux packages particuliers (Rcmdr et FactoMineR) seront
présentés. Ces deux packages, sont, en effet, d’une très grande utilité pour
l’analyse de données. Ils rendent les analyses plus faciles à réaliser grâce
notamment à leurs menus déroulants très pratiques, très conviviaux et très
simples à utiliser.
20

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.