Initiation au logiciel R

-

Livres
218 pages
Lire un extrait
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Cet ouvrage en couleur, agrémenté de nombreuses captures d'écrans, présente les techniques d'analyse de données les plus connues. Il s'articule en deux parties : l'une axée sur la présentation et l'utilisation du logiciel R. L'autre expose les principales méthodes d'analyse de données. Chaque exemple comprend sa solution détaillée et explicite les sorties du logiciel R. Ce livre s'adresse principalement aux débutants même si les lecteurs plus avertis pourront, eux aussi, y trouver leur compte.

Sujets

Informations

Publié par
Date de parution 08 décembre 2014
Nombre de lectures 139
EAN13 9782806107473
Langue Français
Poids de l'ouvrage 13 Mo

Informations légales : prix de location à la page 0,0005€. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Signaler un problème
Initiation au logiciel R : premiers pas en analyse de données
JEAN-PIERREASSELIN DEBEAUVILLESACHAVARINInitiation au logiciel R : premiers pas en analyse de données Survol théorique et applications avec Rcmdr et FactoMineR
D/2014/4910/56
© Academia – L’Harmattan Grand’Place 29 B-1348 Louvain-la-Neuve
 ISBN: 978-2-8061-0196-9
Tous droits de reproduction, d’adaptation ou de traduction, par quelque procédé que ce soit, réservés pour tous pays sans l’autorisation de l’auteur ou de ses ayants droit.
www.editions-academia.be
Table des matières Prologue 9Organisation de l’ouvrage 10Introduction à l’analyse de données 13Notion de données 13L’objet de l’Analyse des données 14Les deux grandes catégories de variables 15Deux questions qui se posent souvent en analyse de données 16CHAPITRE 1Présentation du logiciel R dans le contexte de l’analyse de données 17Le logiciel R, son interface RStudio, packages : utilisation 17Comment télécharger R ? 17L’interface RStudio – téléchargement 18Présentation des quatre zones de RStudio 19Les packages sous R 20Qu’est-ce qu’un package et quels sont les intérêts d’utiliser des packages sous R ? 21Le package R Commander (Rcmdr) 21Installer les packages Rcmdr et FactoMineR en Plug-ins 21Installer le package FactoMineR 25Installer les packages Rcmdr et FactoMineR grâce à RStudio 25Utilisation du package Rcmdr 28Importer le tableau de données sous Rcmdr 29Faire des statistiques basiques univariées avec Rcmdr 32Statistiques descriptives 35Les graphiques sous Rcmdr 37L’histogramme 38Le graphique en camembert (pour une variable qualitative) 40Comment enregistrer et sauvegarder les données ? 42Quitter R 44L’analyse de données multivariées et FactoMineR 45Le package FactoMineR 45Synthèse de cette partie 52CHAPITRE 2L’Analyse factorielle des correspondances (AFC) 55Généralités et définitions 55Nuages, masses (poids), distances, inerties 57Le modèle d’indépendance 61Un exemple 62Recherche des axes factoriels 64
Initiation au logiciel R : premiers pas en analyse de données
Relations entre les deux ajustements 65Aides à l’interprétation 66Positionnement d’éléments supplémentaires ou illustratifs 67Suite de l’étude de l’exemple 68Éléments d’interprétation 70Réaliser une analyse factorielle des correspondances (AFC) à l’aide de FactoMineR 71Présentation du jeu de données – matrice Excel 71Règles et usages 77Interprétations des axes factoriels 80Interprétation des axes factoriels (axe par axe) 81Compléments (effets Guttman) 83Synthèse de cette partie 84CHAPITRE 3L’Analyse factorielle des correspondances multiples (AFCM) 85Données et notations 85Un exemple 85Différentes représentations des données brutes 86AFCM par analyse du tableau disjonctif complet 92Variables et individus supplémentaires/illustratifs 97Principales règles d’interprétation 98Réaliser une AFCM avec FactoMineR du logiciel R 99La réalisation de l’AFCM 103Aide à l’interprétation des résultats 115Combien d’axes conserver pour l’analyse ? 116Les variables 116Les individus 120Interprétation des résultats 129Synthèse de cette partie 130CHAPITRE 4L’Analyse en composantes principales (ACP) 133Présentation 133Les données 134Un exemple 134Ajustement du nuage des points-individus 137Ajustement du nuage des points-variables 139Qualité des représentations obtenues 141Principales règles d'interprétation en ACP normée 142Exemple d’ACP normée 142Réaliser une ACP avec FactoMineR 144Comment introduire des variables qualitatives ordinales ou nominales dans une ACP ? 145Les valeurs propres 153
6
Table des matières
Les variables Interprétations des composantes principales Les individus (ici les 25 pays) Quels sont les pays bien représentés (COS2) et qui ont fortement contribué (CTR) à la fabrication des axes ? Interprétations des résultats de l’ACP Classification ascendante hiérarchique Synthèse de cette partie CHAPITRE 5La Classification automatique (CA) Généralités Un exemple Notions de distances et de similarités (ou de dissimilarités) Ressemblance entre groupes d’individus ou d’objets La Classification ascendante hiérarchique (CAH) Aides à l’interprétation des résultats d’une CAH Classification par recherche directe d'une partition : algorithme d’agrégation autour de centres mobiles Méthode des centres mobiles Autres méthodes connexes de partitionnement direct Réaliser des classifications (CAH) et (K-means) grâce à Rcmdr et FactoMineR Présentation d’un extrait du jeu de données (fichier Excel) Effectuer une extension à la classification grâce à FactoMineR FactoMineR permet d’aller bien plus loin Sorties du logiciel R Réaliser une classification k-means grâce à Rcmdr Sorties du logiciel R Synthèse de cette partie Éléments de bibliographie et de sitographie
7
154159162
167168169173
175175175178180180184
184184186
187188193197200207210211213
Prologue Cet ouvrage présente les principales techniques descriptives d’analyse de données et leur mise en pratique à l’aide du logiciel R. En fait, deux aspects distincts mais néanmoins complémentaires sont traités dans cet ouvrage : le premier concerne la découverte, la pratique et la connaissance des méthodes d’analyse de données, alors que le second est relatif à la présentation, l’utilisation et la compréhension générale du logiciel R, de son interface Rstudio et de quelques packages de R. Plus précisément, le livre présente les techniques descriptives d’analyse de données, les plus utilisées : l’Analyse en composantes principales (ACP), l’Analyse factorielle des correspondances (AFC), l’Analyse factorielle des correspondances multiples (AFCM) et la classification automatique (CA). Il illustre leur pratique à l’aide de deux packages du logiciel R : R Commander (Rcmdr) et FactoMineR. Cet ouvrage possède plusieurs atouts. Le premier est d’être écrit en langue française, le deuxième est d’être présenté de façon attrayante (couleur, graphiques…), le troisième est d’offrir simultanément une formation aux principales techniques d’analyse de données et à l’emploi de certains packages spécialisés du logiciel R. Le dernier, et non des moindres, réside dans le fait que l’ouvrage est conçu comme un « mode d’emploi », montrant étape par étape les manipulations à effectuer avec R de manière détaillée et illustrée. Actuellement, il existe de nombreux logiciels d’analyse de données. Nous avons opté pour R car celui-ci présente à nos yeux plusieurs avantages : il est gratuit, très complet, simple à télécharger, facile d’utilisation grâce à différents packages et en développement permanent. C’est, en outre, de nos jours un des logiciels les plus utilisés pour l’exploration et l’analyse des données. L’analyse de données, est très souvent perçue comme une discipline dont l’apprentissage est difficile. L’objectif de ce livre est de démontrer aux personnes qui pensent que cette discipline est compliquée à comprendre et à mettre en œuvre, qu’ils se trompent. En effet, sans posséder de grandes connaissances mathématiques et statistiques, tout un chacun, en parcourant cet ouvrage pourra être capable de faire appel à ces techniques ; la présentation des différentes méthodes exposées dans cet ouvrage étant faite de sorte que la compréhension soit rendue la plus facile possible pour le lecteur. Ce livre a été conçu principalement pour des étudiants qui ne se destinent pas au métier de la statistique mais qui auront à traiter un jour ou l’autre des données que ce soit dans leurs études, dans leur emploi ou dans un tout autre cadre.