Statistiques Descriptives
29 pages
Français

Statistiques Descriptives

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
29 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Statistiques Descriptives
Serge Iovleff
5 avril 2007
Table des mati`eres
1 Introduction 2
1.1 Qu’est ce que les statistiques? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Recueil des donn´ees statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Le recensement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Le plan d’exp´erience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 L’exploitation des bases de donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Statistiques descriptives univari´es 5
´2.1 Etude statistique d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Distributions d’effectifs et de fr´equences . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Repr´esentations de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
´2.2 Etude statistique d’une variable quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Repr´esentation de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.2 R´esum´es statistiques de position : La moyenne et la m´ediane . . . . . . . . . . . . . . 9
2.2.3 R´esum´es statistiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...

Sujets

Informations

Publié par
Nombre de lectures 82
Langue Français

Exrait

Statistiques Descriptives Serge Iovleff 5 avril 2007 Table des mati`eres 1 Introduction 2 1.1 Qu’est ce que les statistiques? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Recueil des donn´ees statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Le recensement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2 Le plan d’exp´erience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.3 L’exploitation des bases de donn´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Statistiques descriptives univari´es 5 ´2.1 Etude statistique d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 Distributions d’effectifs et de fr´equences . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.2 Repr´esentations de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 ´2.2 Etude statistique d’une variable quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.1 Repr´esentation de la distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.2 R´esum´es statistiques de position : La moyenne et la m´ediane . . . . . . . . . . . . . . 9 2.2.3 R´esum´es statistiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3 Statistiques descriptives bivari´es 13 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 ´3.2 Etude statistique de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.1 Distributions marginales et conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.2 Ind´ependances de deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 ´3.3 Etude statistique d’une variable qualitative et d’une variable quantitative . . . . . . . . . . . 16 ´3.4 Etude statistique de deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 La r´egression lin´eaire 19 A Liste des variables pour les clientes d’une soci´et´e de VPC 22 B Programmes R 24 ´B.1 Traitements univari´es : Etude d’une variable qualitative . . . . . . . . . . . . . . . . . . . . . 24 ´B.2 Traitements univari´es : Etude d’une variable quantitative . . . . . . . . . . . . . . . . . . . . 25 C Traitements bivari´es 28 C.1 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 C.2 R´egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1 1 Introduction 1.1 Qu’est ce que les statistiques? Definition 1. On appelle Statistique Descriptive l’ensemble des m´ethodes et techniques math´ematiques permettant de pr´esenter, d´ecrire et r´esumer un ensemble de donn´ees. Les m´ethodes utilis´ees en Statistique descriptive sont tr`es vite limit´ees. Definition 2. La Statistique Inf´erentielle est l’ensemble des techniques visant `a mod´eliser un ensemble de donn´ees en vue d’une extrapolation ´eventuelle a` un ensemble plus vaste. La statistique inf´erentielle utilise de mani`ere importante les probabilit´es. Elle atteint ses limites lorsque l’on est en pr´esence d’un trop grand nombre de donn´ees, ou en pr´esence de donn´ees h´et´erog`enes. Definition 3. L’apprentissage statistique est l’ensemble des techniques visant `a mod´eliser et a` extraire automatiquement une connaissance d’une grande base de donn´ees. On atteint la fronti`ere avec les m´ethodes utilis´ees en Intelligence Artificielle. 1.2 Recueil des donn´ees statistiques 1.2.1 Le recensement Exemple 4. Pour´etudier la r´epartition des terres agricoles d’une r´egion, on r´ealise le recensement des exploi- tations agricoles (soit n leur nombre) et on note pour chacune d’elles un certains nombre de caract´eristiques comme : leurs tailles, le type de cultures, l’ageˆ de l’exploitant, .... Les r´esultats obtenus sont consign´es dans un tableau : ˆN Taille(ha) Age (ann´ees) Culture Nbre d’employ´es 1 50 50 bl´e 2 2 50,5 45 vigne 4 3 35 38 orge 3 . . . . .. . . . .. . . . . 630 10 57 vigne 1 Tab. 1 – R´esultat du recensement des exploitations agricoles de la r´egion A partir de cette table on pourra r´ealiser diff´erentes ´etudes statistiques. 2 1.2.2 Le plan d’exp´erience Exemple 5. Pour ´etudier l’effet d’un antid´epresseur, on administre en double aveugle un placebo et un principe actif. On mesure `a intervalle r´egulier l’´evolution de la maladie. On cherche ensuite `a en tirer des conclusions sur l’efficacit´e du traitement. Pour mesurer l’efficacit´e du produit on demande aux patients de r´epondre a` un questionnaire de ce type tous les mois pendant un an : 1. I say how bad or useless I am, for example, that I am a burden on others 2. I laugh or cry suddenly 3. I often moan and groan in pain or discomfort 4. I act nervous or restless 5. I keep rubbing or holding areas of my body that hurt or are uncomfortable 6. I talk about the future in a hopeless way 7. I get sudden frights Les r´esultats obtenus sont consign´es dans un tableau : Visite Individu Rep1 ... Rep7 Groupe 1 1 0 ... 1 2 1 2 0 ... 0 1 . . . . . .. . . . . .. . . . . . 1 175 1 ... 0 1 2 1 1 ... 1 2 2 2 0 ... 0 1 . . . . . .. . . . . .. . . . . . 2 175 1 ... 0 1 12 1 1 ... 1 2 12 2 0 ... 0 1 . . . . . .. . . . . .. . . . . . 12 175 1 ... 0 1 Tab. 2 – R´eponses de 175 personnes tous les mois pendant un an Cet exemple est particulier dans la mesure ou` les individus sont index´es par le temps : c’est ce que l’on appelle une s´erie chronologique. 1.2.3 L’exploitation des bases de donn´ees Exemple 6. Un VPCiste poss`ede environ 3 millions de clientes. Pour chaque cliente il dispose d’environ 3000 donn´ees. En vue d’avoir une profitabilit´e maximum, l’envoi d’une promotion est faite sur une partie de ces clientes. L’objectif est d’identifier les clientes qui sont le ”plus”susceptible d’acheter. Pour r´ealiser son objectif, la soci´et´e doit pouvoir exploiter les bases de donn´ees internes et externes qui vont nous renseigner sur le comportement d’achat des clientes. Cela n´ecessite de stocker un maximum d’information ”utile” sur les clientes (comportements d’achats pass´es, mode d’achat, age,ˆ boutiques d’achats,...) et ´eventuellement d’avoir recours a` des pan`elistes (INSEE, SECODIP,...) 3 Liste des variables – Numcli num´ero de client – Dep d´epartement – Com commune – Reg R´egion – Sig Signal´etique ˆ– Agepro Age Probable – RpQuEn R´eponse a` la question“ Avez vous des enfants?” – RpQuTr R´eponse `a la question“Travaillez vous?” – Unitur Taille d’unit´e urbaine – Niveauvie Niveau de vie ´– PROPRIETAIRES proportion de propri´etaires de leur logement dans l’iris – STABILITE mesure du lien employeurs-employ´es dans l’iris par type de contrat. – CONFORT mesure de l’´equipement en bien ou pi`eces de conforts des logements de l’iris – REVENU r´ealis´e a` partir des fichiers des impotˆ s 1.3 D´efinitions Definition 7. Une population statistique est l’ensemble sur lequel on effectue des observations. Elle est bien sp´ecifi´ee s’il n’y a pas d’ambigu¨ıt´e sur la d´efinition de l’ensemble. Dans la partie Statistique Descriptive on appellera population l’ensemble des individus effectivement ´etudi´es, sans chercher a` ´etendre les constatations faites `a une population plus vaste, ce qui rel`eve de la Statistique Inf´erentielle. Dans les exemples pr´ec´edents, les populations ´etaient : 1. L’ensemble des exploitation agricole de la r´egion, 2. L’ensemble de personnes interrog´ees dans le cadre d’un essai th´erapeutique, 3. L’ensemble des clientes d’un VPCiste `a un instant donn´e. Definition 8. Les individus (ou unit´es statistiques) sont les ´el´ements de la population statistique ´etudi´ee. Pour chaque individu, on dispose d’une ou plusieurs observations. Dans les exemples pr´ec´edents, les individus ´etaient : 1. Une exploitation agricole, 2. Un patient, 3. Une cliente. Definition 9. Une variable statistique (ou caract`ere statistique) est ce qui est observ´e ou mesur´e sur les individus d’une population statistique. Definition 10. Une variable est dite, selon le cas : 1. Quantitative : ses valeurs sont des nombres exprimant une quantit´e, sur lesquels les op´erations arith- m´etiques (somme, etc...) ont un sens. La variable peut alors ˆetre discr`ete ou continue selon la nature de l’ensemble des valeurs qu’elle est susceptible de prendre (valeurs isol´ees ou intervalle deR). 2. Qualitative :sesvaleurssontdes modalit´es,(ou cat´egories,ou caract`eres)exprim´eessousformelitt´erale ou par un codage num´erique sur lequel des op´erations arithm´etiques n’ont aucun sens. On distingue des variables qualitatives ordinales ou nominales, selon que les modalit´es peuvent ˆetre naturellement ordonn´ees ou pas. 4 Une variable est dichotomique si elle n’a que 2 modalit´es. Fig. 1 – R´esum´e des diff´erents types de variables 2 Statistiques descriptives univari´es ´2.1 Etude statistique d’une variable qualitative 2.1.1 Distributions d’effectifs et de fr´equences En pr´esence d’une variable qualitative X pouvant prendre K modalit´es x , x , ..., x , on commence par1 2 K r´ealiser un tri `a plat, c’est `a dire faire l’inventaire des modalit´es ou valeurs rencontr´ees dans la s´erie, avec les effectifs correspondants. On construit donc un tableau de la forme : Modalit´es Effectifs x n1 1 x n1 2 . .. .. . x nK K Total n Tab. 3 – Tri a` plat (distribution d’effectifs) On parle alors de la distribution d’effectifs de la variable X. On calcule ensuite les proportions (ou fr´equence) de chaque modalit´e en divisant l’effectif de chaque modalit´e par l’effectif total nk f =k n On r´esume cette distribution dans un tableau de la forme : 5 Modalit´es fr´equences x f1 1 x f1 2 . .. .. . x fK K Total 1 Tab. 4 – Distribution de Fr´equences Definition 11. Le mode de la variable X est la modalit´e ayant l’effectif le plus important. Par exemple, si on a un tableau de la forme Num´ero de Cliente Signal´etique 1 M. 2 Mme 3 Mlle . .. .. . 627630 Mme Tab. 5 – Variable Signal´etique On va par un tri a` plat construire un tableau de la forme : Signal´etique Nombre de Clientes Proportions M. 60985 0,0972 Mme 424641 0,6766 Mlle 142004 0,2262 Total 627630 1 Tab. 6 – Distributions de la Variable Signal´etique Le mode de la variable Signal´etique est ”Mme”. 2.1.2 Repr´esentations de la distribution Une variable qualitative peut se repr´esenter a` l’aide de trois types de diagrammes : 1. Un diagramme rectangulaire 2. Un diagramme en camembert (ou semi-camembert) 3. Un diagramme en batˆ on Remarque 12. A lire dans la documentation en ligne de R : Pie charts are a very bad way of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A bar chart or dot chart is a preferable way of displaying this type of data. En pr´esence d’une variable ordinale il est imp´eratif de respecter l’ordre naturel des modalit´es 6 Fig. 2 – Distribution de la taille des habits achet´es par les clientes ´2.2 Etude statistique d’une variable quantitative Soit X une variable quantitative observ´ee sur une population P de taille n. Le but d’une ´etude de statistique descriptive de cette variable est : – de visualiser a` l’aide de graphique la distribution de cette variable, les principales repr´esentations utilis´ees sont : 1. l’histogramme en bˆaton si la variable est discr`ete 2. l’histogramme des densit´es si la distribution est continue 3. la courbe des fr´equences cumul´ees (ou des effectifs cumul´es) 4. les boˆıtes `a moustache – de r´esumer la distribution de cette variable `a l’aide de quelques Statistiques, les principales statistiques sont : 1. des statistiques de positions comme la moyenne et la m´ediane 2. des statistiques de dispersions comme la variance ou l’intervalle inter-quartile 3. des statistiques de formes comme le kurtosis et le skewness 4. des d´ecoupages de la distribution de la variable en quantit´es d’int´erˆet comme les quartiles, les d´eciles, les percentiles,... et d’une mani`ere g´en´erale les fractiles. 2.2.1 Repr´esentation de la distribution L’histogramme en bˆatons On consid`ere une variable X quantitative discr`ete qui prend un nombre fini de valeurs {x ,x ,...,x }.1 2 K On dispose pour chacune de ces valeurs de l’effectif correspondant {n ,n ,...,n }.1 2 K Exemple 13. On s’int´eresse au nombre d’enfants des clientes d’un VPCiste et on a un tableau de la forme : Nombre d’enfants 0 1 2 3 4 5 6 Nombre de Clientes 81023 123050 110532 76298 42087 10965 782 Tab. 7 – Distribution d’effectif des clientes pour la variable Nombre d’enfants 7 Fig. 3 – Un exemple d’histogramme en batˆ on L’histogramme des densit´es La variable est continue et prend ses valeurs dans un intervalle [l,L[. On va chercher a` regrouper les valeurs proches, en d´ecoupant l’intervalle des valeurs en classes contigu¨es, de la forme : [l ;l [,[l ;l [,[l ;l [,...[l ;l [0 1 1 2 2 3 K−1 K On appelle Δ ce d´ecoupage, et on noten1,n2,...,n les effectifs associ´es. On calcule pour chaque intervalle,K la fr´equence associ´ee puis la densit´e de fr´equence. On r´esume les calculs dans un tableau de la forme : Densit´es de No Intervalles Amplitudes Effectifs Fr´equences fr´equence k [l ,l [ a n fk−1 k k k k dk 1 [l ,l [ a n f d0 1 1 1 1 1 . . . . . .. . . . . .. . . . . . k [l ,l [ a n f dk−1 k k k k k . . . . . .. . . . . .. . . . . . K [l ,l [ a n f dK−1 K K K K K L’amplitude de l’intervalle k est donn´ee par a =l −l , la fr´equence des individus dans l’intervalle k estk k k−1 n fk kdonn´ee par f = , finalement la densit´e de fr´equence dans l’intervalle k est donn´ee par d = .k kn ak ΔDefinition 14. L’histogramme des fr´equences associ´ee au d´ecoupage Δ est le graphe de la fonction f constante par morceau surR d´efinie par  0 si x
  • Accueil Accueil
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • BD BD
  • Documents Documents