//img.uscri.be/pth/b369d8b4e30b38e24be7e8e26e876a924f8751b3
Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Probabilités et Statistiques PAES L FOUCAN

De
49 pages
1 Probabilités et Statistiques PAES 2011 L FOUCAN PROBABILITÉS ET STATISTIQUES

  • variables quantitatives

  • variable continue en variable discrète

  • loi normale

  • intervalle de classe ouvert

  • intervalle de classe

  • borne inférieure

  • variable catégorielle

  • statistique


Voir plus Voir moins

1


















PROBABILITÉS

ET

STATISTIQUES
















Probabilités et Statistiques PAES 2011 L FOUCAN
2

Sommaire
Chapitre 1 Statistique descriptive 4
1 4 La statistique et les statistiques
2 4 Généralités sur les distributions statistiques
2.1 Population et échantillon
2.2 Variables statistiques
2.2.1 Variables quantitatives
2.2.2 Variables qualitatives ou catégorielles.
3 Distribution statistique d’une variable 5
3.1 Données brutes
3.2 Suites ordonnées
3.3 Distribution d’effectifs.
3.4 Intervalles de classe - bornes - centre de classe
3.5 Représentation des données
4 8 Indices de Position – Indices de dispersion.
4.1 Indices de position (moyenne, médiane, mode)
4.2 Indices de dispersion (étendue, valeurs extrêmes, quantiles, variance, écart-type)
5 Somme de deux variables 10
Chapitre 2 Principales distributions de probabilité 13
1 Notion de variable aléatoire 13
2 Loi de probabilité d’une variable aléatoire discrète 13
2.1 Loi Binomiale ou distribution de Bernoulli
2.2 Loi de Poisson :
3 Loi de probabilité d’une variable aléatoire continue 14
3.1 Loi de Laplace –Gauss (ou loi normale) 14
3.1.1 Définition de la loi normale
3.1.2 Courbe représentative de la densité de probabilité
3.1.3 Loi normale centrée réduite
3.1.4 Table de l’écart –réduit
3.1.5 Importance de la loi normale
3.2 Lois dérivées de la loi normale 17
3.2.1 Loi du chi-deux
3.2.2 Loi de Student
Chapitre 3 : Probabilités conditionnelles. Indépendance entre évènements. Théorème de Bayes. 19
1 Généralités 19
Les éventualités résultant d’une expérience:
Propriétés élémentaires des probabilités
2 Probabilités conditionnelles 19
3 Indépendance en Probabilité 20
4 Théorème de Bayes 20
Chapitre 4 Fluctuation d’échantillonnage 22
1 Population des Echantillons issus d’une population d’individu 22
2 Fluctuations d’échantillonnage d’une moyenne 22
3 Fluctuations d’échantillonnage d’une proportion 22
Chapitre 5 Estimation par intervalle de confiance ²25
& Généralités 25
1 Estimation ponctuelle 25
2 Estimation par intervalle de confiance. 25
2.1 Variable quantitative – estimation d’une moyenne par intervalle de confian
2.2 Variable qualitative – estimation d’une fréquence par intervalle de confiance
3 Précision d’un intervalle de confiance 27
4 Nombre de sujets nécessaire 27
29 Chapitre 6 : Comparaison d’une caractéristique observée à une caractéristique théorique
1 Etapes d’un test statistique - grands échantillons: 29
2 Risque de première , risque de deuxième espèce, puissance d’un test statistique 30
Chapitre 7. Comparaison de deux variances 32
1 Test de Fisher 32
2 Table de Fisher 33
34 Chapitre 8 Comparaison entre deux caractéristiques observées
1 Comparaison de deux moyennes observées 34
1.1 Cas des échantillons indépendants
1.2 Cas des échantillons appariés
Probabilités et Statistiques PAES 2011 L FOUCAN
3

2 2 Comparaison de deux fréquences observées 38
2.1 Cas des échantillons indépendants
2.2 Cas des échantillons appariés
Chapitre 9 Le test de chi-deux 39
1 Le chi-deux d’indépendance 39
2 Le chi-deux d’ajustement 41
3 Table de chi-deux 42
45 Chapitre 10 Tests non paramétriques
1 Principes des tests non paramétriques 45
2 Tests non paramétriques avec échantillons indépendants 45
3 Table de U - pour le test de Mann et Whitney 47
4 Tests non paramétriques avec échantillons appariés 47
48
Références

Probabilités et Statistiques PAES 2011 L FOUCAN
4

Chapitre 1
Statistique Descriptive

1. La statistique et les statistiques
La statistique est une « méthode de raisonnement permettant d’interpréter le genre de données très
particulières, qu’on rencontre notamment dans les sciences de la vie, dont le caractère essentiel est
la variabilité « D. Schwartz ».
Les statistiques ensemble des données relatives à un groupe d’individus ou d’unités.

La statistique descriptive est la phase de la statistique qui se limite à décrire ou analyser une
population donnée, sans tirer de conclusion pour une population plus grande.

2. Généralités sur les distributions statistiques
La statistique descriptive va nous permettre d’étudier un certain nombre d’objets par le terme de
série ou ensemble statistique.
Il existe 2 grands types de séries statistiques : la population et l’échantillon.

2.1. Population et échantillon

Population : ensemble de tous les individus qui relèvent d’une définition donnée.
La population est plus ou moins vaste, selon sa définition (parfois, des milliers de sujets).

Echantillon = fraction de la population
Pour avoir des renseignements sur la population à partir de l’échantillon extrait : l’échantillon doit
être représentatif.
L’échantillon est représentatif
si sa taille est suffisamment grande
et si il est extrait au hasard de la population (tirage au sort)

2.2. Variables statistiques
Une variable statistique est une caractéristique p
La variable peut être quantitative ou catégorielle.
2.2.1 Variables quantitatives : sont des variables mesurables : poids, taille, âge. Elles sont
souvent accompagnées d’une unité de mesure (ex : poids = 50 kg).
On distingue 2 sous – catégories :
* Variables continues qui peuvent prendre un nombre infini de valeur dans un intervalle
donné (ex : taille, pression artérielle diastolique).
* Variables discrètes : ne peuvent prendre qu’un nombre fini de valeur : ex : nombre
d’enfants d’une famille.

On transforme souvent une variable continue en variable discrète : c’est la discrétisation ou
groupement par classe.
2.2.2 Variables qualitatives ou catégorielles.
Ce sont des variables non mesurables. Elles ont un certain nombre de catégories ou modalités.
Une variable catégorielle à 2 catégories est dite dichotomique ou (binaire).
Ex la variable fumeurs (fumeurs-non fumeurs) est une variable catégorielle à deux catégories.
En présence de plusieurs catégories, on distingue :
Les variables ordinales : elles peuvent bénéficier d’un classement ordonné ou d’un ordre
naturel.
Probabilités et Statistiques PAES 2011 L FOUCAN
5

Ex : l’intensité de douleur : nulle, légère, intense, insupportable.
La transformation d’une variable catégorielle ordinale en variable catégorielle dichotomique est
possible. Ex pour la douleur : pas de douleur / douleur.

Les variables nominales : Il n’existe pas d’ordre naturel. Chaque classe désigne une
catégorie (elle la nomme). Par exemple, pour la couleur des yeux : noir / marron / vert /bleu.

3 Distribution statistique d’une variable
3.1 Données brutes : données rassemblées sans se soucier d’un ordre quelconque.
3.2 Suites ordonnées : les données sont rangées par ordre fixe (croissant ou décroissant).
Considérons la valeur x , elle se rencontre n fois i i
n est appelé effectif i
f n /n est appelé fréquence ou pourcentage (* 100) i = i

Valeur effectif fréquence
de la variable
x n f 1 1 1
x n f i i i
x n f p P p
n n est l’effectif total de l’échantillon


3.3. Distribution d’effectifs. Après avoir ordonné les données, on découpe l’étendue en classes (ou
catégories) et on dénombre toutes les mesures qui tombent à l’intérieur d’une même classe. A
chaque classe on associe l’effectif (et la fréquence).

Ex : Répartition d’un dosage chez l’enfant de moins de 16 ans :

Valeur du dosage effectif
> 10 - <20 6
> 20 - <30 26
> 30 - <40 42
> 40 - <50 26
Total 100
3.4. Intervalles de classe - bornes - centre de classe
Les classes sont d’étendues égales (en général). La borne inférieure comprise, borne supérieure
exclue.
Considérons la classe 20-30 du tableau
-Cette classe définit tous les enfants dont le dosage est compris entre 20 et 30.
-La borne inférieure est 20, la borne supérieure est 30.
- L’intervalle de classe est fermé : > 20 - <30 ou encore [20 - 30[
dans un intervalle de classe ouvert, une des bornes n’existe pas. Ex valeur du dosage >50
-Le centre de classe est défini comme la moyenne des bornes de la classe :
Pour la classe 30 - 40 le centre de classe est 35.
Dans une distribution en classes, lors du calcul de la moyenne ou de la variance, chaque élément
d’une classe a la valeur du centre de classe : on suppose donc que les 42 enfants de la classe 30-40
ont une valeur du dosage égale à 35.

3.5 Représentation des données
Probabilités et Statistiques PAES 2011 L FOUCAN
6

Elle dépend du type de la variable étudiée. Il existe des formes de présentation différentes pour les
variables quantitatives et catégorielles.
Le tableau
Le tableau est utilisable quelle que soit la nature des données. Il permet de présenter de façon
complète et précise les données

Distribution de l’âge de 180 hommes
suivis dans un service de Diabétologie.
Age (ans) Effectif s Fréquence (%)
40 4 0,02
41 3 0,02
0,04 42 8 La fréquence ou effectif relatif d’une
43 5 0,03 classe ou de la valeur d’un caractère
44 8 0,04 quantitatif est le rapport entre l’effectif de
45 9 0,05 cette classe et l’effectif total de l’ensemble
46 11 0,06 des classes.
En général, elle est exprimée en % 47 14 0,08
Ex classe [40 – 45[ ans: 16 %. 48 12 0,07
49 8 0,04
50 20 0,11
51 10 0,06
52 14 0,08
53 13 0,07
54 9 0,05
55 10 0,06
56 3 0,02
57 8 0,04
58 7 0,04
59 4 0,02
N=180

On peut aussi représenter cette distribution de l’âge en classes.

La fréquence cumulée d’une classe

correspond à l’ensemble des éléments
Age (ans) Effectifs Fréquence Fréquence
inférieurs à la borne supérieure de (%) cumulée (%)
cette classe.
Pour la classe [45 – 50[la fréquence
[40 – 45[ 28 16 16 cumulée est 46% (16% + 30%).
[45 – 50[ 54 30 46
[50 – 55[ 66 37 83 On a 100% à la borne supérieure de la
100 dernière classe. [55 – 60[ 32 17

Quelques principes :
Par convention, le titre du tableau figure au dessus du tableau. Il doit être informatif.
Dans un bandeau de titre, on indique la nature des informations, avec un trait plein au dessus et au
dessous du bandeau.
Les chiffres sont alignés par colonne et le même nombre de décimale est donné.
Le graphique
Probabilités et Statistiques PAES 2011 L FOUCAN
7

Par convention, le titre d’un graphique figure au-dessous du graphique.
.
Pour une variable quantitative continue,
L’histogramme : est un graphique où l’axe des abscisses représente les valeurs de la variable,
regroupées en classes, et l’ordonnée représente l’effectif ou la fréquence de chacune des classes.

Effectif
ou fréquence
L’aire d’un rectangle est proportionnelle à
l’effectif ou à la fréquence de la classe

Le polygone de fréquence : est la courbe obtenue en joignant
les points dont les abscisses sont les centres de classes et les
ordonnées les effectifs
-Le choix de l’échelle doit être correct
-L’axe des abscisses couvre toute l’étendue des données présentées.
Dans notre exemple, 40 à 60 ans.
-Il n’y a pas d’espace entre la base des différents rectangles en
abscisse (variable continue).

Age (ans)
Figure : Distribution de l’âge
Chez 180 hommes.


Pour une variable catégorielle.
Le diagramme à barres.
Permet de donner la fréquence (ou le nombre) de chaque catégorie
Un espace est laissé entre chaque barre.
Effectifs

Figure : Description de la douleur chez des
enfants drépanocytaires. Représentation à Figure : Description de l’intensité de la
l’aide d’un diagramme en secteurs douleur chez 105 enfants drépanocytaires

Le diagramme en secteurs dit en « camembert
Donne la répartition d’une variable qualitative. Il est souvent moins informatif qu’un tableau.



Probabilités et Statistiques PAES 2011 L FOUCAN
8

4.Indices de Position – Indices de dispersion.

Ils permettent de présenter de manière synthétique les données observées dans l’échantillon.

4.1. Indices de position

4.1.1 Moyenne arithmétique (ou moyenne)
Pour une variable quantitative la moyenne permet de résumer les valeurs obtenues sur un
échantillon.
4.1.1.1. Définition
La moyenne est un paramètre de position.
La moyenne est obtenue en faisant la somme des valeurs divisée par le nombre de valeurs (noté ici
N).
-Soit une série de n mesures x , x …………..x d’une variable quantitative X. La somme est notée 1 2 n
n
 (somme de toutes les valeurs, de la première à la dernière) xi
i  1
n
 xi
x1  x2 ..  xn i  1La moyenne est désignée par X = soit X =
N N
n
( on remarque que = N. X )  xi
i  1
Ex : Si on considère l’âge en années de 7 étudiants
: 20, 17, 23, 19, 16,18.
On a : x = 20, x = 17, x = 23, x = 19. x = 16, x = 18 1 2 3 4 5 6
La somme = 113 ans et la moyenne = 18,83 ans.

-Considérons un échantillon divisé en k classes de valeurs centrales y : j
k
 yn j j
j  1= X
N
n étant l’effectif de la jième classe j
n jSi chaque élément de l’échantillon a la même chance d ‘être tiré :  P = probabilité que (X = y , J)J
N
on obtient l’espérance mathématique
k
X = y P  j J
j 1
Propriétés de la moyenne

On peut réaliser un changement d’origine et/ou d’échelle pour simplifier les calculs
Changement d’origine : (méthode de la moyenne provisoire)
Soit la variable X’ = X – x 0
On démontre que X' = X – x X = X' + x 0 0On a intérêt à choisir x de manière à obtenir une simplification des calculs et donc des 0
valeurs très petites de X’. Il faut choisir de préférence le mode.

Changement d’échelle :
Probabilités et Statistiques PAES 2011 L FOUCAN
9

X X
X’ = X' = = h X' X
h h
Changement d’origine et Changement d’échelle
X  x X  x0 0X’ = X' = X = h X' + x 0
h h
Autre propriété : la somme algébrique des écarts à la moyenne est nulle.

4.1.2 La médiane

La médiane est la valeur centrale de la distribution, qui divise l’échantillon en deux moitiés de taille
égale (même effectif). . L’une à toutes les valeurs supérieures à la médiane, l’autre a toutes les
valeurs qui lui sont inférieures.

- Si le nombre d’observations est impair, la médiane est la valeur correspondant à l’observation
ème(n 1)située au milieu, celle située au ème rang. (3 rang pour l’exemple ci-dessous).
2
Ex des étudiants de la salle
IL faut d’abord classer toutes les observations par ordre croissant.
Pour 20, 17, 23, 19, 16, on observe après classement 16, 17, 19, 20, 23
La médiane est 19 ans

- Si n est un nombre pair, on considère que la médiane est à mi-chemin entre les deux valeurs du
milieu.
16, 17, 19, 20, 23, 24
médiane = (19 + 20)/2 = 19, 5 ans.

4.1.3 Le Mode (ou valeur dominante)
C’est la valeur de la variable la plus souvent rencontrée. Dans la distribution d’une variable, le
mode peut ne pas exister ou ne pas être unique
X = (1, 2, 5, 2, 4, 2, 5) a pour mode 2
X = (1, 3, 5, 2, 4, 7) pas de mode
X = (2, 7, 5, 2, 5, 8, 9) a pour mode 2 et 5. On parle de distribution bimodale.
Sur un plan graphique, le mode est la valeur de x sur l’axe des abscisses dont l’ordonnée est la plus
grande.
Si les données sont rangées par classes, la classe modale est celle dont l’effectif est le plus élevé.

4.2 Indices de dispersion :

4.2.1 Valeurs extrêmes : la plus petite et la plus grande des valeurs
Ex de l’âge avec les valeurs suivantes : 16, 17, 19, 20, 23, 24 ans
La plus petite valeur est 16 (minimum), la plus grande est 24 (maximum).
L’étendue est 16 – 24 ans = 8 ans.

4.2.2 Etendue : L’étendue d’une série correspond à la différence entre les valeurs extrêmes.

4.2.3 Les quantiles : quartiles, déciles, percentiles.
Les quartiles : valeurs qui partagent la série ordonnées en 4 groupes de même effectif.
On détermine des quartiles pour des échantillons importants.
Ces quartiles se répartissent en :
Probabilités et Statistiques PAES 2011 L FOUCAN
10

-Premier quartile : valeur de la série qui a 25% (n/4) de la distribution au dessous et 75% au
dessus.
-Deuxième quartile, correspond à la médiane a 50% (n/2) au dessous et 50% au dessus.
-Troisième quartile, valeur de la série qui a 75% (3n/4) de la distribution au dessous et 25% au
dessus.
Déciles : partagent la distribution en 10 parties égales
Centiles: partagent la distribution en 100 parties égales

4.2.4 Variance
Définition de la variance
La variance est égale à la somme des carrés des écarts à la moyenne divisée par l’effectif total.
Si x = (x , x , ……x ) 1 2 n
2 2La variance est notée var (x), σ , ou s pour l’échantillon.
n 2
x  X  
n2 i 1 2s (X) = x  X  N i 1
La variance a l’unité de la variable au carré: si x est par exemple une longueur exprimée en cm, la
2
variance est exprimée en cm
Si on développe le numérateur, on obtient
n 2  2  2x  X    N    x   x  ii
 i 1
On peut écrire la formule de la variance sous la forme suivante.
2 N N2 T T / N 22 1s (X) = avec T = et T = c’est la formule la plus utile pour 1 x 2 x i  iN i 1 i 1
effectuer des calculs.
Propriétés de la variance
Changement d’origine : un changement d’origine ne modifie pas la variance
X’ = X – x 0
On démontre que
2 ' 2 2 2 's ( X ) = s (X) s (X) = s ( X )
Changement d’échelle :
2X s (X )2 ' 2 2 2 ' X’ = s ( X ) = s (X) = h . s ( X )
2h h
Changement d’origine et Changement d’échelle :
2X  x s (X )' 0 2 ' 2 2 2 ' X = s ( X ) = s (X) = h . s ( X )
2
h h
4.2.5 L’écart-type
Si l’on souhaite exprimer la dispersion avec une même unité que la variable elle-même,
Il faut considérer l’écart type = racine carré de la variance.
2 s(X) = var X  s(X) = X  s

5. Somme de 2 variables
Pour la moyenne
Soit Y et Z deux variables quantitatives (ou plus généralement 2 variables aléatoires)
et soit X = Y + Z
X  Y  ZOn démontre que
Probabilités et Statistiques PAES 2011 L FOUCAN