22 pages

Français

statistiques_et_probabilites_au_lycee

Vaem - Michel Bourgeois

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

22 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

-
-
-
-
Statistiques et probabilités au lycée

« Le loto, c'est un impôt sur les gens qui ne comprennent pas les statistiques. » (Anonyme)

I – INTRODUCTION
1. Un apprentissage dans la continuité
Quelques éléments de statistique descriptive ont été introduits au collège, une initiation au
èmecalcul des probabilités a été menée en classe de 3 depuis la rentrée 2008. Le programme de
ndeclasse de 2 s’inscrit dans la continuité de ce travail pour ce qui est du contenu. Le tableau sy-
noptique suivant résume l’évolution des connaissances.

ème ème ème ème Classe de 6 Classe de 5 Classe de 4 Classe de 3
Organiser des données en Classes, effectifs, fréquen- Moyenne pondérée. Caractéristiques de posi-
choisissant un mode de ces. tion : médiane, quartiles.
représentation adapté. Tableaux de données : Approche des caractéristi-
Lire et interpréter des in- lecture, interprétations, ques de dispersion : éten-
Organisation
formations à partir d’une élaboration, représenta- due.
et gestion de
représentation graphique. tions graphiques.
données
Représentations usuelles : Diagrammes, histogram- Notion de probabilité.
tableaux, diagrammes en mes.
bâtons, circulaire, …,
cartésien.

Le programme de Seconde ne va guère plus loin sur les notions nouvelles dans ce qui est dé-
sormais désigné par « analyse des données », en institutionnalisant la connaissance des caracté-
ristiques de position et de dispersion (moyenne, médiane, quartiles).
Il introduit cependant un ...

Sujets

D'une ombre à l'autre

Journées nationales françaises

Robert Hue

Résultats électoraux de l'extrême gauche en France

Simulation informatique

Suite bornée

Informations

Publié par	Vaem
Nombre de lectures	133
Langue	Français

Extrait

Statistiques et probabilités au lycée «Le loto, c'est un impôt sur les gens qui ne comprennent pas les statistiques. » (Anonyme) I INTRODUCTION1. Un apprentissage dans la continuitéQuelques éléments de statistique descriptive ont été introduits au collège, une initiation aucalcul des probabilités a été menée en classe de 3ème depuis la rentrée 2008. Le programme declasse de 2nde s’inscrit dans la continuité de ce travail pour ce qui est du contenu. Le tableau sy-noptique suivant résume l’évolution des connaissances. Classe de 6ème Classe de 5ème Classe de 4ème Classe de 3ème Organiser des données en Classes, effectifs, fréquen- Moyenne pondérée. Caractéristiques de posi-choisissant un mode de ces. tion : médiane, quartiles.représentation adapté. Tableaux de données : Approche des caractéristi-OrganisationLire et interpréter des in- lecture, interprétations, ques de dispersion : éten-et gestion derfeoprrméasteinotnast ioàn gpraarptihr iqdu’eu. ne téiloanbso rgartaipohni, ques.r eprésenta- due. donnéesReprésentations usuelles : Diagrammes, histogram- Notion de probabilité.tableaux, diagrammes en mes.bâtons, circulaire, ,cartésien. Le programme de Seconde ne va guère plus loin sur les notions nouvelles dans ce qui est dé-sormais désigné par « analyse des données », en institutionnalisant la connaissance des caracté-ristiques de position et de dispersion (moyenne, médiane, quartiles).Il introduit cependant un nouveau champ de réflexion conceptuelle sur les données, avec une ap-proche de l’échantillonnage statistique. Cette approche avait déjà été initiée de façon qualitativeavec le programme de 2000, nous allons plus loin dans ce domaine avec la mise en évidenced’éléments chiffrés de la fluctuation (notion d’intervalle de fluctuation au seuil de 95%).Enfin, le programme de 2009, introduit les premiers éléments du calcul de probabilité, ce quiest une première en classe de seconde ! Le recours à la simulation d’expériences aléatoires ren-force et crédibilise le lien avec les statistiques, beaucoup plus que dans le programme précédentoù ces simulations étaient souvent négligées dans les pratiques, faute peut-être de trouver un an-crage suffisant avec les autres domaines étudiés. 2. Regard sur les objectifs du programme de SecondeCes objectifs, relativement ambitieux, sont clairement résumés dans le libellé du programme :«Objectifs visés par l’enseignement des statistiques et probabilités à l’occasion de résolutionsde problèmes· dans le cadre de l’analyse de données, rendre les élèves capables :% de déterminer et interpréter des résumés d’une série statistique ;% de réaliser la comparaison de deux séries statistiques à l’aide d’indicateurs de position etde dispersion, ou de la courbe des fréquences cumulées ;· dans le cadre de l’échantillonnage :% faire réfléchir les élèves à la conception et la mise en œuvre d’une simulation ;% sensibiliser les élèves à la fluctuation d’échantillonnage, aux notions d’intervalle de fluc-tuation et d’intervalle de confiance et à l’utilisation qui peut en être faite. » 3. Commentaires Les objectifs affichés s’articulent autour de la statistique purement descriptive (ou : analysedes données), qui utilise des outils mathématiques issus de la géométrie et de l’analyse, et des

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 1

Robert FERACHOGLOU

liens entre la statistique et les phénomènes aléatoires : l’étude de ces phénomènes se fonde sur lanotion de probabilité, comprise comme une valeur idéale de fréquence, et dont la théorie expli-que certains phénomènes constatés (la fluctuation d’échantillonnage) mais aussi donne un cadrethéorique rigoureux pour, à partir de ces données statistiques, formuler une prévision ou prendreun décision. Ce deuxième aspect est plus complexe, car il met l’accent sur l’imbrication entrestatistiques et probabilités ; les statistiques permettent d’accepter ou de réfuter un modèle théori-que, les probabilités expliquent les écarts statistiques constatés et donnent des garde-fous pour lastatistique inférentielle, c’est-à-dire la statistique de la prévision ou de la décision. Cette articulation entre statistiques et probabilités n’est pas un artifice, elle correspond à uncheminement historique et épistémologique conjoint dans le développement de ces deux disci-plines. Dans le bagage culturel du futur « citoyen », l’enjeu avéré du programme est de donner àchacun un jugement le plus sain possible sur l’information chiffrée, avec l’appui d’un « bon sensde l’aléatoire ». C’est un objectif ambitieux, d’autant plus que la France affiche un triste retarden la matière, notamment par rapport aux pays anglo-saxons ; le retard est culturel, les perlesjournalistiques relatives aux sondages et à leur interprétation, le flou affiché dans la « confian-ce » des bulletins météo, en sont quelques traces visibles ; le retard est également visible dansl’enseignement où, non seulement on a dressé au fil des années un rideau de fer entre statistiqueset probabilités (les incitations fortes des différents programmes, et notamment celui de 2000, ontpeu infléchi les pratiques), mais encore on a établi une hiérarchie de fait entre ces deux discipli-nes, au détriment des statistiques trop souvent considérées comme des mathématiques au rabais.Les statistiques restent trop souvent dans la société un amas de chiffres obscurs que l’on peutmanipuler de façon machiavélique ce qui n’est pastoujours faux pour rendre opaque une vé-rité ou la déformer. Les citations abondent dans ce sens ; en voici trois : «Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges et les statistiques. » (Mark Twain)«La statistique est la première des sciences inexactes. » (Jules de Goncourt)«Faites attention, la statistique est toujours la troisième forme du mensonge. » (Jacques Chirac) Chacun pourra tester son propre sens de l’aléatoire dans l’exemple qui suit. On a consigné ci aprèsquatre séries de 100 chiffres 0 ou 1, dont une seule a été obtenue de façon aléatoire. Il s’agit de dé-terminer laquelle. Série 1 Série 2 Série 3 Série 4 1 1 1 1 1 1 1 0 1 10 1 0 1 1 1 0 1 0 0 1 1 0 0 1 0 0 1 0 1 1 1 0 0 1 0 0 1 0 11 1 1 1 1 1 1 1 1 11 1 0 1 0 1 1 0 0 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 0 1 0 11 1 1 1 0 1 1 1 1 11 1 0 1 1 0 1 1 0 1 1 0 1 1 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 01 1 0 0 0 1 1 1 1 10 1 1 1 0 1 0 0 0 1 1 1 1 0 1 0 1 1 0 1 1 1 1 0 1 0 1 1 0 11 1 0 1 1 1 0 0 1 11 0 0 1 1 0 0 1 1 0 1 1 0 0 1 0 1 0 1 0 1 1 0 0 1 0 1 0 1 0 0 11 0 1 0 0 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0 0 1 0 0 1 1 0 1 1 01 1 1 0 1 1 0 11 1 0 1 1 1 1 1 1 10 0 1 0 1 0 0 1 1 1 0 1 0 1 1 0 1 1 0 1 0 1 0 1 1 0 1 1 0 10 1 1 1 1 0 1 1 1 10 0 1 0 0 1 0 0 1 0 1 0 1 0 1 0 0 1 1 1 1 0 1 0 1 0 0 1 1 11 1 1 1 1 1 1 1 0 01 0 0 0 1 0 1 1 1 0 0 1 1 0 1 0 0 1 1 1 0 1 1 0 1 0 0 1 1 10 0 1 1 1 1 1 1 1 10 1 1 0 0 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 0 1 1 0 Nombre de 0 : 18 Nombre de 0 : 51 Nombre de 0 : 48 Nombre de 0 : 42Nombre de 1 : 82 Nombre de 1 : 49 Nombre de 1 : 52 Nombre de 1 : 58 Nombre de blocs 25 Nombre de blocs 62 Nombre de blocs 66 Nombre de blocs 53

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009

Page 2

Robert FERACHOGLOU

Commentaires La première idée est de regarder la fréquence d’apparition des chiffres, ce qui permet d’éliminer lapremière série, qui comporte trop de 1. Le nombre de 1 est en effet une variable aléatoire qui suitune loi binomiale de paramètres 100 et 0,5 ; sa moyenne estm150 et son écart-typeΜ15. Sa loiest proche d’une loi normale ayant les mêmes paramètres, pour laquelle environ 95 % des échantil-lons aléatoires sont contenus dans l’intervalle[m%2Μ,m#2Μ], c’est-à-dire [40, 60]. Au seuil de95%, on peut donc réfuter le caractère aléatoire de la série 1, et accepter celui des séries 2, 3, 4. On peut également considérer le nombre de blocs, c'est-à-dire de suite de termes analogues danschacune des séries. Formellement, siX1, ,X100sont les 100 variables de Bernoulli donnant la va-leur des 100 chiffres, cela consiste à introduire comme compteurs de blocs les variables(Yi)1σiσ100ainsi définies :Y111 et pour 2σiσ100,Yi11 siXi¹Xi%1etYi10 siXi1Xi%1.100AlorsS1∑Yi représente le nombre total de blocs.i11On aE(Y1)11 et pour 2σiσ100,E(Yi)112, donc E(S)11#99´0,5150,5 ; c’est le nombremoyen de blocs.De plus,V(Y1)10 et pour 2σiσ100,V(Yi)114et les Yi sont indépendantes, doncV(S)199´0, 25124,75. Cela fournit :Μ(S)»5.Pour environ 95% des échantillons aléatoires, le nombre de blocs est donc compris entre 40,5 et60,5, ce qui permet de réfuter le caractère aléatoire des séries 2 et 3 : elles ont trop de blocs pour êtreobtenues par hasard. (En fait, ces séries ne comportent pas de séries de chiffres consécutifs de lon-gueur supérieure à 3 : c’est également extrêmement rare.) II LA STATISTIQUE DESCRIPTIVE1. Appréhender une série statistiqueUne série statistique livre un ensemble de données brutes. Lorsqu’elles sont nombreuses, cesdonnées demandent d’être résumées pour en tirer un enseignement. Les graphiques et les para-mètres constituent les principaux résumés, visuels et numériques. Deux points sont essentielsdans la formation des élèves :% s’habituer à poser des questionsa priori, comme par exemple : « quel résumé semble leplus pertinent pour une étude donnée ? », « quels paramètres sont intéressants à calcu-ler ? » ;% s’entraîner à comprendre et interpréter les résumés, qu’ils soient visuels ou numériques,et les exploiter pour en tirer un élément de réponse. Le programme insiste sur la nécessité de travailler le plus souvent possible sur des données réel-les ; la mise à disposition de fichiers numériques permettra un travail sur ordinateur, d’autantplus justifié que ces données seront nombreuses et complexes. Le document ressource préconisele recours à quelques fichiers qui serviront de fil rouge. Par exemple le fichier de l’INSEE sur les36723 communes françaises, disponible sur le sitehttp://www.insee.fr/fr/ppp/bases-de-donnees/recensement/populations-legales/france-departements.asp, permet de mener des travauxintéressants sur des exemples de représentations graphiques, des tris, des calculs de fréquences,des calculs de paramètres et leur interprétation, des comparaisons de populations, d’étudier leseffets de différents regroupements, d’utiliser le cumul des fréquences, de prélever des échantil-

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009

Page 3

Robert FERACHOGLOU

lons, d’observer la fluctuation d’échantillonnage, de découvrir la loi de Benford, d’introduire lesrudiments du calcul des probabilités, . 2. Résumer une série statistiquea) Position du problèmeUne série statistique numérique offre un premier résumé visuelnaturel tel que l’histogramme(ou le diagramme en bâton, en barres, ). Ce graphi que pose la question de trouver un résu-mé numérique adéquat, à l’aide de paramètres chiffrés traduisant trois notions visuelles :- latendance centrale (centre de gravité, valeur « sommitale », valeurs de partage) ; - ladispersiondes données ;- laforme du graphique (aplatissement, asymétrie).Seules les deux premières notions sont envisagées au lycée ; il n’est pas inintéressant pour unprofesseur d’en étudier un aspect théorique, qui ne sera pas présenté aux élèves. b) Lien théorique entre tendance centrale et dispersionOn identifie la série statistiquex1, ,xnau vecteurx(x1, ...,xn) d’un espace euclidien dendimensionn, identifié àℝ. Une valeur centrale est par définition une constantec telle que le vecteur constantc1(c,c,...;c) est proche dex, au sens suivant : la distance entrex etc doit être minimale.La valeur de cette distance minimale est, toujours par définition, la dispersion associée à lavaleurc. On peut envisager cela avec quelques distances classiques dansℝn :· dυ(x,y)11Mσiσanx xi%yi ;Dυ(x,y)11Miax xi%yi ;1nσ σn· d1(x,y)1∑xi%yi ;D1(x,y)1n11σ∑σxi%yi ;1σiσn i n1 1·2 2 d2(x,y) (xiyi) 11σi∑σn% D2(x,y)11n1σi∑σn(xi%yi)22(d2 est la distance eucli-dienne) ;1 1 · dp(x,y)11σi∑σn(xi%yi)pp Dp(x,y)1n11σi∑σn(xi%yi)pp pourp entier,p³1.Les trois résultats suivants donnent le paramètre de tendance centrale et la dispersion asso-ciée, relativement à trois de ces distances, parmi les plus classiques.Théorème 1dυ(x,c) est minimal lorsquec est égal à lamoyenne des valeurs extrêmes de la série. Lavaleur de ce minimum est lademi-étendue de la série. La démonstration est immédiate.Théorème 2 D1(x,c) est minimal lorsquec est égal à lamédianeMe de la série. La valeur de ce mini-mum est l’écart moyen à la médiane (EMM).La démonstration du premier résultat peur être conduite en cycle terminal de la série S pourune série ayant 3 ou 4 valeurs, admise pour les séries d’ordre supérieur.

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 4

Robert FERACHOGLOU

Théorème 3D2(x,c) est minimal lorsquec est égal àla moyennexde la série.La valeur de cette distance euclidienne minimale est l’écart-type de la série.Ce résultat, hors de portée des élèves de lycée, se justifie de deux façons :- analytiquement, en étudiant le minimum dex֏∑(x%xi)2 ;1σiσn- géométriquement, en remarquant que la distance euclidienne dérive d’un produit scalai-re, et que la distance minimale dex à la droite vectorielle engendrée parc, qui est aussiengendrée par le vecteuru(1,...,1) , estminimale pour le projeté orthogonal sur cettedroite vectorielle. Ainsi cdoit être le projeté orthogonal dex surℝu ; il est calculé parles conditions :c(c,...,c) etc.x1c.c. On en tire :cx1#...#cxn1c.x1c.c1nc2.D’où :c1x1#...#xn1x (moyenne de la série).nLa dispersion associée est la distance minimale correspondante, soit :1D2(x,x)1n11σi∑σn(xi%x)221s (c’est l’écart-type de la série).Ainsi, le couple (moyenne, écart-type) joue-t-il un rôle privilégié parmi les paramètres. c) Que choisir en classe ?L’aspect théorique précédent ne doit pas être soulevé en classe ; il a cependant le méritede montrer que les résumés numériques fonctionnent par deux : un paramètre de tendancecentrale et l’indicateur de dispersion qui lui mathématiquement associé. Il faut également re-tenir que les valeurs extrêmes de la série ainsi que le seul paramètre de dispersion qui est of-ficiellement au programme de seconde, à savoir l’étendue, ne doivent pas être méprisés mê-me s’ils sont relativement grossiers : ils interviennent en liaison avec la distancedυ. Ces pa-ramètres ont d’ailleurs une importance réelle dans les séries statistiques où intervient un si-nistre, voire une catastrophe ; ainsi les plans d’occupation des sols doivent tenir compte deshauteurs maximales des cours d’eau plutôt que de leur hauteur moyenne, les normes sismi-ques des bâtiments que l’on construit prennent la mesure des plus grandes magnitudes cons-tatées des séismes, etc.D’autre part, il est important de montrer aux élèves que, pour une série numérique,moyenne et médiane peuvent être très différentes, et de les entraîner à réfléchir à la pertinen-ce du choix des paramètres. La moyenne est très usuelle, mais elle est peu robuste relative-ment à des valeurs extrêmes très élevées ; ainsi le salaire moyen en France est relativementtrompeur pour rendre compte du revenu des habitants. Les paramètres d’ordre et leur repré-sentation (médiane, quartiles, déciles, boîtes de dispersion) sont souvent plus appropriés. Deplus ces paramètres donnent du sens à la fonction cumulative des fréquences, dontl’équivalent probabiliste est la fonction de répartition d’une variable aléatoire.

III DÉFINIR UNE LOI DE PROBABILITÉ1. Expérience aléatoire et modélisationa) Qu’est-ce que modéliser ?Modéliser une expérience aléatoire, c’est définir les résultats possibles (appelés «résultats »ou «issues » ou encore «événements élémentaires »)x1, ,xn, que l’on supposera être ennombre fini en classe de seconde, et leur affecter une suite de nombresp1, ,pntous positifs

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 5

Robert FERACHOGLOU

ou nuls et dont la somme est égale à 1. L’ensemble des issuesW1Σx1,...,xnΥest l’univers, lenombrepiest appeléprobabilité de l’issuexi, len-uplet (p1,...,pn) est la loi de probabilité asso-ciée auxn issues. Le mot probabilité a deux sens qu’il ne faut pas confondre, il désigne ici lesnombres affectés aux différentes issues, il va désigner aussi une applicationp qui à chaque évé-nementA (au lycée, un événement désigne toute partie deW ; en théorie des probabilités, unévénement est une famille de parties appeléetribu qui vérifie certaines conditions de stabilité)associe un nombre compris entre 0 et 1 : la somme des probabilités (au premier sens du terme)des issues qui appartiennent àA. La modélisation soulève quatre questions. Est-elle mathématiquement juste ? Est-elle uni-que ? Dépend-elle objectivement d’une expérience aléatoire ? Est-elle satisfaisante par rapport àl’expérience ?La justesse mathématique est garantie par les conditions imposées, même si la modélisationn’est pas satisfaisante ; on peut en effet modéliser les six issues résultant du lancement d’un dééquilibré en affectant les probabilités 21, 110, 110, 110, 110, 110 aux différentes issues. Cela per-mettra d’effectuer des calculs justes, mais sûrement pas satisfaisants relativement à l’expérience.La modélisation n’est pas unique, comme on peut le voir en avec l’expérience consistant àprélever trois boules dans une urne ; on peut considérer que les boules sont prises ensemble et seramener à des calculs de combinaison, ou les ordonner et raisonner en termes d’arrangements.On sait bien que ces deux modélisations (à la fois justes et satisfaisantes) conduisent aux mêmesrésultats.La question de l’objectivité a été le credo des mathématiciens jusqu’à la fin du XIXème siè-cle ; il a été ébranlé lorsque Emile BOREL a démonté le paradoxe de Bertrand décrit ci-dessous.On sait depuis lors que le fait de choisir au hasard n’induit aucune modélisation mathématiqueobjective, et il faut préciser le protocole expérimental utilisé. Donnons-en trois exemples ; lepremier (il s’agit du paradoxe de Bertrand) est difficile, mais présente un grand intérêt histori-que ; les deux autres sont abordables en classe de seconde. Exemple 1 : le paradoxe de Bertrand Jusqu’à la fin du XIXe siècle, les mathématiciens avaient l’espoir que chaque « événement » ré-sultant d’une expérience aléatoire ait une probabilité objective calculable. Cette croyance a voléen éclat après la publication en 1889 par Joseph Bertrand d’un célèbre paradoxe qui a jeté ungrand trouble dans les esprits, et a ainsi rendu nécessaire une axiomatisation rigoureuse des pro-babilités. On choisit une corde au hasard sur un cercle. Quelle est la probabilité p qu’elle soit plus longueque le côté du triangle équilatéral inscrit dans le cercle (de centre O, de rayon r) ? · Première modélisation : une extrémitéA de la corde est fixée, l’autre extrémi-téM est choisie au hasard sur la circonférence.La corde répond à la question lorsqueM est sur l’arc du cercle situé à droiteAde la droite d. La longueur de cet arc est le tiers de la circonférence, donc :1.p13

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009

Page 6

Robert FERACHOGLOU

· Deuxième modélisation : le milieuI de la corde est choisi au hasard sur un dia-Amètre [AB].La corde répond à la question lorsqueI est choisi sur un segment dont les ex-trémités sont situées au quart et aux trois quarts de [AB] ; la longueur de cesegment est la moitié du diamètre, donc :p112. B · Troisième modélisation : le milieuI de la corde est choisi au hasard dans ledisque. La longueur de la corde dépasse celle du côté d’un triangle équilatéralinscrit lorsqueI est situé à l’intérieur du disque concentrique de rayon moitié(grisé sur la figure). L’aire de ce disque est égale au quart de celle du disque dedépart, donc :p141. Exemple 2 : le problème des cases (Manuel de 1ère S, Collection Terracher, 2001) On choisit au hasard une case blanche dans le damier ci-contre. Quelle est la1 probabilité d’obtenir une case ayant le numéro 1 ? 2 ? 3 ? 4 ? 5 ? 2 3 as lesrOéns uvltéartisfi :e sans peine que les trois protocoles suivants ne donnent p mêmes 4 5 · Protocole 1 : on choisit au hasard une case blanche parmi les cinq. Protocole 2 : on choisit au hasard une colonne parmi les trois, puis une case blanche dans la·colonne choisie.· Protocole 3 : on choisit au hasard une ligne parmi les trois, puis une case blanche dans la li-gne choisie Exemple 3 : le problème des bancs (Manuel de Terminale C et E, Analyse et probabilité, Collec-tion Terracher, 1992)Ce problème est repris sous un habillage à peine modifié dans le document d’accompagnementdu programme de seconde, page 8. Dans une pièce se trouvent trois bancs de deux places chacun. Deux personnes entrent ets’assoient au hasard. Quelle est la probabilité qu’elles s’assoient côte à côte ? · Protocole 1 : on place dans une urne trois boules marquées A, B, C correspondant aux troisbancs. La première personne choisit une boule au hasard, la remet dans l’urne, et va s’asseoirau hasard sur l’une des deux places du banc indiqué. La deuxième personne procède de mê-me.· Protocole 2 : on place dans une urne six boules marquées 1, 2, 3, 4, 5, 6 correspondant auxsix places. La première personne tire une boule au hasard et va s’asseoir à la place indiquée ;la deuxième personne procède de même avec les cinq boules restantes Il est aisé de calculer, par exemple en recourant à un arbre, que la probabilité cherchée est égale à13 dans le premier cas, à 1 dans le deuxième. 5L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 7 Robert FERACHOGLOU

b) Les modélisations satisfaisantesIl existe plusieurs modélisations satisfaisantes d’une même expérience aléatoire. Par exem-ple, lorsqu’on lance un dé équilibré, on peut définir l’univers {1, 2, 3, 4, 5, 6} avecl’équiprobabilité des issues, ou l’univers {« six », « autres nombres »} avec la loi16,56. Lechoix dépend des objets d’étude.Qu’est-ce qu’une modélisation satisfaisante ? Du point de vue mathématique, la définitiond’une loi de probabilité (p1,...,pn) associée aux issues (x1,...,xn) est irréprochable dès lors quelespi sont tous positifs et de somme égale à 1 ; elle permet de calculer les probabilités de cha-que événement. Ce n’est pas suffisant pour que le modèle soit en accord avec l’expérience aléa-toire. Une détermination satisfaisante despi est difficilea priori sauf dans quelques cas particu-lier :% lorsque l’on reconnaît une expérience déjà connue ;% lorsque l’on a de bonnes raisons de postuler l’équiprobabilité des issues (tirage aléatoired’objets identiques, symétries d’un dé ;% etc.Dans tous les autres cas, et c’est une spécificité du calcul probabiliste, la vérification d’un modè-le ne peut intervenir qu’a posteriori par laloi des grands nombres, que l’on peut énoncer de fa-çon qualitative en termes vulgarisés :«Si le modèle est bon, lorsqu’on réalise un grand nombre de fois l’expérience aléatoire, la dis-tribution des fréquences des différentes issues doivent se rapprocher des probabilités. »Ainsi la réalisation effective d’une expérience aléatoire (ou une simulation satisfaisante) peutdonner une idée de la valeur des probabilités, et ce d’autant mieux que le nombre d’expériencesest grand, mais ne permet en aucun cas d’en déterminer les valeurs exactes ; par contre, les expé-riences répétées peuvent permettre de réfuter un modèle erroné. 2. Les lois des grands nombresIl existe plusieurs versions de cette loi. Nous en donnons une version édulcorée, liant la fréquen-ce de réalisation d’un événement et sa probabilité. Dans une expérience aléatoire, on considère un événementA de probabilitép. Lorsqu’on ré-alisen fois de façon indépendante cette même expérience aléatoire, on considère lavariablealéatoire Fn1nombre de réalisations deA. Des valeurs statistiquesfn de la variableFn sont ob- ntenues chaque fois qu’on réalise effectivementn fois l’expérience :fn est la fréquence des occur-rences deA surn expériences. Les lois des grands nombres démontrent mathématiquement quela suite (Fn) converge versp en un certain sens :- la loi faible (établie par Jacques Bernoulli, publiée en 1713 dans son ouvrage posthumeArs conjectandi) énonce que pour toutΑ20 , la probabilité queFn s’écarte dep de plusdeΑ tend vers 0 lorsquen tend vers#υ ; autrement dit :"Α20 , li|m#υ{P(|Fn%p|2Α!}10 .nUne démonstration élémentaire s’appuie sur l’inégalité classique de Bienaymé-Tchebychev (siX est une variable aléatoire de moyenne finiem et d’écart-type finiΜ,%m2hΜσ.alors pour touth20 , on aP(|X|!h12)- la loi forte (plus puissante et plus difficile, conséquence des travaux réalisés au XXe siè-cle par Emile Borel, Francesco Cantelli et Andreï Kolmogorov) précise que limFn1p n|#υ

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009

Page 8

Robert FERACHOGLOU

pourpresque toutes les expériences. Au sens de la théorie de la mesure, cela signifie quel’événement « limFn1p » a pour probabilité 1.n|#υ Pratiquement cela assure danspresque tous les cas que la fréquence observée expérimenta-lement se rapproche d’une valeur théoriquep. La modélisation devrait donc attribuer cette valeurp à la probabilité. Cette conception, ditefréquentiste, offre l’avantage d’être cohérente avecl’approche statistique. 3. L’approche fréquentiste en classeCette approche a dû être réalisée en classe de troisième. Il n’est peut-être pas inutile de lacompléter en seconde, à partir d’une expérience aléatoire simple à réaliser ou simuler.Prenons le cas du lancer de dé, où l’on s’intéresse à la fréquence d’apparition du six. Il s’agitd’observer la stabilisation des fréquences lorsque l’on augmente le nombre de lancer en traçant lacourbe d’évolution de la fréquencefn de l’issue choisie en fonction du nombren de lancers. Untableur semble indispensable étant donné le grand nombre de lancers requis, et un fichier prêt àservir est disponible sur le serveur académique. En observant l’évolution de la fréquence de sor-tie du six sur 3000 lancers, on a obtenu la courbe suivante, qui montre clairement une stabilisa-tion. Un autre type d’expérience peut être réalisé à la main pour conjecturer une probabilité incon-nue. Un exemple classique consiste à lancer une punaise en métal qui peut tomber soit la pointesur la table (position A) soit la pointe en l’air (position B). En répartissant les expériences et lescalculs dans une classe, on peut observer à nouveau sur environ 600 lancers une relative stabili-sation des fréquences. IV SIMULATION1. Peut-on simuler une expérience aléatoire ?On veut simuler une expérience aléatoire pour plusieurs raisons : parce que celle-ci est tropdifficile à réaliser, trop coûteuse ou trop fastidieuse (à cause du grand nombre de données), parcequ’elle peut comporter une issue catastrophe, etc. La simulation est utile essentiellement pourpermettre certaines découvertes, conforter ou infirmer une hypothèse, etc. Le désir de confierl’expérimentation à une simulation se heurte cependant à un obstacle de taille :on ne peut passimuler une expérience aléatoire, mais seulement une loi de probabilité connue. Cela signi-fie qu’une expérience aléatoire demande un minimum de modélisation avant d’être simulée ; ain-si, pour étudier l’attente de clients dans un dispositif comportant plusieurs sorties (guichets à laposte, caisses de supermarché, péages d’autoroute), on ne pourrait rien simuler sans postuler queL’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 9 Robert FERACHOGLOU

l’arrivée de chaque client suit une loi connue, décrite par un processus de Poisson (le nombred’arrivées dans un intervalle de temps donné suit une loi de Poisson, le temps entre deux arrivéessuit une loi exponentielle).Ainsi la simulation ne permet pas de découverteab nihilo, mais peut simplement faire con-jecturer des paramètres liés à des lois complexes, en s’appuyant sur la simulation de lois élémen-taires mieux connues. Par exemple, lorsqu’on lancen fois un dé (n³2 ), on peut conjecturer àl’aide d’une simulation une valeur approchée de certaines probabilités (relatives à la somme deschiffres, au maximum, à l’obtention d’une série donnée ), à partir de la simulation de la loiuniforme sur {1, 2, 3, 4, 5, 6} correspondant à chaque lancer, cette dernière étant parfaitementconnue. 2. Nombres aléatoiresa) Qu’est-ce qu’un nombre aléatoire ?La simulation consiste à fabriquer à l’aide d’un programme de calcul une suite de nom-bresx1, ,xn, indépendants les uns des autres, où chaque nombre suit une loi de probabilitévoulue. On peut obtenir de tels échantillons à partir d’un générateur de nombres aléatoires(procédé «Random » qui devrait fonctionner comme le tirage aléatoire d’un nombre réel ap-partenant à l’intervalle [0 ; 1[), ou à partir d’une table de nombres aléatoires (tirage aléatoireavec remise des chiffres 0, 1, , 9). Le générateur permet en pratique d’obtenir une table denombres aléatoires, qui sont les décimales du nombre aléatoire.La définition correcte d’un nombre aléatoire n’est pas simple ; écrit en base deux, leschiffres 0 et 1 de ce nombre doivent se comporter comme les piles et faces obtenues lors-qu’on lance une infinité de fois au hasard une pièce de monnaie équilibrée ; écrit en base dix,un tel nombre pourrait être défini par ses décimales comme si l’on tirait sans relâche et avecremise dans une urne des boules marquées 0, 1, , 9 . Dans ce dernier cas :% un nombre aléatoire est nécessairement irrationnel, car un rationnel, ayant ses décimalespériodiques, ne peut pas contenir certaines séquences dans la suite de ses décimales ;% les chiffres 0, 1, , 9 doivent être équiprobables, mais ce n’est pas suffisant car le nom-bre 0,1234567890 1234567890 ...n’est pas équiprobable car la séquence 11 par exemplen’apparaît jamais ; de tels nombres sont dits « équirépartis en base dix » ;% les 100 séquences 00, , 99 doivent se retrouver av ec la même fréquence, ainsi que les1000 séquences 000, , 999, et plus généralement le s 10nséquences 00, , 99 (n chiffres) doivent se retrouver avec la même fréquence 10%n. Les conditions très fortesimposées à ces nombres (appelés « normaux en base dix ») font douter de leur existence ;cette propriété de normalité a pourtant été prouvée pour certains d’entre eux, comme lenombre de Champernowne 0, 1234567891011121314 (for mé en juxtaposant la suitedes entiers naturels) ; on conjecture que les nombrese etϑ sont eux aussi normaux enbase dix, sans avoir pu le prouver. Cependant, les nombres normaux ne sont pas nécessai-rement aléatoires comme on peut le voir avec le nombre de Champernowne dont les dé-cimales sont parfaitement déterminées et donc prévisibles ;% d’autres nombres commeϑont des décimales sans régularité, mais ne sauraient être con-sidérés comme des nombres aléatoires : on connaît très bien de courts programmes per-mettent d’obtenir lesk premières décimales deϑ, ou même lak-ième sans passer par lesprécédentes (algorithmes compte-gouttes).Au cours du XXème siècle, de nombreuses tentatives pour définir un nombre aléatoire (ouune suite de chiffres aléatoires) ont échoué, l’idée intuitive de désordre total dans les décima-les étant difficile à décrire en termes de fréquences. La solution est apparue d’abord en 1965avec le suédois Per MARTIN-LÖF, puis une dizaine d’années plus tard avec le russe AndreïKOLMOGOROV et l’américain Gregory CHAITIN ; c’est la théorie de la complexité liéeau développement de l’informatique qui en donne une définition satisfaisante : une suite denombres est aléatoire si et seulement si elle est incompressible au sens informatique du ter-

L’articulation probabilités-statistiquesJournées de l’inspection - Octobre 2009 Page 10

Robert FERACHOGLOU

me, c’est-à-dire grosso modo s’il n’existe pas de programme d’obtention desn premières dé-cimales qui soit plus court que d’en donner la li ste ! On démontre qu’il existe de telsnombres, qui sont toutefois difficiles à appréhender, de part même leur définition (voir [9]). Il faut donc renoncer à disposer devrais nombres aléatoires, et l’on se contentera de gé-nérateurs qui fournissent des nombres pseudo-aléatoires, c’est-à-dire de nombres qui donnentl’apparence du désordre (certains auteurs, comme Jean-Louis PIEDNOIR, qui a été inspec-teur général de mathématiques, les nomment «nombres canada-dry », du nom de la célèbreboisson qui présente toutes les apparences de l’alcool, mais qui n’est pas de l’alcool), ou toutau moins de l’imprévisibilité, si l’on ne considère qu’une liste finie assez courte de décima-les. b) Obtention de nombres pseudo-aléatoiresLes méthodes les plus employées sont basées sur des suites récurrentes ; elles fournissentdonc des suites périodiques qui, en théorie, n’ont donc rien d’aléatoire. On s’arrange pourque la période soit assez grande pour garder l’illusion du désordre.Par exemple, dans la méthode multiplicative de Lehmer, on définit une suite d’entiers(ri) par :ri#1ºari#b(modm) , où les entiersa,b,r0 bien choisis sont implémentés à lacréation du processeur etm est le plus grand possible (sur ordinateur, on prend souvent2p%1 oùp est le nombre de bits d’un mot machine, c’est-à-dire 32 ou 64). On considèrem1,alors que les nombresriforment une suitem%1de nombres pseudo-aléatoires. (Voir [8].) 3. Simulation de quelques lois classiquesa) De quoi s’agit-il ?Il s’agit de simuler toute loi de probabilité connue à partir d’un échantillon de nombrespseudo-aléatoires. Théoriquement cela revient, si une variable aléatoireU suit la loi uniformesur [0 ; 1], à exprimer la loi d’une variable aléatoire donnéeX en fonction de celle deU. b) Loi équirépartie sur [[1 ;n]], l’ensemble des entiers compris entre 1 etn Cette loi correspond au lancer aléatoire d’un « dé » àn faces ou au tirage au hasard dansune urne contenant des boules marquées 1, ,n.La variableX1E(nU)#1 suit la loi correspondante (E désignant la partie entière).Cela signifie en pratique que si lesui sont des nombres pseudo-aléatoires, les nombresxi1E(n´ui)#1 sont des entiers au hasard compris entre 1 etn. c) Loi uniforme sur l’intervalle [a,b]La variableX1(b%a)´U#a suit la loi uniforme sur l’intervalle [a,b]. d) Loi de Bernoulli de paramètrep, et loi binomialeLa variableX définie par :X11 siUσp etX10 siU2p suit la loi de Bernoulli deparamètrep.SiX1, ,Xnsuivent la même loi de Bernoulli de paramètrep et sont indépendantes, alorsX1X1#...#Xn suit la loi binomiale de paramètresn etp. Cela permet aisément de simulerune loi binomiale à partir d’un générateur aléatoire, que l’on itèren fois. Lorsquen est grand,il est préférable de considérer que la loi binomiale est proche d’une loi normale (voir plusloin).

L’articulation probabilités-statistiquesJournées de l’inspection Octobre 2009-

Page 11

Robert FERACHOGLOU