La statistique est un ensemble de méthodes permettant de décrire puis d’analyser numériquement des ensembles comportant un grand nombre d’éléments. Avec le développement des moyens informatiques et de calcul, on peut aujourd’hui effectuer un traitement rapide des données et analyser une information complexe. Le perfectionnement des interfaces des logiciels offre désormais aux utilisateurs, informaticiens ou non, des possibilités de mise en oeuvre très simple des outils logiciels. Dans ce contexte, le gestionnaire, en particulier financier, dispose d’un ensemble de techniques relativement élaborées pour réaliser des analyses de marchés.
Source : « L’essentiel de l’économie », inAlternatives économiques, Hors série pratique n° 21, novembre 2005.
Ouvertures Économiques
Analyse statistiquepour la gestionbancaire financière et Applications avec R
VirginieTerraza CaroleToque
Crédits photos de couverture : Si malgré nos soins attentifs, certaines demandes n’étaient pas parvenues aux auteurs ou à leurs ayants droits, qu’ils veuillent bien nous en tenir informés.
Pour toute information sur notre fonds et les nouveautés dans votre domaine de spécialisation, consultez notre site web :www.deboeck.com
Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent ouvrage, de le stocker dans une banque de données ou de le communiquer au public, sous quelque forme et de quelque manière que ce soit.
Imprimé en Belgique
Dépôt légal : Bibliothèque Nationale, Paris : juillet 2013 Bibliothèque royale de Belgique, Bruxelles : 2013/0074/128
ISSN 20302061 ISBN 9782804181482
avant-propos
La statîstîque est un ensemble de méthodes permettant de décrîre puîs d’analyser numé-rîquement des ensembles comportant un grand nombre d’éléments. Avec le développe-ment des moyens înformatîques et de calcul, on peut aujourd’huî effectuer un traîtement rapîde des données et analyser une înformatîon complexe. Le perfectîonnement des înterfaces des logîcîels offre désormaîs aux utîlîsateurs, înformatîcîens ou non, des possîbîlîtés de mîse en œuvre très sîmple des outîls logîcîels. Dans ce contexte, le ges-tîonnaîre, en partîculîer inancîer, dîspose d’un ensemble de technîques relatîvement élaborées pour réalîser des analyses de marchés.
Pour rendre accessîble au plus grand nombre l’apprentîssage des méthodes sta-tîstîques, nous abordons sîmultanément les fondements théorîques et des exemples concrets d’applîcatîons à la gestîon bancaîre et inancîère. Nous faîsons appel au logîcîel înformatîque R, facîle d’utîlîsatîon et téléchargeable gratuîtement sur Internet à partîr du sîte http://cran.r-project.org. Des înformatîons relatîves à R peuvent être trouvées par l’întermédîaîre de ce sîte. Entre autres, les rubrîques «Manuals» et «Contributed» permettent de télécharger dîfférents documents de présentatîon du logîcîel, tels que ceux d’Owen (2007) et de Paradîs (2005).
Le logîcîel R est un outîl partîculîèrement bîen adapté à la mîse en œuvre de méthodes statîstîques. Il dîspose d’une bîblîothèque très étendue de fonctîons statîs-tîques et est capable d’en întégrer de nouvelles par le système des « packages », ou modules externes compîlés, que l’on peut télécharger. Le logîcîel R propose également une palette étendue de fonctîonnalîtés graphîques. Toute analyse statîstîque requîert, au préalable, la nécessîté de bîen comprendre la méthode et ses prîncîpes avant de la mettre en œuvre. Aînsî, cet ouvrage présente les notîons de base et concepts utîles pour une analyse statîstîque opératîonnelle. Deux méthodes statîstîques fondamentales sont développées, avec des applîcatîons et des înterprétatîons dans le domaîne de la gestîon bancaîre et inancîère : – la statîstîque descrîptîve. Elle a pour objectîf de décrîre et de représenter, par des statîstîques, les données bancaîres et inancîères ; – des méthodes statîstîques de modélîsatîon. Elles permettent de décrîre au mîeux le comportement de varîables à partîr de plusîeurs sérîes d’observa-tîons. Hîstorîquement, la statîstîque s’est beaucoup développée autour de modèles încorporant d’une part des varîables explîcatîves ou prédîctîves,
vi
Analyse statîstîque pour la gestîon bancaîre et inancîère
d’autre part une composante aléatoîre ou « bruît ». L’objectîf d’une telle des-crîptîon analytîque est donc la recherche d’une modélîsatîon dans un but pré-dîctîf. Plusîeurs sérîes de tests statîstîques vîennent compléter l’analyse, ain de mînîmîser l’erreur de prédîctîon et de choîsîr le meîlleur des modèles de régressîon.
Dans l’ouvrage, la sîtuatîon des banques européennes est analysée au cours de la pérîode récente (2005-2010), et cette étude retrace l’évolutîon de la crîse inancîère actuelle. Par cette approche nous avons souhaîté mettre l’accent sur uneanalyse sta tistiqueet donner aînsî au lecteur de l’ouvrage une vîsîon concrète de l’întérêt de ces méthodes statîstîques pour décrîre la sîtuatîon inancîère des banques. Bankscopedu bureau Van Dîjk constîtue notre prîncîpale source de données inancîères. Cette base de données dîspose d’înformatîons détaîllées sur les banques du monde entîer. L’échantîllon d’étude de l’ouvrage est constîtué de 65 banques euro-péennes de 12 natîonalîtés dîfférentes, en dîfférencîant pour chaque banque son pays d’orîgîne et son lîeu de domîcîlîatîon. Des tableaux de bîlans bancaîres îssus de la base inancîère sont décrîts puîs analysés. Les données utîlîsées sont dîsponîbles sur Internet en complément de l’ouvrage, permettant aînsî au lecteur de reproduîre l’ensemble des analyses menées. Des extractîons de cette base bancaîre sont faîtes pour îllustrer dîrectement tous les développements théorîques du cours. Des exemples, des programmes et graphîques multîples (traîtés avec le logîcîel R) îllustrent les méthodes statîstîques et procédures de calcul pour inalement enrîchîr les înterprétatîons sur les résultats inancîers obtenus. Des exercîces complémentaîres vîennent s’ajouter en in de chaque chapître pour des analyses inancîères plus détaîllées. Nous remercîons toutes les personnes quî ont eu la gentîllesse de nous faîre des remarques et de nous donner quelques conseîls, et tout partîculîèrement Déborah Schwartz, collaboratrîce scîentîique à la CREA de l’unîversîté du Luxembourg, pour sa partîcîpatîon à l’extractîon de données sous Bankscope.
1.11.21.31.4
1 IntroductIon à l’analyse statIstIque : méthode et prIncIpes
SOMMAIRE DÉiNîTîONS GÉNÉRàleS tàBleàU STàTîSTîQUe eT RePRÉSeNTàTîONS GRàPHîQUeS LeS îNdîceS EXeRcîceS d’àPPlîcàTîONS àVec r
3 12 26 29
2
Introductîon à l’analyse statîstîque : méthode et principes
La statîstîque est le domaîne des mathématîques quî permet de décrîre pour ensuîte analyser une ou plusîeurs partîcularîtés communes dans un groupe de personnes ou de choses.
« La statîstîque » est à dîfférencîer « des statîstîques », quî désîgnent l’ensemble des données numérîques calculées à propos d’une populatîon.
La statîstîque saîsît des phénomènes contenant des éléments les plus nombreux possîbles permettant aînsî de décrîre, le plus idèlement possîble, des réalîtés non appré-hendables dîrectement. Les éléments sont dénombrés et classés, pour permettre à la statîstîque de synthétîser eficacement les phénomènes, maîs cela revîent souvent à sîm-plîier une réalîté îninîment complexe. D’où l’întérêt, pour le statîstîcîen, de recourîr à une méthode scîentîique rîgoureuse pour exploîter les données.
Toute étude statîstîque peut être décomposée en plusîeurs étapes : le recueîl ou la collecte des données statîstîques, la présentatîon puîs l’analyse de ces données et l’înter-prétatîon des résultats.
La collecte de l’InformatIon Le recueîl des données peut être réalîsé soît par sîmple observatîon des phénomènes, soît par expérîmentatîon. Lorsque les données sont très nombreuses, ou partîculîèrement dîficîles à obtenîr, îl sera nécessaîre de déinîr des méthodes approprîées de collecte. Il exîste deux grandes méthodes : le recensement et la méthode des sondages.
Le recensement, ou enquête exhaustIve C’est une opératîon lourde, de grande ampleur et généralement coûteuse, organîsée le plus souvent par une înstîtutîon ou une entreprîse. Elle est sous la dîrectîon des îns-tîtuts statîstîques, comme par exemple l’INSEE, chargé de la dîffusîon des statîstîques oficîelles en France ou encore EUROSTAT, chargé de produîre les statîstîques ofi-cîelles de l’Unîon européenne.
Les sondages, ou enquêtes partIelles
Ces technîques permettent d’obtenîr des renseîgnements sur une populatîon sans avoîr besoîn d’înterroger tous ses membres. On ne prend en compte qu’un sous-ensemble, aussî représentatîf que possîble de cette populatîon, appelé échantîllon. La qualîté de l’enquête sera dépendante dans une large mesure du choîx de cet échantîllon.
Deux grands types de méthodes vîennent aîder le statîstîcîen :
La méthode empIrIque des quotas
Elle présuppose que l’on connaït les prîncîpaux caractères de cette populatîon, notamment par un recours aux statîstîques antérîeures et par le faît que les prîncî-paux caractères sont dépendants les uns des autres. L’enquêteur sur le terraîn est alors
Déinîtîons générales
3
contraînt de respecter dans l’échantîllon les mêmes proportîons (ou quotas) que les caractérîstîques de la populatîon mère.
La méthode du sondage probabIlIste
Elle est fondée sur la notîon d’estîmatîon. L’échantîllon est choîsî de façon aléatoîre (au hasard). Le hasard sîgnîie îcî que chaque élément possède une probabîlîté non nulle de faîre partîe de l’échantîllon. Aînsî, par exemple, une assocîatîon de consommateurs quî înterroge 100 personnes à la sortîe d’un grand magasîn ne feraît pas un choîx au hasard ; en effet, selon l’emplacement du magasîn, son îmage de marque, selon le jour et l’heure de l’enquête, cette assocîatîon de consommateurs n’obtîendra pas forcément un échantîllon réellement représentatîf de l’ensemble des catégorîes de consommateurs. La méthode suppose donc que l’on connaït, à l’avance, la lîste complète de la popula-tîon à étudîer (ichîer ou base de sondage), dans lequel on va tîrer l’échantîllon selon dîvers procédés et contrôler à tout moment les rîsques d’erreurs (mesures d’întervalle de coniance, calcul de probabîlîtés).
De manîère générale, on întroduît un bîaîs dans l’analyse statîstîque quand on faît une erreur systématîque à la base de la collecte de l’înformatîon. Cette notîon est dîffé-rente d’un autre type d’erreur que l’on appellealéa, quî provîent du faît que le nombre absolu de données statîstîques (observatîons) est souvent trop faîble pour que les résul-tats soîent généralîsés à la populatîon entîère.
La présentatIon et l’analyse des données Cette étape consîste à extraîre la sîgnîicatîon des données obtenues. Dans un premîer temps, îl s’agît de classer et de présenter les données collectées sous la forme de tableaux statîstîques, puîs, dans un second temps, de traîter et d’analyser les données, en utîlîsant un certaîn nombre d’îndîcateurs quantîtatîfs (moyenne, dîspersîon…). Il s’agîra égale-ment de faîre apparaïtre des relatîons sîgnîicatîves sî plusîeurs varîables sont étudîées.
L’InterprétatIon des résultats Cette dernîère phase présente les résultats et l’înterprétatîon des résultats. Elle fournît des éléments d’apprécîatîon utîles à l’explîcatîon ou à la prévîsîon des phénomènes.
1.1
DéfInItIons généraLEs
PopulatIon et échantIllon Unepopulation désîgne tout ensemble étudîé par la statîstîque. Exemples : les entreprîses, les compagnîes d’assurances. Unéchantillonun sous-ensemble de l’ensemble populatîon ou populatîon est mère. Il possède les caractérîstîques fondamentales de la populatîon. On l’utîlîse sou-vent lorsque la populatîon mère est de cardînal trop élevé (ou înconnu). Exemple : les