Statistique, data mining et scoring

Statistique, data mining et scoring

-

Documents
88 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Stéphane TufféryStatisticien - Data Miner - EnseignantDATA MINING - SCORINGSTATISTIQUE APPLIQUÉEAPPLICATION AU CRM04/07/20041© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPlan du cours• Qu’est-ce que le data mining ?• A quoi sert le data mining ?• Les 2 grandes familles de techniques• Le déroulement d’un projet de data mining• Coûts et gains du data mining• Facteurs de succès - Erreurs à éviter• Informatique décisionnelle et de gestion• La préparation des données• Techniques descriptives de data mining• Techniques prédictives de data mining• Logiciels et consultants• CNIL et limites légales du data mining• Le text mining• Le web mining04/07/20042© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPDF created with pdfFactory Pro trial version www.pdffactory.comTechniques prédictivesPoints forts et points faibles04/07/20043© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frTechniques prédictives de data mining :Classement - prédiction(généralités)04/07/20044© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPDF created with pdfFactory Pro trial version www.pdffactory.comClassement & classification• La classification consiste à• Le classement consiste àregrouper les individus d’uneplacer chaque individu de lapopulation en un nombrepopulation dans une classe,limité de classes qui :parmi plusieurs classes• ne sont pas prédéfiniesprédéfinies, en fonction ...

Sujets

Informations

Publié par
Nombre de visites sur la page 216
Langue Français
Signaler un problème
Stéphane Tufféry Statisticien - Data Miner - Enseignant
DATA MINING - SCORING STATISTIQUE APPLIQUÉE APPLICATION AU CRM
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Plan du cours Qu’est-ce que le data mining ? A quoi sert le data mining ? Les 2 grandes familles de techniques Le déroulement d’un projet de data mining Coûts et gains du data mining de succès - Erreurs à éviterFacteurs Informatique décisionnelle et de gestion La préparation des données Techniques descriptives de data mining Techniques prédictives de data mining Logiciels et consultants CNIL et limites légales du data mining Le text mining Le web mining
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
1
2
04/07/2004
Techniques prédictives Points forts et points faibles
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Techniques prédictives de data mining : Classement - prédiction (généralités)
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
3
4
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
6
5
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Le plac pop par pré cara indi expl Le clas et « et l est permettant d’affecter chaque individu à l’une ou l’autre des classes
Classement & classification classement consiste àLaclassification consiste à er chaque individu de la regrouper les individus d’une ulation dans uneclasse,imlti éeodp alupoitcnl asseens i : nunbromeq mi plusieurs classes t pas u prédéfinies dcétfiénriisetsi,q ueesn  fdoen ctliionnd ivdideusnmea isso dnéterminées au cours quées comme variables de l’opération, icativcontrairement aux classes es du classement spelus séoduévfiennite,s  il( « ys aian s »2regroupent les individus s pr ayant des caractéristiques malades », par exemple), similaires et séparent les e résultat du classement individus ayant des un ensemble de règles caractéristiques différentes
Prédiction
Laprédictionconsiste à estimer  », expliquer àla valeur d’une variable continue (dite « « cible », « réponse », « dépendante » ou « exogène ») en fonction de la valeur d’un certain nombre d’autres variables (dites « explicatives », « de contrôle », « indépendantes » ou « endogènes ») Cette variable « cible » est par exemple : le poids (en fonction de la taille) la taille des ailes d’une espèce d’oiseau (en fonction de l’âge) le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier) consommation d’électricité (en fonction de la températurela extérieure et de l’épaisseur de l’isolation)
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
Classement et prédiction
Classement: la variable à expliquer estcatégorielle on parle aussi declassification(dans l’école anglo-saxonne) ou deidtionscrimina
Prédiction: la variable à expliquer estcontinue on parle aussi derégression ou d’apprentissage supervisé(réseaux de neurones)
Scoring: classement appliqué à une problématique d’entreprise
04/07/2004
explicatives è  êà expliquer
1 quantitative
n quantitatives (représentent des quantités ¹) 1 qualitative nominale 
1 qualitative ordinale (au moins 3 gp) n quantitatives (représentent des mesures répétées d’une même quantité)   04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Tableau synoptique
1 quantitative n quantitatives 1 qualitative (covariable) (covariables) (facteur)
rég. linéaire simple 
régression PLS2
ADL, régression logistique 
régression logistique ordinale  
rég. linéaire multiple, rég. robuste, PLS, arbres, réseaux de neurones régression PLS2, réseaux de neurones ADL, régress. logistique, arbres, réseaux de neurones, SVM régression logistique ordinale  
ANOVA 
MANOVA régression logistique régression logistique ordinale  
n qualitatives (facteurs) 
mélange 
ANOVA, ANCOVA, arbres de arbres de décision, décision, réseaux de réseaux de neurones neurones MANOVA, MANCOVA, réseaux de réseaux de neurones neurones régression régression logistique, logistique, DISQUAL, arbres, réseaux arbres, réseaux de neurones de neurones régression régression logistique logistique ordinale ordinale modèle à modèle à mesures mesures répétées répétées
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
7
8
Techniques inductives et transductives Dans lestechniques inductives : une phase d’apprentissage (phase inductive) pour élaborer un modèle, qui résume les relations entre les variables et qui peut ensuite être appliqué à de nouvelles données pour en déduire un classement ou une prédiction (phase déductive)
Lestechniques transductives ne comprennent qu’une seule étape (éventuellement réitérée), au cours de laquelle chaque individu est directement classé (ou objet d’une prédiction) par référence aux autres individus déjà classés il n’y a pas élaboration d’un modèle
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
k-plus proches voisins
La plus connue destechniques transductives Le classement (prédiction) de chaque individu s’opère en regardant, parmi les individus déjà classés, la classe desk individus qui sont les plus proches voisins (ou en calculant la moyenne dans le voisinage de la variable à prédire). La valeur deksera choisie en sorte d’obtenir le meilleur classement (prédiction) possible : ce choix est la principale difficulté de cet algorithme ! Ainsi, dans l’exemple qui suit, l’individu «?» est classé en « 0 », car entouré en majorité de « 0 ».
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
9
10
04/07/2004
k-plus proches voisins
 1 0 0 0 0 1 0 1  0 1  0 0
 1 1? 0 1 1 0 1
? "est classé en 0"
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Limites des méthodes transductives
11
Une technique inductiverésume dans un modèle l’informationcontenue dans les données ce qui permet d ’appliquer rapidementce modèle à de nouvelles données Une technique transductivemanipule l’ensemble des individusdéjà classés, pour tout nouveau classement ce qui nécessite donc unegrande puissance de stockage et de calcul On utilise surtout les techniques inductives.
Une méthode transductive, comme les k-NN, peut être utilisée dans une étape préalable de détection et de mise à l’écart des individus hors norme, des « outliers ».
04/07/2004
© Mining & Scoring - DataStéphane Tufféryhttp://data.mining.free.fr -
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
12
Méthodes inductives : schéma
::----:---:---:---:-----:---:---:---:-----:---:-::---:---------:---:---:: - 18 mois – 6 mois aujourd’hui observation des observatio de la variables explicatives variable cible
Lemodèlesera par exemple une fonctionftelle que : Probabilité(variable cible = x) =fvariables explicatives)
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Méthodes inductives : 4 étapes
13
Apprentissage :construction du modèlesur un 1er échantillon pour lequel on connaît la valeur de la variable cible Test :vérification du modèlesur un 2dahtn cénillo pour lequel on connaît la valeur de la variable cible, que l’on compare à la valeur prédite par le modèle Si le résultat du test est insuffisant (d’après lamatrice de confusion), on recommence l’apprentissage. Validation du modèlesur un 3eéchantillon, pour avoir une idée du taux d’erreur non biaisé du modèle Application du modèleà l’ensemble de la population à scorer, pour déterminer la valeur de la variable cible de chaque individu.
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
14
TOTAL
B
200
1800
Matrice de confusion
B
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
300
Taux d’erreur = (200+300) / 4000 = 12,5 %
valeur préditeè
1700
A
valeur réelleê A
n = taille échantillon k = nb de groupes c = nb d’individus bien classés Suit un chi-2 à 1 degré de liberté - 6,63 à 1 % - 3,84 à 5 %valeur critique : 10,8 à 0,1 % Ici on a : Q de Press = (4000 - 7000)²/4000 = 2250
Q de Press
QPress=
n-(c´k)2 n´(k-1)
Pour vérifier que le % d’individus correctement classés est significativement meilleur que par un classement aléatoire : le « Q de Press »
15
4000
TOTAL
04/07/2004
16
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Qualités attendues d’une technique 1/2 La précision
letaux d’erreurdoit être le plus bas possible La concision les règles du modèle doivent être les plus simples et les moins nombreuses possible Des résultats explicites les règles du modèle doivent être accessibles et compréhensibles La rapidité de calcul du modèle c’est l’sitnegasaerpp (non sonapplication) du modèle qui peut être trop longue
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
Qualités attendues d’une technique 2/2 La robustesse
être le moins sensible possible aux fluctuations aléatoires de certaines variables et aux valeurs manquantes ne pas dépendre de l’échantillon d’apprentissage utilisé La diversité des types de données manipulées tous les algorithmes ne sont pas aptes à manipuler les données catégorielles, discrètes et continues Les possibilités de paramétrage dans un classement, il est parfois intéressant de pouvoir pondérer les erreurs de classement, pour signifier, par exemple, qu’il est plus grave de classer un client malade en « non-malade » que l’inverse
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
17
18
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
0
2
nwww.pdffactory.com
t
o
versio
rial
ate
d wit
h p
dfFactory Pr
L’ensemble des règles de découpage et d’association constitue lemodèle Tout nouvel individu qui tombe dans une de ces région est classé en conséquence La forme de ces régions dépend de la technique employée
PDF cr
e
Représentation graphique des domaines de classement
Toutes les techniques inductives de classement découpent l’espace des variables en régions, dont chacune est associée à une des classes parce qu’elle contient en majorité des individus de cette classe
s
1
©Sté
ata Mining & Scoring -http://data.mining.free.fr
phane Tufféry - D
9
004
7/2
04/0
s
Représentation graphique de domaines de classement
 1 0 0
0 0 1 0 1
 0 1
 0 0
1 1 0 1
 1 1? 0
?est classé en "0"  
Arbre de d
écisio
n
0 0 1 0 1
 1 0 0
 0 0
 0 1
1 1 0 1
 1 1? 0
Réseau de neurones
?est classé en "0"
?est classé en "1"
Analyse discriminante
 1 1? 0
1 1 0 1
 0 1
 0 0
 1 0 0
0 0 1 0 1
Courbes du taux d’erreur en apprentissage et en test
t
taille de l'échantillon
donné es apprentissage
données de test  et d'appli cation
taux d'erreur
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
21
taille suffisa nte
22
odèle trop simp le
(B) B on modèle
Sur-apprentissage en régression
04/07/2004
©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
(A) M
(C) M odèle trop c omplexe
Modèle trop poussé dans la phase d’apprentissage : il épouse toutes les fluctuations de l’échantillon d’apprentissage, détecte ainsi de fausses corrélations, et les extrapole à tort dans les phases de test et d’application. Le sur-apprentissage peut aussi venir d’une confusion des 2 périodes d’observation.