GoBack

GoBack

Documents
84 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

G
o
B
a
c
k F
o
u
i
l
l
e
d
e
D
o
n
n
é
e
s
F
.
-
X
.
J
o
l
l
o
i
s
D
p
t
S
T
I
D

I
U
T
P
a
r
i
s
D
e
s
c
a
r
t
e
s
f
r
a
n
c
o
i
s
-
x
a
v
i
e
r
.
j
o
l
l
o
i
s
@
u
n
i
v
-
p
a
r
i
s
5
.
f
r
F
.
-
X
.
J
o
l
l
o
i
s
S
6

L
P
D
a
t
a
M
i
n
i
n
g
-
#
1 s
l
l
l
s
l
s
s
I
n
t
r
o
d
u
c
t
i
o
n
I
n
t
r
o
d
u
c
t
i
o
n
A
s
s
o
c
i
e
r
,
c
o
n
s
t
r
u
i
r
e
d
e
s
r
è
g
l
e
s
e
t
d
e
s
m
o
d
è
l
e
s
P
l
a
n
d
u
c
o
u
r
s
d
é
c
i
s
i
o
n
n
e
l
s
;
l
e
s
a
p
p
o
r
t
s
s
p
é
c
i

q
u
e
s
d
u
D
a
t
a
M
i
n
i
n
g
R
a
i
s
o
n
n
e
m
e
n
t
à
B
a
s
e
d
e
C
o
n
n
a
i
s
s
a
n
c
e
s
R
é
s
e
a
u
x
d
e
n
e
u
r
o
n
e
s
R
è
g
l
e
s
d

a
s
s
o
c
i
a
t
i
o
n
M
o
d
è
l
e
s
s
t
a
t
i
s
t
i
q
u
e
s
:
l
i
n
é
a
i
r
e
,
l
i
n
é
a
i
r
e
g
é
n
é
r
a
l
i
s
é
,
l
o
g
i
s
t
i
q
u
e
,
p
a
r
a
r
b
r
e
d
e
d
é
c
i
s
i
o
n
,
.
.
.
I
n
t
e
l
l
i
g
e
n
c
e
a
r
t
i

c
i
e
l
l
e
I
m
i
t
a
t
i
o
n
d
e
c
o
m
p
o
r
t
e
m
e
n
t
s
h
u
m
a
i
n
s
U
t
i
l
i
s
a
t
i
o
n
d

h
e
u
r
i
s
t
i
q
u
e
e
t
/
o
u
d
e
m
o
d
è
l
e
s
A
p
p
r
e
n
t
i
s
s
a
g
e
a
u
t
o
m
a
t
i
q
u
e
P
r
o
c
e
s
s
u
s
f
a
i
s
a
n
t
é
v
o
l
u
e
r
l
a
c
o
n
n
a
i
s
s
a
n
c
e
d
e
l
a
m
a
c
h
i
n
e
D
i
f
f
é
r
e
n
t
s
t
y
p
e
s
d

a
p
p
r
e
n
t
i
s
s
a
g
e
F
.
-
X
...

Sujets

Informations

Publié par
Nombre de visites sur la page 62
Langue Serbian
Signaler un problème
GoBack
F.-X. Jollois
Fouille de Données
F.-X. Jollois
Dpt STID – IUT Paris Descartes
francois-xavier.jollois@univ-paris5.fr
S6 – LP Data Mining - #1
tnIòudorduanurcoioctPlnòàtaBmeneosnnRsiaanceaissConnsedenoruenedxuaeséRscisoasd'esglRèessioat.-nFJoX.oill
sIntelligence articielle lImitation de comportements humains lUtilisation d'heuristique et/ou de modèles
sModèles statistiques : linéaire, linéaire généralisé, logistique, par arbre de décision, . . .
sAssocier, construire des règles et des modèles décisionnels ; les apports spéciques du Data Mining
Introduction
sApprentissage automatique lProcessus faisant évoluer la connaissance de la machine lDifférents types d'apprentissage
S6 – LP Data Mining - #2
S6 – LP Data Mining - #3
Plan du cours
sRaisonnement à base de connaissances
sRègles d'association
sRéseaux de neurones
sMachines à supports vectoriels
sRéseaux Bayésiens
sRécapitulatif sur un jeu de données
ctdunòioòIrontenruxuedèRlgnosessannnaiéseacesRàtnemennoCedesaBcoduanPlsoaisRur.X-.lloJsiod'essoasatcinFio
F.-X.
Jollois
Raisonnement
à
Base
de
Connaissances
S6
–
LP
Data
Mining
-
#4
òoducIntròPlationsruocudnennosiaRasàBntmenaoneCederiomémalednoitaisanrgòOasscderetlaròsiFiaermilicasshedehercòRecseparpudoitatÉònréòPntsesaisesncSòrtcuutmsjauesrProblèmeocessusòsdleègòRatptda'atamrofsnellennoitiverivaptatòAdadApaoiònnoédatitctlenoioimpteòalteegelésoitcéSònasòAdaptationtraéRtulisitaoidnce3:leROCHòEEYmpxe:4elFEHCEòAMpmexple1:PROntsòExemlp2eC:SAOTòSxEmeanAveòagsstienpreinévnocnI&segateòÉvativériviondòrpAives–réRlaeuolsisenor'ol.J-XF.rotiAògln-snmhkeRéseousReneuauxd
sProblèmes majeurs lReprésentation des cas lRecherche des cas similaires lUtilisation des cas
Présentation
S6 – LP Data Mining - #5
sÉtapes du processus lDu problème à sa solution
sExemples connus
sAvantages & Inconvénients
maleòRéutionoptinoSòlécestléceittronsfanapAdtitaednoòsacilititastionaptad'adglesòeèRenllitnoroamontitaapAdeòivatvirédnoitatpadAònoÉòatepdspuorecancesòPrésentatiruejtSòstcurderuusssroòPèmblmaesalémnoedòeeRomrisòOrescasatiganiFòserialeegartliedcherchmisiasecnn-ksuosirogemhtnedeonurésRRuxea'seX.JolloiF.-sridétivaòÉveluvaR–resivéAòreerppntissageòAvantagseI&cnnoévinnestlempxeòEOSOTPR1:elpmexEòòYESAC:2ple3ExemOMAò:CHRlp4exEmeòFlAC:EH
Solution adaptée
Recherche
Problème
Réutilisation
Ancien cas
Solution
S6 – LP Data Mining - #6
Révision
Étapes du processus
Base de cas ApprentissageConnaissances Nouvedudomaine au cas
aCeéSutolnvioidalvuséssimilairesretrotàBasedeConnaissocruRsiaosnnmeneduroioctPlnòduantnIò
olsiousRRéseauxdeneuAòglrotimhken-sn-XF.ol.Jenors'C:SAlp2exEmeOTòS:PROple1ExemntsòFEHC:4elpmexEòAMROCH3:lempxeòEEYivesòrpAlaeu–réRativeòÉviondérivvnoceinéegatnI&seòaganAvenprssti
sReprésentation des cas l ?Quelles informations lComment les stocker ?
sRecherche des cas similaires lSimilaritéentre cas lDonnées manquantes et/ou non-concordantes
sUtilisation du ou des cas similaires lAppliquer la solution de ces cas l ?Adapter la solution : comment
S6 – LP Data Mining - #7
Problèmes majeurs
eCednaonntmeasàBsiaRennocudnsruotionòPlaIntroducòdncetaoilisiéRtuntraatiodaptasòAéSònoitcelésteegeòalimptnoioctleatitnoédoiòndApaòAdaptatrivativennoielleofsntamrda'aatptègòRsdlesusòoceslèmeProbuesrmsjacuutSòrtesncsaisntseréòPtÉònoitarpudsepaòRecherchedecassmiliiaeròsiFtlardereasscrgòOisanoitalednmémaerio
sExplication des échecs
S6 – LP Data Mining - #8
Structure des cas
sDescription du problème lCouple {attribut–valeur} correspondant à une caractéristique lTypage des attributs nTexte, entier, réel, booléen, date nSymboles, cas, formule, liste
sntuoiSlo lÉtapes pour arriver à cette solution
sRésultat de l'évaluation lRéussite ou échec
'.FX-.JolloiseòalutRéisilioatéSòntcelonoimitpltrageetsélectioacssmiliiaeròsiFecòRreoidehercheoitasinamémalednredeuctuòOrgscasmsjaèlemSòrtuesròsusborPrpudsecoÉtnòesapntseioatcnsePòérnoansiasàBasedeConnementsiaRsruocudnalPòontiucodtrInòn-snuoRséResuadxeneuronesORHCEòAMpmex:4elEFCHlgòAitorekhmOTòSP:ORlp2exEmeEYòE:CASle3:xempegatnavAvnocnI&ssòntieéne1plemExr–RéviseeòÉvalueitssgaòeòrpArpnevetidaòAdéonvarivirévitatatpdnoi'adalesdòRègelleatitdApaoiòntptaioatptdaòAasecndnnoitamrofsnartn
àtaBesedosnnmenecoursRainòPlanduudoroitctnIòòstSejruseamlbmèòProssusrocesdupepatÉònoitatneséPrsòceanssainnCoOSOTPR1:lempxeòEstneinévelpmexEòOMAò:CHRple4ExemESòY:2AClp3exEmennk-ussoésRRuxeaEHC:lAòFirogemht'F.-edenrunosesoillJoX.rudeurtcòsrOseacsatiganilaméondeeRòeriomdehcrehcmisiasecòFesirlalirtgaeestléceitonòSélectionoptielamuéRòilititasdeonsòcaapAdtitationormaansfontr'ddalgseòeèRenllatptdaòAontitaapdAòevitavirédnoidérivatiaptationreR–vésievÉòavulisntgesaòAerreppI&senocnavAògatn
sIndexation utilisée pour une recherche rapide sModèle simple lArbres de décision lHiérarchie de prototypes sDeux modèles de mémoire lModèle à mémoire dynamique lModèle à base de catégories
Organisation de la mémoire
S6 – LP Data Mining - #9
sRecherche de cas avec une complexité non-linéaire en fonction du nombre de cas dans la base
saceslrseleeiRrentxeu
Recherche de cas similaires
S6 – LP Data Mining - #10
sDécoupage en deux phases lFiltrage litnoSecél
sDéterminer et corriger les données bruitées ou incohérentes lOutils de nettoyage de données (data cleaning) lDéduction à partir d'autres caractéristiques lA faire valider par l'utilisateur
sEtudier le cas cible lIdentier ses caractéristiques lÉtablir son contexte si possible
edescturStruursòamejmèseorlbsuPòssceroupsdpetaòÉnoitatnesérPòsecnnaissanBasedeConnmeneàtruRsiaosanPlcoductdunòioIòortnitnopaatfsrortnationlisasòAddecaamitponoituéRòelontiecéltiecélòSriseFòlirtgaeesterchedecassimilaaledomémòerihceRsòcagaOrsaniontiÉòavulreiravitevòApprent–RévisertnavsegaassiAòegenniòEtsnc&IvéonèRlgllòenoenamitonòAtatiadapesd'tavirédnoitatpaddéontitaapAdeòivrithmek-nnsousRRséaexuedenrunose'F.X-.lloJsiole1:xempOSòEPROTel:2expmòYxEACES:Ce3plemExAòOMHRC:4elpmeoglAòFEH