Cours Fouille de données
18 pages
Français

Cours Fouille de données

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
18 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Une chaîne g lobale de fouille de textesMathieu RocheCours Polytech2007/2008Processus de fouille de textes- - - - - - - - - - - - - - -Nettoyeur Etiqueteur- - - - - - - - - - - - - - -- - - - - - - - - - - - - - -Corpus Corpus Corpus brut nettoyé étiquetéExtraction des termes- découverte d e - - - - -Extraction règles d’associationd’informations - - - - -Détection - extraction - - - - -des traces de d’information par Corpus + patrons d’extraction conceptsTermesClassification conceptuelle2 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyageExemples de corpus spécialisés :● Corpus de 100 introductions d’ar ticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko).● Corpus de plus de 6000 résumés d’ar ticles en anglais sur la biologie Moléculaire (9424 Ko).● Corpus en français de plus de 1000 Curriculum Vitæ (VediorBis, 2470 Ko).● Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).3 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyage● Types de nettoyage :- Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs)- Uniformiser les référencesCORPUS FOUILLE DE DONNEES :Remplacer ([lettres+ année], [ numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références.- Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal, ...

Informations

Publié par
Nombre de lectures 28
Langue Français

Extrait

Une chaîne g lobale de fouille
de textes
Mathieu Roche
Cours Polytech
2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
TermesClassification
conceptuelle2 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyage
Exemples de corpus spécialisés :
● Corpus de 100 introductions d’ar ticles en anglais écrits par des
auteurs anglophones sur le domaine de la « fouille de
données » (369 Ko).
● Corpus de plus de 6000 résumés d’ar ticles en anglais sur la
biologie Moléculaire (9424 Ko).
● Corpus en français de plus de 1000 Curriculum Vitæ
(VediorBis, 2470 Ko).
● Corpus en français relatif aux Ressources Humaines
(PerfomanSe, 3784 Ko).
3 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyage
● Types de nettoyage :
- Enlever les noms, prénoms, coordonnées, etc. (pour les articles
et les CVs)
- Uniformiser les références
CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+ année], [ numéro],
etc.) par « a paper » ou « papers » si ces références sont
précédées de la préposition « in », sinon on supprime ces
références.
- Généraliser certains noms :
CORPUS DE BIOLOGIE MOLECULAIRE
Remplacer : carboxyl-terminal, carboxyl-termini, C00H-terminal,
C02H-terminal, etc. par C-term.
4 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Copus + patrons d’extraction concepts
TermesClassification
conceptuelle5 Cours FdD - Po lytech - 2007/2008Etape 2 : Etiquetage
Mais/COO pour /PREP Mais pour des
des/DTN:pl personnes très
personnes/SBC:pl spontanées ...
Étiqueteur
très/ADV
de Brill
spontanées/ADJ
...
6 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
TermesClassification
conceptuelle7 Cours FdD - Po lytech - 2007/2008Etape 3 : Extraction des termes
- - - - - - - - -- - - - - - - - -
Étiqueteur - - - - - - - - - - - - - - - -
grammatical
- - - - - - - - -- - - - - - - - -
Corpus étiqueté
Corpus nettoyé
Types de collocations : Extraction des
collocations
●Nom-Nom
●Adjectif-Nom
tête froide
●Nom-Adjectif activité professionnelle
circuit fermé
●Nom-Préposition-Nom
intérêt général
●Formule-Nom ...
8 Cours FdD - Po lytech - 2007/2008Etape 3 : Extraction des termes
- - - - - - - - - - - - - - - - - -
Étiqueteur
- - - - - - - - - - - - - - - -
grammatical
- - - - - - - - - - - - - - - - - -
Corpus étiqueté
Corpus nettoyé
Extraction des
collocations
Sélection
activité pofes sionnelle tête fr oide
des
tête fr oide activité pr ofessionnelle
“meilleures”
circuit fer mé circuit fer mé
collocationsintérêt génér al intérêt génér al
9 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
classification Termes
conceptuelle
10 Cours FdD - Po lytech - 2007/2008

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents