Cours Fouille de données
18 pages
Français

Cours Fouille de données

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
18 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Une c haîne g lobale de fouille de textesMathieu RocheCours ECD2 007/2 008Processus de fouille de textes- - - - - - - - - - - - - - -Nettoyeur Etiqueteur- - - - - - - - - - - - - - -- - - - - - - - - - - - - - -Corpus Corpus Corpus brut nettoyé étiquetéExtraction des termes- découverte d e - - - - -Extraction règles d’associationd’informations - - - - -Détection - extraction - - - - -des traces de d’information par Corpus + patrons d’extraction conceptsTermesClassification conceptuelle2 Cours ECD - M2 - 2007 /2008Etape 1 : Le nettoyageExemples de corpus spécialisés :● Corpus de 100 introductions d’ar ticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » ( 369 Ko).● Corpus de plus de 6000 résumés d’ar ticles en anglais sur la biologie Moléculaire ( 9424 Ko).● Corpus en français de plus de 1000 Curriculum Vitæ ( VediorBis, 2470 Ko).● Corpus en français relatif aux Ressources Humaines ( PerfomanSe, 3784 Ko).3 Cours ECD - M2 - 2007 /2008Etape 1 : Le nettoyage● Types de nettoyage :- Enlever les noms, prénoms, coordonnées, etc. ( pour les articles et les CVs)- Uniformiser les référencesCORPUS FOUILLE DE DONNEES :Remplacer ([lettres+ année], [ numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références.- Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal, carboxyl-termini, ...

Informations

Publié par
Nombre de lectures 33
Langue Français

Extrait

Une chaîne globale de fouille de textes
Mathieu Roche
Cours ECD
2007/2008
2
Processus de fouille de textes
- - - - -    Nettoyeur - - - - -    - - - - -    
Corpus brut
 -découverte de Extraction règles d’association d’informations  -extraction d’information par patrons d’extraction
- - - - - - - - - -        Etiqueteur - - - - - - - - - -        - - - - - - - - - -        
Corpus nettoyé
Corpus étiqueté
Extraction des termes - - - - -    - - - - -    Détection     - - - - -des traces de concepts Corpus + Classification Termes conceptuelle Cours ECD - M2 - 2007/2008
3
Etape 1 : Le nettoyage
Exemples de corpus spécialisés : Corpus de 100 introductions d’articles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » ( 369 Ko ).
Corpus de plus de 6000 résumés d’articles en anglais sur la biologie Moléculaire ( 9424 Ko ).
Corpus en français de plus de 1000 Curriculum Vitæ (VediorBis, 2470 Ko ).
Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko ).
Cours ECD - M2  -2007/2008
4
Etape 1 : Le nettoyage
Types de nettoyage :
- Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs)
- Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces  références.
-Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE  Remplacer : carboxyl-terminal, carboxyl-termini, C00H-terminal, C02H-terminal, etc. par C-term.
Cours ECD - M2 - 2007/2008
5
Processus de fouille de textes
- - - - -    Nettoyeur     - - - - -- - - - -    
Corpus brut
-découverte de Extraction règles d’association d’informations -extraction d’information par patrons d’extraction
        - - - - - - - - - -Etiqueteur - - - - - - - - - -        - - - - - - - - - -        
Corpus nettoyé
Corpus étiqueté
Extraction des termes     - - - - -- - - - -    Détection - - - - -    des traces de concepts Copus + Classification Termes conce ue pt lle Cours ECD - M2 - 2007/2008
6
Etape 2 : Etiquetage
Mais pour des personnes très spontanées ...
Étiqueteur de Brill
Mais /COO pour /PREP  des /DTN:pl  personnes /SBC:pl  très /ADV  spontanées /ADJ ...
oCur sCE D -M2  -2007/2008
7
Processus de fouille de textes
- - - - -    Nettoyeur - - - - -    - - - - -    
Corpus brut
-découverte de Extraction  règles d’association d’informations -extraction d’information par patrons d’extraction
- - - - - - - - - -        Etiqueteur - - - - - - - - - -                - - - - - - - - - -
Corpus nettoyé
Corpus étiqueté
Extraction des termes - - - - -    - - - - -    Détection - - - - -    des traces de + concepts Corpus Classification Termes  conceptuelle Cours ECD - M2 - 2007/2008
8
Etape 3 : Extraction des termes
- - - - - - - - -        - - - - - - - -         - - - - - - - - -        
Corpus nettoyé
yTep sedc o
Étiqueteur grammatical
llocation
Nom-Nom Adjectif-Nom Nom-Adjectif Nom-Préposition-Nom Formule-Nom ...
s :
        - - - - - - - - -- - - - - - - -         - - - - - - - - -        
Corpus étiqueté
Extraction des collocations
tête froide activité professionnelle circuit fermé intérêt général Cours ECD - M2 - 2007/2008
9
Etape 3 : Extraction des termes
        - - - - - - - - -         - - - - - - - -        - - - - - - - - -
Corpus nettoyé
activité pofessionnelle tête froide circuit fermé intérêt général
Étiqueteur grammatical
Sélection des “meilleures” collocations
C
        - - - - - - - - -- - - - - - - -         - - - - - - - - -        
orpus que
Extraction des collocations tête froide activité professionnelle circuit fermé intérêt général
ours CED - M2  -2007/2008
10
Processus de fouille de textes
    - - - - -Nettoyeur - - - - -    - - - - -    
Corpus brut
-découverte de  Extraction règles d’association d’informations extraction -d’information par patrons d’extraction
- - - - - - - - - -        Etiqueteur - - - - - - - - - -                - - - - - - - - - -
Corpus nettoyé
Corpus étiqueté
Extraction des termes     - - - - -- - - - -    Détection - - - - -    des traces de concepts Corpus + classification Termes conceptuelle Cours ECD - M2 - 2007/2008
11
Classification conceptuelle
classification conceptuelle
Ensemble de connaissances
Moyens de transports
bateaux
voitures
Classification conceptuelle Cours ECD - M2 - 2007/2008
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents