Une chaîne g lobale de fouille de textesMathieu RocheCours Fouille de Données2008/2009Processus de fouille de textesAcquisition - - - - - - - - - - - - - - -Nettoyeurcorpus Etiqueteur- - - - - - - - - - - - - - -- - - - - - - - - - - - - - -Corpus Corpus Corpus brut nettoyé étiquetéExtraction des termes- découverte d e - - - - -Extraction règles d’associationd’informations - - - - -Détection - extraction - - - - -des traces de d’information par Corpus + patrons d’extraction conceptsTermesClassification conceptuelle2 Cours Fd D - M 2 IC - 2008/2009Etape 1 : Le nettoyageExemples de corpus spécialisés :● Corpus de 100 introductions d’ar ticles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » (369 Ko).● Corpus de plus de 6000 résumés d’ar ticles en anglais sur la biologie Moléculaire (9424 Ko).● Corpus en français de plus de 1000 Curriculum Vitæ (VediorBis, 2470 Ko).● Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko).3 Cours Fd D - M 2 IC - 2008/2009Etape 1 : Le nettoyage● Types de nettoyage :- Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs)- Uniformiser les référencesCORPUS FOUILLE DE DONNEES :Remplacer ([lettres+ année], [ numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références.- Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : ...
-découverte de Extraction règles d’association d’informations -extraction d’information par patrons d’extraction
- - - - -- - - - -- - - - -
Corpus nettoyé
- - - - -Etiqueteur - - - - -- - - - -
Corpus étiqueté
Extraction des termes - - - - -- - - - -Détection - - - - -des traces de concepts Corpus + Classification Termes conceptuelle C FdD - M2 IC - 2008/2009 ours
3
Etape 1 : Le nettoyage
Exemples de corpus spécialisés : ● Corpus de 100 introductions d’articles en anglais écrits par des auteurs anglophones sur le domaine de la « fouille de données » ( 369 Ko ).
● Corpus de plus de 6000 résumés d’articles en anglais sur la biologie Moléculaire ( 9424 Ko ).
● Corpus en français de plus de 1000 Curriculum Vitæ (VediorBis, 2470 Ko ).
● Corpus en français relatif aux Ressources Humaines (PerfomanSe, 3784 Ko ).
oCursdFD-M2IC-2008/2009
4
Etape 1 : Le nettoyage
● Types de nettoyage :
- Enlever les noms, prénoms, coordonnées, etc. (pour les articles et les CVs)
- Uniformiser les références CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+année], [numéro], etc.) par « a paper » ou « papers » si ces références sont précédées de la préposition « in », sinon on supprime ces références.
-Généraliser certains noms : CORPUS DE BIOLOGIE MOLECULAIRE Remplacer : carboxyl-terminal, carboxyl-termini, C00H-terminal, C02H-terminal, etc. par C-term.
oCursFdD-M2IC-20082/009
5
Processus de fouille de textes
q on Ac uisiti - - - - -u e corp - - - - -Nettoy ur - - - - -
Corpus brut
-découverte de Extraction règles d’association d’informations -extraction d’information par patrons d’extraction
- - - - -- - - - -- - - - -
Corpus nettoyé
- - - - -Etiqueteur - - - - -- - - - -
Corpus étiqueté
Extraction des termes - - - - -- - - - -Détection - - - - -des traces de concepts Copus + Classification Termes conceptuelle Cours FdD - M2 IC - 2008/2009
6
Etape 2 : Etiquetage
Mais pour des personnes très spontanées ...
Étiqueteur de Brill
Mais /COO pour /PREP des /DTN:pl personnes /SBC:pl très /ADV spontanées /ADJ ...
oCursdFD-M2IC-2008/2009
7
Processus de fouille de textes
Acquisition - - - - -r Nettoyeur co pu - - - - -- - - - -
Corpus brut
-découverte de Extraction règles d’association d’informations -extraction d’information par patrons d’extraction
- - - - -- - - - -- - - - -
Corpus nettoyé
- - - - -Etiqueteur - - - - -- - - - -
Corpus étiqueté
Extraction des termes - - - - -- - - - -Détection - - - - -des traces de concepts Corpus + Term Classification es conceptuelle C rs FdD - M2 IC - 2008/2009 ou