La lecture à portée de main
Description
Informations
Publié par | Foil |
Nombre de lectures | 28 |
Langue | Français |
Extrait
Une chaîne g lobale de fouille
de textes
Mathieu Roche
Cours Polytech
2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
TermesClassification
conceptuelle2 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyage
Exemples de corpus spécialisés :
● Corpus de 100 introductions d’ar ticles en anglais écrits par des
auteurs anglophones sur le domaine de la « fouille de
données » (369 Ko).
● Corpus de plus de 6000 résumés d’ar ticles en anglais sur la
biologie Moléculaire (9424 Ko).
● Corpus en français de plus de 1000 Curriculum Vitæ
(VediorBis, 2470 Ko).
● Corpus en français relatif aux Ressources Humaines
(PerfomanSe, 3784 Ko).
3 Cours FdD - Po lytech - 2007/2008Etape 1 : Le nettoyage
● Types de nettoyage :
- Enlever les noms, prénoms, coordonnées, etc. (pour les articles
et les CVs)
- Uniformiser les références
CORPUS FOUILLE DE DONNEES :Remplacer ([lettres+ année], [ numéro],
etc.) par « a paper » ou « papers » si ces références sont
précédées de la préposition « in », sinon on supprime ces
références.
- Généraliser certains noms :
CORPUS DE BIOLOGIE MOLECULAIRE
Remplacer : carboxyl-terminal, carboxyl-termini, C00H-terminal,
C02H-terminal, etc. par C-term.
4 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Copus + patrons d’extraction concepts
TermesClassification
conceptuelle5 Cours FdD - Po lytech - 2007/2008Etape 2 : Etiquetage
Mais/COO pour /PREP Mais pour des
des/DTN:pl personnes très
personnes/SBC:pl spontanées ...
Étiqueteur
très/ADV
de Brill
spontanées/ADJ
...
6 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
TermesClassification
conceptuelle7 Cours FdD - Po lytech - 2007/2008Etape 3 : Extraction des termes
- - - - - - - - -- - - - - - - - -
Étiqueteur - - - - - - - - - - - - - - - -
grammatical
- - - - - - - - -- - - - - - - - -
Corpus étiqueté
Corpus nettoyé
Types de collocations : Extraction des
collocations
●Nom-Nom
●Adjectif-Nom
tête froide
●Nom-Adjectif activité professionnelle
circuit fermé
●Nom-Préposition-Nom
intérêt général
●Formule-Nom ...
8 Cours FdD - Po lytech - 2007/2008Etape 3 : Extraction des termes
- - - - - - - - - - - - - - - - - -
Étiqueteur
- - - - - - - - - - - - - - - -
grammatical
- - - - - - - - - - - - - - - - - -
Corpus étiqueté
Corpus nettoyé
Extraction des
collocations
Sélection
activité pofes sionnelle tête fr oide
des
tête fr oide activité pr ofessionnelle
“meilleures”
circuit fer mé circuit fer mé
collocationsintérêt génér al intérêt génér al
9 Cours FdD - Po lytech - 2007/2008Processus de fouille de textes
- - - - - - - - - - - - - - -
Nettoyeur Etiqueteur
- - - - - - - - - - - - - - -
- - - - - - - - - - - - - - -
Corpus Corpus Corpus
brut nettoyé étiqueté
Extraction
des termes
- découverte d e - - - - -Extraction
règles d’association
d’informations - - - - -
Détection - extraction - - - - -
des traces de d’information par
Corpus + patrons d’extraction concepts
classification Termes
conceptuelle
10 Cours FdD - Po lytech - 2007/2008