La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Partagez cette publication

er TALN 2011, Montpellier, 27 juin – 1 juillet 2011
Gnration automatique de motifs de dtection d’entits nommes en utilisant des contenus encyclopdiques.
1 1 1 Eric Charton Michel Gagnon Benoit Ozell (1) Ècole Polytechnique, 2900 boul. Edouard Montpetit, Montral, Canada {eric.charton, michel.gagnon, benoit.ozell}@polymtl.ca
Rsum.Les encyclopdies numriques contiennent aujourd’hui de vastes inventaires de formes d’critures pour des noms de personnes, de lieux, de produits ou d’organisation. Nous prsentons un systme hybride de dtection d’entits nommes qui combine un classifieur À base de Champs Conditionnel Alatoires avec un ensemble de motifs de dtection extraits au-tomatiquement d’un contenu encyclopdique. Nous proposons d’extraire depuis des ditions en plusieurs langues de l’encyclopdie Wikipdia de grandes quantits de formes d’criture que nous utilisons en tant que motifs de dtection des entits nommes. Nous dcrivons une mthode qui nous assure de ne conserver dans cette ressources que des formes non ambigus susceptibles de venir renforcer un systme de dtection d’entits nommes automatique. Nous procdons À un ensemble d’expriences qui nous permettent de comparer un systme d’tique-tage À base de CRF avec un systme utilisant exclusivement des motifs de dtection. Puis nous fusionnons les rsultats des deux systmes et montrons qu’un gain de performances est obtenu gráce À cette proposition. Abstract.Encyclopedic content can provide numerous samples of surface writing forms for persons, places, products or organisations names. In this paper we present an hybrid named entities recognition system based on a gazetteer automatically extracted. We propose to extract it from various language editions of Wikipedia encyclopedia. The wide amount of surface forms extracted from this encyclopedic content is then used as detection pattern of named entities. We build a labelling tool using those patterns. This labelling tool is used as simple pattern detection component, to combine with a Conditional Random Field tagger. We compare the performances of each component of our system with the results previously obtained by various systems in the French NER campaign ESTER 2. Finally, we show that the fusion of a CRF label tool with a pattern based ones, can improve the global performances of a named entity recognition system. Mots-cls :Ètiqueteur, Entits nommes, Lexiques. Keywords:Tagger, Named entities, Gazetteer.
1
Introduction
La táche d’Étiquetage par des entitÉs nommÉes(EEN) est un processus lors duquel chaque mot d’une phrase correspondant À uneentitÉ nommÉe(EN) (gnralement un nom propre et par ex-tension des dates ou des quantits) reÇoit une tiquette de classe. Cette classe correspond À un
{ERIC.CHARTON,MICHEL.GAGNON,BENOIT.OZELL}@POLYMTL.CA
arbre taxonomique dans la complexit et la nature smantique peuvent varier. La táche d’EEN s’tend À la reconnaissance de locution nominales (au sens de suite de mots, fige par l’usage, pouvant tre substitue À un nom) en regroupant plusieurs mots tiquets (comme par exemple dans le cas deParisqui est une entit de type localit tout commeVille LumiÈre, ou encore l’acronymeTGVqui dcrit le mme produit de type vhicule que la locution nominaleTrain 1 À Grande Vitesse). Les campagnes d’valuation telles que MUC , ACE (Doddingtonet al., 2004), CoNLL (Tjong & Meulder, 2003) et dans le contexte francophone, la táche d’tiquetage de la campagne ESTER 2 (Gallianoet al., 2009), ont permis d’exprimenter des approches var-ies dans un contexte standardis et de mesurer leurs performances avec des mtriques com-munes. A la suite des ces campagnes, deux grandes familles de systmes d’EEN ont fait la dmonstration de leur potentiel : celles drives de la linguistique computationnelle, recourant À des rgles de dtection plus ou moins sophistiques, et celles par apprentissage automatique qui consistent À entraner un classifieur sur un corpus pr-tiquet. Ces deux grandes familles d’approches exploitent À des degrs divers des ressources lexicales externes dont la finalit est de renforcer leur capacits de dtection d’EN. L’une des caractristiques rcurrente des sys-tmes d’EEN À base de rgles est qu’ils intgrent dans leur processus de dtection d’EN des lexiques plus ou moins riches, dont la disponibilit de grand corpus numriques favorise au-jourd’hui l’extraction automatise. Dans ce contexte, nous avons souhait chercher À valuer dans quelle mesure un lexique de grande taille, tel que ceux implments dans les dtecteurs À base de rgles, pourrait tre utilis en tant que systme rudimentaire de dtection par motif pour amliorer un tiqueteur numrique. Cette communication, prsente une ressource lex-icale automatiquement extraite du corpus Wikipdia, que nous utilisons en tant que motifs rudimentaires de dtection d’EN. Nous valuons les capacits d’un systme d’EEN reposant uniquement sur ces motifs de dtection, puis nous l’hybridons avec un systme d’EEN par apprentissage automatique À base de CRF.
L’article est structur ainsi : dans la section 2, nous passons en revue les diffrentes mthodes d’tiquetages d’EN proposes et leur caractristiques. Nous prsentons ensuite dans la section 3 notre proposition de systme d’EEN par motifs. Nous dcrivons une mthode d’extraction de motifs de dtection non ambigus contenus dans un corpus encyclopdique, et la ressource que nous avons obtenue. Puis, dans la section 4, nous valuons ce systme de dtection À base de motifs en l’appliquant au corpus de test ESTER 2. Nous fusionnons ses rsultats avec ceux obtenus par un EEN À base de CRF et discutons du gain de performance obtenu. Nous conclu-ons dans la section 5 qu’il est possible d’laborer une mthode peu coÛteuse d’introduction de connaissance lexicale en complment des mthodes statistiques et que cette mthode permet d’amliorer la robustesse des systme d’EEN.
2
Mthodes d’tiquetage d’entits nommes
Pour extraire les EN d’un texte l’utilisation, en tant que motifs de dtection, de lexiques d’en-tits issus de corpus tels que Wikipdia est une solution applicable (Bunescu & Pasca, 2006; Nothmanet al., 2009; Kazama & Torisawa, 2007) mais insuffisante pour plusieurs raisons. En premier lieu, de nombreuses entits À dtecter sont absentes de ces corpus de ressources,
1. Voirhttp://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task. html.
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION DENTITÈS NOMMÈES.
fussent-ils aussi vaste que Wikipdia (principe desmots hors vocabulairesou OOV) ; en sec-ond lieu, de nombreuses EN sont hautement ambigus et ne permettent pas la dtection directe sans recours À une analyse de leur contexte. Les lexiques apparaissent donc toujours en renfort d’un tiqueteur À rgle ou en tant que ressource pour amliorer l’apprentissage d’un tiqueteur statistique.
2.1
Mthodes automatiques par apprentissage
De manire gnrale, la plupart des approches de reconnaissance automatique reposent sur la thorie des probabilits et peuvent tre caractrises par une mthode gnrative ou discrim-inante selon que la distribution de probabilits de la caractristique À reconnatre est mod-lise ou non. Cette diffrence joue un rÔle important dans la táche d’tiquetage d’EN. En effet, un classifieur discriminant est thoriquement plus prcis mais moins capable d’infrer qu’un classifieur gnratif et donc moins adaptable aux innombrables possibilits de reprsen-tations d’une EN. Ces deux voies possibles d’approches se retrouvent dans la táche d’tique-tage d’EN : les mthodes gnratives, comme par exemple celle reposant sur des modles de Markov cachs (HMM) (Bikelet al., 1999), et les mthodes discriminantes telles que SVM, Maximum Entropie (MaxEnt) (Borthwicket al., 1998). Les Champs Conditionnels Alatoires (CRF) (Laffertyet al., 2001) occupent une place À part car ils combinent une nature gnrative et discriminante. Comme les modles discriminants, ils tiennent compte, lors de la construc-tion du modle, des nombreuses observations issues du corpus d’apprentissage et les corrlent entre elles lors de l’entrainement. Mais À l’instar des modles gnratifs, les CRF probabilisent les dcisions en fonction de la position des squences d’apprentissage. Ce mode de fonction-nement hybride qui favorise l’infrence, c’est-À-dire la reconnaissance par un classifieur CRF d’une entit qu’il n’a jamais observe dans le corpus d’apprentissage, mais aussi la prcision en utilisant les donnes d’apprentissage pour discriminer, explique pourquoi des tudes (Ray-mond & Riccardi, 2007) montrent rgulirement que les systmes À base de CRF sont plus performants que ceux À base de HMM, de SVM ou de MaxEnt pour rsoudre la táche d’ti-quetage d’EN avec un systme automatique. La performance d’un systme CRF est aussi trs largement dpendante de la formation des chantillons d’apprentissage qui vont lui tre soumis (McCallum & Li, 2003). Pourtant, dans un contexte exprimental normalis tel que celui de la campagne ESTER, quelque soit le soin apport À la slection des chantillons et À la formation du corpus d’apprentissage, il est rgulirement observ (voir par exemple (Raymond & Fay-olle, 2010)) que les performances du CRF demeurent infrieures À celles d’un EEN À base de rgles sur des donnes non bruites.
2.2
Mthodes À rgles et automates
Les systmes d’EEN À base de rgles utilisent des mthodes linguistiques ou des automates À tats finis pour identifier les EN dans un texte. Certains de ces systmes sont fortement in-spirs par les mthodes linguistiques. Tel XIP (Brunet al., 2010) qui en partant d’un ensemble de rgles, identifie les syntagmes noyaux et extrait les relations de dpendance syntaxiques pour localiser des EN. L’analyse syntaxique peut d’ailleurs tre plus ou moins profonde pour dtecter des structures qui fiabiliseront le processus de dtection des EN. D’autres systmes
{ERIC.CHARTON,MICHEL.GAGNON,BENOIT.OZELL}@POLYMTL.CA
FIGURE1 – Reprsentation du principe de rduction de l’ensemble de formes de surface disponibles par identifications des motifs non discriminants.
d’EEN À rgles se contentent d’automates de dtection plus ou moins sophistiqus. Ainsi, le systme CasEN, dploy lors de la campagne ESTER 2 (Nouvelet al., 2010) exploite exclu-sivement des transducteurs, environ 150, qui s’appliquent À reconnaitre des squences de mots qui contiennent une EN.
La plupart des systmes de cette famille des systmes d’EEN non automatiques compltent le processus de dtection par un ensemble de rgles trs spcialises qui font appel À des ressources lexicales, des informations lies aux parties du discours, et parfois des traits lexico-smantiques.
La littrature fait apparaitre que la famille des tiqueteurs À rgles utilise quasi systmatique-ment des automates complmentaires pour identifier les expressions numriques, les quantits, les devises, les dates. Ces automates, lorsqu’ils sont appuys par des ressources lexicales, peu-vent tre amens À jouer un rÔle plus ou moins important dans l’identification des EN de la famille des noms propres. Mais de manire gnrale, peu d’explications dtailles sont fournies sur le rÔle et l’influence sur les performances globales des systmes de ces ressources lexicales associes À des automates. L’un des objectifs du travail prsent dans cet article sera de con-tribuer À l’tude de l’influence des lexiques utiliss directement en tant qu’automates simples pour dtecter des EN sans avoir À utiliser le systme de rgles ou le classifieur numrique.
3
Systme propos
Nous proposons d’enrichir un systme d’EEN À base de CRF avec un ensemble de motifs de dtection extraits automatiquement depuis l’encyclopdie Wikipdia. Notre ide est qu’il est possible d’amliorer les performances d’un systme d’EEN par apprentissage automatique en lui associant un module qui dtecterait les graphies non ambigus des EN. Nous souhaitons ainsi valuer À quel point les motifs issus de ressources lexicales qui renforcent les systmes À base de rgle influent sur les performances globales de cette famille d’tiqueteurs. Cette propo-sition permet d’envisager d’intgrer une connaissance lexicale rudimentaire dans un processus d’EEN par CRF pour le rapprocher des performances des systmes linguistiques et À base de r-gles. Les motifs de dtection que nous proposons d’extraire sont rudimentaires et ne concernent que des EN non ambigus. Leur principe fonctionnel peut tre illustr par ces exemples :
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION DENTITÈS NOMMÈES.
– Si nous prenons l’exemple du nomMontral, celui-ci correspond À plusieurs entits dis-tinctes (MontrÉal (QuÉbec),MontrÉal (ArdÈche)) qui sont de classe identique, À savoir des localits (tiquette LOC). Considrons une graphie associe À une EN, que nous appelons forme de surface de cette EN. Il est possible d’exploiter une forme de surfaceMontrÉalen tant que motif pour dtecter plusieurs entits nommes d’identits diffrentes mais qui sont toute de type LOC. – La forme de surfaceParis, en revanche, est associe À plusieurs entits de type localit telles queParis, FranceouParis, Texas(LOC), mais aussi À des noms de personnes (PERS.HUM) Antoine Paris,Paris Hilton, de navires ou de produits (le PaquebotParis(PROD.VEHICLE)) ou l’album musicalParis(PROD.DIV)). La forme de surfaceParisest donc hautement ambigu et ne peut tre utilise en tant que motif de dtection susceptible d’identifier une entit et de lui attribuer une classe d’tiquetage valable. – On pourra en revanche conserver les formes de surfaces intgrant un lment ambigu, mais plus longues - de type bi-grammes À n-grammes, si elles sont non ambigus : ainsi les formes de surfaceMC Paris(nom de personne) ouSS Paris(nom de vhicule) peuvent tre utilises en tant que motifs de dtection. On peut formaliser d’aprs ces exemples que l’ensemble des motifs de dtection non ambigus est le sous ensemble injectif constitu des relations entre l’ensemble des formes de surfaces et l’ensemble des classes qui leur sont relies, si et seulement si tout lment de l’ensemble d’arrive K possde au plus un antcdent par g de l’ensemble de dpart E (voir figure 1).
3.1
Extraction automatique de motifs de dtection
Nous souhaitons extraire les motifs de dtection depuis l’encyclopdie Wikipdia. Nous avons prsent dans (Charton & Torres-Moreno, 2009) un systme capable de produire, d’aprs un corpus encyclopdique tel que Wikipdia, une ressource multilingue de concepts que nous avons intitulmÉtadonnÉes. CesmÉtadonnÉesincluent des noms propres, des noms communs, des entits nommes, ainsi que des locutions rigoureusement classes selon la norme tax-onomique de la campagne ESTER 2 et associes chacune À plusieurs formes de surface. La proportion des ensembles de fiches encyclopdiques transformes enmÉtadonnÉesaffectes À chaque classe est prsente dans la table 1. Pour chaquemÉtadonnÉe, les formes de surfaces qui permettent d’crire le concept encyclopdique sont collectes dans les ditions polonaise, itali-enne, franÇaise, anglaise, espagnole, allemande et italienne de Wikipdia. La quantit totale de formes de surfaces disponibles est indique dans la table 2. Un exemple d’ensemble de formes 2 de surfaces contenu dans unemÉtadonnÉemontreest montr dans la figure 2. Cet exemple l’ambigut de certains motifs collects dans le corpus encyclopdique. On peut observer dans cet exemple que la formeRenaultest hautement ambigu (puisqu’elle caractrise galement un nom de personne dans l’encyclopdie), en revanche, des squences telles queRenault Nissan Group, Renault Motorcollectes depuis Wikipdia en Anglais ou encore le sigleRNURcol-lect depuis Wikipdia en Polonais, sont des motifs de dtection non ambigus. Nous obtenons ainsi un ensemble de paires composes de motifs de dtections associs À une classe unique, que nous allons utiliser trivialement dans un tiqueteur d’EN À expression rgulires.
2. Consultable en Renault&search=EN
ligne
sur
http://www.nlgbase.org/perl/display.pl?query=
{ERIC.CHARTON,MICHEL.GAGNON,BENOIT.OZELL}@POLYMTL.CA
Qt 3515 753629 346218 972663 411569 14294 621082 3122970
Contenu Fonctions et titres Lieu Organisations Personne Produit Date Contenu encyclopdique mÉtadonnÉesdisponibles
Classe taxonomique FONC LOC ORG PERS PROD TIME UNK
TABLE1 – Quantit demÉtadonnÉesdisponibles pour chaque classe d’tiquetage.
3 122 970 8 142 183 5 832 730
mtadonnes disponibles formes de surface disponibles formes de surface conserves
TABLE2 – Formes de surfaces non ambigus extraites depuis lesmÉtadonnÉeset utilisables en tant que motifs de dtection.
3.2
Ètiqueteur CRF
Nous utilisons en tant quebaselinela premire version de l’tiqueteur d’EN mis au point par le LIA pour la campagne ESTER 2 (Bchet & Charton, 2010). Nous l’intitulons CRF-V1. Cet tiqueteur a pour caractristique d’tre entran sur un corpus de grande taille pralablement tiquet par un tiqueteur HMM, en utilisant une ressource lexicale issue desmÉtadonnÉes. Des itrations successives permettent de diminuer le bruit qui subsiste sur le corpus d’entrainement.
La version que nous utilisons ici pour comparer notre systme À CRF-V1 est intitule CRF-V2 et dcrite dans (Charton & Torres-Moreno, 2010). Elle complte la phase de prparation par HMM du corpus d’entrainement par un tiquetage supplmentaire utilisant les liens internes de Wikipdia. CRF-V2 est appris sur un ensemble de phrases issues du corpus d’entrainement d’ESTER 2, renforc par 140 000 phrases tiquetes extraites depuis Wikipdia en franÇais. CRF-V2 est lgrement plus performant que CRF-V1. Il a djÀ t dploy dans le systme 3 Poly-Co du challenge GREC 2010 .
L’architecture complte du systme est la suivante. Dans un premier temps, les deux tiqueteurs d’EN, celui À motifs et celui À CRF, sont appliqus sur le document À tiqueter. On obtient par ce moyen deux documents tiquets que nous nommeronsdoc.crfetdoc.rule. L’tiquetage des EN de ces documents est soit un nom de classek(issu de la taxonomie ESTER) soit le label indfini UNKappliqu lorsqu’aucune tiquette n’est attribue. Dans un second temps une fusion dedoc.crfetdoc.ruleest ralise. Le processus de fusion est trivial et consiste À com-parer les tiquettes appliques Àdoc.crfetdoc.ruleen donnant priorit À l’un des documents. L’algorithme de fusion donne ici priorit aux EN contenues dansdoc.crf.
3. Voirhttp://www.itri.brighton.ac.uk/research/genchal10/grec/
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION DENTITÈS NOMMÈES.
FIGURE2 – Un exemple de formes de surface collectes pour lamÉtadonnÉesOde classe RG correspondant À la fiche encyclopdique du constructeur automobileRenaultdans plusieurs ditions linguistiques de Wikipdia.
4
Èvaluation et rsultats
Nous valuons les capacits d’un EEN À base de motifs en le comparant aux autres mthodes d’tiquetage dont les rsultats sont connus pour un corpus de rfrence. Puis nous valuons les performances d’un EEN À CRF renforc par l’EEN À motifs. Notre exprience vise À mesurer jusqu’À quel point l’introduction de motifs de dtection non ambigus et collects automatique-ment peuvent amliorer les performances du CRF, et le cas chant jusqu’À quel point il permet de rapprocher les performances des CRF de ceux À base de rgles, sur des corpus non bruits. Nous utiliserons le corpus de test de la campagne ESTER 2.
4.1
Corpus et mesures de rfrence
Le corpus complet de la táche de dtection d’EN d’ESTER 2 se compose de 72 heures d’mis-sions radiophoniques francophones (France-Inter, France Info, RFI, RTM, France Culture, Ra-dio Classique) manuellement transcrites et annotes en EN suivant les conventions des deux campagnes ESTER. La premire campagne comportait un jeu de 30 types d’EN rparties en 9 catgories racines, alors que la seconde possde un jeu de 37 types d’entits nommes rpar-ties en 7 catgories racines (personne, fonction, organisation, lieu, fabrication humaine, date et heure, quantits). Seules les catgories racines sont mesures dans les rsultats de rfrence. La campagne ESTER 2 prvoit plusieurs táches de reconnaissance d’EN : la premire consiste À reconnatre les EN dans la transcription manuelle du corpus de test (NE-Ref). La seconde s’applique À trois transcriptions automatiques dites ASR et dont les taux d’erreurs de recon-naissance de mots vont croissants : 12.11%, 17.83% et 26.09%. La volont de l’organisateur est ici de tester la prcision des systmes sur NE-Ref qui est non bruit, mais aussi leur ro-
{ERIC.CHARTON,MICHEL.GAGNON,BENOIT.OZELL}@POLYMTL.CA
EN Qt prcision rappel F-Score
AMOUNT 239 0,85 0,56 0,68
FONC 196 0,61 0,559 0,58
LOC 1215 0,77 0,81 0,79
ORG 1267 0,79 0,63 0,70
PERS 1108 0,93 0,75 0,84
PROD 58 0,53 0,12 0,20
TIME 1025 0,91 0,60 0,73
tous 5123 0,86 0,718 0,78
TABLE3 – Rsultats par entit À tiqueter du systme LIA dit CRF-V1 appliqu au corpus NE-Ref lors de la campagne ESTER 2.
EN Qt prcision rappel F-Score
AMOUNT 239 0,93 0,86 0,90
FONC 196 0,818 0,899 0,85
LOC 1215 0,897 0,88 0,89
ORG 1267 0,89 0,83 0,87
PERS 1108 0,97 0,95 0,97
PROD 58 100 0,42 0,59
TIME 1025 0,95 0,95 0,96
tous 5123 0,93 0,91 0,93
TABLE4 – Rsultats par entit À tiqueter du systme XIP de Xerox À base de rgles appliqu au corpus NE-Ref lors de la campagne ESTER 2.
bustesse dans le contexte plus difficile des corpus de test ASR bruits de manire croissante. Les rsultats de la campagne ESTER 2 (Gallianoet al., 2009) soulignent l’efficacit d’un sys-tme EEN À base de rgle linguistique sur la transcription de rfrence (NE-Ref). Sur ce corpus, les deux meilleurs systmes sont À base de rgle, et le troisime est de type automatique À base de CRF. Le tableau 4 prsente les rsultats obtenus par le meilleur systme sur transcriptions de rfrence (NE-Ref) en termes de Prcision, Rappel, F-Score. Le tableau 3 prsente les rsultats du meilleur systme automatique À CRF sur ce mme corpus de rfrence. Nous considrerons les rsultats du meilleur systme linguistique (XIP) et du meilleur systme automatique (CRF-V1) sur le corpus NE-Ref pour situer les performances obtenues par l’hybridation de l’tique-teur À motif, que nous appellerons ici EEN-M, avec CRF-V2.
Ce plan d’exprience vise À valuer dans quelle mesure un ensemble de motifs appris automa-tiquement sur un corpus encyclopdique peut amliorer les performances du systme CRF et jusqu’À quel point les performances de ce systme CRF amlior peuvent se rapprocher d’un systme d’EEN de nature linguistique À l’tat de l’art (en l’occurrence le systme XIP). Notre exprience consistera À appliquer au corpus NE-Ref d’ESTER 2 les dtecteurs EEN-M et CRF-V2 et À fusionner leurs rsultats puis À mesurer les performances de chaque lment de notre systme.
4.2
Rsultats
Le tableau 5 expose les rsultats des diffrents composants de notre systme d’EEN. Il indique pour chaque jeu d’tiquettes du corpus de test NE-Ref ESTER 2 les performances individuelles de chaque composant. Dans la section motif du tableau, qui prsente les rsultats de l’tique-teur par dtection de motif EEN-M, on remarque que la classe AMOUNTn’est pas traite par ce composant d’tiquetage car non observe dans lesmÉtadonnÉesutilises pour collecter les motifs. La classe TIMEqui correspond aux dates dans le corpus ESTER 2 est pour ce qui la
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION DENTITÈS NOMMÈES.
EEN-M / Motifs
CRF-V2
Hybride
CRF-V1
EN Qt prcision rappel F-Score prcision rappel F-Score prcision rappel F-Score F-Score
AMOUNTFONC 239 196 x 0,85 x 0,30 x 0,43 0,90 0,99 0,70 0,46 0,79 0,63 0.90 0.91 0,70 0,55 0,79 0,69 0,68 0,58
LOC 1215 0,73 0,32 0,44 0,77 0,90 0,83 0.76 0,92 0,83 0,79
ORG 1267 0,94 0,27 0,42 0,92 0,61 0,73 0,91 0,60 0,72 0,70
PERS 1108 0,98 0,50 0,66 0,94 0,93 0,93 0,96 0,93 0,94 0,84
PROD 58 0.11 0,07 0,08 0.38 0,25 0,30 0.27 0,25 0,26 0,20
TIME 1025 0,96 0,36 0,53 0,97 0,69 0,89 0,96 0,83 0,90 0,73
tous 5123 0,88 0,34 0,48 0,88 0,74 0,80 0,88 0,78 0,83 0,78
TABLE5 – Rsultats dtaills du systme EEN À motifs de dtection, CRF (dit CRF-V2) et hy-bride, compar au systme CRF du LIA (dit CRF-V1) ayant obtenu les meilleures perfomances sur le corpus de test NE-Ref de la campagne ESTER 2.
concerne traite car cette classe de contenu est reprsente dans Wikipdia et donc modlise 4 dans les mtadonnes . On note que EEN-M offre une couverture de dtection des EN relative-ment faible (rappel de 0,34) mais une prcision suprieure À celle de CRF-V1. Cette prcision est galement suprieure À celle de l’tiqueteur À rgles linguistique prsent dans le tableau 4 pour les classesFONC,ORGetTIME. Il est important de remarquer les performances infrieures de EEN-M sur la dtection de la classeLOCqui sont attribuables À l’impossibilit pour EEN-M de traiter la diffrence entre les notionsLOC.ADMIetORG.GSP(un nom toponymique peut dsigner une localit ou une organisation go-politique dans le corpus ESTER 2) par un sys-tme À motif.
La section CRF-V2 prsente les rsultats de l’tiqueteur CRF amlior tel que dcrit dans la section 3. On observe que les performances de cet tiqueteur sont lgrement meilleures que celles de l’tiqueteur dploy par le LIA lors de la campagne ESTER 2, et dont les rsul-tats sont indiqus dans la section CRF-V1 du tableau. Une comparaison plus dtaille avec le tableau 3 montre que les performances de CRF-V2 sont amliores globalement tant pour la prcision que le rappel, avec les mmes difficults de modlisation des squences d’EN de type PROD. L’amlioration des performances du systme CRF-V2 appliqu sur NE-Ref, par rapport À CRF-V1, n’est pas l’objet de cette communication, mais doivent tre commentes ici car l’amlioration de la prcision joue un rÔle sur le processus de fusion. Les expriences de fu-sions que nous avons menes entre les rsultats produits par CRF-V1 et ceux de EEN-M nous ont montr une trs lgre minoration des performances globales du systme (les moindres performances de CRF-V1 tant compenses par l’introduction des EN dtectes par EEN-M).
L’hybridation de EEN-M et CRF-V2 indique dans la ligneHybridedu tableau 5, est le rsultat de la fusion entre les deux sorties de ces systmes. Elle montre un gain de performance de 3% sur CRF-V2 seul, et de plus de 5% par rapport À CRF-V1 dploy lors de ESTER 2.
4. Voir par exemple la catgoriehttp://fr.wikipedia.org/wiki/Categorie:Jour_de_ septembreet unemÉtadonnÉetelle quehttp://www.nlgbase.org/perl/display.pl?query= 2septembre&search=FR
4.3
{ERIC.CHARTON,MICHEL.GAGNON,BENOIT.OZELL}@POLYMTL.CA
Discussion
Il apparat que le substantiellement 2 sur le corpus de
systme de dtection hybride les performances du systme rfrence NE-Ref.
À base de motifs CRF-V1 dploy
et de CRF propos amliore lors de la campagne ESTER
On notera que les expriences d’hybridation demÉtadonnÉeset du systme CRF qui avaient t employes lors de cette campagne, qui reposaient sur une dtection de motifs non dsam-biguss associe À un calcul de similarit cosinus entre le contexte du motif et les mta-donnes, n’avaient produit qu’un gain de 1% sur un F-Score du CRF de 0,77 (voir sur ce point (Bchet & Charton, 2010)). Le module de dtection de motifs expriment dans cet ar-ticle introduit un gain de 3% sur un F-Score de CRF de 0,80. Ce gain souligne le potentiel de la mthode. On observe par ailleurs que notre proposition rduit globalement l’cart de per-formance entre un systme À rgles et un systme statistique complt par des motifs, sur une transcription de rfrence corrige telle que NE-Ref de ESTER2.
En terme de prcisions, les performances de notre systme s’approchent pour plusieurs classes de celles obtenues par le meilleur systme À rgles linguistiques appliqu sur NE-Ref, lors de la campagne ESTER 2. Ces rsultats permettent d’envisager qu’une augmentation de la couverture des formes de surfaces extraites desmÉtadonnÉes(par exemple À la suite d’une augmentation de la quantit de formes de surfaces disponibles dans Wikipdia) puisse fournir d’autres gains de performance.
5
Conclusion et perspectives
Nous avons dcrit une mthode d’introduction dans un systme d’tiquetage d’entits nom-mes À base de CRF d’un composant d’identification d’EN exploitant des motifs de dtection collects automatiquement dans un corpus encyclopdique. Il tait apparu lors de la campagne ESTER 2 qu’un systme CRF correctement entrain pouvait obtenir les meilleurs rsultats sur un corpus bruit, mais que les systmes d’EEN À rgles linguistiques taient plus performants sur des corpus non bruits. Nous avons donc cherch À valuer dans quelle mesure le renforce-ment d’un CRF par des motifs de dtection simples pouvait rduire l’cart de performances entre un tiqueteur CRF et un tiqueteur À base de rgle sur un document textuel non bruit. Nous avons montr que notre proposition pouvait amener un gain de performances global im-portant sur un systme CRF, et amliorer de manire consquente sa prcision. La solution que nous proposons amliore la robustesse d’un systme CRF sur des corpus non bruits et rduit l’cart avec un systme d’EEN linguistique tout en conservant au CRF son faible coÛt de dveloppement, l’intgralit du processus d’entrainement de notre systme demeurant au-tomatique. La prcision du systme que nous avons labor et sa facilit de dploiement nous ont permis de l’entrainer dans plusieurs versions linguistiques (FranÇais, Espagnol et Anglais) et de l’exploiter en tant que module dans des applications qui prolongent la táche d’tiquetage d’entits nommes. Nous travaillons en particulier sur la dtection de co-rfrences et avons À ce titre dploy cet tiqueteur dans sa version anglaise en tant que composant de l’architecture 5 de dtection de co-rfrence du challenge Grec 2010 ou il a obtenu des rsultats satisfaisants .
5. Les ressources dcrites sont disponibles sous forme d’API et en tlchargement surwww.nlgbase.org.
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION DENTITÈS NOMMÈES.
Rfrences
BÈCHETF. & CHARTONE. (2010). Unsupervised knowledge acquisition for extracting named entities from speech. InICASSP 2010, Dallas : ICASSP. BIKELD., SCHWARTZR. & WEISCHEDELR. (1999). An algorithm that learns whats in a name.Machine learning,7. BORTHWICKA., STERLINGJ., AGICHTEINE. & R (1998). Exploiting diverse knowledge sources via maximum entropy in named entity.Proc. of the Sixth, p. 152–160. BRUNC., EHRMANNM. & MAUPERTUISUn systme de dtection d’entitsC. D. (2010). nommes adapt pour la campagne d’valuation ESTER 2. InTALN 2010, volume 2. BUNESCUR. & PASCAUsing encyclopedic knowledge for named entity disam-M. (2006). biguation. InProceedings of EACL, volume 6. CHARTONE. & TORRES-MORENOClassification d’un contenu encyclopdiqueJ. (2009). en vue d’un tiquetage par entits nommes. InTaln 2009, volume 1, p. 24–26 : TALN. CHARTONE. & TORRES-MORENOJ. (2010). NLGbAse : a free linguistic resource for Natu-ral Language Processing systems. In LREC, Ed.,LREC 2010, number 1, Matla : Proceedings of LREC 2010. DODDINGTONG., MITCHELLA., PRZYBOCKIM., RAMSHAWL., STRASSELS. & WEISCHEDELR. (2004). The automatic content extraction (ACE) program–tasks, data, and evaluation. InProceedings of LREC, volume 4, p. 837–840 : Citeseer. GALLIANOS., GRAVIERG. & CHAUBARDL. (2009). The ESTER 2 Evaluation Campaign for the Rich Transcription of French Radio Broadcasts. InInternational Speech Communica-tion Association conference 2009, p. 2583–2586 : Interspeech 2010.
KAZAMAJ. & TORISAWAK. (2007). Exploiting Wikipedia as external knowledge for named entity recognition. InProceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), p. 698–707.
LAFFERTYJ., MCCALLUMA. & PEREIRAF. (2001). Conditional random bilistic models for segmenting and labeling sequence data. InProceedings of International Conference on Machine Learning, p. 282–289 : Citeseer.
fields : Proba-the Eighteenth
MCCALLUMA. & LIW. (2003). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. InProceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 -, p. 188–191, Morristown, NJ, USA : Association for Computational Linguistics. NOTHMANJ., MURPHYT. & CURRANJ. (2009). Analysing Wikipedia and gold-standard corpora for NER training. InProceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, number April, p. 612–620 : Association for Computational Linguistics. NOUVELD., ANTOINEJ., FRIBURGERN. & MAURELD. (2010). An analysis of the per-formances of the casen named entities recognition system in the ester2 evaluation campaign. LREC 2010.