erTALN2011,Montpellier,27juin–1 juillet2011Générationautomatiquedemotifsdedétectiond’entitésnomméesenutilisantdescontenusencyclopédiques.1 1 1Eric Charton Michel Gagnon Benoit Ozell(1) École Polytechnique, 2900 boul. Edouard Montpetit, Montréal, Canada{eric.charton, michel.gagnon, benoit.ozell}@polymtl.caRésumé. Les encyclopédies numériques contiennent aujourd’hui de vastes inventaires deformes d’écritures pour des noms de personnes, de lieux, de produits ou d’organisation. Nousprésentons un système hybride de détection d’entités nommées qui combine un classifieur àbase de Champs Conditionnel Aléatoires avec un ensemble de motifs de détection extraits au-tomatiquement d’un contenu encyclopédique. Nous proposons d’extraire depuis des éditionsen plusieurs langues de l’encyclopédie Wikipédia de grandes quantités de formes d’écritureque nous utilisons en tant que motifs de détection des entités nommées. Nous décrivons uneméthode qui nous assure de ne conserver dans cette ressources que des formes non ambiguëssusceptibles de venir renforcer un système de détection d’entités nommées automatique. Nousprocédons à un ensemble d’expériences qui nous permettent de comparer un système d’étique-tage à base de CRF avec un système utilisant exclusivement des motifs de détection. Puis nousfusionnons les résultats des deux systèmes et montrons qu’un gain de performances est obtenugrâce à cette proposition.Abstract. Encyclopedic content can provide numerous samples of ...
Rsum.Les encyclopdies numriques contiennent aujourd’hui de vastes inventaires de formes d’critures pour des noms de personnes, de lieux, de produits ou d’organisation. Nous prsentons un systme hybride de dtection d’entits nommes qui combine un classifieur À base de Champs Conditionnel Alatoires avec un ensemble de motifs de dtection extraits au-tomatiquement d’un contenu encyclopdique. Nous proposons d’extraire depuis des ditions en plusieurs langues de l’encyclopdie Wikipdia de grandes quantits de formes d’criture que nous utilisons en tant que motifs de dtection des entits nommes. Nous dcrivons une mthode qui nous assure de ne conserver dans cette ressources que des formes non ambigus susceptibles de venir renforcer un systme de dtection d’entits nommes automatique. Nous procdons À un ensemble d’expriences qui nous permettent de comparer un systme d’tique-tage À base de CRF avec un systme utilisant exclusivement des motifs de dtection. Puis nous fusionnons les rsultats des deux systmes et montrons qu’un gain de performances est obtenu gráce À cette proposition. Abstract.Encyclopedic content can provide numerous samples of surface writing forms for persons, places, products or organisations names. In this paper we present an hybrid named entities recognition system based on a gazetteer automatically extracted. We propose to extract it from various language editions of Wikipedia encyclopedia. The wide amount of surface forms extracted from this encyclopedic content is then used as detection pattern of named entities. We build a labelling tool using those patterns. This labelling tool is used as simple pattern detection component, to combine with a Conditional Random Field tagger. We compare the performances of each component of our system with the results previously obtained by various systems in the French NER campaign ESTER 2. Finally, we show that the fusion of a CRF label tool with a pattern based ones, can improve the global performances of a named entity recognition system. Mots-cls :Ètiqueteur, Entits nommes, Lexiques. Keywords:Tagger, Named entities, Gazetteer.
1
Introduction
La táche d’Étiquetage par des entitÉs nommÉes(EEN) est un processus lors duquel chaque mot d’une phrase correspondant À uneentitÉ nommÉe(EN) (gnralement un nom propre et par ex-tension des dates ou des quantits) reÇoit une tiquette de classe. Cette classe correspond À un
arbre taxonomique dans la complexit et la nature smantique peuvent varier. La táche d’EEN s’tend À la reconnaissance de locution nominales (au sens de suite de mots, fige par l’usage, pouvant tre substitue À un nom) en regroupant plusieurs mots tiquets (comme par exemple dans le cas deParisqui est une entit de type localit tout commeVille LumiÈre, ou encore l’acronymeTGVqui dcrit le mme produit de type vhicule que la locution nominaleTrain 1 À Grande Vitesse). Les campagnes d’valuation telles que MUC , ACE (Doddingtonet al., 2004), CoNLL (Tjong & Meulder, 2003) et dans le contexte francophone, la táche d’tiquetage de la campagne ESTER 2 (Gallianoet al., 2009), ont permis d’exprimenter des approches var-ies dans un contexte standardis et de mesurer leurs performances avec des mtriques com-munes. A la suite des ces campagnes, deux grandes familles de systmes d’EEN ont fait la dmonstration de leur potentiel : celles drives de la linguistique computationnelle, recourant À des rgles de dtection plus ou moins sophistiques, et celles par apprentissage automatique qui consistent À entraner un classifieur sur un corpus pr-tiquet. Ces deux grandes familles d’approches exploitent À des degrs divers des ressources lexicales externes dont la finalit est de renforcer leur capacits de dtection d’EN. L’une des caractristiques rcurrente des sys-tmes d’EEN À base de rgles est qu’ils intgrent dans leur processus de dtection d’EN des lexiques plus ou moins riches, dont la disponibilit de grand corpus numriques favorise au-jourd’hui l’extraction automatise. Dans ce contexte, nous avons souhait chercher À valuer dans quelle mesure un lexique de grande taille, tel que ceux implments dans les dtecteurs À base de rgles, pourrait tre utilis en tant que systme rudimentaire de dtection par motif pour amliorer un tiqueteur numrique. Cette communication, prsente une ressource lex-icale automatiquement extraite du corpus Wikipdia, que nous utilisons en tant que motifs rudimentaires de dtection d’EN. Nous valuons les capacits d’un systme d’EEN reposant uniquement sur ces motifs de dtection, puis nous l’hybridons avec un systme d’EEN par apprentissage automatique À base de CRF.
L’article est structur ainsi : dans la section 2, nous passons en revue les diffrentes mthodes d’tiquetages d’EN proposes et leur caractristiques. Nous prsentons ensuite dans la section 3 notre proposition de systme d’EEN par motifs. Nous dcrivons une mthode d’extraction de motifs de dtection non ambigus contenus dans un corpus encyclopdique, et la ressource que nous avons obtenue. Puis, dans la section 4, nous valuons ce systme de dtection À base de motifs en l’appliquant au corpus de test ESTER 2. Nous fusionnons ses rsultats avec ceux obtenus par un EEN À base de CRF et discutons du gain de performance obtenu. Nous conclu-ons dans la section 5 qu’il est possible d’laborer une mthode peu coÛteuse d’introduction de connaissance lexicale en complment des mthodes statistiques et que cette mthode permet d’amliorer la robustesse des systme d’EEN.
2
Mthodes d’tiquetage d’entits nommes
Pour extraire les EN d’un texte l’utilisation, en tant que motifs de dtection, de lexiques d’en-tits issus de corpus tels que Wikipdia est une solution applicable (Bunescu & Pasca, 2006; Nothmanet al., 2009; Kazama & Torisawa, 2007) mais insuffisante pour plusieurs raisons. En premier lieu, de nombreuses entits À dtecter sont absentes de ces corpus de ressources,
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION D’ENTITÈS NOMMÈES.
fussent-ils aussi vaste que Wikipdia (principe desmots hors vocabulairesou OOV) ; en sec-ond lieu, de nombreuses EN sont hautement ambigus et ne permettent pas la dtection directe sans recours À une analyse de leur contexte. Les lexiques apparaissent donc toujours en renfort d’un tiqueteur À rgle ou en tant que ressource pour amliorer l’apprentissage d’un tiqueteur statistique.
2.1
Mthodes automatiques par apprentissage
De manire gnrale, la plupart des approches de reconnaissance automatique reposent sur la thorie des probabilits et peuvent tre caractrises par une mthode gnrative ou discrim-inante selon que la distribution de probabilits de la caractristique À reconnatre est mod-lise ou non. Cette diffrence joue un rÔle important dans la táche d’tiquetage d’EN. En effet, un classifieur discriminant est thoriquement plus prcis mais moins capable d’infrer qu’un classifieur gnratif et donc moins adaptable aux innombrables possibilits de reprsen-tations d’une EN. Ces deux voies possibles d’approches se retrouvent dans la táche d’tique-tage d’EN : les mthodes gnratives, comme par exemple celle reposant sur des modles de Markov cachs (HMM) (Bikelet al., 1999), et les mthodes discriminantes telles que SVM, Maximum Entropie (MaxEnt) (Borthwicket al., 1998). Les Champs Conditionnels Alatoires (CRF) (Laffertyet al., 2001) occupent une place À part car ils combinent une nature gnrative et discriminante. Comme les modles discriminants, ils tiennent compte, lors de la construc-tion du modle, des nombreuses observations issues du corpus d’apprentissage et les corrlent entre elles lors de l’entrainement. Mais À l’instar des modles gnratifs, les CRF probabilisent les dcisions en fonction de la position des squences d’apprentissage. Ce mode de fonction-nement hybride qui favorise l’infrence, c’est-À-dire la reconnaissance par un classifieur CRF d’une entit qu’il n’a jamais observe dans le corpus d’apprentissage, mais aussi la prcision en utilisant les donnes d’apprentissage pour discriminer, explique pourquoi des tudes (Ray-mond & Riccardi, 2007) montrent rgulirement que les systmes À base de CRF sont plus performants que ceux À base de HMM, de SVM ou de MaxEnt pour rsoudre la táche d’ti-quetage d’EN avec un systme automatique. La performance d’un systme CRF est aussi trs largement dpendante de la formation des chantillons d’apprentissage qui vont lui tre soumis (McCallum & Li, 2003). Pourtant, dans un contexte exprimental normalis tel que celui de la campagne ESTER, quelque soit le soin apport À la slection des chantillons et À la formation du corpus d’apprentissage, il est rgulirement observ (voir par exemple (Raymond & Fay-olle, 2010)) que les performances du CRF demeurent infrieures À celles d’un EEN À base de rgles sur des donnes non bruites.
2.2
Mthodes À rgles et automates
Les systmes d’EEN À base de rgles utilisent des mthodes linguistiques ou des automates À tats finis pour identifier les EN dans un texte. Certains de ces systmes sont fortement in-spirs par les mthodes linguistiques. Tel XIP (Brunet al., 2010) qui en partant d’un ensemble de rgles, identifie les syntagmes noyaux et extrait les relations de dpendance syntaxiques pour localiser des EN. L’analyse syntaxique peut d’ailleurs tre plus ou moins profonde pour dtecter des structures qui fiabiliseront le processus de dtection des EN. D’autres systmes
FIGURE1 – Reprsentation du principe de rduction de l’ensemble de formes de surface disponibles par identifications des motifs non discriminants.
d’EEN À rgles se contentent d’automates de dtection plus ou moins sophistiqus. Ainsi, le systme CasEN, dploy lors de la campagne ESTER 2 (Nouvelet al., 2010) exploite exclu-sivement des transducteurs, environ 150, qui s’appliquent À reconnaitre des squences de mots qui contiennent une EN.
La plupart des systmes de cette famille des systmes d’EEN non automatiques compltent le processus de dtection par un ensemble de rgles trs spcialises qui font appel À des ressources lexicales, des informations lies aux parties du discours, et parfois des traits lexico-smantiques.
La littrature fait apparaitre que la famille des tiqueteurs À rgles utilise quasi systmatique-ment des automates complmentaires pour identifier les expressions numriques, les quantits, les devises, les dates. Ces automates, lorsqu’ils sont appuys par des ressources lexicales, peu-vent tre amens À jouer un rÔle plus ou moins important dans l’identification des EN de la famille des noms propres. Mais de manire gnrale, peu d’explications dtailles sont fournies sur le rÔle et l’influence sur les performances globales des systmes de ces ressources lexicales associes À des automates. L’un des objectifs du travail prsent dans cet article sera de con-tribuer À l’tude de l’influence des lexiques utiliss directement en tant qu’automates simples pour dtecter des EN sans avoir À utiliser le systme de rgles ou le classifieur numrique.
3
Systme propos
Nous proposons d’enrichir un systme d’EEN À base de CRF avec un ensemble de motifs de dtection extraits automatiquement depuis l’encyclopdie Wikipdia. Notre ide est qu’il est possible d’amliorer les performances d’un systme d’EEN par apprentissage automatique en lui associant un module qui dtecterait les graphies non ambigus des EN. Nous souhaitons ainsi valuer À quel point les motifs issus de ressources lexicales qui renforcent les systmes À base de rgle influent sur les performances globales de cette famille d’tiqueteurs. Cette propo-sition permet d’envisager d’intgrer une connaissance lexicale rudimentaire dans un processus d’EEN par CRF pour le rapprocher des performances des systmes linguistiques et À base de r-gles. Les motifs de dtection que nous proposons d’extraire sont rudimentaires et ne concernent que des EN non ambigus. Leur principe fonctionnel peut tre illustr par ces exemples :
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION D’ENTITÈS NOMMÈES.
– Si nous prenons l’exemple du nomMontral, celui-ci correspond À plusieurs entits dis-tinctes (MontrÉal (QuÉbec),MontrÉal (ArdÈche)) qui sont de classe identique, À savoir des localits (tiquette LOC). Considrons une graphie associe À une EN, que nous appelons forme de surface de cette EN. Il est possible d’exploiter une forme de surfaceMontrÉalen tant que motif pour dtecter plusieurs entits nommes d’identits diffrentes mais qui sont toute de type LOC. – La forme de surfaceParis, en revanche, est associe À plusieurs entits de type localit telles queParis, FranceouParis, Texas(LOC), mais aussi À des noms de personnes (PERS.HUM) Antoine Paris,Paris Hilton, de navires ou de produits (le PaquebotParis(PROD.VEHICLE)) ou l’album musicalParis(PROD.DIV)). La forme de surfaceParisest donc hautement ambigu et ne peut tre utilise en tant que motif de dtection susceptible d’identifier une entit et de lui attribuer une classe d’tiquetage valable. – On pourra en revanche conserver les formes de surfaces intgrant un lment ambigu, mais plus longues - de type bi-grammes À n-grammes, si elles sont non ambigus : ainsi les formes de surfaceMC Paris(nom de personne) ouSS Paris(nom de vhicule) peuvent tre utilises en tant que motifs de dtection. On peut formaliser d’aprs ces exemples que l’ensemble des motifs de dtection non ambigus est le sous ensemble injectif constitu des relations entre l’ensemble des formes de surfaces et l’ensemble des classes qui leur sont relies, si et seulement si tout lment de l’ensemble d’arrive K possde au plus un antcdent par g de l’ensemble de dpart E (voir figure 1).
3.1
Extraction automatique de motifs de dtection
Nous souhaitons extraire les motifs de dtection depuis l’encyclopdie Wikipdia. Nous avons prsent dans (Charton & Torres-Moreno, 2009) un systme capable de produire, d’aprs un corpus encyclopdique tel que Wikipdia, une ressource multilingue de concepts que nous avons intitulmÉtadonnÉes. CesmÉtadonnÉesincluent des noms propres, des noms communs, des entits nommes, ainsi que des locutions rigoureusement classes selon la norme tax-onomique de la campagne ESTER 2 et associes chacune À plusieurs formes de surface. La proportion des ensembles de fiches encyclopdiques transformes enmÉtadonnÉesaffectes À chaque classe est prsente dans la table 1. Pour chaquemÉtadonnÉe, les formes de surfaces qui permettent d’crire le concept encyclopdique sont collectes dans les ditions polonaise, itali-enne, franÇaise, anglaise, espagnole, allemande et italienne de Wikipdia. La quantit totale de formes de surfaces disponibles est indique dans la table 2. Un exemple d’ensemble de formes 2 de surfaces contenu dans unemÉtadonnÉemontreest montr dans la figure 2. Cet exemple l’ambigut de certains motifs collects dans le corpus encyclopdique. On peut observer dans cet exemple que la formeRenaultest hautement ambigu (puisqu’elle caractrise galement un nom de personne dans l’encyclopdie), en revanche, des squences telles queRenault Nissan Group, Renault Motorcollectes depuis Wikipdia en Anglais ou encore le sigleRNURcol-lect depuis Wikipdia en Polonais, sont des motifs de dtection non ambigus. Nous obtenons ainsi un ensemble de paires composes de motifs de dtections associs À une classe unique, que nous allons utiliser trivialement dans un tiqueteur d’EN À expression rgulires.
Contenu Fonctions et titres Lieu Organisations Personne Produit Date Contenu encyclopdique mÉtadonnÉesdisponibles
Classe taxonomique FONC LOC ORG PERS PROD TIME UNK
TABLE1 – Quantit demÉtadonnÉesdisponibles pour chaque classe d’tiquetage.
3 122 970 8 142 183 5 832 730
mtadonnes disponibles formes de surface disponibles formes de surface conserves
TABLE2 – Formes de surfaces non ambigus extraites depuis lesmÉtadonnÉeset utilisables en tant que motifs de dtection.
3.2
Ètiqueteur CRF
Nous utilisons en tant quebaselinela premire version de l’tiqueteur d’EN mis au point par le LIA pour la campagne ESTER 2 (Bchet & Charton, 2010). Nous l’intitulons CRF-V1. Cet tiqueteur a pour caractristique d’tre entran sur un corpus de grande taille pralablement tiquet par un tiqueteur HMM, en utilisant une ressource lexicale issue desmÉtadonnÉes. Des itrations successives permettent de diminuer le bruit qui subsiste sur le corpus d’entrainement.
La version que nous utilisons ici pour comparer notre systme À CRF-V1 est intitule CRF-V2 et dcrite dans (Charton & Torres-Moreno, 2010). Elle complte la phase de prparation par HMM du corpus d’entrainement par un tiquetage supplmentaire utilisant les liens internes de Wikipdia. CRF-V2 est appris sur un ensemble de phrases issues du corpus d’entrainement d’ESTER 2, renforc par 140 000 phrases tiquetes extraites depuis Wikipdia en franÇais. CRF-V2 est lgrement plus performant que CRF-V1. Il a djÀ t dploy dans le systme 3 Poly-Co du challenge GREC 2010 .
L’architecture complte du systme est la suivante. Dans un premier temps, les deux tiqueteurs d’EN, celui À motifs et celui À CRF, sont appliqus sur le document À tiqueter. On obtient par ce moyen deux documents tiquets que nous nommeronsdoc.crfetdoc.rule. L’tiquetage des EN de ces documents est soit un nom de classek(issu de la taxonomie ESTER) soit le label indfini UNKappliqu lorsqu’aucune tiquette n’est attribue. Dans un second temps une fusion dedoc.crfetdoc.ruleest ralise. Le processus de fusion est trivial et consiste À com-parer les tiquettes appliques Àdoc.crfetdoc.ruleen donnant priorit À l’un des documents. L’algorithme de fusion donne ici priorit aux EN contenues dansdoc.crf.
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION D’ENTITÈS NOMMÈES.
FIGURE2 – Un exemple de formes de surface collectes pour lamÉtadonnÉesOde classe RG correspondant À la fiche encyclopdique du constructeur automobileRenaultdans plusieurs ditions linguistiques de Wikipdia.
4
Èvaluation et rsultats
Nous valuons les capacits d’un EEN À base de motifs en le comparant aux autres mthodes d’tiquetage dont les rsultats sont connus pour un corpus de rfrence. Puis nous valuons les performances d’un EEN À CRF renforc par l’EEN À motifs. Notre exprience vise À mesurer jusqu’À quel point l’introduction de motifs de dtection non ambigus et collects automatique-ment peuvent amliorer les performances du CRF, et le cas chant jusqu’À quel point il permet de rapprocher les performances des CRF de ceux À base de rgles, sur des corpus non bruits. Nous utiliserons le corpus de test de la campagne ESTER 2.
4.1
Corpus et mesures de rfrence
Le corpus complet de la táche de dtection d’EN d’ESTER 2 se compose de 72 heures d’mis-sions radiophoniques francophones (France-Inter, France Info, RFI, RTM, France Culture, Ra-dio Classique) manuellement transcrites et annotes en EN suivant les conventions des deux campagnes ESTER. La premire campagne comportait un jeu de 30 types d’EN rparties en 9 catgories racines, alors que la seconde possde un jeu de 37 types d’entits nommes rpar-ties en 7 catgories racines (personne, fonction, organisation, lieu, fabrication humaine, date et heure, quantits). Seules les catgories racines sont mesures dans les rsultats de rfrence. La campagne ESTER 2 prvoit plusieurs táches de reconnaissance d’EN : la premire consiste À reconnatre les EN dans la transcription manuelle du corpus de test (NE-Ref). La seconde s’applique À trois transcriptions automatiques dites ASR et dont les taux d’erreurs de recon-naissance de mots vont croissants : 12.11%, 17.83% et 26.09%. La volont de l’organisateur est ici de tester la prcision des systmes sur NE-Ref qui est non bruit, mais aussi leur ro-
TABLE3 – Rsultats par entit À tiqueter du systme LIA dit CRF-V1 appliqu au corpus NE-Ref lors de la campagne ESTER 2.
EN Qt prcision rappel F-Score
AMOUNT 239 0,93 0,86 0,90
FONC 196 0,818 0,899 0,85
LOC 1215 0,897 0,88 0,89
ORG 1267 0,89 0,83 0,87
PERS 1108 0,97 0,95 0,97
PROD 58 100 0,42 0,59
TIME 1025 0,95 0,95 0,96
tous 5123 0,93 0,91 0,93
TABLE4 – Rsultats par entit À tiqueter du systme XIP de Xerox À base de rgles appliqu au corpus NE-Ref lors de la campagne ESTER 2.
bustesse dans le contexte plus difficile des corpus de test ASR bruits de manire croissante. Les rsultats de la campagne ESTER 2 (Gallianoet al., 2009) soulignent l’efficacit d’un sys-tme EEN À base de rgle linguistique sur la transcription de rfrence (NE-Ref). Sur ce corpus, les deux meilleurs systmes sont À base de rgle, et le troisime est de type automatique À base de CRF. Le tableau 4 prsente les rsultats obtenus par le meilleur systme sur transcriptions de rfrence (NE-Ref) en termes de Prcision, Rappel, F-Score. Le tableau 3 prsente les rsultats du meilleur systme automatique À CRF sur ce mme corpus de rfrence. Nous considrerons les rsultats du meilleur systme linguistique (XIP) et du meilleur systme automatique (CRF-V1) sur le corpus NE-Ref pour situer les performances obtenues par l’hybridation de l’tique-teur À motif, que nous appellerons ici EEN-M, avec CRF-V2.
Ce plan d’exprience vise À valuer dans quelle mesure un ensemble de motifs appris automa-tiquement sur un corpus encyclopdique peut amliorer les performances du systme CRF et jusqu’À quel point les performances de ce systme CRF amlior peuvent se rapprocher d’un systme d’EEN de nature linguistique À l’tat de l’art (en l’occurrence le systme XIP). Notre exprience consistera À appliquer au corpus NE-Ref d’ESTER 2 les dtecteurs EEN-M et CRF-V2 et À fusionner leurs rsultats puis À mesurer les performances de chaque lment de notre systme.
4.2
Rsultats
Le tableau 5 expose les rsultats des diffrents composants de notre systme d’EEN. Il indique pour chaque jeu d’tiquettes du corpus de test NE-Ref ESTER 2 les performances individuelles de chaque composant. Dans la section motif du tableau, qui prsente les rsultats de l’tique-teur par dtection de motif EEN-M, on remarque que la classe AMOUNTn’est pas traite par ce composant d’tiquetage car non observe dans lesmÉtadonnÉesutilises pour collecter les motifs. La classe TIMEqui correspond aux dates dans le corpus ESTER 2 est pour ce qui la
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION D’ENTITÈS NOMMÈES.
TABLE5 – Rsultats dtaills du systme EEN À motifs de dtection, CRF (dit CRF-V2) et hy-bride, compar au systme CRF du LIA (dit CRF-V1) ayant obtenu les meilleures perfomances sur le corpus de test NE-Ref de la campagne ESTER 2.
concerne traite car cette classe de contenu est reprsente dans Wikipdia et donc modlise 4 dans les mtadonnes . On note que EEN-M offre une couverture de dtection des EN relative-ment faible (rappel de 0,34) mais une prcision suprieure À celle de CRF-V1. Cette prcision est galement suprieure À celle de l’tiqueteur À rgles linguistique prsent dans le tableau 4 pour les classesFONC,ORGetTIME. Il est important de remarquer les performances infrieures de EEN-M sur la dtection de la classeLOCqui sont attribuables À l’impossibilit pour EEN-M de traiter la diffrence entre les notionsLOC.ADMIetORG.GSP(un nom toponymique peut dsigner une localit ou une organisation go-politique dans le corpus ESTER 2) par un sys-tme À motif.
La section CRF-V2 prsente les rsultats de l’tiqueteur CRF amlior tel que dcrit dans la section 3. On observe que les performances de cet tiqueteur sont lgrement meilleures que celles de l’tiqueteur dploy par le LIA lors de la campagne ESTER 2, et dont les rsul-tats sont indiqus dans la section CRF-V1 du tableau. Une comparaison plus dtaille avec le tableau 3 montre que les performances de CRF-V2 sont amliores globalement tant pour la prcision que le rappel, avec les mmes difficults de modlisation des squences d’EN de type PROD. L’amlioration des performances du systme CRF-V2 appliqu sur NE-Ref, par rapport À CRF-V1, n’est pas l’objet de cette communication, mais doivent tre commentes ici car l’amlioration de la prcision joue un rÔle sur le processus de fusion. Les expriences de fu-sions que nous avons menes entre les rsultats produits par CRF-V1 et ceux de EEN-M nous ont montr une trs lgre minoration des performances globales du systme (les moindres performances de CRF-V1 tant compenses par l’introduction des EN dtectes par EEN-M).
L’hybridation de EEN-M et CRF-V2 indique dans la ligneHybridedu tableau 5, est le rsultat de la fusion entre les deux sorties de ces systmes. Elle montre un gain de performance de 3% sur CRF-V2 seul, et de plus de 5% par rapport À CRF-V1 dploy lors de ESTER 2.
4. Voir par exemple la catgoriehttp://fr.wikipedia.org/wiki/Categorie:Jour_de_ septembreet unemÉtadonnÉetelle quehttp://www.nlgbase.org/perl/display.pl?query= 2septembre&search=FR
Il apparat que le substantiellement 2 sur le corpus de
systme de dtection hybride les performances du systme rfrence NE-Ref.
À base de motifs CRF-V1 dploy
et de CRF propos amliore lors de la campagne ESTER
On notera que les expriences d’hybridation demÉtadonnÉeset du systme CRF qui avaient t employes lors de cette campagne, qui reposaient sur une dtection de motifs non dsam-biguss associe À un calcul de similarit cosinus entre le contexte du motif et les mta-donnes, n’avaient produit qu’un gain de 1% sur un F-Score du CRF de 0,77 (voir sur ce point (Bchet & Charton, 2010)). Le module de dtection de motifs expriment dans cet ar-ticle introduit un gain de 3% sur un F-Score de CRF de 0,80. Ce gain souligne le potentiel de la mthode. On observe par ailleurs que notre proposition rduit globalement l’cart de per-formance entre un systme À rgles et un systme statistique complt par des motifs, sur une transcription de rfrence corrige telle que NE-Ref de ESTER2.
En terme de prcisions, les performances de notre systme s’approchent pour plusieurs classes de celles obtenues par le meilleur systme À rgles linguistiques appliqu sur NE-Ref, lors de la campagne ESTER 2. Ces rsultats permettent d’envisager qu’une augmentation de la couverture des formes de surfaces extraites desmÉtadonnÉes(par exemple À la suite d’une augmentation de la quantit de formes de surfaces disponibles dans Wikipdia) puisse fournir d’autres gains de performance.
5
Conclusion et perspectives
Nous avons dcrit une mthode d’introduction dans un systme d’tiquetage d’entits nom-mes À base de CRF d’un composant d’identification d’EN exploitant des motifs de dtection collects automatiquement dans un corpus encyclopdique. Il tait apparu lors de la campagne ESTER 2 qu’un systme CRF correctement entrain pouvait obtenir les meilleurs rsultats sur un corpus bruit, mais que les systmes d’EEN À rgles linguistiques taient plus performants sur des corpus non bruits. Nous avons donc cherch À valuer dans quelle mesure le renforce-ment d’un CRF par des motifs de dtection simples pouvait rduire l’cart de performances entre un tiqueteur CRF et un tiqueteur À base de rgle sur un document textuel non bruit. Nous avons montr que notre proposition pouvait amener un gain de performances global im-portant sur un systme CRF, et amliorer de manire consquente sa prcision. La solution que nous proposons amliore la robustesse d’un systme CRF sur des corpus non bruits et rduit l’cart avec un systme d’EEN linguistique tout en conservant au CRF son faible coÛt de dveloppement, l’intgralit du processus d’entrainement de notre systme demeurant au-tomatique. La prcision du systme que nous avons labor et sa facilit de dploiement nous ont permis de l’entrainer dans plusieurs versions linguistiques (FranÇais, Espagnol et Anglais) et de l’exploiter en tant que module dans des applications qui prolongent la táche d’tiquetage d’entits nommes. Nous travaillons en particulier sur la dtection de co-rfrences et avons À ce titre dploy cet tiqueteur dans sa version anglaise en tant que composant de l’architecture 5 de dtection de co-rfrence du challenge Grec 2010 ou il a obtenu des rsultats satisfaisants .
5. Les ressources dcrites sont disponibles sous forme d’API et en tlchargement surwww.nlgbase.org.
GÈNÈRATION AUTOMATIQUE DE MOTIFS DE DÈTECTION D’ENTITÈS NOMMÈES.
Rfrences
BÈCHETF. & CHARTONE. (2010). Unsupervised knowledge acquisition for extracting named entities from speech. InICASSP 2010, Dallas : ICASSP. BIKELD., SCHWARTZR. & WEISCHEDELR. (1999). An algorithm that learns whats in a name.Machine learning,7. BORTHWICKA., STERLINGJ., AGICHTEINE. & R (1998). Exploiting diverse knowledge sources via maximum entropy in named entity.Proc. of the Sixth, p. 152–160. BRUNC., EHRMANNM. & MAUPERTUISUn systme de dtection d’entitsC. D. (2010). nommes adapt pour la campagne d’valuation ESTER 2. InTALN 2010, volume 2. BUNESCUR. & PASCAUsing encyclopedic knowledge for named entity disam-M. (2006). biguation. InProceedings of EACL, volume 6. CHARTONE. & TORRES-MORENOClassification d’un contenu encyclopdiqueJ. (2009). en vue d’un tiquetage par entits nommes. InTaln 2009, volume 1, p. 24–26 : TALN. CHARTONE. & TORRES-MORENOJ. (2010). NLGbAse : a free linguistic resource for Natu-ral Language Processing systems. In LREC, Ed.,LREC 2010, number 1, Matla : Proceedings of LREC 2010. DODDINGTONG., MITCHELLA., PRZYBOCKIM., RAMSHAWL., STRASSELS. & WEISCHEDELR. (2004). The automatic content extraction (ACE) program–tasks, data, and evaluation. InProceedings of LREC, volume 4, p. 837–840 : Citeseer. GALLIANOS., GRAVIERG. & CHAUBARDL. (2009). The ESTER 2 Evaluation Campaign for the Rich Transcription of French Radio Broadcasts. InInternational Speech Communica-tion Association conference 2009, p. 2583–2586 : Interspeech 2010.
KAZAMAJ. & TORISAWAK. (2007). Exploiting Wikipedia as external knowledge for named entity recognition. InProceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), p. 698–707.
LAFFERTYJ., MCCALLUMA. & PEREIRAF. (2001). Conditional random bilistic models for segmenting and labeling sequence data. InProceedings of International Conference on Machine Learning, p. 282–289 : Citeseer.
fields : Proba-the Eighteenth
MCCALLUMA. & LIW. (2003). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. InProceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 -, p. 188–191, Morristown, NJ, USA : Association for Computational Linguistics. NOTHMANJ., MURPHYT. & CURRANJ. (2009). Analysing Wikipedia and gold-standard corpora for NER training. InProceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, number April, p. 612–620 : Association for Computational Linguistics. NOUVELD., ANTOINEJ., FRIBURGERN. & MAURELD. (2010). An analysis of the per-formances of the casen named entities recognition system in the ester2 evaluation campaign. LREC 2010.