Introduction aux CRFvia l’annotation par des modèles graphiquesIsabelle TellierLIFO, Université d’OrléansPlan1. Annoter pour quoi faire2. Apprendre avec un modèle graphique3. Annnoter des chaînes avec un HMM4. Les CRF et leur application aux chaînes5. CRF sur les arbres6. Conclusion1. Annoter pour quoi faireQu’est-ce qu’annoter?– les données de départ peuvent être des textes ou des arbres ou...– texte = séquence d’items– arbre = structure hiérarchique d’itemspris dans un vocabulaire fini– annotation : l’association des données avec d’autres items prisdans un autre vocabulaire fini– ici : les données et les annotation auront la même structure maisce n’est pas obligatoire1. Annoter pour quoi faireExemples d’annotations sur des textes– étiquetage POS (“part of speech”) : item = “mot”,annotation = catégorie syntaxique (Det, Nom, etc.) dans le texte– reconnaissance des entités nommées, EI : item = “mot”,annotation = position de l’EN (B : “Begin”, I : “In”, O : “Out”)En 2008 les Jeux Olympiques ont eu lieu à PékinO B O B I O O O O B– segmentation d’un texte en “chunks”, en “syntagmes”...– alignement de phrases : item = “mot”, annotation = le(s) mot(s)correspondant(s) dans une autre phrase (par exemple pour latraduction automatique)– annotation de phrases : item = “phrase”, annotation = “classe”...1. Annoter pour quoi faireExemples d’annotations sur des arbres– étiquetage fonctionnel d’arbres syntaxiquesSENTNP VN VP.SUJ PRED OBJVN NP ...
Introduction aux CRF l’annotation par des modèles graphiques
LIFO,
Isabelle Tellier
Université
d’Orléans
1.
2.
3.
4.
5.
6.
Annoter pour quoi faire
Apprendre avec un modèle graphique
Annnoter des chaînes avec un HMM
Les CRF et
CRF sur les
Conclusion
leur application
arbres
aux
chaînes
Plan
Qu’est-ce qu’annoter ?
1.Annoetrpourquoifarie
– les données de départ peuvent êtredes textesoudes arbresou... – texte =séquence d’items – arbre =structure hiérarchique d’items pris dans unvocabulaire fini
– annotation : l’association des données avec d’autres items pris dans un autre vocabulairefini
– ici : les données et les annotation auront lamême structuremais
– ici : les données et les annotation auront la ce n’est pas obligatoire
1.A
Exemples d’annotations sur des textes
nnoterpourquoifaire
–étiquetage POS (“part of speech”): item = “mot”, annotation = catégorie syntaxique (Det,Nom, etc.)dans le texte
–reconnaissance des entités nommées, EI: item = “mot”, annotation = position de l’EN (B: “Begin”,I: “In”,O: “Out”)
En 2008 les Jeux Olympiques ont eu lieu à Pékin O B O B I O O O O B
–atiomentsegnd’un texte en “chunks”, en “syntagmes”...
–alignement de phrases: item = “mot”, annotation = le(s) mot(s) correspondant(s) dans une autre phrase (par exemple pour la traduction automatique)
–
annotation de phrases: item = “phrase”, annotation = “classe”...
VN PRED
va
–étiquetage fonctionneld’arbres syntaxiques
SENT
NP SUJ
VP OBJ
VN PRED
Sligos
NP OBJ
auNP
.
PP MOD
–étiquetage en rôles thématiques/sémantiquesrarb’dse syntaxiques : idem mais avec annotationagent,patient, etc. –extraction d’informationsur le Web ou les documents XML
#text DIV A SPAN DIV DelN description DelSTDelST title
TD TD
TR
TABLE #text
0 DelN link 0 DelST
#text #text @href #text
DIV
HTML
BODY
– à gauche : un arbre HTML
–trfsnaamronoitd’un arbre en un autre
– à droite : une annotation avec des opérations d’édition –DelN, DelST: suppression de nud/sous-arbre –channel, item, title, link, description: renommage de nuds
– de nombreuses tâches peuvent se formuler comme des tâches d’anntnootia
– chaque tâche requiert de spécifier : – la nature desitems – lesrelations entre items: séquence, ordres dans un arbre... – la nature destationsannoet leur interprétation – lesrelations entre annotations – lesrelationsentre les items et leur annotation
– ne requiert pas deressources externes(dictionnaires, listes)
– requiert (en principe)moins de travail
iqu
– requiert (en principe) moins de compétences enograprionmmat
– lemême programmes’adapte aux données, à la langue...
– en étantplus robuste aux données bruitées
A condition...
– de disposer d’exemples annotésdu domaine
e
gelèdomneuqihparontitaNoeasebsd
⊥
OBJ MOD
⊥
⊥ ⊥ ⊥
SUJ
PRED
⊥PRED
⊥
NP
Sligos
VP
VN
NP
PP
va
VN
rdaeevuc
pied
.
auNP
2
⊥
p
OBJ⊥
Arp
Royaume-Uni
n
prendre
e
– notations classiques :xest unedonnée,yest unenionnatato – on supposera ici quexetyont lamême structure –ex. sur les séquences:x=un chat dortety=Det Nom Vintr –ex. sur les arbres:xà gauche,yà droite