Niveau: Secondaire, Lycée, Première
TALN 2011, Montpellier, 27 juin –1er juillet 2011 Intégrer des connaissances linguistiques dans un CRF : application à l'apprentissage d'un segmenteur-étiqueteur du français Matthieu Constant1 Isabelle Tellier2 Denys Duchier2 Yoann Dupont2 Anthony Sigogne1 Sylvie Billot2 (1) Université Paris-Est, LIGM, CNRS, 5 bd Descartes, Champs-sur-Marne 77454 Marne-la-Vallée cedex 2 (2) LIFO, université d'Orléans, 6 rue Léonard de Vinci BP 6759, 45067 Orléans cedex 2 , , , , , Résumé. Dans cet article, nous synthétisons les résultats de plusieurs séries d'expériences réalisées à l'aide de CRF (Conditional Random Fields ou “champs markoviens conditionnels”) linéaires pour apprendre à annoter des textes français à partir d'exemples, en exploitant diverses ressources linguistiques externes. Ces expériences ont porté sur l'étiquetage morphosyntaxique intégrant l'identification des unités polylexicales. Nous montrons que le modèle des CRF est capable d'intégrer des ressources lexicales riches en unités multi-mots de différentes manières et permet d'atteindre ainsi le meilleur taux de correction d'étiquetage actuel pour le français.
- catégorie grammaticale
- etiquetage
- segmentation
- ressource lexicale
- modèle des crf
- analyse lexicale avec segmentation multi-mots ambiguë
- multi-mots
- série d'expériences