La lemmatisation et l encodage grammatical permettent-ils de reconnaître l auteur d un texte ? - article ; n°42 ; vol.21, pg 13-26
16 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

La lemmatisation et l'encodage grammatical permettent-ils de reconnaître l'auteur d'un texte ? - article ; n°42 ; vol.21, pg 13-26

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
16 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Médiévales - Année 2002 - Volume 21 - Numéro 42 - Pages 13-26
Depuis quelques années, la statistique linguistique est venue enrichir les méthodes d'attribution d'un texte à un auteur, en fournissant notamment des outils objectifs de comparaison entre divers textes. Cependant, faute de pouvoir relever et décompter automatiquement les caractéristiques grammaticales d'un corpus informatisé, les chercheurs ont souvent été condamnés à ne travailler que sur le lexique : méthode qui a fait ses preuves, mais dont les résultats sont assez sensibles à la thématique de chaque texte et à son genre littéraire. On prendra donc ici l'exemple d'une base de données de textes latins qui ont été lemmatisés et encodes grammaticalement et on tentera d'évaluer si les calculs de distances, réalisés à partir de la distribution des catégories grammaticales dans chaque texte, donnent ou non des résultats plus fins et moins soumis à la thématique de l'œuvre. Si nos tests sont positifs, alors il vaudra la peine d'envisager la lemmatisation des corpus de textes médiévaux.
Lemmatization and Morphological lagging : their Application to Authorship Attribution. - Traditional methods of attributing an anonymous text to his own author have been increased by the outcome of linguistic statistics for a few years now. By far statistics provides a more objective way of comparing texts to one another. Textual corpora however have not often be tagged ; as researchers have not been given the opportunity to point out and systematically retrieve grammatical occurrences and features of a given corpus, there has been no other choice left than to study lexical connection between texts. The method has proved successful, results yet depend perceptibly on topics and literary genres. We will therefore proceed to analyse a classical Latin corpus in which texts have been lemmatizated and grammatically tagged. We will endeavour to examine if dissimilarity measures between texts from the study of grammatical parameters give finer and discriminating results than by lexical means. If our conclusion occurs to be positive, from now on, it is worth considering the undertaking of lemmatization of medieval Latin texts.
14 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 2002
Nombre de lectures 19
Langue Français
Poids de l'ouvrage 1 Mo

Extrait

Madame Sylvie Mellet
La lemmatisation et l'encodage grammatical permettent-ils de
reconnaître l'auteur d'un texte ?
In: Médiévales, N°42, 2002. pp. 13-26.
Citer ce document / Cite this document :
Mellet Sylvie. La lemmatisation et l'encodage grammatical permettent-ils de reconnaître l'auteur d'un texte ?. In: Médiévales,
N°42, 2002. pp. 13-26.
doi : 10.3406/medi.2002.1536
http://www.persee.fr/web/revues/home/prescript/article/medi_0751-2708_2002_num_21_42_1536Résumé
Depuis quelques années, la statistique linguistique est venue enrichir les méthodes d'attribution d'un
texte à un auteur, en fournissant notamment des outils objectifs de comparaison entre divers textes.
Cependant, faute de pouvoir relever et décompter automatiquement les caractéristiques grammaticales
d'un corpus informatisé, les chercheurs ont souvent été condamnés à ne travailler que sur le lexique :
méthode qui a fait ses preuves, mais dont les résultats sont assez sensibles à la thématique de chaque
texte et à son genre littéraire. On prendra donc ici l'exemple d'une base de données de textes latins qui
ont été lemmatisés et encodes grammaticalement et on tentera d'évaluer si les calculs de distances,
réalisés à partir de la distribution des catégories grammaticales dans chaque texte, donnent ou non des
résultats plus fins et moins soumis à la thématique de l'œuvre. Si nos tests sont positifs, alors il vaudra
la peine d'envisager la lemmatisation des corpus de textes médiévaux.
Abstract
Lemmatization and Morphological lagging : their Application to Authorship Attribution. - Traditional
methods of attributing an anonymous text to his own author have been increased by the outcome of
linguistic statistics for a few years now. By far statistics provides a more objective way of comparing
texts to one another. Textual corpora however have not often be tagged ; as researchers have not been
given the opportunity to point out and systematically retrieve grammatical occurrences and features of a
given corpus, there has been no other choice left than to study lexical connection between texts. The
method has proved successful, results yet depend perceptibly on topics and literary genres. We will
therefore proceed to analyse a classical Latin corpus in which texts have been lemmatizated and
grammatically tagged. We will endeavour to examine if dissimilarity measures between texts from the
study of grammatical parameters give finer and discriminating results than by lexical means. If our
conclusion occurs to be positive, from now on, it is worth considering the undertaking of lemmatization
of medieval Latin texts.Médiévales 42, printemps 2002, p. 13-26
Sylvie MELLET
LA LEMMATISATION ET L'ENCODAGE GRAMMATICAL
PERMETTENT-ILS DE RECONNAÎTRE
L'AUTEUR D'UN TEXTE?
Un texte dont on ne connaît pas l'auteur est toujours un défi à la curiosité
intellectuelle, voire à la connaissance scientifique ; qu'il ait été publié sous un
pseudonyme ou qu'il soit totalement anonyme, il suscite tôt ou tard des recher
ches en paternité.
Longtemps ces recherches ont été menées sous l'égide de la philologie, de
l'analyse littéraire et, pour les textes anciens, de l'histoire. Depuis quelques
années, un nouvel outil est venu s'ajouter à ces méthodes traditionnelles, sans
les détrôner : il s'agit de l'analyse quantitative des données textuelles, dite
encore statistique linguistique, dont le développement a été favorisé par l'intr
oduction de l'ordinateur dans la recherche en sciences humaines. Celui-ci, en
effet, a permis d'une part de constituer de grands corpus textuels informatisés
(et, donc, d'obtenir sur les textes des données numériques importantes avec une
rapidité et une fiabilité que ne permettait pas le décompte manuel), d'autre part
de confier à la machine le traitement statistique de ces données qui repose
souvent sur des calculs longs et fastidieux.
Le principe de base pour l'attribution d'un texte à un auteur consiste à le
comparer à d'autres textes parfaitement authentifiés — et ce, quel que soit
l'outil utilisé pour la comparaison ; la statistique ne déroge pas à ce principe,
proposant pour sa part ce que l'on appelle des calculs de distance entre les
textes : si deux textes ont été écrits par un même auteur, on peut supposer qu'ils
seront proches l'un de l'autre, c'est-à-dire qu'ils partageront très largement un
même vocabulaire, des catégories grammaticales et des structures syntaxiques
communes, à l'insu même de celui qui les a produits et en dépit de leurs évent
uelles différences thématiques. Au contraire, deux autres textes trahiront leur
source différente par leur éloignement, c'est-à-dire par la part prépondérante
des structures linguistiques spécifiques à chacun d'eux. 14 S.MELLET
Cette méthode, qui a fait ses preuves aussi bien pour la littérature française
moderne l que pour les textes latins de l'Antiquité classique 2, a d'abord utilisé
— pour des raisons pratiques — des éléments textuels immédiatement recon-
naissables par l'ordinateur, à savoir les chaînes de caractères. Le plus souvent
en effet, les corpus informatisés ne rassemblent que des textes bruts, sans
aucune annotation ni aucun enrichissement, à l'intérieur desquels on ne peut
relever automatiquement que des séquences graphiques ; c'est pourquoi les
calculs de distances textuelles ont été faits à partir de la fréquence et de la
distribution comparées des graphèmes parfois, des formes du lexique le plus
souvent.
Ce n'est que récemment qu'on s'est soucié d'ajouter aux textes français
rassemblés dans les bases de données informatisées des éléments d'informat
ion morphologique et syntaxique susceptibles d'être décodés et décomptés par
l'outil informatique. En revanche, l'idée d'un tel encodage grammatical avait
présidé à la création même de la première base de textes latins classiques (voir
paragraphe suivant). Dès lors, il est possible, dans une telle base, de calculer la
distance entre deux textes non plus seulement en fonction du vocabulaire qu'ils
partagent et de celui qui leur est spécifique, mais aussi en fonction des catégor
ies grammaticales qui leur sont communes ou non — élément dont on peut
penser qu'il échappe davantage aux influences thématiques d'une part, à la
conscience et au contrôle de l'écrivain d'autre part; il y a donc là une source
d'informations nouvelles à explorer. Mais ce gain d'informations compensera-
t-il la lourdeur du traitement initial nécessaire pour encoder correctement le
corpus ? Car si la lemmatisation et l'encodage grammatical des textes sont une
nécessité absolue lorsqu'on entreprend une recherche morphologique ou
syntaxique, leur utilité n'est pas acquise a priori lorsqu'il s'agit d'en faire des
outils d'aide à l'attribution des textes. La question n'a rien de rhétorique. C'est
pourquoi nous proposons ici un cheminement purement méthodologique, qui
prendra appui sur des textes de latin classique que nous connaissons bien et qui
sont les seuls à fournir pour l'instant un corpus informatisé grammaticalement
encode. Naturellement, la méthode pourra être étendue aux textes médiévaux si
on la juge rentable.
Lemmatisation et encodage grammatical : définition et exemples
La première base de données de textes latins ayant enrichi les textes bruts a
été constituée par le L.A.S.L.A. (Laboratoire d'Analyse Statistique des
Langues Anciennes) de l'Université de Liège. L'objectif était, au départ,
1. Cf. par exemple É. Brunet, « Une mesure de la distance intertextuelle : la connexion
lexicale », Revue, Informatique et statistique dans les sciences humaines, n° 24 (« Le nombre et le
texte, Hommage à Etienne Evrard »), Liège, 1988, p. 81-1 16.
2. Cf. par exemple M. Dubrocard, « Problèmes d'attribution : le choix des critères »,
Revue, Informatique et statistique dans les sciences humaines, n° 24 ibid., Liège, 1988, p. 163-
179. LEMMATISAnON ET ENCODAGE GRAMMATICAL 15
d'offrir à l'utilisateur les moyens de retrouver automatiquement toutes les
occurrences d'un même vocable, quelles que fussent ses variantes orthographi
ques et ses formes flexionnelles ; ce qui, dans une langue comme le latin,

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents