Des mots aux syntagmes - article ; n°1 ; vol.14, pg 47-87

MOTS - Carmen Pineira , Pierre Lafon , Benoît Habert , Pierre Fiala

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

42 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Mots - Année 1987 - Volume 14 - Numéro 1 - Pages 47-87
FROM WORDS TO SYNTAGMS A program for the automatic description of morphosyntactic set expressions is presented here. Its results are analysed as applied to the CGT union resolution of 1978 for the description of which it was set up. It starts wich an automatic grammatical categorisation of minimal written forms. Then, with a dictionary, it builds the set of the compound lexical items in the text, i.e. the set forms which recur (for some of them) in the text. Minimal written forms are in this way disambiguated, lemmatised, grouped into larger units where necessary. Examples are given : treatment of être, and of complex determiners. They show the properties of the program. The various types of set expressions - textual and/or en langae-that can be distinguished are then examined.
DES MOTS AUX SYNTAGMES Un programme de description automatique des figements morpho-syntaxiques est présenté. Son fonctionnement est analysé à propos de la résolution syndicale CGT 1978 pour la description de laquelle il a été élaboré. Il opère à partir d'une première catégorisation grammaticale automatique des formes graphiques minimales et construit, à l'aide d'un dictionnaire, l'ensemble des lexies du texte, c'est-à-dire des formes figées, récurrentes ou non dans le texte. Les formes graphiques minimales sont ainsi désambiguïsées, lemmatisées, regroupées en unités plus grandes quand il y a lieu. On donne des exemples (traitement du verbe être, des déterminants complexes) montrant les propriétés du programme. On examine les divers types de figements, textuels et/ou en langue, qu'il permet de dégager.
41 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par	MOTS
Publié le	01 janvier 1987
Nombre de lectures	16
Langue	Français
Poids de l'ouvrage	3 Mo

Extrait

Pierre Fiala
Benoît Habert
Pierre Lafon
Carmen Pineira-Tresmontant
Des mots aux syntagmes
In: Mots, mars 1987, N°14. pp. 47-87.
Abstract
FROM WORDS TO SYNTAGMS A program for the automatic description of morphosyntactic set expressions is presented here.
Its results are analysed as applied to the CGT union resolution of 1978 for the description of which it was set up. It starts wich an
automatic grammatical categorisation of minimal written forms. Then, with a dictionary, it builds the set of the compound lexical
items in the text, i.e. the set forms which recur (for some of them) in the text. Minimal written forms are in this way disambiguated,
lemmatised, grouped into larger units where necessary. Examples are given : treatment of être, and of complex determiners.
They show the properties of the program. The various types of set expressions - textual and/or en langae-that can be
distinguished are then examined.
Résumé
DES MOTS AUX SYNTAGMES Un programme de description automatique des figements morpho-syntaxiques est présenté. Son
fonctionnement est analysé à propos de la résolution syndicale CGT 1978 pour la description de laquelle il a été élaboré. Il opère
à partir d'une première catégorisation grammaticale automatique des formes graphiques minimales et construit, à l'aide d'un
dictionnaire, l'ensemble des lexies du texte, c'est-à-dire des formes figées, récurrentes ou non dans le texte. Les formes
graphiques minimales sont ainsi désambiguïsées, lemmatisées, regroupées en unités plus grandes quand il y a lieu. On donne
des exemples (traitement du verbe être, des déterminants complexes) montrant les propriétés du programme. On examine les
divers types de figements, textuels et/ou en langue, qu'il permet de dégager.
Citer ce document / Cite this document :
Fiala Pierre, Habert Benoît, Lafon Pierre, Pineira-Tresmontant Carmen. Des mots aux syntagmes. In: Mots, mars 1987, N°14.
pp. 47-87.
doi : 10.3406/mots.1987.1329
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1987_num_14_1_1329PIERRE ИАЬА, BENOÎT HABERT
PIERRE LAFON, CARMEN PINEIRA
URL « LEXICOMÉTRIE ET TEXTES POLITIQUES »,
INALF-SAINT-CLOUD, CNRS . Mots, 14, 1987, p. 47-87.
Des mots aux syntagmes
Figements et variations dans la Résolution générale du congrès de la CGT de 1978
Les analyses lexicométriques portent sur des dépouillements constitués des unités
graphiques du texte. De tels dépouillements reposent sur un modèle sous-jacent : le texte est
vu comme un chapelet de graphies sur lequel on dispose d'une relation de type paradigma-
tique (identité ou altérité de deux graphies). Les relations syntagmatiques, quant à elles,
résultent de la position physique relative des graphies les unes par rapport aux autres, à
travers la mesure de leur éloignement ou de leur séparation par des signes de ponctuation.
La simplicité du modèle ainsi mis en œuvre explique à la fois son efficience et ses limites.
L'efficience résulte de ce qu'on obtient une représentation quantifiée de la surface du
texte et une hiérarchie de l'emploi des graphies qui conduisent, puisque le processus est
répétable sur d'autres textes dans les mêmes conditions, à toutes sortes de constats
comparatifs intertextuels dans une perspective de description et de typologie des textes.
Les limites de ces dépouillements, délibérément choisies jusque-là, résident dans le fait
que l'émiettement du texte ignore sa dimension syntagmatique et l'ensemble des propriétés
qui s'y rattachent, ce qui entraîne entre autre la disparition des locutions grammaticales et
des mots composés, la distinction d'unités qui, à l'évidence, sont les mêmes (formes élidées
pour des raisons strictement phoniques, deld', jelj', quelqu', etc.), la scotomisation des
verbes dispersés à la fois sur leur flexion, sur leur construction et sur leur composition
{prendre en compte, se prendre en charge, etc.). En outre, les regroupements paradigmatiques
sur une autre base que la simple liste de formes sont impossibles. 48 FIALA, HABERT, LAFON, PINEIRA
Ces limites qui tiennent à la volonté d'exclure toute compétence grammaticale, chacun
les connaît et les reconnaît. Une procédure intéressante pour les dépasser, qui reste ancrée
dans le cadre formel de l'unité graphique, l'Inventaire des Segments Répétés (ISR)1,
recense toutes les suites de graphies non séparées par une ponctuation et récurrentes dans
un texte. La consultation de ces inventaires a eu notamment pour effet de faire ressortir
avec plus de force l'arbitraire de la segmentation en graphies. Pourquoi isoler parce du
quelqu qui le suit nécessairement, pourquoi séparer с du est ou ce du sera qui les suivent,
pourquoi décomposer en tout état de cause, pourquoi, d'une façon générale, éparpiller les
nombreuses locutions conjonctives, prépositionnelles et adverbiales ? Ces éléments recom
posés ne constitueraient-ils pas une bonne image des éléments grammaticaux d'un texte ?
Par ailleurs, la quantité de segments ainsi recensés a montré que la répétition dans un
texte concerne les suites de formes de longueur variable tout autant que les formes simples.
Parmi ces segments, on relève des locutions des noms ou des verbes composés, mais,
conséquence du repérage formel, ils apparaissent noyés au milieu d'autres séquences
textuelles peu informatives et si nombreuses que toute description exhaustive en devient
impossible. Il s'avérait donc nécessaire d'introduire des procédures de sélection.
Une autre procédure, la lemmatisation qui applique une norme lexico-grammaticale
sur le texte, est également proposée pour fonder le dépouillement. Des controverses
opposent les partisans d'un regroupement en lemmes après désambiguïsation aux tenants
de l'unité graphique. D'excellents arguments sont avancés dans l'un et l'autre camps, à
coups d'exemples « pro domo » et chacun reste solidement accroché à sa position 2. Pour
nous qui voulons abandonner le cadre strict des signifiants de surface pour une approche
lexico-syntaxique des textes, la lemmatisation n'est pas à prendre ou à laisser globalement.
Mais surtout elle ne doit pas être conçue comme une procédure paradigmatique de
regroupement réorganisant les entrées d'un dépouillement d'unités désambiguïsées déjà
1. Cf. Pierre Lafon, André Salem, « L'inventaire des segments répétés d'un texte », Mots, 6, mars 1983,
p. 161-177. Cf. André Salem, La pratique des segments répétés, à paraître, collection INaLF-Saint-Cloud, Paris,
Klincksieck.
2. Cf. Charles Muller, « De la lemmatisation », préface à Pierre Lafon, Dépouillements et statistiques en
lexicométrie, Genève-Paris, Slatkine-Champion, 1984. Cf. Maurice Tournier, « Sur quoi pouvons-nous compter ? »,
réponse à Charles Muller, Verbum, numéro spécial « De la plume d'oie à l'ordinateur », études de philologie
et de linguistique offertes à Hélène Naïs, Nancy, Presses universitaires de Nancy, 1985, p. 481-492. DES MOTS AUX SYNGTAGMES 49
constitué, car Tune des difficultés principales demeure la construction des limites syntag-
matiques des unités du dépouillement. En outre, la question ne peut avancer que si Ton
propose des procédures capables de la réaliser par étapes mais automatiquement.
Il nous paraît possible et réalisable de garder comme données initiales les Index
Graphiques Minimaux (IGM) et de procéder à partir de là par étapes. On recourt
successivement aux opérations de catégorisation, de différenciation des homographes, de
lemmatisation, de regroupement des morphèmes discontinus, de repérage des unités figées,
de relevés de schémas syntaxiques stables pour construire par cette démarche cumulative
une image différenciée, par niveaux, des données textuelles. L'idéal serait de pouvoir
dépasser les contraintes de l'index minimal, sans pour autant introduire des hypothèses non
contrôlées, des choix arbitraires ou des modèles descriptifs exagérément compliqués. On
garderait par là même l'efficacité (exhaustivité des relevés, comparabilité des données,
traitement des grands nombres), tout en atteignant d'autres strates du fonctionnement
textuel.
Le modèle général en niveaux qui suit ai