Statistiques des localisations des formes d un texte - article ; n°1 ; vol.2, pg 157-188
34 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Statistiques des localisations des formes d'un texte - article ; n°1 ; vol.2, pg 157-188

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
34 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Mots - Année 1981 - Volume 2 - Numéro 1 - Pages 157-188
STATISTIQUES DES LOCALISATIONS DES FORMES D'UN TEXTE Les relevés de fréquence négligent le fait que les occurrences d'un texte constituent une suite ordonnée. Afin de prendre en considération le caractère ordonné d'un texte et de saisir un autre aspect du fonctionnement de ses éléments, on remplace ici le point de vue fréquentiel, habituel, par un point de vue séquentiel. Le modèle statistique présenté est adapté à l'étude des localisations d'une forme dans un texte. Il permet d'opposer des formes dites « en rafales », dont les occurrences sont regroupées dans certaines régions du texte, à des formes « régulières », dont les occurrences sont bien disséminées dans tout le texte. Les expériences faites sur quatre résolutions générales de congrès syndicaux montrent que les mots-rafales, très nombreux, sont plutôt des mots-thèmes du discours ou des pronoms, tandis que les mots-réguliers, rares, sont en général des outils de relation, en soi peu porteurs de sens. Cette analyse complète les mesures de fréquences et contribue à préciser le rapport des formes au texte.
FORMS IN A TEXT : A STATISTICAL STUDY OF POSITION Stating frequencies ignores the fact that the occurrences in a text form and ordered string. To enable the ordered nature of a text to be taken into account and to perceive another aspect of how words function, the usual frequential viewpoint is replaced by a sequential one. The statistical model presented here is suitable for studying the positions of each graphic form in the text. It permits a contrast between cluster forms, i.e. closely grouped occurrences and « regular » forms, i.e. evenly distributed occurrences. Research into four General Resolutions of two trade unions has shown that most of the great number of cluster forms are likely to be the most frequent themes in the text (or to be pronouns), while the fewer « regular » forms are generally functional words which by themselves convey little meaning. This study supplements frequency measures and contributes to a better understanding of the relationship between forms and text.
32 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 1981
Nombre de lectures 12
Langue Français
Poids de l'ouvrage 3 Mo

Extrait

Pierre Lafon
Statistiques des localisations des formes d'un texte
In: Mots, mars 1981, N°2. pp. 157-188.
Citer ce document / Cite this document :
Lafon Pierre. Statistiques des localisations des formes d'un texte. In: Mots, mars 1981, N°2. pp. 157-188.
doi : 10.3406/mots.1981.1026
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1981_num_2_1_1026Abstract
FORMS IN A TEXT : A STATISTICAL STUDY OF POSITION Stating frequencies ignores the fact that
the occurrences in a text form and ordered string. To enable the ordered nature of a text to be taken into
account and to perceive another aspect of how words function, the usual frequential viewpoint is
replaced by a sequential one. The statistical model presented here is suitable for studying the positions
of each graphic form in the text. It permits a contrast between cluster forms, i.e. closely grouped
occurrences and « regular » forms, i.e. evenly distributed occurrences. Research into four General
Resolutions of two trade unions has shown that most of the great number of cluster forms are likely to
be the most frequent themes in the text (or to be pronouns), while the fewer « regular » forms are
generally functional words which by themselves convey little meaning. This study supplements
frequency measures and contributes to a better understanding of the relationship between forms and
text.
Résumé
STATISTIQUES DES LOCALISATIONS DES FORMES D'UN TEXTE Les relevés de fréquence
négligent le fait que les occurrences d'un texte constituent une suite ordonnée. Afin de prendre en
considération le caractère ordonné d'un texte et de saisir un autre aspect du fonctionnement de ses
éléments, on remplace ici le point de vue fréquentiel, habituel, par un point de vue séquentiel. Le
modèle statistique présenté est adapté à l'étude des localisations d'une forme dans un texte. Il permet
d'opposer des formes dites « en rafales », dont les occurrences sont regroupées dans certaines régions
du texte, à des formes « régulières », dont les occurrences sont bien disséminées dans tout le texte.
Les expériences faites sur quatre résolutions générales de congrès syndicaux montrent que les mots-
rafales, très nombreux, sont plutôt des mots-thèmes du discours ou des pronoms, tandis que les mots-
réguliers, rares, sont en général des outils de relation, en soi peu porteurs de sens. Cette analyse
complète les mesures de fréquences et contribue à préciser le rapport des formes au texte.PIERRE LAFON
UNITÉ D'INFORMATIQUE
INSTITUT DE LA LANGUE FRANÇAISE, PARIS
Statistiques des localisations
des formes d'un texte
La plupart des études de linguistique quantitative sont fondées sur la notion de fréquence.
Celle-ci, bien qu'elle soit, en effet, un élément fondamental de la matérialité du discours, n'en
représente cependant qu'un aspect. Se limiter à elle pour étudier le discours, c'est négliger le
fait essentiel que les éléments du discours s'enchaînent dans un certain ordre. Un discours
n'est pas un ensemble (défini comme une collection), sinon il serait complètement décrit, au
moins dans sa matérialité, par le recensement exhaustif de ses formes munies de leur fr
équence, mais une succession ordonnée d'éléments linguistiques. Le caractère de suite ordonnée
qui s'attache aux textes est présent dans les index traditionnels de vocabulaire puisque ceux-ci
indiquent non seulement la fréquence d'une forme, mais donnent aussi des informations sur la
position de ses occurrences. Ces dernières, conçues pour un usage documentaire, aident le lec
teur à retrouver un mot précis dans le texte, mais ne permettent pas, en général, de reconsti
tuer rigoureusement l'ordre des formes du discours. Ainsi, difficiles à exploiter statistiquement,
1 . Cet article prend sa source dans un habile « petit exercice linguistique » proposé par Thomas Reginal,
dans le numéro de novembre 1974 de l'Echo des Messaches, bulletin du Centre de mathématique sociale de l'Ecole
des hautes études en sciences sociales. Cet exercice a donné lieu à une abondante correspondance dont on trouve
trace dans ce même journal jusqu'en juin 1975. Il avait notamment retenu l'attention du professeur J.-P. Benzécri
dont une note a été publiée, suivie de la réponse de l'auteur, dans le numéro de janvier 1975. En outre, cet article
doit beaucoup à la méthodologie de statistique mathématique exposée par le professeur G. -Th. Guilbaud, dans son
séminaire de l'EHESS. Qu'il trouve ici l'expression de notre gratitude. 158 PIERRE LAFON
les observations qui concernent la position des occurrences dans un texte sont souvent négli
gées au profit d'études quantitatives qui se polarisent sur les fréquences.
Dans cet article, afin de saisir un autre aspect du fonctionnement des formes dans le dis
cours, c'est le point de vue séquentiel plutôt que fréquentiel que nous avons choisi.
Nous nous proposons d'étudier la configuration dessinée par les occurrences d'une forme
dans la séquence ordonnée d'un texte, en donnant des critères permettant de juger les formes
selon la régularité plus ou moins grande de leurs apparitions.
Contrairement à la notion de fréquence, bien déterminée et immédiatement admise, l'idée
de régularité ou d'irrégularité est plus difficile à cerner, dans la mesure où la frontière entre
ces deux caractères laisse subsister une zone de flou. Nous montrerons qu'un calcul rend
compte de cette situation confuse, mais la clarifie, et permet de distinguer les formes bien di
sséminées de celles qui se localisent en « grappe » dans certaines régions du texte.
Cette classification peut être envisagée comme la définition d'une autre espèce de spécifi
cité, parente et complémentaire de celle que nous avons déterminée dans un article précédent 2,
définie ici dans un corpus qui ne se présente plus comme un ensemble de parties, mais, au
contraire, comme un texte homogène ayant un début et une fin.
Observations préliminaires
Soit un texte constitué par une suite de T occurrences. Numérotons les occurrences de 1 à
T du début à la fin du texte. On peut ainsi repérer la position des occurrences d'une même
forme, et calculer la longueur des intervalles qui les séparent, en convenant de la mesurer en
nombre d'occurrences.
Le tableau 1 représente une partie de l'édition d'un index qui fournit les localisations de
toutes les formes de la « Résolution générale du congrès de la CGT en 1975 ». Nous avons
choisi ce texte assez court (T = 8 274 occurrences), comme support pour l'exposé de la
méthode. Le numéro qui précède chaque forme est un simple numéro d'ordre dans la liste
alphabétique du vocabulaire. Chaque forme est suivie de sa fréquence et de la suite des
« adresses » de ses occurrences dans le texte.
2. P. Lafon, « Sur la variabilité de la fréquence des formes dans un corpus », Mots, 1, octobre 1980, p. 127
à 165. -л а,
/TĎ Tableau 1. Index alphabétique de la " Résolution générale du Congrès de la CGT en 1975 "
avec l'indication des positions des formes (8274 occurrences)
138 313 332 403 582 S98 eze 702 733 £04 822
914 12CÇ 1467 177в 656 896 100S 1288 12S£ 15£0
«2£4 2444 1964 20Ó1 2068 2232 22S5 23C0 23£C 2440
2451 2528 2532 2642 2684 2577 зсое 3024 3J0B3 3138
32 04 3218 330 3 3331 3401 34ei 3£05 3£21 3615 3649
3814 40£7 3720 3776 3791 3795 4040 4111 4146 4167
424b 4265 427 5 4362 4387 4£48 430S 4351 4561 4573
45 76 4640 4654 4841 4854 4903 4907 4S£2 5051 5195
5197 5232 528Č 5289 5352 £261 5394 54C7 ££30 SO84
5731 5634 5841 5847 ££52 59Č2 5S£7 £0£3 6061 5881 62£7 6110 615Ó Ó201 6228 62S2 62££ 627£ £514 6э4о
6727 6621 66â8 67S9 6871 7CC7 7013 7C1S 7143 7)90
7345 7402 7504 7546 7£7£ 7££2 7714 7350 7497 7556 8234 7783 7932 8027 8063 8089 €176 82£6
647 708 1104 3Č01 3Í27 use 3591 3Č11 4C66 4270 2 A 31 4282 4327 4376 4395 4645 4704 4732 47ÉČ 5416 5875
608a 6632 723S 7487 7694 77S1 7££4 7S26 7570 8021
m etaa
20 6 C-G-I-L- 1 7506 207 C-G-T- 62 6 1157 134 1447 1648 1«C7 222b 3£07 3642 3768 3774 387o 3936 42£4 4027 4157 4226 4642 4644 4703 4765 4793 4618 5172 5264 £222 5343 £3£4 5477 £56 Ь 5538 5632 5718 5730 5754 5770 60C0 6011 613C 6186
6244 6327 6367 6381 6

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents