Zipf et les fréquences - article ; n°1 ; vol.1, pg 97-126
31 pages
Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Zipf et les fréquences - article ; n°1 ; vol.1, pg 97-126

-

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus
31 pages
Français
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Mots - Année 1980 - Volume 1 - Numéro 1 - Pages 97-126
ZIPF ET LES FRÉQUENCES G.-Th. G. décrit les opérations qui aboutissent, pour un texte, à l'établissement de la « pyramide des mots » puis de la « gamme des fréquences ». Puis il examine comment, dans la littérature sur le sujet, on a tenté de donner une description globale et approximative de ces gammes : par l'attribution d'un rang croissant aux fréquences décroissantes, on arrive à l'établissement d'une relation fonctionnelle rang→ fréquence, dite « loi de Zipf ». En utilisant la fonction cumulée V(f) (nombre de formes de fréquence≥ f) et en prenant une échelle logarithmique, on peut représenter de façon très lisible la gamme des fréquences tout entière sur un diagramme de Pareto. Cette représentation met en évidence à la fois les « accidents » et la régularité générale remarquable de ces distributions qu'aucun travail lexicométrique ne peut ignorer.
ZIPF AND FREQUENCIES G. Th. G. describes here the processes which lead, in the case of a text, to the creation of the word pyramid and then on to the range of frequencies . He then examines the attempt by the littérature on this subject to give an overall and approximate description of these ranges : by attributing an increasing rank to the decreasing frequencies, a functional relation, rank/frequency, called the Zipf law is established. By using the cumulative function V(f) (where the number of frequency forms ≥ f), and by using a logarithmic scale, the frequency table can be represented in its entirety quite clearly by a Pareto diagram. This representation shows both the accidents and the remarkable overall regularity of these distributions that no lexicometric work can ignore.
30 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par
Publié le 01 janvier 1980
Nombre de lectures 13
Langue Français
Poids de l'ouvrage 1 Mo

Extrait

G.-Th. Guilbaud
Zipf et les fréquences
In: Mots, octobre 1980, N°1. pp. 97-126.
Abstract
ZIPF AND FREQUENCIES G. Th. G. describes here the processes which lead, in the case of a text, to the creation of the " word
pyramid " and then on to the " range of frequencies ". He then examines the attempt by the littérature on this subject to give an
overall and approximate description of these ranges : by attributing an increasing rank to the decreasing frequencies, a functional
relation, rank/frequency, called the " Zipf law " is established. By using the cumulative function V(f) (where the number of
frequency forms ≥ f), and by using a logarithmic scale, the frequency table can be represented in its entirety quite clearly by a
Pareto diagram. This representation shows both the " accidents " and the remarkable overall regularity of these distributions that
no lexicometric work can ignore.
Résumé
ZIPF ET LES FRÉQUENCES G.-Th. G. décrit les opérations qui aboutissent, pour un texte, à l'établissement de la « pyramide
des mots » puis de la « gamme des fréquences ». Puis il examine comment, dans la littérature sur le sujet, on a tenté de donner
une description globale et approximative de ces gammes : par l'attribution d'un rang croissant aux fréquences décroissantes, on
arrive à l'établissement d'une relation fonctionnelle rang→ fréquence, dite « loi de Zipf ». En utilisant la fonction cumulée V(f)
(nombre de formes de fréquence≥ f) et en prenant une échelle logarithmique, on peut représenter de façon très lisible la gamme
des fréquences tout entière sur un diagramme de Pareto. Cette représentation met en évidence à la fois les « accidents » et la
régularité générale remarquable de ces distributions qu'aucun travail lexicométrique ne peut ignorer.
Citer ce document / Cite this document :
Guilbaud G.-Th. Zipf et les fréquences. In: Mots, octobre 1980, N°1. pp. 97-126.
doi : 10.3406/mots.1980.1007
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1980_num_1_1_1007G.-TH. GUILBAUD
ÉCOLE DES HAUTES ÉTUDES EN SCIENCES SOCIALES, PARIS
fréquences*
Zipf et les
Parler de Zipf : c'est nécessaire, tout le monde en parle (petit exercice : rassembler ce
qu'on en dit dans les cinq ou six dictionnaires de linguistique publiés en français, ainsi que
dans quelques manuels). On conteste, paraît-il : ce n'est pas d'aujourd'hui que grammatici
certant. Pour moi, je veux essayer de suivre la maxime augustinienne : non flere, non indi-
gnari, sed intelligere. Les propos qui suivent (compte rendu d'une séance de séminaire) se veu
lent donc seulement didactiques : encourager ceux qui voudront aller y voir et juger par eux-
mêmes.
♦ * ♦
Pour un texte (ou bien pour un corpus constitué de plusieurs textes) on peut établir :
— Une concordance, catalogue de mots (de lemmes ou vocables, ou de formes) qui,
pour chacun, donne la liste des OCCURRENCES, sous forme de contextes munis de références.
— Un index, pour lequel au regard de chaque unité figurent seulement les adresses de
ses occurrences.
— Un autre index plus succinct, parfois désigné comme index des fréquences ou
index statistique, où, pour chaque mot, on ne trouve plus les références, mais seulement le
nombre des occurrences ou fréquence.
* Texte modifié d'un article paru dans Travaux de Icxicométrie et de lexicologie politique, 2, novembre
1977, p. 57-84. G.-TH. GUILBAUD 98
— Enfin, on peut séparer les données précédentes en fournissant : le catalogue des formes
ou des vocables, ou vocabulaire ; la seule gamme des fréquences ; les mots ont disparu,
il ne reste que des indications chiffrées.
Quand on parle de « la loi de Zipf », c'est cette dernière forme qu'on veut décrire.
Que le texte soit court ou long, les mêmes traitements sont toujours possibles. Commenc
ez donc par un texte court : il sera plus facile d'analyser les procédures et de tout dire !
* * *
Voici la pyramide des MOTS pour un court poème en français (si connu que je n'ai pas
besoin de donner la référence).
On a découpé le poème en « mots », et on les a rangés, d'abord par ordre de fréquences,
puis, pour les ex-aequo, par ordre alphabétique. Pour faire subir ce traitement audit poème, il
a fallu :
— segmenter ; c'est-à-dire préciser quelles unités on voulait étudier ; on sait assez
comme la notion de mot est incertaine. Ici, on a pris pour item la forme typographique, en
décidant simplement que les séparations étaient constituées par les blancs et les ponctuations.
Ainsi :
L'AZUR
constitue deux unités.
On peut décider autrement, on est libre et responsable. Mais il faut donc d'abord disposer
d'un système de critères (qu'on peut nommer : syntaxiques) permettant de matérialiser les
occurrences, de dire : ceci... est une occurrence.
— identifier ; décider, par exemple, que c'est le même mot, à savoir des, qu'on trouve
en ces quatre contextes :
ils regardaient des étoiles
ils espéraient des lendemains
l'avant des caravelles
la mer des tropiques 99
La pyramide des mots pour (Her)
(T = 100 et V = 80)
charnier i alizés antennes allaient caravelles aux chaque cipanfo brutal avant capitaines azur ad bUnchci bords
conquérir dans dore
en
enchantaient épiques esperant
étoiles
fabuleux fatigues
fond gerfauts
hautains héroïques
hors ignoré
inclinaient ivres la
le
les
leurs lointaines mer
métal mines
mirage
moguer
inonde monter
muni mystérieux natal
nouvelles occidental
océan ou
palos partaient penchés
phosphorescent porter
que
regardaient rêves
routiers ses
soirs sommeil
tropiques vents
vol
ď ris
ils leurs du lf et
Г des des 100 G.-TH. GUILBAUD
On aurait pu décider autrement. Mais il faut disposer d'un système de critères (qu'on peut
nommer : paradigmatiques) permettant de dire si deux occurrences sont ou non occurrences du
même mot.
Il faut choisir des règles, règles de segmentation et règles d'identification, et ne pas se dis
simuler que ces règles, qui sont arbitraires, reflètent une certaine idée qu'on se fait de la lan
gue qu'on traite.
Une fois choisis les deux systèmes de critères (syntaxiques et paradigmatiques), on peut
compter.
Le fameux sonnet, ci-dessus décortiqué, comportera (pour nous) :
T = 100 occurrences ; V = 80 formes (ou mots différents) ;
dans tout ce qui suit nous conserverons ces notations T comme texte et V comme vocabulaire.
Voici, pour second exemple, un autre poème français, non moins fameux. On a essayé,
dans le traitement de ce second exemple, d'observer les mêmes règles de segmentation et
d'identification. Thème de réflexion : pourrait-on exprimer la même prétention (les « mêmes »
règles) si l'on avait choisi un sonnet de Pétrarque ?
Il s'agit maintenant de donner une description purement numérique (certains préfèrent dire
statistique) de la pyramide des mots.
C'est ce que je propose d'appeler : la gamme des fréquences
Ci-dessous les gammes des deux textes qu'on a vus :
(Her) : 6, 4, 4, 3, 3, 3, 2, 2, 2, UJ^^UJ..
71 fois r
(Bau) : 7, 7, 6, 6, 6, 6, 3, 3, 2, 2, 2, 2, 2, l^J^^JJ..
Contrôle ~ ♦ -, : 61 fois
— le nombre de fréquences présentes est celui des formes du vocabulaire, soit V ;
— la somme de toutes les fréquences est égale au nombre total d'occurrences ou longueur
du texte, soit T.
Ajoutons un troisième texte, qu'on pourrait avoir envie de comparer aux deux premiers :
(du B) : 7, 5, 5, 5, 3, 3, 3, 3,^2^^ bJi^JjJ*
9 fois 67 fois
(pour qui voudra vérifier : il s'agit d'Ulysse et de son beau voyage). 101
La pyramide des mots pour (Bau)
(T = 115 et V = 74)
chotes ayant chairs corrompus couleurs doux chantent echo* benjoin confuses dans confondent clarté ambre a «litres avec
enfants
esprits
expansion
familier
forets
frais
hautbois
homme
il
infimes
observent
ou
parfois
paroles
passe
piliers
prairies
profonde
regards repondent
riches
sortir
symboles
temple
ténébreux
transports
travers
triomphants
unite
vaste
verts
vivants
le parfu le parfums
la
qui
de de de de de de des des de des des des I' Г V Г Г f
les les les les les les 102 G.-TH. GUILBAUD
* ♦ ♦
II faut mainten

  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents