À propos de la statistique du vocabulaire tchèque - article ; n°1 ; vol.34, pg 151-163

REVUE_DES_ETUDES_SLAVES - Marc Vey

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

14 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Revue des études slaves - Année 1957 - Volume 34 - Numéro 1 - Pages 151-163
13 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Sujets

Sociologie, société et politique

Informations

Publié par	REVUE_DES_ETUDES_SLAVES
Publié le	01 janvier 1957
Nombre de lectures	55
Langue	Français

Extrait

Marc Vey
À propos de la statistique du vocabulaire tchèque
In: Revue des études slaves, Tome 34, fascicule 1-4, 1957. pp. 151-163.
Citer ce document / Cite this document :
Vey Marc. À propos de la statistique du vocabulaire tchèque. In: Revue des études slaves, Tome 34, fascicule 1-4, 1957. pp.
151-163.
doi : 10.3406/slave.1957.1688
http://www.persee.fr/web/revues/home/prescript/article/slave_0080-2557_1957_num_34_1_1688A. PROPOS DE LA STATISTIQUE
DU VOCABULAIRE TCHÈQUE M
PAR
MARC VEY
Jaroslav Jelinek, avec la collaboration de J. V. Bečka et de M. Těšitelova,
a mené à son terme en 1952 une œuvre considérable, encore inédite, destinée
à prendre place parmi les plus importants ouvrages de statistique du vocabul
aire : Frekvence slov, slovních druhů, a tvaru v českém jazyce. Il suffira de
donner sur ce travail les indications les plus indispensables, car sa publi
cation prochaine est espérée.
Le premier tome comprend : une introduction bibliographique et métho
dologique avec la liste des 75 textes dépouillés répartis en 8 genres littéraires;
une interprétation des renseignements fournis par les répertoires; un index
de la répétition des mots et de la fréquence des espèces de mots avec
27 tableaux et 28 diagrammes; une étude sur la fréquence des différents types
de déclinaison et des cas et sur la fréquence des formes verbales (20 tableaux) ;
une conclusion et une bibliographie.
Le dictionnaire de fréquence renferme les 27.000 mots environ relevés
plus de 2 fois parmi les 1.623.527 que renferment les 75 textes dépouillés.
Ils sont classés par ordre de fréquence décroissante, avec de plus l'indication
du nombre de genres littéraires et de celui des textes où ils apparaissent. Par
exemple :
1 a 67.122-8-75
signifie que le mot (conjonction) a apparaît au premier rang pour ce qui est
de la fréquence, a été relevé 67.122 fois dans tous les genres littéraires et dans
tous les textes. De même :
9 . 101 pravidelnost 15-5-12
(*) M. Daniel Guiffant, professeur de physique, a bien voulu prendre connaissance de la
première rédaction de cette note. Je lui dois plus d'une suggestion et de précieux éclai
rcissements, dont je le remercie chaleureusement. 152 MARC VEY.
signifie que ce substantif vient au 9.101e rang et a été relevé 15 fois dans 12
textes appartenant à 5 genres.
Le dictionnaire alphabétique fournit les mêmes mots classés par ordre
alphabétique, accompagnés des mêmes indications statistiques, auxquelles
s'ajoutent des informations sur la répartition par genre. Ainsi :
pravidelnost 15-5-12 : A 2/2 С 4/3 Е 3/2 F 1/1 G 5/4
signifie que ce substantif a été relevé 2 fois dans 2 des 15 textes de prose li
ttéraire (A), 4 fois dans 3 des 10 ouvrages écrits pour la jeunesse (C), 3 fois
dans 2 des 9 textes de littérature technique (E), 1 fois dans 1 des 7 journaux
(F) et 5 fois dans 4 des 10 ouvrages scientifiques (G) — et que, par consé
quent, il n'a été relevé dans aucun des 10 recueils de poésie (B), ni des
10 ouvrages dramatiques (D), ni des 4 textes oratoires (H).
* * *
On conçoit que de pareilles informations permettent de vérifier et éven
tuellement de rectifier pour le tchèque les relations numériques établies anté
rieurement par les statisticiens pour d'autres langues. Elles permettront aussi
d'en établir de nouvelles. J'espère avoir le loisir et l'occasion de publier à ce
sujet un exposé plus complet. Je me bornerai dans le présent article à signaler
une relation à ma connaissance inédite.
Nous avons vu que pour chaque mot, Fr. slov mentionne le nombre des
textes dans lesquels il a été relevé. Il est par conséquent facile de savoir
combien de mots ont été relevés dans 75 textes (qui est le nombre maxi
mum), combien dans 74, etc. J'appelle и le nombre de mots relevés dans
chaque nombre t de textes; on obtient le tableau suivant :
45- 15- 30 - 102 75-43 60-21 48 382
44- 14- 74-18 59-30 53 29 - 129 431
43- 13- 28- 127 73-17 58-26 47 478
42- 12- 72-14 57-18 63 27 128 544
41- 11- 71-18 56-28 63 26-160 633
40- 10- 25 - 154 70-17 55-25 50 721 Illustration non autorisée à la diffusion 39- 9- 24 - 131 69-19 54-26 64 881
38- 8- 53-31 67 23 - 175 68-11 1.079
37- 7- 22 - 198 67-12 52-32 62 1.251
36- 6- 66-16 51-31 73 21-187 1.568
35- 5- 65-14 77 20 - 215 50-39 2.007
34- 4- 64-24 49-38 86 19-225 2.877
33- 3- 63-26 48-45 84 18-275 4.332
32- 2- 47-43 82 62-26 17-285 7.833
31- 1- 61-20 46-43 107 16-331 26.156
Mais ce tableau fournit, par ex., le nombre des mots relevés dans 74 textes
à l'exclusion de ceux qui ont été relevés dans 75. Or il est bien évident que PROPOS DE LA STATISTIQUE DU VOCABULAIRE TCHÈQUE. 153 A
les mots relevés dans 75 textes figurent aussi dans 74 — et que les mots
relevés dans 74 et dans 75 aussi dans 73, et ainsi de suite.
Pour connaître le nombre total des mots susceptibles d'être relevés dans t
textes, il convient d'additionner les valeurs successives м75 -j- M74 + • • •
+ щ + 1 -f- Щу expression qui constitue la série 2 u. On obtient alors un tableau
dont je me borne à reproduire des fragments :
t Su ť Su t Su í Su
75- 60- 316 6-12.587 43
74- 20- 3503 5-14.594 61 Illustration non autorisée à la diffusion 73- 78 50-602 4-17.471
72- 92 10-7.808 3-21.803
71- 40-1.095 9-8.689 2-29.636 110
70- 127 8-9.768 1-55.792
30-1.899 7-11.019
On voit que le tableau des 2 м présente une progression constante (sinon
régulière), ce qui n'est pas surprenant, puisque la valeur de chaque ligne est
la somme de celle de la ligne précédente et de Vu correspondant (2<м
= 2t + iH + щ).
Le tableau des и tend lui aussi d'une manière générale, malgré d'import
antes oscillations pour les valeurs élevées de ŕ, à croître et la progression
devient constante les successives de u à partir de Ѓ21 jusqu'à t\.
Si l'on reportait sur un graphique, on obtiendrait une courbe d'aspect
général continu.
L'examen du tableau des и montre à première vue que щ X f (t2) = con
stante. Des essais multiples m'ont amené à penser que la formule la plus
satisfaisante est, en appelant к la constante :
*, (1)
qui peut s'écrire également :
2)' ® Ut==(t+l)(t +
D'autres formules donneraient des résultats très voisins, par ex.
щ (í -j- 1»5)2, qui ne diffère de la précédente que de + 1 »• J'en reparlerai
plus loin. Si la formule (l)-(2) a été préférée, c'est que c'est elle qui fournit
pour les diverses valeurs de k, obtenues en effectuant, les écarts les moins
graves par rapport à la valeur moyenne de к.
Notons de suite que ce calcul direct donne pour U75 et pour щ des
valeurs de к beaucoup trop élevées pour qu'on s'en satisfasse, et qu'il fau
dra expliquer. Nous calculerons donc la moyenne de к en ne tenant compte
ni de l'une ni de l'autre, et en divisant par 73 le total des 73 к calculés de
*2 à Í74 : on obtient ainsi к = 95.684,1, qu'on peut arrondir à 95.685 — 154 MARC VEY.
sous réserve, répétons-le, que les valeurs aberrantes correspondant à щ et à
M75 soient interprétées. Cela posé, on constate que 48 sur 73 des diverses
valeurs calculées de k, c.-à-d. près de 66 p. 100, s'écartent de 95.685 de moins
de 10 p. 100 en moins ou en plus. C'est le meilleur résultat que j'aie pu
obtenir.
a. Pour И75 = 43, on obtiendrait к = 43 X 76 X 77 = 251.636 —
résultat inacceptable, et dont le rejet demande un commentaire : il est bien
évident que 43 est une valeur excentrique, surtout si l'on considère que les
и correspondant aux ŕ immédiatement inférieurs à 75 oscillent entre 14 (et
même accidentellement 11 ou 12) et 17 ou 18.
Une première explication de ce nombre aberrant se propose, si l'on com
pare le tableau des и à celui des 2 м. On voit que м75 = 43 est en réalité
une somme. Autrement dit les 43 mots qui ont été relevés dans 75 textes
seulement représentent en réalité : les mots qui auraient été relevés dans
75 textes seulement -f- Ie8 mots qui auraient été relevés dans 76 textes seu
lement -\- etc., si le dépouillement avait porté sur un nombre de textes
supérieur à 75. Supposons, pour fixer les idées, que les auteurs de Fr. slov
aient relevé les mots d'un 76e texte, renfermant 30.780 mots. Ce texte con
tiendrait approximativement 5.700

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

À propos de la statistique du vocabulaire tchèque - article ; n°1 ; vol.34, pg 151-163

Sociologie, société et politique

YouScribe

Le catalogue

Le service

Les conditions