L'inventaire des segments répétés d'un texte - article ; n°1 ; vol.6, pg 161-177

MOTS - Pierre Lafon , André Salem

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

18 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Mots - Année 1983 - Volume 6 - Numéro 1 - Pages 161-177
L'INVENTAIRE DES SEGMENTS RÉPÉTÉS D'UN TEXTE L'une des limites de la lexicométrie telle qu'on la pratique actuellement est qu'elle fonde ses analyses sur des dépouillements de formes isolées de leur environnement syntagmatique. Définissant un segment comme une séquence de formes connexes, P.L. et A.S. proposent de faire le recensement exhaustif de tous les segments répétés du texte. L'inventaire des segments répétés (ISR) qu'ils présentent, comporte une partie où les segments sont classés par ordre alphabétique et une autre dans laquelle ils sont classés par ordre de fréquence décroissante. Des analyses statistiques sur des tableaux de biformes et de informes (segments composés respectivement de deux et trois formes) montrent l'intérêt lexicométrique de ces nouvelles unités dans les problèmes de caractériologie et de parentage des textes. Enfin, P.L. et A.S. montrent comment l'ISR permet de résoudre certains problèmes pour aboutir à une segmentation automatique moins arbitraire des textes.
AN INVENTORY OF THE REPEATED SEGMENTS IN A TEXT One of the limitations of lexicometry as it is used today is that it bases its analysis on the casting aside of isolated forms from their syntagmatic environment. By defining a segment as a sequence of connected forms, P.L. and A.S. are proposing to take an exhaustive census of all the repeated segments in the text. The Inventory of repeated segments (1RS) which they submit is made up of one part in which the segments are classed in alphabetical order, and another in which they are classed in order of decreasing frequency. Statistical analysis on tables of biforms and triforms (segments composed of two and three forms respectively) show the lexicometric interest of these new unities in problems of the characteriology and the parentage of the texts. Finally, PL and AS show how the IRS allows us to solve certain problems leading to a less arbitrary automatic segmentation of the texts.
17 pages
Source : Persée ; Ministère de la jeunesse, de l’éducation nationale et de la recherche, Direction de l’enseignement supérieur, Sous-direction des bibliothèques et de la documentation.

Informations

Publié par	MOTS
Publié le	01 janvier 1983
Nombre de lectures	34
Langue	Français
Poids de l'ouvrage	1 Mo

Extrait

Pierre Lafon
André Salem
L'inventaire des segments répétés d'un texte
In: Mots, mars 1983, N°6. pp. 161-177.
Abstract
AN INVENTORY OF THE REPEATED SEGMENTS IN A TEXT One of the limitations of lexicometry as it is used today is that it
bases its analysis on the casting aside of isolated forms from their syntagmatic environment. By defining a segment as a
sequence of connected forms, P.L. and A.S. are proposing to take an exhaustive census of all the repeated segments in the text.
The Inventory of repeated segments (1RS) which they submit is made up of one part in which the are classed in
alphabetical order, and another in which they are classed in order of decreasing frequency. Statistical analysis on tables of
biforms and triforms (segments composed of two and three forms respectively) show the lexicometric interest of these new
unities in problems of the characteriology and the parentage of the texts. Finally, PL and AS show how the IRS allows us to solve
certain leading to a less arbitrary automatic segmentation of the texts.
Résumé
L'INVENTAIRE DES SEGMENTS RÉPÉTÉS D'UN TEXTE L'une des limites de la lexicométrie telle qu'on la pratique
actuellement est qu'elle fonde ses analyses sur des dépouillements de formes isolées de leur environnement syntagmatique.
Définissant un segment comme une séquence de formes connexes, P.L. et A.S. proposent de faire le recensement exhaustif de
tous les segments répétés du texte. L'inventaire des segments répétés (ISR) qu'ils présentent, comporte une partie où les
segments sont classés par ordre alphabétique et une autre dans laquelle ils sont classés par ordre de fréquence décroissante.
Des analyses statistiques sur des tableaux de biformes et de informes (segments composés respectivement de deux et trois
formes) montrent l'intérêt lexicométrique de ces nouvelles unités dans les problèmes de caractériologie et de parentage des
textes. Enfin, P.L. et A.S. montrent comment l'ISR permet de résoudre certains problèmes pour aboutir à une segmentation
automatique moins arbitraire des textes.
Citer ce document / Cite this document :
Lafon Pierre, Salem André. L'inventaire des segments répétés d'un texte. In: Mots, mars 1983, N°6. pp. 161-177.
doi : 10.3406/mots.1983.1101
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1983_num_6_1_1101PIERRE LAFON, ANDRÉ SALEM
UNITÉ DE RECHERCHE LEXICOLOGIE ET TEXTES POLITIQUES
INSTITUT NATIONAL DE LA LANGUE FRANÇAISE, SAINT-CLOUD, CNRS Mots, 6, 1983
L'inventaire des segments répétés d'un texte
Lorsque l'on entreprend de soumettre un texte, ou un corpus de textes, à une série
d'analyses quantitatives, il est nécessaire de se donner des règles de segmentation, qui
permettront de reconnaître, au fil du texte, les différentes occurrences d'une même unité de
décompte que l'on appellera «forme». Cette étape soulève la plupart du temps de grosses
difficultés. Pour s'en convaincre, il suffit de noter le grand nombre de solutions apportées
dans la pratique par les équipes de chercheurs qui travaillent dans le domaine de l'indexation
automatique des textes.
Le choix du laboratoire de lexicologie politique de l'ENS de Saint-Cloud s'est porté, dès
1967, sur une solution particulièrement adaptée aux traitements automatisés que nous avons
appelée depuis «l'indexation minimale». Ce mode de segmentation définit les formes que l'on
va décompter comme des suites de caractères comprises entre deux délimiteurs. Ce qui
revient à dire que l'on considère les formes graphiques du texte. Comme toutes les solutions
proposées au problème de la segmentation automatique, celle-ci suscita de nombreuses
critiques, dont certaines étaient largement justifiées par des considérations lexicales élémentair
es. En effet, cette méthode conduit, d'une part, à considérer toutes les flexions d'un même
verbe comme autant de formes différentes, et, d'autre part, à ne pas désambiguïser les
homographes. Elle avait cependant pour nous l'avantage décisif de rendre possibles des
traitements sur ordinateur de textes relativement longs en faisant un minimum d'investiss
ements sur les problèmes de précodage. C'est sur cette base que nous avons pu développer
des méthodes d'analyse lexicométrique visant à rendre compte de la répartition de chacune
des formes dans les différentes parties d'un corpus de textes (méthode des spécificités), ou PIERRE LAFON, ANDRE SALEM 162
encore à établir des typologies de ces parties rapprochant celles qui emploient les mêmes
formes dans des proportions semblables (analyses factorielles, etc.).
Dans un deuxième temps, nous avons tenté de mettre en évidence les cooccurrences de
deux formes à l'intérieur d'une même phrase. Au début, nous avons traité ce problème en
utilisant des méthodes probabilistes 1. L'analyse des résultats de plusieurs expériences sur des
corpus de textes politiques français contemporains nous a conduits à la conclusion que les
méthodes mises en œuvre sélectionnaient, en les mélangeant, deux sortes d'associations de
nature quelque peu différente : d'une part, des couples de formes fonctionnant presque
exclusivement à l'intérieur d'expressions syntagmatiques figées, d'autre part des couples de
formes présentes dans les mêmes phrases quoique fonctionnant dans des contextes immédiats
différents, et à des distances variables.
Il nous a semblé, au vu de ces premiers résultats, que si la méthodologie de recherche
des cooccurrences développée jusque-là était particulièrement bien adaptée à l'étude des
associations du second type, il était possible d'élaborer des méthodes à la fois plus simples et
plus efficaces pour mettre en évidence les associations de formes employées dans des
expressions figées, répétées dans le texte.
Pour une forme donnée, et si le texte que l'on étudie n'est pas trop long, on peut
repérer sans trop de mal les séquences répétées dans lesquelles elle fonctionne, à l'aide des
outils traditionnels du lexicométricien, que sont la concordance et l'index alphabétique. En
effet, en se reportant à l'entrée correspondante d'une concordance munie d'un contexte
suffisamment étendu et dont les lignes sont triées sur la partie droite du contexte par ordre
alphabétique2, on peut dresser la liste des expressions figées qui contiennent cette forme. Si
l'on désire en outre isoler les formes qui n'apparaissent qu'en liaison avec cette forme pôle,
le problème se complique quelque peu. Il faudra alors se livrer à toute une série de
vérifications sur les occurrences de chacunes des deux formes en se reportant tour à tour à
1. Cf. A. Geoffroy, P. Lafon, M. Tournier, «Analyse lexicométrique des cooccurrences et formalisation» in
Actes, Paris, CNRS, Collection documentation, 1971, p. 8-23; communication aux journées d'études du CNRS sur
les applications de l'informatique aux textes philosophiques, 16-17 novembre 1970. Cf. également, P. Lafon,
«Analyse lexicométrique et recherche des coocurrences », Mots, 3, octobre 1981, p. 95-148.
2. M. Sékhraoui, «Possibilités d'exploitation d'édition d'une concordance» in Actes, tome 3, p. 665-678, à
paraître; communication au 2e colloque international «Lexicologie politique du français moderne», Saint-Cloud,
15-20 septembre 1980. LES SEGMENTS RÉPÉTÉS D'UN TEXTE 163
l'index et à la concordance. Pour un texte comportant plusieurs milliers d'occurrences, le
repérage des séquences de formes répétées peut se révéler une opération très longue sinon
impossible. C'est pourquoi nous avons pensé qu'il était indispensable de recourir à de
nouveaux instruments.
L'INVENTAIRE DES SEGMENTS RÉPÉTÉS (ISR)
L'inventaire des segments répétés est une méthode que nous proposons d'utiliser pour
aborder ces problèmes. Pour commencer, précisons quelques notions. Tout d'abord, celle de
séquence: suite de formes comprise entre deux délimiteurs de séquence. Pour faire entrer
cette notion dans une procédure informatisable, nous devons donner une fois pour toutes à
certains signes de ponctuation le statut de délimiteur de séquence. Pour cette étude, nous
avons retenu les signes de ponctuation usuels.

Univers

Ebooks

Livres audio

Presse

Podcasts

BD

Documents

Romance

Romans et nouvelles

Scolaire

Polar

Jeunesse

Développement Personnel

Ressources professionnelles

SF

Partitions

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Ebooks

Jeunesse

Littérature

Ressources professionnelles

Santé et bien-être

Savoirs

Education

Loisirs et hobbies

Art, musique et cinéma

Actualité et débat de société

Voir tout

Jeunesse - Pour les 6 - 12 ans

Univers ado - Pour les plus de 12 ans

Eveil - De 0 à 6 ans

Découverte

Jeux et coloriages

Voir tout

Jeune Adulte

Etudes littéraires

Contes

Romans et nouvelles

Théâtre

Littérature régionale

SF et fantasy

Littérature sentimentale

Romans historiques

Classiques

Poésie

Récits de voyage

Témoignages et autobiographies

Romans policiers, polars, thrillers

Littérature érotique

Voir tout

Economie

Comptabilité

Fiscalité

Création d'entreprise

Marketing et communication

Efficacité professionnelle

Gestion et management

Emploi et carrières

Bourse et finance

Droit et juridique

Informatique

Voir tout

Esotérisme et paranormal

Alimentation et diététique

Forme et détente

Sexualité

Développement personnel

Beauté

Thérapies alternatives

Voir tout

Philosophie

Religions

Sciences humaines et sociales

Histoire

Medecine

Techniques

Sciences formelles

Science de la nature

Biographies

Géographie

Voir tout

Dictionnaires

Révisions

Ressources pédagogiques

Sciences de l’éducation

Manuels scolaires

Langues

Travaux de classe

Etudes supérieures

Maternelle et primaire

Fiches de lecture

Orientation scolaire

Méthodologie

Annales d’examens et concours

Voir tout

Voyages - guides

Bricolage et décoration

Animaux de compagnie

Humour

Sports

Jeux

Automobile

Cuisine et vins

Jardinage

Loisirs créatifs

Voir tout

Architecture et design

Musique

Cinéma

Photographie

Beaux-arts

Partitions de musique variée

Voir tout

Ecologie

Actualité, évènements

Essais

Politique

Débats et polémiques

Médias

Livres audio

Jeunesse

Littérature

Ressources professionnelles

Santé et bien-être

Savoirs

Education

Loisirs et hobbies

Art, musique et cinéma

Actualité et débat de société

Voir tout

Jeunesse - Pour les 6 - 12 ans

Univers ado - Pour les plus de 12 ans

Eveil - De 0 à 6 ans

Découverte

Voir tout

Jeune Adulte

Contes

Romans et nouvelles

Théâtre

SF et fantasy

Littérature sentimentale

Romans historiques

Classiques

Poésie

Récits de voyage

Témoignages et autobiographies

Romans policiers, polars, thrillers

Littérature érotique

Voir tout

Economie

Création d'entreprise

Marketing et communication

Efficacité professionnelle

Gestion et management

Emploi et carrières

Bourse et finance

Droit et juridique

Informatique

Voir tout

Esotérisme et paranormal

Alimentation et diététique

Forme et détente

Sexualité

Développement personnel

Beauté

Thérapies alternatives

Voir tout

Philosophie

Religions

Sciences humaines et sociales

Histoire

Medecine

Techniques

Sciences formelles

Science de la nature

Biographies

Voir tout

Ressources pédagogiques

Sciences de l’éducation

Langues

Etudes supérieures

Méthodologie

Voir tout

Voyages - guides

Bricolage et décoration

Animaux de compagnie

Humour

Sports

Jeux

Cuisine et vins

Jardinage

Loisirs créatifs

Voir tout

Architecture et design

Musique

Cinéma

Photographie

Beaux-arts

Voir tout

Actualité, évènements

Essais

Politique

Médias

Presse

Actualités

Lifestyle

Presse jeunesse

Presse professionnelle

Pratique

Presse sportive

Presse internationale

Culture & Médias

Voir tout

Hebdo

Magazines

Quotidiens

Voir tout

Déco

Cuisine

Mode de vie

Voyages et loisirs

Voir tout

Kids

Ado

Voir tout

Actualités éco

Presse spécialisée

Économies internationales

Voir tout

Féminin

Bien être

Famille

Consommation

Voir tout

Auto/Moto

Autres sports

Football

Sports hippiques

Voir tout

Tunisie

Maroc

RDC

Mali

Sénégal

Côte d'Ivoire

Cameroun

Burkina-Faso

UK

US

Voir tout

People & TV

Arts

Mode

Culture

Podcasts

Fictions

Développement personnel

Témoignages

Culture

Enfants

Enjeux de société

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

Voir tout

BD

BD Humoristique

Jeunesse

Action et Aventures

Science-fiction et Fantasy

Mangas

Société

Comics

BD adulte

Voir tout

Voir tout

Voir tout

Policiers & Thrillers

Aventure

Voir tout

Horreur

Fantastique

Medieval & Heroic Fantasy

Science-fiction

Voir tout

Voir tout

Biographies

Historique

Fiction

Documentaire

Voir tout

Voir tout

Documents

Jeunesse

Littérature

Ressources professionnelles

Santé et bien-être

Savoirs

Education

Loisirs et hobbies

Art, musique et cinéma

Actualité et débat de société

Voir tout

Jeunesse - Pour les 6 - 12 ans

Univers ado - Pour les plus de 12 ans

Eveil - De 0 à 6 ans

Découverte

Jeux et coloriages

Voir tout

Romans et nouvelles

Théâtre

SF et fantasy

Littérature sentimentale

Romans historiques

Classiques

Poésie

Récits de voyage

Témoignages et autobiographies

Romans policiers, polars, thrillers

Littérature érotique

Voir tout

Comptabilité

Fiscalité

Création d'entreprise

Marketing et communication

Efficacité professionnelle

Analyses et études sectorielles

Gestion et management

Emploi et carrières

Bourse et finance

Droit et juridique

Informatique

Voir tout

Alimentation et diététique

Forme et détente

Sexualité

Développement personnel

Beauté

Thérapies alternatives

Voir tout

Philosophie

Religions

Sciences humaines et sociales

Histoire

Medecine

Techniques

Sciences formelles

Science de la nature

Biographies

Géographie

Voir tout

Cours

Révisions

Ressources pédagogiques

Sciences de l’éducation

Manuels scolaires

Langues

Travaux de classe

Annales de BEP

Etudes supérieures

Maternelle et primaire

Fiches de lecture

Orientation scolaire

Méthodologie

Corrigés de devoir

Annales d’examens et concours

Annales du bac

Annales du brevet

Rapports de stage

Voir tout

Voyages - guides

Bricolage et décoration

Animaux de compagnie

Humour

Sports

Jeux

Généalogie

Automobile

Cuisine et vins

Jardinage

Loisirs créatifs

Voir tout

Architecture et design

Musique

Cinéma

Photographie

Beaux-arts

Partitions de musique romantique

Partitions de musique baroque

Partitions de musique classique

Partitions de musique de la renaissance

Partitions de musique variée

Partitions de musique moderne

Partitions du début des années vingt

Voir tout

Actualité, évènements

Essais

Politique

Débats et polémiques

Médias

Signaler un problème

YouScribe

Qui sommes-nous ?

L'application mobile

Questions fréquentes

La presse en parle

Livre Blanc 2024

Nous contacter

Le catalogue

Ebooks

Livres audio

Presse

Podcasts

BD

Documents

Scolaire

Thématiques

Le service

Découvrir les offres

Publier vos documents

Offres partenaires

Offres éditeurs

Vous avez un code privilège ?

Les conditions

Respect du droit d'auteur

Conditions générales d'utilisation

Conditions générales de vente

Charte de données personnelles

Mentions légales

Confidentialité

© 2010-2024 YouScribe

Livre audio en ligne - Développement personnel Livre en ligne Tout le catalogue Tous les Intérêts