//img.uscri.be/pth/57a1277b398fb500e76e6e42433ba5e6159eff87
Cette publication ne fait pas partie de la bibliothèque YouScribe
Elle est disponible uniquement à l'achat (la librairie de YouScribe)
Achetez pour : 14,99 € Lire un extrait

Lecture en ligne (cet ouvrage ne se télécharge pas)

XML pour les linguistes

De
196 pages
Quand on travaille en sciences-humaines et en littérature(s), penser la structure, c'est évidemment privilégier l'essentiel : l'identification facile des lieux de données et le partage avec le plus grand nombre des connaissances. XML et les technologies associées comme la programmation Xquery sont au coeur de cette problématique qui modifie considérablement le rapport du chercheur à son objet mais aussi à la Recherche elle-même. Cet essai se destine à tous ceux qui souhaitent se familiariser avec les notions de programmation de bases de données indispensables: XML, DTD, schéma XML, RELAX, SVG...
Voir plus Voir moins

Xavier-Laurent SALVADOR

XML POUR
LES LINGUISTES

Préface de Henri Portine

XML pour les linguistes

Collection « Humanités numériques »
dirigée par Julien Longhi

Les humanités numériques connaissent un développement
croissant, et deviennent un centre d’intérêt de plus en plus
important et partagé (par les chercheurs, mais aussi les
institutions, les politiques publiques, les professionnels de
l’éducation, etc.). Mais derrière cette dénomination, force est de
constater qu’une pluralité d’objets, de pratiques, de méthodes,
et d’objectifs, peuvent s’incarner. L’objectif de cette collection
« HumanitésNumériques »,est de proposer un espace capable
de se saisir des problématiques et travaux actuels sur le
renouvellement des humanités via le numérique, des dispositifs
techniques vis-à-vis de la transmission et la circulation des
connaissances, des différentes appréhensions du numérique, ou
encore de l’accès aux savoirs au regard de la médiation
symbolique, sémiotique, et technologique des nouveaux médias
et supports. Elle est donc un lieu de production de savoirs
transversal des stricts champs disciplinaires académiques, et
s’intéresse aux sciences du langage, à
l'informationcommunication, à la sociologie, aux sciences politiques, à
l'informatique, aux sciences de l’éducation, à la philosophie, à
l’anthropologie, etc... avec pour dénominateur commun le
croisement des humanités et du numérique.
La collection encourage donc la publication de
monographies, d’essais, d’ouvrages collectifs, d’actes de
journées ou de colloques, qui donneront à voir des recherches
ou pratiques originales dans l’appréhension des objets culturels,
textuels, politiques, sociaux, en lien avec leur appréhension,
diffusion, réception, numérique.

Agata JACKIEWICZ,
d’opinion, 2016.

Déjà parus

Études sur les discours évaluatifs et

Xavier-Laurent Salvador

XML pour les linguistes

Préface de Henri Portine
Professeur émérite - Université Bordeaux Montaigne

© L'HARM ATTAN, 2016
5-7, rue de l'École-Polytechnique, 75005 Paris
www.harmattan.fr
diffusion.harmattan@wanadoo.fr
ISBN : 978-2-343-09956-9
EAN : 9782343099569

XML pour les linguistes

à Sophie-Amandine et Pierre-Aurélien.

Je remercie Henri Portine pour le temps qu’il a
consacré à échanger avec moi et pour m’avoir
communiqué à cette occasion le goût du travail
acharné dans notre Linguistique qui ne fait pas
l’économie de penser le formel.

L’enthousiasme pour ladisputatiode Joël Eline et
Fabrice Issac et notre passion partagée pour les
enjeux technologiques en sciences humaines ont
donné du sens à ce travail en en infléchissant les
orientations. Qu’ils trouvent tous deux dans ces
lignes le témoignage de ma reconnaissance pour
ces débats, toujours stimulants.

Ce livre ne serait rien sans la participation de
ceux qui ont avec bienveillance concouru à son
élaboration: Laure et Florence Salvador, Ciara
Wigham et Loic Liégeois. Qu’ils trouvent ici
l’expression de ma sincère gratitude pour leur
relecture attentive et le soin qu’ils y ont apporté.

PRÉFACE

Xavier-LaurentSalvadornous proposeune introduction au
langageXML.Avantd’aborder quelques propriétés remarquablesde
cetouvrage, jevoudraisfaire deux remarques quantà la gageure
dont relève cetexte.Tousceux— oucelles—qui onteuà assurer
descours surXML àunpublic d’étudiant(e)sde SHS ontété
confronté(e)sà deux questions préalables:

(1) quelrapportinstaurerauxformalismesetà latechnicité?
(2)comment présenterlesfonctionnalitésd’XML entreson
objectif de catégorisation etcelui detraitementde l’information?

Lapremièrequestion ne concernepas qu’XML.Tout
enseignementde logique formellepourétudiantsen SHSse heurte à
cetobstacle.Faut-il d’embléeprésenterlesoutilsformelsdansleur
strictformalisme ou procéder par paliersallantd’une appréhension
partiellementintuitive à desénoncés purementformels (surceplan,
lescoursde logiquesont plusaisésà mettre enœuvrepuisqu’onpeut
1
passerde lathéorie desmodèlesà lathéorie de la démonstration) ?
Pourle langage XML, Xavier-LaurentSalvadora choisiunevoie
mixte : il l’inscritdans uneproblématique historique, l’édition etle
traitementdesdocuments, montrantau passageque la forme n’est
pas qu’un habillage maisaun impact surl’objetlui-même.Cette
façon astucieuse detraiterleproblème luipermetde mettre en
lumière comment, duvolumenaucodexmanuscrit, de ce dernierau
codeximprimépuisaunumérique, lesmêmes questionsdemeurent
toutensetransformant.

Lasecondequestion, celle desfonctionnalitésd’XML, estmoins
le lieud’un choix que celui d’un éclairage :pour traiter
l’information, il fautla catégoriser ;le geste de catégorisationporte
ainsi déjà en luiunepremière forme detraitementde l’information.
Il nes’agitdoncpasd’une antinomie maisde deux pointsdevue
différents surle langage XML, autrementditdeuxfaçonsde
l’aborder.Un élément, c’est-à-dire l’objetbalisé ou tagué,relève

1
Jevoudrais, à cepropos,rendre ici hommage à Jean-Blaise Grize(†2013).Si j’ai étudié la
logique formelle dansdifférentes universités, c’estavec lui, à Neuchâtel,que j’ai appris (a)à
m’interroger surlaréception d’un formalismepardesétudiants ; (b)àréfléchir surlesliens
entrepensée etlogique dansla continuité ducourantde déduction naturelle instaurépar
Gentzen.

9

d’une catégorie. Il faut alors distinguer catégorie et représentation
d’un élément dans cette classe d’objets que forme une catégorie.
TreeTaggerliste ainsi les « mots » d’un texte en les ramenant à leurs
lemmes (la forme du singulier pour un nom, par exemple). La
catégorisation est une problématique bien connue en linguistique (de
la catégorisation des « mots » à l’analogie structurale entre un
adjectif et une proposition relative, par exemple) et en psychologie
cognitive (le travail de catégorisation des objets du monde dans
l’ontogenèse). La documentation a, elle aussi, toujours été confrontée
à cette opération de catégorisation afin de répartir les objets des
manifestations du savoir et de l’art, de manière à ce qu’ils puissent
être recherchés efficacement dans une base de données. En sont
issues des standardisations comme leDublin Coreou la création de
langages spécifiques commeSGML, l’ancêtre d’XML(maisles
premiersmarkup languagesdatentde la fin desannées 1960).Si la
catégorisation estl’un desdeux pointsdevuesurXML, l’autre,
complémentaire, estletraitementde l’information.Traiterde
l’information, c’est sepencher surlesmodesdesa circulation et sur
l’économie deséchanges.On croise alorslesnotionsdetexte, de
« flux textuel », de discours, d’intertexte etdeliteracy(que l’OCDE
aproposé de franciser sousla formelittératie).Pour reprendre les
proposde Xavier-LaurentSalvador, ils’agitdetraiter« la masse
d’informationsaccessibles surles réseauxaujourd’hui ».Soit un
documentdonné, est-il la donnée deréférence?en extrait-on de la
donnée?a-t-on des« occurrencesde données»? relie-t-on des
donnéesissuesd’un documentà d’autresissuesd’autresdocuments ?
Les questions sontnombreusesetlaterminologie doitêtre
soigneusement précisée.Onremarqueraque Xavier-Laurent
Salvador s’attaque au problèmesouscetangle etle/la lecteur/lectrice
pourra constateravecquelle minutie il avancesurcettequestion de la
« donnée ».

*
* *

Toutaulong desontexte, maiscela n’étonnerapasceux qui le
connaissent, Xavier-LaurentSalvadorfait preuve d’un grandsavoir
lettréetmontrequ’il asualliercesavoiràunetechnicité acquise
avec la complicité de Fabrice Issac.On asouvent tendance,
aujourd’hui, à opposer,esprit de finesseetesprit de géométrie, en
entendantd’ailleurs paresprit de finesseun « espritde culture » et

1

0

paresprit de géométriela pensée formelle : les étudiants de Lettres et
SHSseraientallergiquesauxmathématiquesetlesétudiants
scientifiquesnes’embarrasseraient pasde culture.Pourtant,
géométrie etfinessesontdeuxexpressionsde lavérité car« les
espritsfauxnesontjamaisni finsni géomètres»(Pascal).Les
Humanitésnumériques (ouDigital Humanities)devraient réconcilier
espritde finesse etespritde géométrie dansnosformationsen
2
LettresetSHS.Certes, cette étiquette « Humanitésnumériques» est
encoreunpeufloue maisonperçoitbien aujourd’hui combienune
coupure entrepensée en LettresetSciencesditeshumaines, d’une
part, et pensée formelle, d’autrepart, esten faitartificielle etnepeut
avoir que deseffetsnéfastesàterme.Il convientdonc deréconcilier
leplus vitepossible nosétudiantsditslittéraires(dansle dialecte de
l’éducation à la française, LettresetSHS)avec lapensée formelle
considérée comme l’une desexpressionsde lapensée humaine.
Xavier-LaurentSalvador s’yemploie, maisil demande, commetous
ceux quipoursuiventcetobjectifunpeudepatience.J’aisouvent
remarqué, dansmescoursde logique oudansceux surle langage
XML, combien nosétudiantslittérairesétaientimpatientset
voulaientimmédiatement savoiroù ça allait.Ce faisant, ils
oubliaient souvent que letravail en LettresetSHS est souvent, aussi,
untravailpatientdereprise des textes, d’analyse etderéanalyse.
Maiscequi crée chezeuxcette impatience, cesontles siglesetil
faut reconnaîtrequ’XML n’en est pasavare.Pourtant, lesconcepts
en LettresetSHSsontloin d’êtretous transparents.Cequi effraie
peut-être nosétudiants, c’estle fait que le nom d’un concept
scientifiquerenvoietoujoursàune appréhensionspontanée,sonsens
quotidien(saufquand on donneun nouveau« mot» comme
«vecteur» auxcollégiens), même lorsque celui-ci estéloigné du
concept scientifique enquestion, cequiva donc nécessiter unpatient
travail d’exploration afin devéritablementconstruire le concept
scientifique.J’ai ainsipu testercommentlesdifficultésd’élèvesde

2
Cette opposition a d’ailleursdonné lieuà desépisodesdisons unpeuétrangeslorsde la
division des universités uniquesd’une Académie(cequi étaitlarègle avant 1968),souventen
trois universités (LettresetSHS, Sciences, DroitetEconomie): de nombreuxgéographes se
réfugiantdansles universités scientifiques pournepasêtrepris pourdeslittéraires, les
linguistes tenantà êtresoigneusementdistinguésdes philologuesetgrammairiens, etc.Ce n’est
qu’à Paris (intra- etextramuros) que la coupure entreizeuniversitésapermisdes
rapprochementsetdes pontagescomme à Paris 7età Paris 13 parexemple.Cesépisodesont
bien montré combienune coupureradicale entre LettresetSHS, d’unepart, etSciences,
d’autrepart, estartificielle malgrésesalluresde(gros)bonsens.

11

cinquième confrontés à l’étude d’un pendule relevaient plus d’une
question de langage que de difficulté des concepts.

*
* *

Nous sommesainsi aujourd’hui dans unepériode detransition et
c’estl’un desméritesde cetouvrage de le montrer.Mais
commençons parl’appréhensionspontanée de cettetransition.A la
fois, le numériquesemble(a)être incontournablesocialement (notre
signature, lepaiementde nosimpôts, etc.,toutdoit se faireparla
voie numérique, dans un grand fantasme d’économie etdans une
pertepresqueradicale de la notion de «servicepublic »quisuppose
unerelation humainepossible),(b)favoriserl’autonomiespatiale et
temporelle(dansletélétravail, dansl’apprentissage, dansles
activités quotidiennescomme louer un appartement, ou
professionnellesdansce mouvement qu’on nommeparfois
l’ubérisation de la société),(c)développerde nouvellesformesde
« communautés»(Facebook®,Linkedin®,Youtube®,Twitter®,
Periscope®, etc.)àvrai diretrèsdiversifiéeset porteusesdevaleurs
chezlesjeunes (ringard,top, etc.), cescommunautés pouvant
exprimer une certainepuissance(Facebook®appartientauxfameux
GAFA), l’envie d’êtrevu(e) (Youtube®,Periscope®)oud’être
suivi(e) (Twitter®,Periscope®).Arrêtons-nous un instant surces
«réseaux sociaux» : ilsdéveloppentdes visions particulièresde la
notion de « communautésociale »quipeuventêtre à l’opposé de ce
que l’on appelle «socialisation » dansle cadre desmissionsde
l’école.Signature électronique,ubérisation, GAFA formentle
contexte journalistique(etéconomique)de latransitionversle
numérique etXavier-LaurentSalvadornousfournit uneréflexionsur
cettetransitionqui nous permetdeprendre du reculpar rapportà ce
contexte journalistique : cepassage aunumérique affecte notre
comportementde chercheurnonpasdans unerévolution maisdans
lareconfiguration dequestions, etcela
estessentiel.Unpied-demouche(pilcrowen anglais),représentépar«¶»surnosécrans
(héritage d’un « c » doublementbarré),peut permettre :(a)de gagner
de laplacequand leparchemin oulepapierest rare oucoûtetrès
cher,(b)de baliserles titresetles paragraphes,(c)ouêtre absent
lorsqu’il est remplacépar unretourà la lignesur un manuscrit.On
trouvera chezXavier-LaurentSalvador plusieursexemplesbeaucoup
plusintéressants que le minuscule échantillonque jeviensde donner.

1

2

A celas’ajoute laquestion de la glose;je laisse aulecteurlesoin de
la découvrirdansles pages quisuivent.

*
* *

Qui dit« XMLpourlinguistes» ditaussicorpus.Les publications
surcetteproblématique, loin d’êtresimple,sontextrêmement
nombreusesetXavier-LaurentSalvador saitl’aborderàsa juste
mesure.Ilsaitaussi aborderdes questions quipeuvent passer pour
périphériquesmais qui fournissentaulecteur unpaysage complet:
cequ’estle codage ASCII, lepassage de l’ASCII à l’Unicode, les
codagesUTF 8 et 16, lesontologies, etc.
Cequiprécède montre lesoucique Xavier-LaurentSalvadora de
son lecteur.On letrouve aussi danslerecoursà desencadrés qui
permettentdesynthétiserouderepérerles points surlesquelsilserait
bon derevenir, derelirepourmieux s’enpénétrer.

*
* *

Aujourd’hui, nous sommes souventconfrontés soità des
ouvragespour les nuls(oufor dummies) qui commencentlentement
puisaccélèrent perdantalorsleurslecteursnovices (le débutayant
fatigué le lecteurdéjà expert),soità desouvrages uniquement
destinésà deslecteursexperts.Xavier-LaurentSalvadorasu
construireun ouvragequi évite cesdeuxécueils.Bien évidemment,
cela comportequelquesexigences:unvraitexte en effetnese lit pas
commeun hebdomadaire dansle métro oudansl’autobus ;il doit
être mâché et parfois remâché.C’està cette activitéque nous
convionsle lecteur.Il neperdrapas sontemps.

1

3

Henri PORTINE
Professeurémérite
Université BordeauxMontaigne

OÙ SE TROUVE LA DONNÉE? CARACTÈRES,
OCTETS,BITS

Le présent ouvrage souhaiterait affronter la question du
formalisme des données du point de vue d’un chercheur en
HumanitésNumériques quis’intéresse à la langue, afin depréciser
un ensemble depointsliésà lapratique de larecherche ensciences
humaineset permettrepeutêtre à l’étudiant qui chercheraitdes
ressources pourcomprendre d’identifierfacilement quelquesnotions
clésde la mise en forme de cesdeux pansessentielsde larecherche
3
quesontd’un côté lecorpus*etde l’autre, laressource*.

Danscettepartie,tout particulièrement, jesouhaiteraisaborderla
question de la matérialité dudocumentnumériquequiprécède la
mise en forme de l’informationtextuelle.Qu’est-cequ’un document
numérique?Où setrouve la donnée dansle monde numérique?

Plusencoreque la maîtrise d’un ensemble de notionscomme la
sérialisation*, le format*, letexte, le document, dontcetouvrage ne
prétendpasdonnerle mode d’emploi exhaustif, ils’agitde construire
unepasserelle entre la lecture de ce manuel etla masse
d’informationsaccessibles surles réseauxaujourd’hui en fournissant
une forme de hiérarchie desinformations quipermette desituer
XMLpar rapportauformatde fichier;la DTD ouleschémapar
rapportà XML;SVG, GraphML*par rapportà la DTD;la TEIpar
rapportà XML età la DTD;RDFpar rapportaux ressources
accessibles surle WEB;XQueryenfinpar rapportà SPARQL,
MySqlvoire PHPpour peu que l’on fasse l’effortdese formerà la
philosophie REST;lesconcordanciers par rapportà la
programmation d’un KWAC*.

Beaucoupdetermes techniques quipeuvent parfois rebuter, mais
quipeuvent toutaussi bien exercer une fascinationsurchacun de
nousaumomentoù se fait sentirleventd’une époque nouvelle.
Certainsferont sansdoute le constat qu’ils« faisaientdéjà du
numériquesanslesavoir».Tantmieux.Peutêtre auront-ils trouvé là
lesmots qui leur permettrontde construire laproblématique afférente
à leur pratique.Enfin, jesouhaiteraisillustrerces travaux,souvent

3
Lesmotsdulexiquesont signalés parl’astérisque.

1

5

pratiques, par des exemples très concrets de programmation afin
qu’il soit clair qu’aujourd’hui un chercheur enHumanitésnepeut
pasfaire l’économie depenserla forme en mêmetemps que le fond;
leproduiten mêmetemps que lepublic;l’information et son lieu;la
donnée et sa diffusion.Le lecteur trouvera égalementlesélémentsde
mise enplace de différents projetsauxquelsil m’a étépermisde
contribuerafin dese faireune idée des perspectives quise dessinent
autourde cesnotions.C’estenparticipantintimementau
développementde cesobjetsnumériques que j’aiprisconscience de
la nécessité de diffuserdesélémentsde culture auprèsdes publics
spécialisés.Sansdoute existe-t-il d’autres projets, etle jeune
chercheuraura l’occasionparlui-même de découvrirle monde infini
desexploitationsdes technologiesde l’édition numérique:pourma
part, je ne lesenvisagequ’au prisme de mapropre expertise.Un
lexique,situé en fin d’ouvrage, et quiseprésente commeun
complémentdidactique,servira de fil d’Ariane à l’écriture.

Pourintroduire à la lecture de cette description d’un étatdeslieux
dunumériquepourle chercheur textuel, j’ajouterais simplement qu’il
estfondamental aujourd’hui d’adhérerauconstatexpriméparMilad
Doueihi lorsquepartantdes troishumanismesdéfinis parClaude
Lévi-Strauss:

L’humanisme aristocratique de la Renaissance, ancré dansla
découverte des textesde l’Antiquité classique;l’humanisme
bourgeoisde l’exotisme, associé à la découverte desculturesde
l’Orientetde l’Extrême-Orient ;enfin, l’humanisme démocratique
duXXesiècle, celui de l’anthropologue,qui faitappel à latotalité
4
desactivitésdes sociétéshumaines .

Il ajoutequ’il existeun «quatrième humanisme », nourri du
plasma numériquequi està la foisla condition d’existence etle
moyen de diffusion desesidées.

Danscetouvrage,quiseveut un essai et un manuel, je
proposerais unparcours qui,partantde ceque chacun doitavoir
éprouvé, emmèneraversleplusdifficile.Jeprésenteraisdans un
premier tempsla matière même du plasme numérique, de l’octetau
caractèrepuisj’étendrai cette description dufichierauformat
d’encodagepouraborderlaquestion dulieude la donnée etles

4
Cité d’aprèsDOUEIHI, M. (2011),pp. 34-35.

1

6

moyens d’y répondre grâce à la technologieXML.Partantduconstat
qu’il est possible detravailler surle marquage desadressesde la
donnée dans un flux textuel, j’étendrai cette description au
conventionsd’adressage en fonction des typesde documents,
d’XPath à RDF.En axantma démonstration autourd’XQuery, je
proposerai ensuite desexemplesdeprogrammationtournés versle
problème desconcordanciers puisje clôturerai cettepromenade « à
sautsetà gambades»parla démonstration de l’exploitation de ces
outilsdansdifférentesapplicationslinguistiques.

1.1. IMAGES,TEXTES,SONS:
REPRÉSENTATION(S)NUMÉRIQUE(S)

Il fautaujourd’hui affronterlaquestion de l’accèsà l’information.
C’est unequestionrécurrente dontlasociété civiles’estemparée
depuisbien longtemps, faisantémergerdes réponsesadaptéesà la
société contemporaine occidentale développées pardesentrepreneurs
n’ayant pashésité àtrancherlaquestion du sens parle biais
d’artificesdontnos sociétés sontdevenueslesclientes.Pournepas
lesnommer, lesGAFA(Google, Apple, Facebook, Amazon)ont
proposé des réponsesefficacesappuyées surlapuissance des
calculateursenperpétuelle amélioration, le développement parle
génie civil d’infrastructuresde communicationuniformément
déployées surles territoiresau prix parfoisd’accordsétonnantsavec
desfabricantsétrangersaudétrimentd’entreprisesnationalesetla
popularisation determinaux, appareils simplesetembarqués
uniquementdestinésà fourniret recevoirde l’information àson
u ti l isateu r .C et te
démocratisation galopante
desappareils terminauxde
connexion,qu’ils soient
ditsdetéléphonie mobile
oude calculsà bascoût, a
permisla circulationpuisla
production d’informations
sotu sou tesf orm es
documentairesarchivéeset
classéesautomatiquement
1- Représentation hexanumérique d’unevidéo
pardesarpenteurs qui en
ordonnentla collection.

1

7

Cettesituation se stabilise progressivement, ayant affiné des
comportements de questionnements et de réponses qui commencent
à faire irruption dans la gestion des familles et des systèmes
embarqués pour les populations. Il s’agit d’aide à la navigation, à la
vie courante pour les personnes en situation de mobilité réduite ou de
faible constitution, de mémoires automatiques ou d’archivages de
données personnelles, qu’il s’agisse des codes secrets d’accès aux
banques jusqu’aux données biométriques les plus fines (activité
cardiaque, rythme biomécanique).

Cet accroissement de l’information laisse présager de nouvelles
évolutions extrêmement importantes des relations étroites qui uniront
progressivement la vie biologique et son assistance mécanique par le
biais de la circulation permanente d’un « plasma numérique », qui
pourrait être à l’humanité numérique de ce soir ce que le plasma
génétique était aux généticiens des années 1950. Le plasma
numérique est l’existence, au côté du biologique, d’un recueil
permanent d’informations accessibles, transformées et codées pour
être assimilées par le client terminal. Il se manifeste par la
consultation de fichiers*textes, de documents sonoresou
vidéographiques perceptibles requis pour être questionnés.

5
La logique documentairequi soutient la persistance de ce plasma
n’est pas éloignée du prêt documentaire des archives et bibliothèques
que nous connaissions autrefois.A cette différenceprès: lorsque nous
nous rendions dans une bibliothèque, voire une médiathèque,
municipale, nous savions où setrouvaitl’information et parlà même,
où setrouvaitla donnéeque nous recherchionsetdontnousnous
représentionsla formesans savoiràproprement parlerdequoi il
s’agissait. Autrement dit, nous savions que la donnéeque nous
recherchionsétait une ligne,unepage,typographiée dontl’existence
supposée étaitliée, nousen étionsconscients, àun minutieux travail
d’auteur puisd’édition, de corrections successives, ayantabouti en

5
L'informatique documentaire estapparue dès que l'on a euconscienceque lesordinateurs
étaientcapablesdetraiterdeschaînesde caractères*(etdonc des suitesde lettresconstituant
des mots).Demanière générale, il existe une excellente bibliographie sur le sujet :FONDIN H.
etal. (1991)Bibliographie sur l'informatique documentaire :outils,méthodes,applications,
Centre de documentation de l’École internationale de Bordeaux.Surlesujetde la donnée,voir
Jacquemin C., Zweigenbaum P.(2000), « Traitementautomatique deslangues pourl'accèsau
contenudesdocuments»,Le document en sciences du traitement de l'information, Le Maitre
J., CharletJ.& GarbayC.(éd.), chapitrequatrième,p. 71-109.Toulouse : Cépadues ;;
SALTON G. (1989)Automatic Text Processing:The Transformation,Analysis,and Retrieval
of Information by Computer, Massachusetts, USA : Addison-WesleyPublishing Company.

1

8