//img.uscri.be/pth/6dc07fc08438dfb04b076b3caac87ff87dcdf88a
La lecture en ligne est gratuite
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
Télécharger Lire

THÈSE

De
219 pages

N° d’ordr e : 2007telb0062
THÈSE
Présentée à
l’ECOLE N AT IONAL E SU PERIEURE DES
TELECOMMNUN ICATI ONS DE BRETAGNE
en habilitation conjointe ave c l’Université de Bretagne Sud
pour obtenir le grade de
DOCTEUR de l’ENST Bret agne
Mention « Les M athématiques et leurs Int eractions »
par
Christian MAUC ERI
« Indexation et isotopie : vers une analyse interpréta tive des données textuelles »
Soutenue le 14 D écembre 2007 d evant la Co mm ission d’Examen :
Composition du Jury
- Rapp orteurs : François RASTIER, Directeur de recherche, CNRS
Mo nique SLODZIAN, Professeur, INALCO
- Examinate urs : Diem HO, I BM Acade my of T echnology, IBM Europe
Ioannis K ANELLOS, Professeur, ENST Bretagne
Philippe LENCA, Maître de conférence, ENST Bretagne
Pierre-François M ARTEAU, Directeur du V ALORIA, Université de Bretagne Sud
1
Remerciements
La première personne à qui je voudrais exprimer ma gratitude est mon épouse Anne qui
m'a supporté sans jama is faill ir lors de ces quatre dernière s ann ées consacrées à cette
entreprise exigeante qu'est la réd action d'une thèse pour une personne salariée. Je voudrais
aussi, pour les mê mes raisons remercier mes filles Laure et Camille qui ont eu la
gentillesse de comprendre que leur pèr e ne soit pas au ssi disponible qu'il au rait du l'être
durant cette même période. Cette thèse leur e st dédiée.
Je voudrais remercier Ioan nis Kanellos, mon ...
Voir plus Voir moins
N° d’ordr e : 2007telb0062 THÈSE Présentée à l’ECOLE N AT IONAL E SU PERIEURE DES TELECOMMNUN ICATI ONS DE BRETAGNE en habilitation conjointe ave c l’Université de Bretagne Sud pour obtenir le grade de DOCTEUR de l’ENST Bret agne Mention « Les M athématiques et leurs Int eractions » par Christian MAUC ERI « Indexation et isotopie : vers une analyse interpréta tive des données textuelles » Soutenue le 14 D écembre 2007 d evant la Co mm ission d’Examen : Composition du Jury - Rapp orteurs : François RASTIER, Directeur de recherche, CNRS Mo nique SLODZIAN, Professeur, INALCO - Examinate urs : Diem HO, I BM Acade my of T echnology, IBM Europe Ioannis K ANELLOS, Professeur, ENST Bretagne Philippe LENCA, Maître de conférence, ENST Bretagne Pierre-François M ARTEAU, Directeur du V ALORIA, Université de Bretagne Sud 1 Remerciements La première personne à qui je voudrais exprimer ma gratitude est mon épouse Anne qui m'a supporté sans jama is faill ir lors de ces quatre dernière s ann ées consacrées à cette entreprise exigeante qu'est la réd action d'une thèse pour une personne salariée. Je voudrais aussi, pour les mê mes raisons remercier mes filles Laure et Camille qui ont eu la gentillesse de comprendre que leur pèr e ne soit pas au ssi disponible qu'il au rait du l'être durant cette même période. Cette thèse leur e st dédiée. Je voudrais remercier Ioan nis Kanellos, mon directeur de thèse, pour ses conseils avisés, sa patience, son ouverture d 'esprit et sa g rande g énéro sité. Je suis conscient de l'honneur que M onsieur Rastier et M adame Slodzian m'ont fait en acceptant d'être mes rapporteurs. D e façon générale je s ouhaite adresser mes remerciements aux membres du jury – donc outre les personnes déjà citées, Messieurs Ho, Lenca et Marteau. Je suis particulièrement redevable à Diem Ho pour les innombrables heures passées ensemble sur des projets difficiles, loin de chez nous et pour les longues conversations que nous avons si souvent tenues sur la classification auto matique et l'interprétation des données. Une g rande pa rtie des idées de c ette thèse sont nées là. Je voudrais enfin, remercier la compagnie IBM qui m'a offert des moyens modernes de travail permettant de gérer mon temps au mieux pour concilier deux activités souvent antag oniques. 2 Table des m atières 1 In troduction.................................................................................................................................... 5 2 Agrégation de similarités et interpréta tion................................................................................... 11 2.1 Agrégation des s imilarités......................................................................................................................... 13 2.2 Le problè me de l’interprétation en analyse des données ........................................................................... 16 2.3 Un projet d’a nalyse in terprétative des données ......................................................................................... 25 2.4 Le codage comme méd iat ion avec le réel.................................................................................................. 28 2.5 La similarité comme critère d’identification des parties 30 2.6 L’analyse des données co mme système de progr ammation .................................................................... 33 3 In dexation et sémantiqu e interprétat ive........................................................................................ 37 3.1 L’indexa tion sujet aujourd’h ui.................................................................................................................. 37 3.2 L’hégémonie on tologique vouée au x gémonies 41 3.3 L’épiphanie de la sé mantique interprétative des te xtes............................................................................. 43 4 Is otopie et statistiqu es contextuel les............................................................................................ 51 4.1 Motivat ions................................................................................................................................................ 51 4.2 Modèle vectoriel et séman tique late nte..................................................................................................... 55 4.3 De la s ignificatio n des cooccurrences de mots dans la description des mots eu x-mê mes......................... 59 4.4 Classes de pas sages, moléc ules sémiques et iso topies.............................................................................. 74 4.5 Ana lyse d’une partitio n de passages .......................................................................................................... 81 4.6 Classification des documents en fo nction des i sotopies............................................................................ 86 4.7 Inte rrogation et clas sificateur .................................................................................................................... 92 5 Applicati on95 5.1 Aziyadé 95 5.2 Prétraitements............................................................................................................................................ 96 5.3 Ana lyse 97 5.3.1 Classe 'Loti', 274 passages, numéro 0............................................................................... 101 5.3.2 Classe 'minarets', 189 passages, numéro 3........................................................................ 103 Classe 'sens', 163 4....................................................................................... 105 5.3.3 Classe 'Eyo ub', 130numéro 9........................................................................... 107 5.3.4 Classe 'vieille', 126 passages, numéro 7............................................................................ 112 5.3.5 Classe 'dév ouement', 85 passages, numéro 5.................................................................... 121 5.3.6 Classe 'M idhat- pacha ', 72 passages, numéro 6. ................................................................ 123 5.3.7 Classe 'yeux', 69 2................................................................................ 125 5.3.8 Classe 'horreur' , 54 passages, numéro 8. 127 5.3.9 Classe 'LOTI', 18 passages, numéro 1.............................................................................. 129 5.4 Classification par isotopies...................................................................................................................... 130 5.4.1 Classe 'Loti', taille 79, numéro 3 131 5.4.2 Classe 'minarets', taille 40, numéro 0 133 5.4.3 Classe 'sens', taille 21, numéro 2 ..................................................................................... 136 5.4.4 Classe 'Eyo ub', 9, numéro 1 .................................................................................... 140 5.4.5 Classe 'vieille', taille 4, numéro 4 142 5.4.6 Classe 'dév ouement', taille 1, numéro 5 ........................................................................... 143 5.5 Discussion............................................................................................................................................... 144 6 Pour une plateform e de philologie numériqu e............................................................................ 147 6.1 Théorie 147 6.2 Stratégie148 6.3 Économie150 6.4 Architecture............................................................................................................................................. 152 6.4.1 Eclipse comme plateform e de philologie numérique........................................................ 153 6.4.2 Anatomi e d'un plu g-in...................................................................................................... 155 6.4.3 SWT et JFace................................................................................................................... 159 6.4.4 EMF 162 6.4.5 UIMA 163 6.4.6 Une premiè re expérimenta tion......................................................................................... 169 3 7 Conclusio n171 8 Annexe A 177 9 In dex des figures........................................................................................................................ 213 10 Bibliographie............................................................................................................................ 215 4 1 Introduction 1 Introduction 1Dans une lettre à Atticus Cicéron demande à son ami de lui envoyer deux copistes afin qu’ils collent sur ses livres des sillybi: de fine s bandes de parchemin portant le titre et parfois les auteur s des ouvrages sur lesquels ils étaient apposés. L’index, le sillybi, est né de la nécessité pratique de retrouver un rouleau de parchemin, un volumen, dans une bibl iothèque. Ce sont les Gr ecs qui systématisen t l’index et le catalogue. Callimaque déc rit le contenu de la biblio thèque d’Alexandrie dans des tables, les pinakes, qui suivent un classement par catégorie et par genre. Très tôt, donc, le contenu des bibl iothèques est or ganisé afin d’en faciliter l’accès : le premier livre de l’ « Histoire Naturelle » de Pline l’Ancien est une immense table des matières dé crivant de façon détaillée les trente six autres volu mes. Le volumen est un livre qui se dé roule, il ne se prête pas au repérage mêm e si certains signes typographiques arrivés jusqu’à nous en facilite la lecture : la manicule 2 désigne les parties importantes du texte, le pied de mouche ¶ sépare les parties du 3 texte. Le codex s’impose à partir du premier siècle , il facilite le feuilletage, la comparaison de différents passa ges du texte, il introduit la notion de page nécessaire aux progrès ultérieurs du livre. La prédication et l’exégè se de la Bible aux XIe et XIIe siècles motivent la création de nouveaux outils destinés à trouver rapidemen t « stati m invenire » les textes que l’on cherche : les recueils d’exempla, les concordances et les recueils de distinctiones en sont les représentants les plus marquants. Les exempla sont des anecdotes édifiantes destinées à aider les prédicateurs à rédi ger leurs sermons, elles sont organisées en rubriques classées par ordre alphabétique. Les rubriques peuvent apparaître dans le corps du texte, des manicules en indiquent le début. Les concordances sont des index alphabétiques dont chaque mot est accompagné des phrases dans lesquelles il appa raît. Les recueils de distinctiones sont des dictionnaires d’interprétations spirituel les donnant pour chaque mot important des exemples d’emploi. Le M oyen Age apparaît donc comme une période féconde qui révolutionne l’indexation et dont les préoc cupations herméneutiques ont un écho dans le monde documentaire contemporain. 1 Escla ves de bibliothèque. 2 Si la ma in sort d’u ne ma nche on l’appelle manchette et par extension la note qu ’elle désigne 3 Dés le I Ie siècle tous le s ma nuscrits de la Bible sont des codex 5 1 Introduction Paradoxalem ent, les débuts de l’imprimerie n’appo rtent pas d’innovat ion majeure dans la pratique de l’indexation. C’est le livre en tant que support qui est considéré plus que son contenu, il acquiert dé s le XVe siècle sa forme actuelle. L’uniform isat ion des exempla ires d’un mêm e ouvrage permet à des communautés distantes de lecteurs de se référe r aux mê mes pa rties d’un livre et de généraliser l’usage de la référence bibliographique. A la fin du XVIIe siècle la fiche de biblio thèque s’impose dans la constitut ion des catalogu es, elle permet des renvois multiples et démultiplie les accès. Entre 1874 et 1876 Melvil Dewey invente une méthode de classification qui entend organiser la total ité du savoir en dix classes, chacune d’elles divisées en dix sous -classes elles-mêmes divisées en dix et ainsi de suite. Au développement des sciences et techniques à la fin du XIXe siècle et au début du XX e cor respond un accroissement considérable du nombre des biblio thèques et plus particulièrement des bibliothèques scientifiques. Les pratiques se standardisent, les supports se modernisent et la profession de documental iste se structure. Sous l’impulsion d’Eugen Wüster la terminologie s’af firme comm e une discipline autono me qui veut 4s’affranchir de la linguistique et en tout ca s de la lan gue. Il est difficile de dire quelles sont les invent ions qui resteront attachées au XXe siècle tant il fut fécond, il n’est cependant pas douteux que l’ordinateur vienne en tête : en un demi- siècle il s’est imposé partout, il n’est pour ainsi dire plus d’activités qui n’en dépendent. Le texte ne peut échapper à cette révolution. La digitalisa tion, sans supprimer les livres et les 5journaux, permet d’af fran chir le texte du support papier : des collections que n’aurait pu accu eillir une bibl iothèque municipale autre fois peuvent être aujou rd’hui contenues dans un ordinateur individuel. Au delà des capacités de stockage d’une machine isolée, c’est l’accès pa r le Web à un espace textuel virtuellement illimité qui est dé sormais possible. C’est un lieu comm un de comparer la bibl iothèque de Babel de Jorge Luis Bor ges au Web, 6mais le parallèle s’impose jusqu e dans l’absurde : on y trouve tout et n’importe quoi. Quels sont les outils et les méthodes d’indexat ion disponibles pour relever le dé fi que pose cette démesure ? Traditionne llement, indexer un document consiste à le dé crire à l’aide de mots-clés significat ifs, les termes. La terminologie est traversé e pa r un fort courant positiviste issu du 4 Eugen Wü ster, espéranti ste convaincu, aspire à une plus grande compréhe nsion entre les peuples, par une approche qu i privilégie le concept sur le term e il pense œu vrer pour un e in ternatio nali sation de la sc ience. 5 Qui resten t les s upports privilégiés pour la lect ure. 6 Cf. « la na ture inform e et chaotiq ue de presque tous les livres. » de la bibliothèq ue de Babel. [Bor ges 1944] « La biblioteca de Ba bel » 6 1 Introduction cercle de Vienne (Eu gen Wüster), influant profondément su r la pratique de l’indexa tion. Ce courant fige le terme dans une théorie de la signification supposant que le sens est indépendant du contexte. Il est pourtant patent que le terme ne s’interprète que contextuellement. Il convient donc de le redéfinir dans un cadre interprétatif en le situant dans une synta gmatique qui étudie son rapport au texte (Rastier, « Le terme : entre ontologie et linguistique » [Rastier 2001a]). Par exemple, le terme peut être vu comme un thème c'est-à-dire une isotopie générique, la récu rrence syntagmat ique d’un sème générique. L’isotopie se manifeste par la cooccurrence, dans un texte, d’unités lexicales parta geant un mê me sème. Le lieu de cette cooccurrence peut être toute pa rtie du texte, voire le texte entier. Quel est donc le cadre d’une indexat ion par des termes ainsi définis et en particulier quel peut être son support informatique ? La détection d’une isotopie est le résulta t d’une interprétat ion. Contrairement à l’approche componentielle, les isotopies pré cèdent et dé finissent le sème qui les caractérise. Elles sont attendues par le lecteur et assu rent la cohé rence de l’énoncé. En ce sens, le sème ne relève que de l’esprit, de l’humain, la machine ne manipule que des chaînes de cara ctères, des signifiants. Les processus d’identificat ion des isotopies s’en trouvent allégés et clarifiés. Allé gés en ce sens qu’il n’est pa s nécessaire de mainten ir des dictionna ires de sèmes : seuls les ensembles d’unités lexicales cooccurrentes sont nécessaires. Clarifiés en ce sens que la machine ne peut qu e propose r des cooccurrences à son uti lisateur, en aucun c as elle ne p roduit du sens. La principale raison d’être de l’indexat ion est de retrouver efficacemen t un texte parmi d’autre s. Lor s d’une indexat ion on ne considère pas un texte isolé mais un ensemble de textes. Cela pose la question de savoir comm ent collectivement les termes opposent ou rapp rochent les textes qu’ils indexent. La qualifica tion de cooccurrences au rang de cor rélats supportant un terme suppose que ce dernier est l’expression d’une isotopie. Les cooccurrences susceptibles de participer au rapprochement de plusieurs textes sont donc d’un intérêt particulier. Nous voyons don c se pr éciser une méthode d’indexa tion par isotopie : • Recherche de cooc currences, • Qualifica tion de ces cooccurrences au rang de cor rélats sur la base de leur cap acité à rapprocher des textes. Ainsi, nous partons du postulat que le sens est l’apana ge de l’esprit : la machine ne permet qu’une accélération de certaines tâches reproductibles, mécaniques. Parm i ces tâches le 7 1 Introduction repérage de chaînes de caractères dans un texte électronique est notable, à tel point qu’une forme d’indexation consiste à indexer un texte par les mots qu’il contient. Une telle indexa tion manque tout à la fois de pré cision et de robustesse. M anque de précision car certains index sont trop fréquents, manque de robustesse car seuls les textes contenant les termes d’une requête peuvent êtr e retrouvés. A l’opposé l’indexa tion documentaire traditionnelle est précise et robuste mais elle est lente et peut difficilem ent être auto matisée. Elle souffre en outre d’un problè me de consistance, en effet, deux indexa tions différentes d’un mê me document ne comptent, en moyenne, que 30% à 40% de termes communs (voir pa r exemple « Indexing consistency in ME DLINE » [Funk et al. 1983]). Ceci nous rappelle que la lecture et la compréhension d’un texte sont un acte hautemen t subjectif qui varie d’un individu à l’autre ou mêm e d’un moment à l’autre de la vie d’une personne. Aussi est-il important de permettre à une seule personne d’indexer un gran d nombre de textes dans un laps de temps aussi court que possible. Les directives de la norme ISO 5963 [ ISO 1985] spécifient que l’indexa tion comprend trois étapes : 1. l’examen du do cument et l’établissem ent de s on sujet, 2. l’identificati on des p rincipau x concepts pr ésents dans le sujet, 3. l’expression de c es concepts dans les termes du lang age d’indexa tion. La première phase est lente. Les rédacteurs de la norme précisent d’ailleurs les parties du document qui doivent êtr e lues : le titre, le résumé, la table des matières, les premiers paragraphes, les il lustrat ions ainsi que les mots ou g ro upes de mots soulignés ou éc rits dans une typog raphie inhabituel le. Lors de la seconde pha se, l’indexeur identifie les concepts, il ne doit utiliser que les notes prises lors de la première pha se sans revenir au document. Il est par ailleurs indiqué que l’indexeur doit êtr e aidé par des directives et listes de contrôles éditées par l’organis me en charge du fond s documen taire. Dans la troisièm e phase l’indexeur doit vé rifier que les concepts pré cédem ment identifiés existent dans le lan gage d’indexat ion et les traduire en termes préfé rés. Si certains concepts n’existen t pa s il doit chercher de nouveaux termes dans des dictionnaires, des encyclopédies ou d ’autres listes d’autorités. Plusieurs critiques viennent à l’esprit à propos de ce modè le. Il ne tient pas compte de ce qui distingue les textes les uns des autres et de ce qui les rapproche : le texte est isolé du fonds auquel il appa rtient. Il se réfère à une notion de concept qui aurait un sens en dehors 8 1 Introduction des textes qu’il est supposé déc rire : il est en particulier significatif que l’identificat ion des concepts se fasse à partir de notes de lectures. D’une façon générale, le texte comm e les termes qui le déc rivent sont extraits de leurs contextes. Le présupposé à l’origine de cette approche ontologique est que le terme se définit au travers du triangle sémio tique. Dans la tradition Aristotélicienne le concept met en relation le mot et la chose (le concept, le mot et la chose sont les trois sommets du triangle), et bien sûr, les concepts pas plus que les choses ne varient selon les lan gues : il est ainsi précisé dans la norme que les notions ne sont pas liées aux lan gues individuelles. Cette app roche est en totale opposition avec la linguistique de Saussur e qui cherche précisémen t à s’affranchir de la référence. La question est de savoir comm ent une appro che linguistique de l’inde xation permet trait d’atteindre des niveaux de rapidité et de consistance satisfaisants tout en prése rvant un niveau de précision et de robustesse a cceptable. La recherche d’un e inde xation consistante n’est pas la recherche d’une indexa tion objective mais celle de l'interprétation consistante d’un ensemble cohér ent de textes. Ceci amène naturelle ment à la notion de corpus initia lement définie par la philologie et l’herméneutique. Un corpus est structuré en fonction d’une typologie des textes qui le composent, pa r l’identificati on des relations qu’ils entretiennent et par les utilisat ions qui en sont faites. L’indexation d’un corpus ou tout du moins de certaines de ses parties remarquables est une alternative à l’indexa tion traditionnelle. Par indexat ion d’un corpus il faut entendre une indexat ion qui prend en compte la déterm inat ion du local pa r le global, une indexat ion où la description d’un texte dépend du corpus auquel il appartient (un mê me texte pouvant bien sû r appa rtenir à diff érents corpus et être indexé différemment selon le corpus que l’on considère). En accord avec une démarche structuraliste cette déterm inat ion se fonde sur l’établissement d’identités et de différences entre les textes du corpus en fonction des termes qui les déc rivent. Les termes indexan t les documents induisent naturellem ent des fonctions de similarités basées sur le nombre de leurs termes communs. Elles permettent de regrouper automa tiquement les textes, l’analyse de ces regroupements permettan t d’évaluer la pertinence et la cohér ence de l’indexa tion comm e un tout. La recherche des termes d’indexation doit aussi être globale, tenir compte de l’ensemble du corpus. Il est pour ainsi dire impossible de lire et d’acqu érir une vision globale d’un corpus un tant soit peu conséquent dans des temps acceptables. Il est par contre possible d’en lire rapidemen t le vocabulaire. Une personne reconnaît facile ment parmi les mots d’un corpus 9 1 Introduction ceux qui pourraient cara ctériser un thème. Ces mots correspondent à ce que l’indexeur s’attend à rencontrer, ils font écho aux présomp tions d’isotopie et sont susceptibles de s’inscrire dans des systèmes de cooccurrences. Ces mots peuvent êtr e collectés et servir de point d’ancrage pour une recherche auto matique de cooccurrences à différents pallier du texte. Elles sont alors proposé es au jugement humain pour être qualifiées au rang de cor rélats et servir de support à l’indexation. Les cor rélats retenus sont alors affe ctés aux isotopies qu’ils suppo rtent par la méd iat ion d’un j eu d’étiquettes. En résumé la mé thode d’indexat ion qui vient d’être esquissée s e décompose en six ph ases : 1. construction d’un corpus, 2. lecture de son vocabulaire et identificatio n de se s élém ents cara ctéristiques, 3. recherche de cooccurrences autour de ce s élém ents, 4. qualificatio n de ce rtaines de ce s cooccurrences au rang de corrélats et affe ctation d’étiquettes terminologiques, 5. regroupement des textes du corpus en c lasses sur la bas e de leur indexati on, 6. vérification de la cohérenc e des regroupements obtenus. Les phases 3 et 5 sont purement automa tiques, les pha ses 2, 4 et 6 sont des activi tés exclusivement intellectue lles recourant à des outils de concord ance pour les nécessaires retour au texte. Le temps consacré à ces dernières est fonction d’un compro mis entre la rapidité et la qualité de l’indexation désiré e. Les bén éfices attendus de ce type d’indexation sont sa cohé rence, sa rapidité, sa robu stesse, son indépendance de référentiels externes, son anc rage dan s le texte. 10