THÈSE

Ubbi - Christian Mauceri

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

219 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

N° d’ordr e : 2007telb0062 THÈSE Présentée à l’ECOLE N AT IONAL E SU PERIEURE DES TELECOMMNUN ICATI ONS DE BRETAGNE en habilitation conjointe ave c l’Université de Bretagne Sud pour obtenir le grade de DOCTEUR de l’ENST Bret agne Mention « Les M athématiques et leurs Int eractions » par Christian MAUC ERI « Indexation et isotopie : vers une analyse interpréta tive des données textuelles » Soutenue le 14 D écembre 2007 d evant la Co mm ission d’Examen : Composition du Jury - Rapp orteurs : François RASTIER, Directeur de recherche, CNRS Mo nique SLODZIAN, Professeur, INALCO - Examinate urs : Diem HO, I BM Acade my of T echnology, IBM Europe Ioannis K ANELLOS, Professeur, ENST Bretagne Philippe LENCA, Maître de conférence, ENST Bretagne Pierre-François M ARTEAU, Directeur du V ALORIA, Université de Bretagne Sud 1 Remerciements La première personne à qui je voudrais exprimer ma gratitude est mon épouse Anne qui m'a supporté sans jama is faill ir lors de ces quatre dernière s ann ées consacrées à cette entreprise exigeante qu'est la réd action d'une thèse pour une personne salariée. Je voudrais aussi, pour les mê mes raisons remercier mes filles Laure et Camille qui ont eu la gentillesse de comprendre que leur pèr e ne soit pas au ssi disponible qu'il au rait du l'être durant cette même période. Cette thèse leur e st dédiée. Je voudrais remercier Ioan nis Kanellos, mon directeur de thèse, pour ses conseils avisés, sa patience, son ouverture d 'esprit et sa g rande g énéro sité. Je suis conscient de l'honneur que M onsieur Rastier et M adame Slodzian m'ont fait en acceptant d'être mes rapporteurs. D e façon générale je s ouhaite adresser mes remerciements aux membres du jury – donc outre les personnes déjà citées, Messieurs Ho, Lenca et Marteau. Je suis particulièrement redevable à Diem Ho pour les innombrables heures passées ensemble sur des projets difficiles, loin de chez nous et pour les longues conversations que nous avons si souvent tenues sur la classification auto matique et l'interprétation des données. Une g rande pa rtie des idées de c ette thèse sont nées là. Je voudrais enfin, remercier la compagnie IBM qui m'a offert des moyens modernes de travail permettant de gérer mon temps au mieux pour concilier deux activités souvent antag oniques. 2 Table des m atières 1 In troduction.................................................................................................................................... 5 2 Agrégation de similarités et interpréta tion................................................................................... 11 2.1 Agrégation des s imilarités......................................................................................................................... 13 2.2 Le problè me de l’interprétation en analyse des données ........................................................................... 16 2.3 Un projet d’a nalyse in terprétative des données ......................................................................................... 25 2.4 Le codage comme méd iat ion avec le réel.................................................................................................. 28 2.5 La similarité comme critère d’identification des parties 30 2.6 L’analyse des données co mme système de progr ammation .................................................................... 33 3 In dexation et sémantiqu e interprétat ive........................................................................................ 37 3.1 L’indexa tion sujet aujourd’h ui.................................................................................................................. 37 3.2 L’hégémonie on tologique vouée au x gémonies 41 3.3 L’épiphanie de la sé mantique interprétative des te xtes............................................................................. 43 4 Is otopie et statistiqu es contextuel les............................................................................................ 51 4.1 Motivat ions................................................................................................................................................ 51 4.2 Modèle vectoriel et séman tique late nte..................................................................................................... 55 4.3 De la s ignificatio n des cooccurrences de mots dans la description des mots eu x-mê mes......................... 59 4.4 Classes de pas sages, moléc ules sémiques et iso topies.............................................................................. 74 4.5 Ana lyse d’une partitio n de passages .......................................................................................................... 81 4.6 Classification des documents en fo nction des i sotopies............................................................................ 86 4.7 Inte rrogation et clas sificateur .................................................................................................................... 92 5 Applicati on95 5.1 Aziyadé 95 5.2 Prétraitements............................................................................................................................................ 96 5.3 Ana lyse 97 5.3.1 Classe 'Loti', 274 passages, numéro 0............................................................................... 101 5.3.2 Classe 'minarets', 189 passages, numéro 3........................................................................ 103 Classe 'sens', 163 4....................................................................................... 105 5.3.3 Classe 'Eyo ub', 130numéro 9........................................................................... 107 5.3.4 Classe 'vieille', 126 passages, numéro 7............................................................................ 112 5.3.5 Classe 'dév ouement', 85 passages, numéro 5.................................................................... 121 5.3.6 Classe 'M idhat- pacha ', 72 passages, numéro 6. ................................................................ 123 5.3.7 Classe 'yeux', 69 2................................................................................ 125 5.3.8 Classe 'horreur' , 54 passages, numéro 8. 127 5.3.9 Classe 'LOTI', 18 passages, numéro 1.............................................................................. 129 5.4 Classification par isotopies...................................................................................................................... 130 5.4.1 Classe 'Loti', taille 79, numéro 3 131 5.4.2 Classe 'minarets', taille 40, numéro 0 133 5.4.3 Classe 'sens', taille 21, numéro 2 ..................................................................................... 136 5.4.4 Classe 'Eyo ub', 9, numéro 1 .................................................................................... 140 5.4.5 Classe 'vieille', taille 4, numéro 4 142 5.4.6 Classe 'dév ouement', taille 1, numéro 5 ........................................................................... 143 5.5 Discussion............................................................................................................................................... 144 6 Pour une plateform e de philologie numériqu e............................................................................ 147 6.1 Théorie 147 6.2 Stratégie148 6.3 Économie150 6.4 Architecture............................................................................................................................................. 152 6.4.1 Eclipse comme plateform e de philologie numérique........................................................ 153 6.4.2 Anatomi e d'un plu g-in...................................................................................................... 155 6.4.3 SWT et JFace................................................................................................................... 159 6.4.4 EMF 162 6.4.5 UIMA 163 6.4.6 Une premiè re expérimenta tion......................................................................................... 169 3 7 Conclusio n171 8 Annexe A 177 9 In dex des figures........................................................................................................................ 213 10 Bibliographie............................................................................................................................ 215 4 1 Introduction 1 Introduction 1Dans une lettre à Atticus Cicéron demande à son ami de lui envoyer deux copistes afin qu’ils collent sur ses livres des sillybi: de fine s bandes de parchemin portant le titre et parfois les auteur s des ouvrages sur lesquels ils étaient apposés. L’index, le sillybi, est né de la nécessité pratique de retrouver un rouleau de parchemin, un volumen, dans une bibl iothèque. Ce sont les Gr ecs qui systématisen t l’index et le catalogue. Callimaque déc rit le contenu de la biblio thèque d’Alexandrie dans des tables, les pinakes, qui suivent un classement par catégorie et par genre. Très tôt, donc, le contenu des bibl iothèques est or ganisé afin d’en faciliter l’accès : le premier livre de l’ « Histoire Naturelle » de Pline l’Ancien est une immense table des matières dé crivant de façon détaillée les trente six autres volu mes. Le volumen est un livre qui se dé roule, il ne se prête pas au repérage mêm e si certains signes typographiques arrivés jusqu’à nous en facilite la lecture : la manicule 2 désigne les parties importantes du texte, le pied de mouche ¶ sépare les parties du 3 texte. Le codex s’impose à partir du premier siècle , il facilite le feuilletage, la comparaison de différents passa ges du texte, il introduit la notion de page nécessaire aux progrès ultérieurs du livre. La prédication et l’e