III I International Journal of S I nfo & Com Sciences for D M D ecision Making ISSN:1265-499X
e 1 trimestre 2003 CONTENTS
Information et théorie mathématique : une impasse en science de l'information ? Le cas de l'infométrie Thierry Lafouge Page 4
Mathématique et statistique en science de l'information : infométrie mathématique et infométrie statistique Yves Le Coadic Page 18
Mise en place d'un système dynamique et interactif de gestion d'activité et de connaissances d'un laboratoire (projet GACO LAB) Mylène Leitzelmann, Jacky Kister Page 34
Information, management et évolution societale : une approche par la méthode Triz Cécile Loubet, Joëlle Gazérian, Jean-Michel Ruiz, Henri Dou Page 40
Veilles, Intelligence Compétitive et développement régional dans le cadre de l'autonomie en Indonésie Sri Manullang Page 51
Ordre, agrégation et répétition : des paramètres fondamentaux dans les comparaisons d'objets informationnels Michel Christine Page 63
De l'utilité d'une veille pédagogique Jean-Paul Pinte Page 73
Intégrer la consultation et le paramétrage d'une analyse sémantique de données textuelles pour en faciliter l'appropriation David Roussel Page 91
Détection de convergence en vue de l'optimisation d'un système de filtrage adaptatif Mohamed Tmar, Hamid Tebri, Mohand Boughanem Page 101 2 L'analyse des mots associés pour l'information économique et commerçiale. Exemples sur les dépêches "Reuters Business ...
1
III I International Journal of
S I nfo & Com Sciences for D
M D ecision Making
ISSN:1265-499X
e 1 trimestre 2003
CONTENTS
Information et théorie mathématique : une impasse en science de
l'information ? Le cas de l'infométrie
Thierry Lafouge Page 4
Mathématique et statistique en science de l'information : infométrie
mathématique et infométrie statistique
Yves Le Coadic Page 18
Mise en place d'un système dynamique et interactif de gestion d'activité et de
connaissances d'un laboratoire (projet GACO LAB)
Mylène Leitzelmann, Jacky Kister Page 34
Information, management et évolution societale : une approche par la méthode
Triz
Cécile Loubet, Joëlle Gazérian, Jean-Michel Ruiz, Henri Dou Page 40
Veilles, Intelligence Compétitive et développement régional dans le cadre de
l'autonomie en Indonésie
Sri Manullang Page 51
Ordre, agrégation et répétition : des paramètres fondamentaux dans les
comparaisons d'objets informationnels
Michel Christine Page 63
De l'utilité d'une veille pédagogique
Jean-Paul Pinte Page 73
Intégrer la consultation et le paramétrage d'une analyse sémantique de
données textuelles pour en faciliter l'appropriation
David Roussel Page 91
Détection de convergence en vue de l'optimisation d'un système de filtrage
adaptatif
Mohamed Tmar, Hamid Tebri, Mohand Boughanem Page 101
2
L'analyse des mots associés pour l'information économique et commerçiale.
Exemples sur les dépêches "Reuters Business Briefing"
B. Delecroix, R. Eppstein Page 112
Enseignement à distance: l'expérience acquise au cours de la réalisation de la
maîtrise à distance NTIDE
Henri Dou, Céline Riffault, Hervé Rostaing Page 121
Analyse du transfert de l'information scientifique et technique entre le secteur
public et le secteur privé. Etudes des co-publications dans les revues
scientifiques Espagnoles
Elea Giménez Toledo, Adelaida Roman Roman, Hervé Rostaing Page 128
Proposition à l'intégration des profils dans le processus de recherche
d'information
Anis Benammar, Gilles Hubert, Josiane Mothe Page 143
Data mining and development policy : which help on building territorial
indicators?
Yann Bertacchini Page 153
Maîtrise de l'information, amélioration des systèmes de santé et aménagement
du territoire. L'exemple de la Catalogne (Espagne) et de la région Midi-
Pyrénées
Christian Bourret, Jaume Tort i Bardolet Page 162
Nouveaux métiers dans le domaine de la santé : maîtrise de l'information,
transversalité des compétences et autres exigences
Christian Bourret, Gabriella Salzano, Jean-Pierre Caliste Page 173
Les limites du tout-technologique dans la capitalisation de l'information
"marché" au sein de GIAT Industries
Patrick Cansell Page 187
Les infrasons entre science et mythe : la bibliométrie peut-elle contribuer à
clarifier une vérité scientifique controversée?
Bertrand Goujard Page 190
Outils et modèles de travail collaboratif
Eric Giraud, Jean-Françis Ranucci Page 217
Intégration de composants de text mining pour le développement d'un système
de recherche et d'analyse d'information
Luc Grivel Page 229
Plate-forme d'enseignement à distance et enseignement en alternance :
exemple de la licence professionnelle Tourisme et Nouvelles Technologies de
l'Information de l'Université de Marne-la -Vallée
Marie-Christine Lacour, François Baron, Jean-Marie Dou Page 236
Filtrage auto-adaptatif basé sur l'analyse de la variance
Saïd Karouach, Bernard Dousset, Nicolas Boutillat Page 239
3
Visualisation de relations par des graphes interactifs de grande taille
Saïd Karouach, Bernard Dousset Page 253
Evaluation de trois mesures de similarité utilisées en Sciences de l'Information
Alain Lelu Page 265
Analyse bibliométrique des collaborations internationales de l'INRA
Jean-Louis Multon, Geneviève Branca-Lacombe, Bernard Dousset Page 277
Editors in chief : Pr. H.Dou, Pr. Ph.Dumas, Dr Y.Bertacchini
All correspondences about I.S.D.M or submission should be sent to: Dr Y.Bertacchini
Université de Toulon, LePont, C205, BP 132, 83957 La Garde Cedex, France
e-mail :bertacchini@univ-tln.fr www server :http://www.isdm.org 4
INFORMATION ET THEORIE MATHEMATIQUE: UNE IMPASSE EN SCIENCE DE
L'INFORMATION ?
LE CAS DE L’INFOMETRIE.
Thierry Lafouge
Université Claude Bernard Lyon1 Laboratoire RECODOC
Bâtiment OMEGA
43, Boulevard du11novembre1918
69622 Villeurbanne Cedex
Tel 04 72 44 58 34
lafouge@enssib.fr
Résumé : La théorie statistique de l’information de C. Shannon, appelée souvent à tort théorie
de l'information ou théorie mathématique de la communication, est souvent réduite et connue
en SIC (Sciences de l’Information et de la Communication) au travers du schéma du système
général de la communication : source, émetteur, signal…bruit….. La théorie de Shannon est
connue en statistique par sa célèbre formule de l’entropie. La formule de Shannon est
isomorphe à la formule de l’entropie de Boltzmann en physique. Cette théorie est importante
car elle est à la jonction de la théorie du signal et de la statistique. Les mesures de l’entropie
sont utilisées comme indicateurs en statistique unidimensionnelle et bidimensionnelle. Nous
essaierons au travers de cet article de donner le point de vue de l’infométrie.
Mot clefs : entropie/ théorie probabiliste de l’information/ statistique
Abstract : Shannon’s theory is commonly aboarded in the narrow statement of the general
communication scheme : signal, noise, ... The entropy formula in statistics is a caracteristic of
shannon’s theory which is isomorphic to Boltzman formula in physic. It’s an important issue
in that way this theory is between signal and statistical theory. By using entropy measures in
unidmentional and bidimentional statistics, we’ll try to point out this issue in a infometric
approach.
Keywords : entropy/ probabilistic theory of information/ statistic 5
Information et théorie mathématique: une impasse en science de
l'information ? Le cas de l’infométrie.
INTRODUCTION
Le mot information est utilisé dans des contextes très variés, dans des sens totalement différents suivants les
disciplines scientifiques : on peut à titre d’exemples citer la thermodynamique avec le concept d’entropie, la
physique avec la théorie du signal, la biologie avec la théorie du génome. Se pose alors la question, s’il est
possible de construire une théorie de l’information, et si elle est unique. Notre démarche dans cet article vise non
pas l’information en tant que telle, mais la quantité d’information. Lorsque l’on parle de quantité d’information
et de mesure on pense à la notion de contenu ou de valeur de l’information. La science de l’information de par
son objet doit se sentir concernée par ce questionnement. Si on définit l’infométrie comme l’ensemble des
techniques de mesures mathématiques et statistiques de l’information, on souhaiterait avoir une définition
suffisamment claire du concept de quantité d’information qui puisse nous amener à définir une mesure, c’est à
dire un ensemble d’opérations parfaitement définies, nous amenant à des axiomes clairs et dont le résultat est un
nombre. La synthèse que nous développons ici n’est pas si ambitieuse. De toute façon à l’heure actuelle, faute de
connaissances, ou pire parce que on ne saurait vraiment pas formuler le problème une approche générale du
concept de quantité d’information serait vouée à l’échec. Nous nous intéressons ici à la théorie probabiliste de
l’information, connue sous le nom de théorie de Shannon, qui est la plus utilisée en science de l’information et
de la communication. Ce travail qui à première vue peut paraître « risqué, prétentieux ou obsolète» en science
de l’information, nous a semblé nécessaire au vue de prises de position souvent extrêmes de certains chercheurs :
- un rejet de cette théorie, souvent par ignorance et /ou par des présupposés épistémologiques :
restriction de la théorie de Shannon au célèbre schéma émetteur, canal, récepteur par exemple,
- une utilisation abusive de cette théorie pour valider des résultats,
- une utilisation naïve de cette dernière.
Nous essaierons de donner au lecteur quelques repères pour lui donner l’envie d’approfondir cette théorie et de
se forger sa propre opinion. Nous aborderons principalement dans cet article les relations multiples
qu’entretiennent la théorie probabiliste de l’information (travaux d’Hartley, Shannon, Reyni..) et les statistiques
en général. Nous n’apporterons pas de résultats théoriques nouveaux mais nous mettrons en parallèle différentes
approches utilisant cette théorie et donnerons quelques exemples.
1 - LA MESURE DE L’INFORMATION : DE HARTLEY A SHANNON
1.1. Information d’un ensemble : la formule de Hartley en 1928
nEtant donné un ensemble E de k éléments, où l’on suppose k = 2 : si à chaque élément de E on associe un
numéro écrit en base 2 qui permet de le coder, il est trivial de dire que n digit suffisent pour le repérer . Le
nombre n est dit mesurer la quantité d’information nécessaire pour repérer un élément de E. On définit alors la
quantité d’information de E, noté I(E) par la même valeur :
nI(E) = log 2 = n . 2
Hartley en 1928 généralise la quantité d’information pour un ensemble E ayant un nombre quelconque
d’éléments par:
I(E) = log ( E ) 2
où E désigne le nombre d’éléments de l’ensemble E.
Notation
Par la suite on notera log au lieu de log le logarithme en base 2, Ln le logarithme népérien, Log le logarithme 2
lorsque l'on ne précise pas.
Exemple 6
Soient les quatre chaînes de caractères, «islamiste, religieux, abcdefghi, xqzerdfk » : elles ont toutes la même
9quantité d’information, à savoir : log 26 =9log 26= 42,3 bit. Ici l’ensemble E est constitué de tous les
arrangements possibles avec répétitions de 9 caractères choisis parmi les 26 lettres de l’alphabet soit
926 éléments; l’unité d’information est le bit,