Cet ouvrage fait partie de la bibliothèque YouScribe
Obtenez un accès à la bibliothèque pour le lire en ligne
En savoir plus

Le rôle du lexique sémantique et de l'ontologie dans le traitement ...

13 pages

Le rôle du lexique sémantique et de l'ontologie dans le traitement ...

Publié par :
Ajouté le : 21 juillet 2011
Lecture(s) : 115
Signaler un abus

Le rôle du lexique sémantique et de l’ontologie dans le
traitement automatique de la langue médicale
Pierre Zweigenbaum, Bruno Bachimont, Jacques Bouaud, Jean Charlet,
Jean-François Boisvieux
DIAM: SIM/AP-HP & Dépt de Biomathématiques, Université Paris 6
91, boulevard de l’Hôpital F-75634 Paris Cedex 13
f pz, bb, jb, jc, jfb
g @biomath.jussieu.fr
We examine several critical points in moving from medical language to a canonical concep-
tual representation of medical information. These points involve the roles of semantic lexicon
and ontology in medical language processing (MLP). We study on the one hand some avai-
lable resources in terms of lexicon and ontology, and on the other hand some MLP processing
systems, and we identify the strategic choices they make. We conclude that no MLP system
seriously takes into account both semantic and conceptual constraints.
1. Langue naturelle et information médicale
La langue naturelle tient un rôle fondamental dans la pratique et l’enseignement de la
médecine. Dans un contexte où informatisation et codification vont croissant avec l’essor
des systèmes d’information hospitaliers
)
) [1], ce qui pourrait sembler un lieu commun doit
être rappelé de temps à autre (voir par exemple [2, 3]).
Un enjeu du traitement automatique de la langue médicale (TALM) est d’échapper à l’équi-
valence traitement de l’information médicale
, saisie d’information codifiée. Cette équi-
valence mène en effet à une alternative manichéenne entre un traitement de l’information
médicale requérant un codage contraignant, nécessairement réducteur et donc source de
perte d’information, et une expression en langue naturelle, suffisamment riche mais rendant
l’exploitation informatique impossible, et donc considérée comme une non-information. La
cohabitation des deux méthodes, même si elle supprime l’alternative, conserve l’opposition
entre les deux mondes et ne peut être qu’un pis-aller. Le TALM a pour objectif ambitieux
de construire un pont entre langue et information en produisant des informations codées à
partir de textes en langue naturelle.
La langue médicale, en tant que langue spécialisée, relève de la linguistique. Son étude mo-
bilise des dimensions paradigmatiques (lexique) et syntagmatiques (composition syntaxique
et sémantique). En tant que langue spécialisée, la langue médicale reflète la pratique de la
médecine — en particulier, la pratique hospitalière. Elle renvoie à une connaissance : sur
un patient spécifique, sur les actes hospitaliers, sur la physiopathologie humaine, etc. La
modélisation de la connaissance est le champ fondamental de l’intelligence artificielle. Elle
fait appel aux notions de représentation conceptuelle et d’ontologie. Élément et véhicule
d’une pratique, son expression linguistique est une connaissance mise en contexte [4].
(
()
)
Les méthodes du TALM reposent donc sur une modélisation linguistique et conceptuelle,
dans une proportion variable selon les équipes. Les éléments clés de cet équilibre sont :
– les poids respectifs du lexique sémantique et de l’ontologie ;
– les poids respectifs des contraintes liées à la langue et de celles attachées à la repré-
sentation conceptuelle.
Tout concepteur de système est évidemment amené à prendre des raccourcis (à adopter une
attitude d’ingénieur ) sur un certain nombre de points, qui peuvent être justifiés par la tâche
du système, induits par les outils disponibles, ou rendus nécessaires par les contraintes de
ressources et la difficulté des problèmes impliqués. Nous étudions dans ce papier différentes
options stratégiques prises sur ces questions dans la constitution de systèmes de TALM, à
travers l’examen de quelques systèmes représentatifs.
Nous examinons des ressources existantes pouvant être considérées en vue de jouer le rôle
de lexique sémantique ou d’ontologie. Nous passons ensuite en revue un échantillon de
systèmes de TALM sous l’angle du lexique sémantique, de la représentation conceptuelle et
de leurs relations. Nous discutons les choix effectués et soulignons les principaux axes de
recherche à développer.
2. Du lexique sémantique à l’ontologie : quelques candidats
Nous caractérisons tout d’abord les principales notions manipulées. Un lexique sémantique
participe à la modélisation de la langue. Les unités signifiantes de la langue sont décrites
sémantiquement par les oppositions et différences qu’elles entretiennent en corpus (et souvent
1dans l’introspection) avec les autres unités . Cette description donne les régularités qui
conditionnent la manière dont les mots ou unités linguistiques se combinent dans les textes
observés : des contraintes linguistiques régissent le fonctionnement de la langue. Il faut
distinguer le palier de l’analyse syntaxique et celui de l’analyse sémantique (qui dans les
paradigmes formels renvoient à l’opposition entre la forme et le sens).
Une représentation conceptuelle sert à modéliser le monde. Elle repose sur une ontologie
qui recense ses primitives de contenu. Une représentation conceptuelle doit être normalisée,
par opposition à une représentation sémantique qui peut faire l’objet de paraphrases ou être
ambiguë. Un système de représentation des connaissances est un système formel génératif sur
lequel sont définies des opérations, dont la composition (combinaison de représentations) et la
subsomption (relation générique / spécifique entre représentations), et dont le but est de servir
de support à une représentation conceptuelle (normalisée). Dans une telle représentation, la
formulation de requêtes automatiques sur la représentation cible doit être relativement aisée,
les problèmes de synonymie, de paraphrase, d’ambiguïté et de dépendance au contexte étant
résolus. On notera le caractère intermédiaire d’une terminologie, qui considère les termes
comme expressions linguistiques des concepts d’un domaine.
2Nous examinons ici quelques ressources existantes pouvant être considérées en vue de jouer
le rôle de lexique sémantique ou d’ontologie. Certaines de ces ressources (DEC, Wordnet)
sont de nature générale, et dépassent le strict cadre médical ; d’autres (UMLS, SNOMED,
GALEN) ont été explicitement conçues pour le domaine biomédical. Les premières sont
essentiellement linguistiques (DEC, Wordnet) ; les dernières sont conceptuelles (GALEN,
1 Nous adoptons une approche prônant une linguistique structurale, et le paradigme différentiel de François
Rastier [5].
2
: Une revue des systèmes de codage pour la santé pourra par exemple être trouvée dans [1].
:
(
((
)
)
(
(
(
(
(
(
(
)
)
MENELAS). Nous étudions leur positionnement sur les deux points mentionnés en intro-
duction : peuvent-ils jouer le rôle de lexique sémantique ou d’ontologie ; décrivent-ils des
contraintes de nature linguistique ou conceptuelle?
Nous commençons cette énumération par le prototype de ce que pourrait être un lexique
sémantique fondé sur des principes strictement linguistiques, sans recours à aucune notion
conceptuelle ou référentielle.
2.1 Le Dictionnaire Explicatif et Combinatoire
Le Dictionnaire Explicatif et Combinatoire (DEC) [6] est un dictionnaire de la langue
générale. Il est en cours de construction depuis plus de quinze ans, et a pris comme champ
d’expérimentation le français. Bâti sur des principes linguistiques formels [7], son ambition
est de compiler toutes les connaissances permettant d’employer un mot dans une langue
donnée ; il comprend actuellement de l’ordre d’un millier d’entrées (noms, verbes, adjectifs,
adverbes). L’unité de description est un sens de mot, ou lexie , pouvant être un mot simple
ou composé. L’entrée d’une lexie comprend, outre sa définition (en termes de lexies
(
( plus
simples
)
) ), des informations sur ses propriétés combinatoires syntaxiques et sémantiques :
actants syntaxiques et sémantiques (pour les lexies prédicatives comme les verbes, les
adjectifs et la plupart des noms), et surtout une description riche de sa combinatoire
lexicale restreinte . Ce dernier pan de l’entrée lexicale constitue l’un des aspects les plus
originaux du DEC, et indique quelles autres lexies jouent un rôle privilégié par rapport à
la lexie définie. 56 fonctions lexicales fournissent ainsi autant de relations sémantiques
entre lexies : par exemple, synonyme, conversif, antonyme, collectif, intensificateur.
Par principe, le DEC ne fait intervenir aucune représentation conceptuelle. Les entrées du
dictionnaire reposent sur un métalangage qui, outre ses éléments formels, ne fait appel qu’à
des lexies. En revanche, il offre une description très précise des contraintes linguistiques de
combinaison des mots en langue. Un DEC du russe a également été entrepris. Le modèle du
DEC a été appliqué en TALN, en particulier en génération.
2.2 Wordnet
Wordnet [8] est un réseau sémantique de la langue générale. La version 1.5 regroupe 168 135
sens de mots simples ou composés (N, V, A, Adv) de l’américain en 91 591 classes de sy-
nonymes ( synsets ou concepts ). Il considère des relations sémantiques entre mots
(synonymie, antonymie) et entre synsets (hyponymie, méronymie). Le jeu de relations dispo-
nibles est propre à chaque catégorie lexicale (N, V, A, Adv). Les informations combinatoires
sont extrêmement réduites (modèles de construction syntaxique des verbes).
Construits sur des critères psycholinguistiques, les synsets ont une forte origine linguistique,
mais subissent sans doute également des influences référentielles et donc des connotations
conceptuelles. Les concepts de ce réseau n’ont cependant pas vocation à sous-tendre
un système de représentation des connaissances. Ils ont été appliqués en TALN dans de
nombreux contextes, en particulier pour l’indexation sémantique de textes et à des fins de
recherche documentaire. La construction de répliques de Wordnet pour plusieurs langues
européennes fait l’objet du projet EuroWordnet (programme Language Engineering 2).
2.3 L’UMLS
Le Unified Medical Language System (UMLS) [9] est la compilation d’un ensemble croissant
de vocabulaires bio-médicaux (38 en 1996) de natures et de structures différentes et crée des
)
)
(
(
)
)
(
(
)
)
)
)(
)
(
)
)
(
(
)
ponts entre les termes de ces vocabulaires. Son métathésaurus est la terminologie résultant
de l’union raisonnée de ceses. L’unité de base est le concept (252 892),
auquel sont associés les libellés correspondants (589 400) issus des vocabulaires sources.
Ces libellés sont essentiellement des syntagmes nominaux, ou des expressions apparentées
typiques du métalangage des terminologies médicales. La majorité des vocabulaires intégrés
dans UMLS sont en langue anglaise. Pour le français, il faut noter cependant l’inclusion
de la traduction française du MeSH, et la disponibilité virtuelle de versions françaises de
vocabulaires internationaux comme la Classification Internationale des Maladies. Les termes
associés au même concept sont reliés par une relation de synonymie (ou de variante lexicale).
La combinatoire linguistique des termes n’est pas spécifiée. UMLS a récemment été enrichi
d’un lexique de mots simples ou composés (80 000 entrées) accompagnés d’informations
morpho-syntaxiques. Cependant, ce lexique n’est pas directement couplé à l’ensemble des
termes effectivement présents dans le métathésaurus. La face linguistique d’UMLS (les
termes du métathésaurus) peut donc difficilement servir de lexique sémantique. De plus, la
constitution d’UMLS, comme celle de ses terminologies constitutives, fait largement appel
à des critères référentiels : nomenclatures d’objets physiques, de leurs fonctions, de leurs
états, d’actions, objectivés dans des pratiques davantage que dans des textes.
Les concepts sont liés par des relations sémantiques (51) héritées des vocabulaires sources :
hyponymie, méronymie, ainsi que des relations plus spécifiques et principalement médicales
comme
(
( affecte ou entoure . Un réseau de types sémantiques a de plus été constitué
[10]. Les 135 types sémantiques constituent une hiérarchie (un arbre) structurée par la relation
sorte-de (is-a). Chaque concept du métathésaurus possède un ou plusieurs types sémantiques.
Les contraintes sur les concepts qui peuvent être liés par des relations sémantiques sont
énoncées dans le réseau, sous la forme de relations entre types sémantiques. Les multiples
relations que l’on peut trouver entre concepts et types sémantiques font de l’UMLS un
outil appréciable pour la recherche documentaire — qui est son objectif initial. Cependant,
le réseau sémantique n’a pas les propriétés formelles que l’on attend généralement d’une
ontologie ou d’une représentation des connaissances [11, 12].
2.4 SNOMED
La Systematised Nomenclature of Human and Veterinary Medicine (SNOMED) [13] est
une nomenclature multiaxiale de plus de 130 000 termes médicaux. Comme UMLS, ses
libellés sont essentiellement des syntagmes nominaux, mais également des adjectifs (souvent
employés pour la topographie T) et des prépositions (dans l’axe G des relations / modifieurs).
SNOMED inclut une relation (implicite) entre libellé et concept. Aucune information n’est
donnée sur les propriétés linguistiques des libellés. Les termes possèdent des relations
hiérarchiques à l’intérieur de chacun des 11 axes.
La propriété de SNOMED qui en fait la force est la possibilité de combiner (de façon
cependant assez limitée) des termes de plusieurs axes pour former des expressions. La dé-
composition de ce qui apparaît dans d’autres vocabulaires comme des termes atomiques en
unités plus élémentaires que l’on peut recombiner selon les besoins (l’aspect génératif de
SNOMED) est sans doute à l’origine de sa supériorité en termes de couverture des informa-
tions cliniques, mise en évidence dans [14]. Parmi les reproches faits à SNOMED, on peut
citer la possibilité d’écrire des expressions paraphrastiques sans que cette synonymie puisse
être détectée automatiquement. Des propositions ont été faites pour développer cet aspect
génératif tout en réduisant les problèmes de paraphrase en s’appuyant sur un formalisme
de représentation des connaissances [15]. SNOMED est la cible de nombreux systèmes de
codage automatique à partir d’expressions [16] ou de textes [17] en langue naturelle.
(
(
)
)
)
)(
(
2.5 Le MED
Le Medical Entities Dictionary (MED) [18] est un vocabulaire contrôlé servant de passerelle
normalisée entre les vocabulaires de différents systèmes cliniques du Columbia Presbyte-
rian Medical Center. L’unité du MED est le concept (32 767), qui peut être exprimé par
plusieurs libellés synonymes. Comme dans SNOMED, aucune information n’est donnée
sur les propriétés linguistiques des libellés. L’ensemble des concepts est hiérarchisé par la
relation sorte-de, et forme un graphe dirigé acyclique : certains concepts peuvent posséder
plusieurs pères . Les concepts du haut de la hiérarchie ont été repris du réseau sémantique
de l’UMLS. Des relations transverses peuvent également lier les concepts.
L’originalité du MED est de décrire chaque concept sous forme d’un objet (ou
(
( frame
)
) )
possédant des propriétés et des relations sémantiques, qui sont héritées par les objets fils.
Le domaine de chaque relation est spécifié. Cette description structurée permet d’appliquer
une opération de classification aux concepts. Cela facilite la construction et la maintenance
du MED, lui assure une meilleure cohérence, et permet d’accéder aux concepts selon leurs
propriétés. La construction de ces descriptions structurées est réservée aux administrateurs
du MED. L’aspect génératif de ce système reste de ce fait limité, et il se présente de
façon externe comme un vocabulaire statique possédant des propriétés systématiques de
classification. C’est en tant que tel qu’il est considéré, par exemple, dans le système de
TALM de Carol Friedman [19], qui se fonde sur d’autres ressources pour son lexique ou son
ontologie (voir la section 3.2).
2.6 GALEN
Le projet GALEN [20] développe une modélisation des concepts médicaux dans un forma-
lisme de représentation des connaissances de la famille des langages de description [21]. Le
fondement du modèle est un ensemble de concepts (4000 en 1995) et de relations (rôles).
Concepts et relations peuvent être combinés à volonté pour créer de nouveaux concepts
structurés. La classification (selon la relation sorte-de) est l’opération fondamentale. Elle
donne aux concepts une structure de graphe dirigé acyclique. Le domaine de valeur des rôles
d’un concept est contraint ; GALEN distingue plusieurs niveaux de contraintes selon leur
nature ( grammaticales , sensées , nécessaires ).
Des mots ou expressions d’une langue peuvent être associés de façon externe aux
concepts de GALEN, avec leurs propriétés syntaxiques. Cela a été fait pour le français
(1631), l’anglais (1423), l’allemand (1607) et l’italien (1077). Les expressions associées au
même concept sont par construction synonymes. Le modèle de GALEN constitue la cible
et l’ontologie de la dernière version du système de TALM RECIT [22], qui se fonde sur un
autre formalisme pour sa représentation des connaissances (voir la section 3.3).
2.7 MENELAS
Le projet MENELAS [23] a constitué une ontologie de 1800 types de concepts atomiques et
300 relations, structurés en arbre par la relation sorte-de [24]. Le domaine médical visé était
celui des maladies coronaires, mais le haut de la hiérarchie conceptuelle déborde largement le
domaine médical. La source et le domaine de chaque relation sont contraints. Des modèles de
référence (500) associés aux types de concepts indiquent de plus les relations qu’un concept
de ce type peut entretenir avec les autres concepts. Ils sont hérités à travers la hiérarchie des
types. Cette ontologie est mise en œuvre dans le formalisme de représentation des connais-
sances des graphes conceptuels [25]. Elle permet de créer des descriptions conceptuelles
sous forme de graphes qui combinent concepts et relations selon les besoins. L’originalité
)
)
(
(
)
)
(
(
)
)
(
(
)
)
(
(
)
))
(
:
(
)
(
(
de l’ontologie de MENELAS est d’être essentiellement une ontologie de primitives dont la
construction repose sur des principes méthodologiques de structuration [4, 24].
MENELAS comprend également des lexiques sémantiques et morpho-syntaxiques de mots
simples et composés (pour toutes les catégories lexicales). Les informations syntaxiques
(40 000 entrées pour le français) incluent la construction syntaxique des verbes. Les infor-
mations sémantiques sont essentiellement constituées par la définition des mots en termes
de descriptions conceptuelles (1000 entrées pour le français). MENELAS ne gère quasiment
pas de contraintes sémantiques linguistiques : il repose essentiellement sur les contraintes
exprimées au niveau conceptuel [26] (voir la section 3.4).
3. La place du lexique sémantique et de l’ontologie dans
quelques systèmes de TALM
Dans cette section, nous passons en revue quelques systèmes de traitement automatique de
3la langue médicale. Il ne s’agit bien sûr pas d’une liste exhaustive , mais plutôt de systèmes
représentatifs de courants existants en informatique médicale. Nous avons en particulier
exclu de cette revue ceux dans lesquels le traitement automatique des langues n’occupe
qu’une place limitée. Nous étudions pour chaque système certaines options fondamentales
suivies en termes de lexique sémantique, de représentation conceptuelle et de relation entre
les deux. Ces choix conditionnent leurs possibilités théoriques d’application. Il ne s’agit en
revanche aucunement d’une évaluation de leur utilité pratique immédiate, qui dépend de
bien d’autres facteurs.
3.1 Le LSP/MLP
Le Linguistic String Projet (LSP) développe depuis les années 60 un analyseur de la langue
anglaise d’où est issu un Medical Language Processor (MLP) [27, 28] visant à analyser des
textes narratifs. Le LSP a été appliqué à différents domaines médicaux. Son lexique de base
comprend de l’ordre de 10 000 mots en anglais et autant en français, sans compter les sources
supplémentaires externes [28]. Chaque mot est associé à une des 39 catégories sémantiques
définies. Ces catégories sont issues d’études de corpus, et reflètent les régularités trouvées
dans le sous-langage médical. Elles traduisent ainsi des propriétés linguistiques plutôt que
conceptuelles. Le système prend en compte des contraintes linguistiques syntaxiques (règles
de grammaire) et sémantiques (patrons sémantiques du sous-langage médical).
La représentation visée par l’analyseur est l’instanciation de formats informationnels
correspondant aux types d’énoncés trouvés dans la phrase. L’instanciation consiste à dis-
tribuer les mots de la phrase dans les champs pertinents du format informationnel, qui est
ensuite stocké dans une base de données relationnelle. On ne trouve pas ici de langage de
représentation des connaissances, ni même de vocabulaire contrôlé : ce sont les mots eux-
mêmes qui sont catégorisés et conservés dans le format de sortie. Cela rend plus difficile
la formulation de requêtes sur la base de données ainsi constituée. Ce système pourrait être
considéré comme une première étape linguistique pouvant être suivie d’une étape visant
une représentation conceptuelle canonique. Une expérimentation en ce sens est en cours :
le codage en SNOMED [17]. Les premières techniques testées restent cependant de nature
linguistique, et se fondent sur une comparaison lexicale (entre mots de la phrase et termes
de SNOMED) plutôt que sémantique ou conceptuelle.
3 Le lecteur pourra par exemple se reporter à la bibliographie citée dans [19] pour davantage de références.
)
)(
(
)
g
)
f
(
(
(
(
3.2 Le système de C. Friedman
Le système de TALM de C. Friedman analyse des comptes rendus de radiologie [19].
C. Friedman a travaillé avec N. Sager, et certaines options du LSP ont été reprises ici. Une
différence importante est cependant le recours dans la représentation cible à un vocabulaire
contrôlé : le MED. Le domaine d’application est plus restreint, et la taille du lexique séman-
tique est en conséquence plus limitée : 3100 mots simples ou composés. À chaque mot est
associée une classe sémantique parmi 17 possibles, ainsi qu’une forme cible
)
) qui se retrou-
vera dans une première représentation sémantique de la phrase. Cette représentation emploie
un formalisme de frames ou objets (objet attribut valeur *). Des contraintes syntaxiques
et sémantiques sont prises en charge par une grammaire sémantique : un ensemble récursif
de patrons syntaxico-sémantiques enrichis de règles de traduction . Ces règles dirigent
pour chaque patron le calcul de la représentation sémantique intermédiaire, qui subit une
passe complémentaire de régularisation (transformations linguistiques). Dans une deuxième
étape, cette représentation sémantique est standardisée — dans une certaine mesure — pour
n’utiliser que des symboles du MED. Le passage de la représentation sémantique à la re-
présentation cible repose sur une base de synonymes associant les valeurs sémantiques
d’attributs à des symboles du MED.
Comme dans le LSP, l’approche est largement linguistique : sémantique plutôt que concep-
tuelle. Le passage au vocabulaire contrôlé est lui-même considéré sous un angle linguistique
(synonymes), bien qu’effectué au sein d’une représentation structurée (objet attribut valeur).
La notation employée est d’ailleurs celle des graphes conceptuels, mais rien ne montre
qu’elle en possède les propriétés de langage de représentation des connaissances (jointure,
subsomption...). Le lien entre la structure de cette représentation et les propriétés combina-
toires du MED n’est pas non plus élucidé. Enfin, ici également, les requêtes automatiques
peuvent être difficiles à formuler selon les termes présents dans les requêtes et dans le
vocabulaire contrôlé, ce qui montre les limitations de la normalisation à laquelle on aboutit.
3.3 RECIT
Le système RECIT [29, 30] se démarque par le recours à un formalisme de représentation des
connaissances : les graphes conceptuels [25]. Une première version a ensuite été remaniée
pour construire des représentations conceptuelles fondées sur le modèle de GALEN.
Dans la version initiale, les quelque 160 classes sémantiques (ou concepts) employées dans
le lexique sémantique sont inspirées de celles du LSP, et structurées en arbre par la relation
sorte-de. Quelque 60 relations permettent de combiner ces concepts. Le lexique sémantique
associe une classe sémantique à un mot : 2000 mots sont définis pour le français et 700 pour
l’anglais. Il est difficile ici de faire la part entre sémantique linguistique et représentation
conceptuelle, dans la mesure où le formalisme uniformément utilisé est un formalisme de
représentation conceptuelle.
La première étape de l’analyse (essentiellement, le
(
( traitement par proximité
)
) ) est plutôt
de nature linguistique, et sert à construire une structure de dépendance pour la phrase. Les
contraintes de combinaison sémantique sont prises en compte par des règles dites de
compatibilité sémantique
)
) (au nombre de 270). Une règle spécifie un patron syntaxico-
sémantique faisant intervenir deux parties de phrase à combiner, et indique la relation
sémantique qui devra unir leurs représentations. Si l’on peut noter une certaine analogie
avec les patrons syntaxico-sémantiques de C. Friedman, le mode d’application est beaucoup
moins contraint (de par le traitement par proximité) et, surtout, la représentation sémantique
a davantage des propriétés génératives (de par le formalisme employé).
)
)
(
(:
La deuxième étape de l’analyse construit une représentation conceptuelle en instanciant
des schémas conceptuels (30 dans [29]). Ces schémas décrivent les propriétés (relations)
que peuvent posséder les concepts du domaine, et collectent les représentations partielles
construites sur la structure de dépendance précédente. Des schémas verbaux prennent de
plus en charge l’équivalent de schémas actantiels avec restrictions de sélection (contraintes
sémantiques sur les actants).
RECIT procède ainsi à une analyse syntaxico-sémantique qui donne un poids important à
des informations sémantiques. Le formalisme employé est celui des graphes conceptuels,
avec les opérations habituelles. Cependant, les concepts et relations sont utilisés pour décrire
des contraintes linguistiques (du type restrictions de sélection), qui doivent donc refléter le
fonctionnement de la langue. Il n’est de ce fait pas évident qu’ils puissent également servir en
tant que représentation conceptuelle, et donc fournir des données pour des calculs ultérieurs
(par exemple, codage) effectués sans connaissances linguistiques.
Dans la version courante, RECIT produit des représentations dans le modèle de GALEN,
donc conceptuelles [22]. Un parallèle est proposé entre les contraintes sensées de GALEN
d’une part et les compatibilités sémantiques et les schémas de RECIT d’autre part. Dans
cette version, RECIT sera directement guidé par une représentation fortement conceptuelle.
Il sera intéressant de suivre cette expérience pour savoir dans quelle mesure ces contraintes
conceptuelles s’appliquent à des expressions linguistiques. L’approche adoptée dans [22]
demande pour l’instant d’ajouter au modèle‘ conceptuel des relations linguistiques.
3.4 MENELAS
Le projet MENELAS [23] avait pour thème l’analyse automatique de comptes rendus d’hos-
pitalisation en français, anglais et néerlandais dans le domaine des maladies coronaires, à
des fins de codage (HCIMO) et de questions-réponses. L’analyse vise la construction d’une
représentation conceptuelle normalisée indépendante de la langue (section 2.7). Les trai-
tements ultérieurs se font sur cette représentation, sans faire intervenir de connaissances
linguistiques (voir [31] pour le codage ; la version néerlandaise est présentée dans [32]).
Les traitements sémantiques et conceptuels se divisent en deux parties qui toutes deux
utilisent le formalisme des graphes conceptuels. Ces deux parties sont cependant bien dis-
tinctes, et les types employés dans les graphes appartiennent à des jeux différents : types
linguistiques
)
) et types conceptuels (ceux de l’ontologie mentionnée ci-dessus). Un
premier lexique fait correspondre à chaque mot une définition sémantique en termes de
types et relations linguistiques (un graphe linguistique). Un second lexique associe à chaque
type linguistique (1000) une définition conceptuelle (un graphe conceptuel), et à chaque
relation linguistique (150) un ensemble de préférences pour des relations conceptuelles. La
construction de la représentation linguistique d’une phrase est dirigée par des contraintes
4linguistiques (grammaire, restrictions de sélection sur les types linguistiques ). La construc-
tion de la représentation conceptuelle à partir de la représentation linguistique est dirigée par
un modèle conceptuel (les modèles de référence de la section 2.7) [26]. Cette représentation
s’affranchit ainsi dans une large mesure des variations linguistiques initiales (le degré de
canonisation obtenu étant naturellement encore largement améliorable).
Au début du projet, la représentation conceptuelle était construite en une seule passe. Les
contraintes employées devaient alors être à la fois linguistiques (p.ex., restrictions de sélec-
tion) et conceptuelles (pour l’usage de cette représentation en sortie de l’analyse sémantique).
Cela amenait soit à imposer des contraintes conceptuelles trop fortes sur l’analyse linguis-
4 Pour des raisons de ressources, aucune restriction de sélection n’a cependant été donnée au système, ce
qui constitue un point évident d’amélioration potentielle.
)
)
(
(
(
(tique, qui étaient souvent violées dans les phrases rencontrées ; soit à relâcher ces contraintes,
mais alors la représentation produite perdait sa précision, et les calculs subséquents nécessi-
taient des connaissances supplémentaires. La version finale sort de ce dilemme.
4. Discussion
Si l’on considère les systèmes examinés sous l’angle de l’ontologie et donc de la représen-
tation des connaissances qu’ils emploient, on peut schématiser leurs propriétés ainsi :
– pas de représentation des connaissances, cible peu normalisée (LSP) ;
– pas de représentation des connaissances, cible normalisée (Friedman) ;
– formalisme de représentation des connaissances, mais à contenu modérément norma-
lisé (RECIT-1) ;
– représentation des connaissances normalisée (MENELAS, RECIT+GALEN).
Les systèmes de codage de l’information médicale ont de plus en plus recours à des for-
malismes de représentation de connaissances : le MED, et encore davantage GALEN, sont
représentatifs de cette tendance, également mise en avant par d’autres équipes [33]. Si les
systèmes de TALM doivent jouer un rôle dans l’acquisition de l’information médicale, il
est crucial qu’ils visent une représentation de ce type. Malheureusement, plus l’écart est
grand entre la représentation construite et la forme linguistique initiale, plus difficile est le
passage entre forme linguistique et forme conceptuelle. Un problème majeur vient du fait
que les mots d’une langue s’interprètent en fonction de leur contexte, alors que les symboles
d’une représentation conceptuelle doivent posséder une valeur normalisée, invariante dans
les opérations de composition [34].
Une stratégie souvent employée consiste à passer très tôt dans le processus d’analyse à
la représentation cible, et à travailler essentiellement sur elle (LSP, Friedman, RECIT-1).
Tous les problèmes linguistiques ne sont alors pas encore résolus, et certains traitements
restant à effectuer ont de grandes chances d’impliquer des contraintes de nature linguistique :
transformations (Friedman), restrictions de sélection (RECIT). La représentation cible doit
ainsi garder des affinités linguistiques, et il est difficile de lui assurer les propriétés d’une
représentation conceptuelle normalisée.
La stratégie suivie dans MENELAS prend en compte dans un premier temps des contraintes
linguistiques. Le passage à la représentation conceptuelle cible est guidé par un modèle
conceptuel normalisé, sujet à des contraintes de nature uniquement conceptuelle. L’implé-
mentation actuelle de cette approche souffre cependant d’un déficit de prise en compte de
contraintes sémantiques linguistiques, comme des restrictions de sélection linguistiques et
plus généralement des notions de combinatoire sémantique (comme celles du DEC).
La question qui se pose alors est de déterminer le degré de raffinement sémantique utile pour
construire une représentation conceptuelle à partir de textes médicaux. La réponse varie
nécessairement en fonction du type de texte source et de la représentation visée, qui dépend
de la tâche. Certaines tâches, comme la recherche documentaire, peuvent se satisfaire —
jusqu’à un certain point — de représentations linguistiques. Dès que la tâche doit effectuer des
inférences et s’appuyer sur des connaissances du domaine, une représentation conceptuelle
est nécessaire. C’est le cas par exemple de la classification à des fins de codage [18, 20, 31].
On peut observer que les systèmes étudiés modélisent les contraintes sémantiques de la
langue médicale sur la base d’une catégorisation des termes médicaux en grandes classes(
ii
)
sémantiques. Une approche du type de Wordnet hiérarchise davantage les mots du lexique
(par exemple, “right coronary artery” se trouve à la profondeur 10), et permettrait une
expression plus fine des contraintes sémantiques ; elle est sans doute à mettre en parallèle avec
les vocabulaires hiérarchisés tels que le MED, avec une pertinence linguistique probablement
différente. Le DEC représente un degré de finesse extrême dans la description sémantique,
avec des contraintes individualisées pour chaque mot. De l’avis même de ses auteurs, seule
une partie de cette richesse est nécessaire en analyse de textes (par opposition à la génération).
Se positionner dans ce spectre demande une analyse coût/bénéfice qui reste à effectuer.
5. Conclusion
Aucun système actuel de TALM ne prend en compte de façon sérieuse à la fois des contraintes
sémantiques (linguistiques) et conceptuelles. Le premier point est utile pour traiter les
problèmes liés à l’expression linguistique et respecter ce qui est effectivement dit. Le second
point est nécessaire pour assurer les propriétés formelles d’une représentation conceptuelle
normalisée, cible visée pour permettre un traitement automatique de l’information médicale.
Avancer dans cette direction nécessite de progresser sur les thèmes suivants :
– la représentation cible et ses contraintes constitutives. La synergie amorcée entre
systèmes de codification et représentation des connaissances va dans cette voie ; des
travaux méthodologiques sur la constitution d’ontologies sont également nécessaires ;
– la sémantique de la langue médicale. Le degré de raffinement sémantique utile à
l’analyse de textes médicaux reste toutefois à évaluer : faut-il s’orienter vers un DEC
de la langue médicale?
– le passage de la composition linguistique à la composition conceptuelle : ce problème
est au cœur de la compréhension des langues naturelles. Des méthodes de composition
dirigées par une représentation conceptuelle ont été explorées dans un contexte médical
ou plus général [26, 35]. Certaines de leurs limitations pourraient être résolues à l’aide
de davantage de connaissances sémantiques, qu’elles devraient alors savoir employer.
La constitution de bases de connaissances lexicales ou conceptuelles est consommatrice
de ressources : avancer dans les thèmes esquissés a un coût. On peut fonder des espoirs,
limités mais réels [36], dans l’acquisition automatique de connaissances à partir de textes,
qui représente donc un thème supplémentaire à développer.
Remerciements
Nous remercions Robert Baud de nous avoir communiqué des données récentes sur RECIT.
Références
[1] Cimino JJ. Coding systems in health care. In: Yearbook of Medical Informatics ’95
— The Computer-based Patient Record. van Bemmel JH McCray AT (eds). Stuttgart,
Schattauer, 1996:71–85.
[2] Scherrer JR, Côté RA, Mandil SH (eds). Computerised Natural Medical Language
Processing for Knowledge Engineering, Amsterdam, 1989. North-Holland.
)
i
(