Sémantique et traitement automatique du langage naturel (Traité IC2 série Cognition et traitement de l'information)

-

Livres
419 pages
Lire un extrait
Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

Description

Est-il possible de représenter, dans un format informatique exploitable, le sens d'un mot, d'un énoncé, d'un texte ? Ou peut-être, plus modestement, des éléments, des composantes de ce "sens" ? Comment réaliser des programmes capables de calculer effectivement ces représentations ? Dans quel but ? Quel rapport avec la Linguistique et les théories, les modèles, proposés par des linguistes pour divers "phénomènes sémantiques" ? Telles sont les questions auxquelles cet ouvrage est consacré. À partir d'une expérience pluridisciplinaire initiée à Caen il y a une quinzaine d'année entre linguistes et informaticiens, et dont ils retracent ici certains résultats importants, les auteurs montrent que cet objectif est pertinent d'un point de vue tant technologique (les applications) que scientifique (modélisation linguistique).
Introduction. Repères. Sémantique et traitement automatique du langage naturel : première approche -P. Enjalbert. Les paliers de la sémantique -P. Enjalbert, B. Victorri. Modélisation sémantique. Polysémie lexicale -G. Jacquet, F. Venant, B. Victorri. Le calcul de la référence -B. Victorri. Temporalité -L. Gosselin, C. Person. Sémantique de l'espace et du déplacement -Y. Mathet. De la compréhension automatique aux applications documentaires. Compréhension automatique -T. Charnois, P. Enjalbert. L'extraction d'information -P. Enjalbert. L'accès assisté à l'information documentaire -P. Enjalbert, F. Bilhaut. Recherche d'information géographique -F. Bilhaut, P. Enjalbert. Index.

Sujets

Informations

Publié par
Date de parution 02 septembre 2005
Nombre de visites sur la page 53
EAN13 9782746226173
Licence : Tous droits réservés
Langue Français

Informations légales : prix de location à la page 0,0518 €. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Signaler un problème
Introduction
Est-il possible de représenter, dans un format informatique exploitable, le sens dun mot, dun énoncé, dun texte  ou peut-être, plus modestement, des éléments, descomposantesde ce « sens » ? Comment réaliser des programmes capables de calculer effectivement ces représentations ? Dans quel but ? Quelle place pour de telles procédures dans le panorama chaque jour élargi des traitements automatiques du langage naturel ? Mais également quel rapport avec la linguistique et les théories, les modèles, proposés par des linguistes pour tel ou tel phénomène sémantique ? Ces modèles peuvent-ils être mis en uvre informatiquement, et cette mise en uvre peut-elle, en retour, profiter à la théorie ?
Telles sont les questions auxquelles cet ouvrage est consacré. Un ensemble de réponses, tant théoriques que pratiques, sera proposé, que lon peut synthétiser comme suit : oui, il estpossibledélaborer et de mettre en uvre, sur ordinateur, des calculs de ce type ; et il sagit dun objectif de recherchepertinent, dans une perspective aussi bien technologique que scientifique ; au cur de cette démarche doit se situer lélaboration demodèles linguistiques, ayant des caractéristiques particulières « dopérationnalité ».
Reprenons ces deux points. Concernant le premier, nous noterons dabord quun certain nombredapplicationsdesdaccéder peu ou prou au « sens »  nécessitent énoncés et des textes. Laffaire est particulièrement évidente dans le cas dinterfaces homme-machine, tels que des systèmes de renseignement téléphoniques vocaux, des agents dinformation sur Internet, ou des systèmes dinterrogation de bases de données en langue naturelle. En ingénierie documentaire, un des grands défis technologiques est de rendre aisément accessible et réellement exploitable le « stock » immense dinformation disponible sous forme électronique. Et si les
Introduction rédigée par le collectif des auteurs.
18 Sémantique et TALN
traitements ditsde surfacedes « formes »    sontcontenus » plutôt que des « aujourdhui prédominants dans les moteurs de recherche, il apparaît de plus en plus que le véritable enjeu est bien celui de « laccès au sens » des documents disponibles. Desverrous technologiques sont observés dans les tâches traditionnelles de la recherche documentaire, que seul le développement de méthodes sémantiques permettra de dépasser. Tandis que de nouvelles tâches, apparues récemment commelextraction dinformation, ou réactualisées comme lerésumé automatique, mobilisent clairement des traitements linguistiques et sémantiques.
Mais la pertinence scientifique du croisement entre sémantique linguistique et TALN peut aussi sapprécier dans un autre sens, dorientation plus « scientifique » ou « fondamentale ». Lobjectif nest plus alors  au moins directement  de développer tel ou tel type dapplications, mais de faire progresser notre compréhension des phénomènes sémantiques eux-mêmes. On construira alors des modèles, formalisés par des méthodes mathématiques, logiques ou dintelligence artificielle, et qui peuvent dès lors être rendus opérationnels grâce à des dispositifs informatiques appropriés. Comme dans dautres disciplines scientifiques (physique, économie, sociologie), la mise en uvre informatique devient un moyen pour expérimenter et paramétrer ces modèles, et valider  ou faire progresser  les théories. On tirera particulièrement profit détudes sur corpus, rendues en quelque sorte « objectives » par le recours à loutil informatique, et des masses considérables de données textuelles disponibles sous forme électronique. Bref, les traitements automatiques deviennent une composante dune méthode dinvestigation des phénomènes sémantiques, en termes à la fois de modélisation et dexpérimentation.
Quant à la possibilité délaborer desreprésentations formellesdes et calculs sémantiquessur ordinateur,elle est avérée de longue date par les acquis de lintelligence artificielle et de ses méthodes de représentation des connaissances, ou encore, sur un autre registre, par la tradition logicienne de la sémantique formelle et ses différentes écoles. Sur un plan plus modeste dun point de vue théorique, mais aussi plus réaliste, les nouvelles applications évoquées plus haut en témoignent de même. Certes, de nombreux travaux seront nécessaires pour développer ces procédures  et cest bien lobjectif de notre ouvrage que dy contribuer  mais la faisabilité « de principe » peut être clairement affirmée.
Nous venons dévoquer lélaboration de modèles linguistiques « opérationnalisables ». A la vérité, et cest notre seconde thèse, il sagit là dun élément crucial pour le développement dune approche sémantique en TALN (traitement automatique du langage naturel). La levée des verrous technologiques actuels, aussi bien que les nouvelles applications en émergence, nécessitent un investissement significatif dans ce sens. Si ces réalisations posent de réels et souvent passionnants problèmes informatiques ou dingénierie de la connaissance, la dimension linguistique doit
Introduction 19
aujourdhui être pleinement reconnue. Et si le recours à lintuition du concepteur dapplications nest certes pas à proscrire, il nest pas possible de se replier sur une sorte de « sémantique naïve », partagée « naturellement » par tout locuteur : la langue est une affaire trop complexe pour cela. Ici comme ailleurs, le « détour » par la théorie est nécessaire et la sémantique linguistique est riche de modèles qui ne peuvent être ignorés. Les exploiter, les mettre en uvre informatiquement, nest pas nécessairement une tâche aisée. Il est clair que les théories linguistiques sont rarement « importables » telles quelles. Un travail dadaptation, de reformulation, de simplification, de formalisation doit en général être fait, nécessitant une démarche et une collaboration pluridisciplinaire. Mais le bénéfice à attendre pour les applications est, selon nous, considérable. Et inversement, cet objectif impose à la linguistique de développer un certain type de modèles, formalisés et implémentables, avec les bénéfices décrits plus haut.
Cest dans cette dialectique entre modélisation sémantique et applications que se situe notre livre  qui ne se veut donc ni un ouvrage de « pure linguistique », ni un traité de « pure ingénierie ». Il ne prétend pas non plus, cest lévidence, couvrir lensemble du champ ouvert par le croisement du TALN et de la sémantique. Que vise-t-il donc ? Dabord la description de résultats obtenus au cours dune expérience de recherche pluridisciplinaire, initiée à Caen il y a une quinzaine dannée et poursuivie depuis, consistant dans lélaboration et la mise en uvre de modèles et dans la réalisation dapplications en ingénierie documentaire. Mais aussi, et de manière tout aussi importante, nous souhaitons, ce faisant, proposer une illustration de lactualité des recherches sémantiques en TALN et présenter les éléments dune méthodologie pour ce type dactivité. Ce qui nous a conduit à introduire un ensemble de bases théoriques et détats de lart, tant au plan sémantique général que relativement aux différents phénomènes et applications étudiés.
On retrouvera ces préoccupations dans les trois parties de louvrage, intitulées respectivement « Repères », « Modélisation sémantique », et « De la compréhension automatique aux applications documentaires ».
La première partie est une invite, avant détudier tel ou tel phénomène spécifique, tel ou tel type dapplication, à prendre la mesure du vaste domaine de la sémantique et des questions posées par sa « mise en uvre » informatique. On le sait, la langue fonctionne comme un système, et une perception densemble de ses différentes « instances » ou « composantes » est nécessaire pour délimiter correctement, mais aussi relier lorsque cela est nécessaire, les différents sujets détude. Cette partie sadresse donc particulièrement aux chercheurs peu au fait des questions de sémantique. Mais notre présentation ne sera évidemment pas neutre : orientée par la perspective de traitements automatiques, elle pourra aussi constituer une première approche des liens entre sémantique et TALN.