Le dialogue homme-machine

De
Publié par

Des plates-formes informatiques interactives rendent divers services aux utilisateurs. Mais, pour dialoguer avec eux, la construction de ces machines a-t-elle suffisamment exploré le dialogue humain ? Suite à une vue globale d'applications de "dialogue" offrant des services, un exemple est analysé en détail. Dans ce contexte, un modèle mathématique et linguistique ne pourrait-il pas contribuer à concevoir de nouveaux systèmes ? Un modèle de dialogue peut devenir une nouvelle base.
Publié le : jeudi 1 avril 2010
Lecture(s) : 104
EAN13 : 9782296247574
Nombre de pages : 259
Voir plus Voir moins
Cette publication est uniquement disponible à l'achat

Sommaire PREMIÈRE PARTIE : ANALYSE DE SYSTÈMES DE DIALOGUE EXISTANT...................................................................................9 CHAPITRE 1 : QUELQUES SYSTÈMES DE DIALOGUE .................................................9 1.1 Exploration de diverses applications disponibles .......................................10 1.2 Discussion sur un modèle théorique ...........................................................47 CHAPITRE 2 : DES ACTES DE DIALOGUE ................................................................61 2.1 Analyse détaillée d’un système d’agent dialoguant ....................................61 2.2 Le fait de communiquer comme une action................................................65 2.3 Le dialogue en pragmatique........................................................................65 2.4 Le dialogue homme-machine......................................................................70 2.5 Gestion des actes de parole à trois intervenants..........................................71 CHAPITRE 3 : LES RESSOURCES LEXICALES ...........................................................79 3.1 Le système d’analyse..................................................................................79 3.2 Adaptation des données multilingues existantes.........................................84 3.3 Représentation existante dans une grammaire TAG...................................85 3.4 La génération ..............................................................................................85 CHAPITRE 4 : UNE LOGIQUE MODALE ....................................................................93 4.1 Le cadre théorique ......................................................................................93 4.2 Les possibilités d’une logique modale KD 45q ........................................101 CHAPITRE 5 : MODÉLISATION LOGIQUE : LE NOYAU DU SYSTÈME DE DIALOGUE 109 5.1 Représentation logique des dialogues.......................................................109 5.2 Représentation logique des dialogues à trois intervenants........................112 5.3 Quelle solution possible au problème de la référence ?............................122 CHAPITRE 6 : L’AGENT DIALOGUANT A ..............................................................129 6.1 Présentation de l’agent dialoguant A ........................................................129 6.2 L’interaction .............................................................................................133 6.3 Une logique de l’action.............................................................................135 CHAPITRE 7 : DIALOGUE HOMME-MACHINE ........................................................143 7.1 Description de l’application existante.......................................................143 7.2 L’application à trois intervenants .............................................................146 DEUXIÈME PARTIE : À LA RECHERCHE D’UN MODÈLE DU DIALOGUE POUR DES APPLICATIONS................................................159 CHAPITRE 8 : DIALOGUE HOMME-MACHINE ET ACCÈS À L’INFORMATION : ANALYSE CRITIQUE DU « DIALOGUE NATUREL »..................................................161 8.1 Problématique...........................................................................................161 8.2 Quelle définition du « dialogue naturel » ?...............................................161 8.3 Processus quantifiables, mécanismes observables du dialogue ................166 8.4 Le terrain commun....................................................................................168 5

8.5 Analyse conversationnelle et dialogisme..................................................170 8.6 Des interlocuteurs informaticiens .............................................................173 8.7 Quel objet pour les niveaux d’analyse linguistique ? ...............................174 8.8 Les processus analysés .............................................................................175 8.9 Les modalités objet d’étude ......................................................................176 8.10 Dialogue humain et dialogue homme-machine ......................................178 8.11 Les difficultés rencontrées ......................................................................179 8.12 Conclusion ..............................................................................................180 CHAPITRE 9 : QUEL MODÈLE DE DIALOGUE POUR UNE PLATE-FORME MULTIMODALE ? ..........................................................181 9.1 Des systèmes agents .................................................................................181 9.2 Le cadre théorique : un langage de nature dialogique...............................190 9.3 Analyse des concepts par rapport à l’existant en dialogue multimodal ....195 9.4 Au moins trois représentations d’une information pour la machine .........197 9.5 Pour la conception d’une interface adaptative ..........................................203 9.6 Conclusion ................................................................................................209 CHAPITRE 10 : UNE REPRÉSENTATION DU DIALOGUE POUR LE DIALOGUE HOMME-MACHINE.................................................................211 10.1 La nature dialogique du langage .............................................................211 10.2 Modélisation du dialogue et applications de dialogue homme-machine 216 CHAPITRE 11 : RÉCEPTION DE LA PAROLE ET INCIDENCE DE L’AUDITION EN LINGUISTIQUE DE L’ÉNONCIATION ..................................................................231 11.1 Des questions linguistiques liées à l’audition .........................................232 11.2 Linguistique et déficience auditive .........................................................233 11.3 Caractérisation technique de la déficience auditive ................................236 11.4 Conséquences pour la réception du message ..........................................239 11.5 Dialogue et Cognition.............................................................................240 CONCLUSION .......................................................................................................245 RÉFÉRENCES .......................................................................................................249

6

Cet ouvrage se compose de deux parties distinctes. La première, introduite par la présentation de systèmes de dialogue multimodal, choisit ensuite un de ces systèmes comme exemple, pour interroger la théorie qui s’y trouve implémentée1. Elle est suivie d’une seconde partie, où la réflexion critique, également appuyée sur d’autres exemples de projets informatiques et télécoms, notamment pour des utilisateurs handicapés ou âgés puisque c’est une des utilisations du dialogue multimodal, aboutit à la proposition d’un modèle de dialogue pouvant être introduit dans ces applications. Il s’agit d’interroger le fait que bien souvent on dispose de possibilités techniques, qui s’appuient sur un modèle théorique à l’origine de leur fonctionnement. Est-il possible de renouveler ce modèle théorique pour proposer des applications nouvelles ou bien l’innovation se trouve-t-elle seulement reliée aux transformations logicielles et techniques ? Nous ne répondrons pas à cette question, qui reste ouverte. Par contre, nous proposons une série de réflexions, à travers différents projets (notamment dans la deuxième partie), qui révèlent l’indigence dans laquelle les modèles de la communication se trouvent parfois, alors qu’ils pourraient sans doute bénéficier des avancées contemporaines en sémiotique et en linguistique sur la compréhension du dialogue humain. Le point de vue que nous adoptons pour une critique constructive de ces différentes applications est le point de vue dialogique ; nous mesurons alors l’écart qui existe entre l’expression linguistique de la connaissance sur le dialogue aujourd’hui, et des applications qui visent une télécommunication. Pour interroger cet écart, nous devons mettre en parallèle le modèle mathématique de la communication de Shannon et des modèles sémiotiques contemporains de l’activité dialogique. Nous tentons alors d’en tirer quelques conséquences vers de nouvelles applications. Le schéma du dialogue issu des théories de E. Benveniste, A. Culioli, développé par J.-P. Desclés et Z. Guentchéva, permet un éclairage à la fois sur les théories et les applications qui pourraient bénéficier d’un tel modèle du dialogue. Ce point de vue constitue le fil directeur de notre analyse dans l’ensemble des chapitres proposés, aussi bien au niveau linguistique que dans les applications concrètes en logique et en informatique.

1

G. Guibert, Développement d’un agent de traduction en contexte de dialogue, Mémoire de D.E.A. Linguistique théorique, descriptive et automatique, Linguistique informatique, Paris 7, 2001.

7

Première partie : Analyse de systèmes de dialogue existant

Chapitre 1 : Quelques systèmes de dialogue Différents travaux expérimentent un système de dialogue homme-machine, comme par exemple les suivants : - Les projets CORDIAL et Langue et dialogue (INRIA) ; - Le système d’interprétation MICO et architecture dialogique du projet InterViews (G. Pitel) ; - Le système COALA (J. Lehuen), qui emprunte davantage aux travaux d’A. Nicolle et D. Luzzati ; - Le système HALPIN (J. Caelen) et les différents travaux réalisés sur le dialogue dans la continuité du cadre théorique, le projet Portail Vocal d’Entreprises. D’autres encore abordent différents aspects du dialogue homme-machine : modélisation des intentions communicatives, de la co-construction, de la coréférenciation ; et jusqu’à l’analyse de corpus et l’évaluation des interfaces. Il est intéressant de résumer maintenant la description de quelques-uns de ces systèmes, à titre d’exemplification de l’état de l’art et de façon à introduire nos interrogations. Ces systèmes, réalisés dans le cadre de travaux notamment en informatique, utilisent la modélisation, mais encore, pour certains, la coadaptation à l’utilisateur. Sans les présenter de façon exhaustive, nous réfléchirons au modèle du dialogue, utilisé ou non, dans ces différents exemples. D’autres travaux, en psycholinguistique ou en linguistique visent au contraire à comprendre le dialogue d’un point de vue théorique. Sur la base de ces travaux, serait-il possible d’introduire un cadre théorique adapté au dialogue ? Car il semble important, si on veut faire dialoguer un ordinateur, d’avoir bien compris en quoi consiste un dialogue d’un point de vue linguistique, et d’être capable, également à partir des fondements théoriques, de le modéliser correctement pour le faire comprendre ou en tous cas de donner tous les éléments nécessaires à l’ordinateur, afin qu’il reproduise les mécanismes ou tâches propres au dialogue. Dans cette première partie, on présentera ensuite une application de dialogue existante plus profondément, en interrogeant la théorie utilisée en détail. On rapportera le cas où ce système de dialogue homme-machine voudrait être envisagé comme la base d’un système de communication entre deux humains, médiatisé par une machine. Ces deux cas d’applications fournies pour la communication interpersonnelle serviront de base ultérieure à notre réflexion critique, effectuée dans une deuxième partie, prenant alors en compte divers autres exemples. Cette première partie traite, dans un premier temps, des aspects linguistiques (chapitres 2 et 3), dans un deuxième temps, des aspects logiques (chapitre 4 et 5), et dans un troisième temps des aspects informatiques (chapitres 6 et 7).

9

1.1 Exploration de diverses applications disponibles L’équipe projet sur le dialogue naturel (INRIA) comprend d’emblée qu’un système ne peut être développé sans une compréhension et une théorie de l’activité dialogique2. Dès lors, le phénomène du dialogue fait l’objet d’une modélisation3. Directement basé sur la théorie des actes de langage, les modèles de dialogue utilisés « prennent en compte l’interface générale de communication et rendent plus facile l’implémentation sur l’ordinateur4 ». Les actes de dialogue sont extraits à partir des phrases concrètes de l’utilisateur. En retour, le système de dialogue doit intégrer « une compréhension et une théorie de l’activité dialogique » ; il s’agit donc bien d’une « modélisation du dialogue multimodal », quoique plusieurs points ne soient pas pris en compte dans cette théorie5. Le projet consiste à utiliser une famille de modèles de dialogue, basée sur la planification des actes de langage. Cette modélisation prend en compte le cadre général de la communication et rend plus aisée l’implémentation en machine6. L’erreur potentielle et l’impossibilité de satisfaire l’utilisateur qu’elle entraîne sont aussi considérées ; ainsi que différents niveaux d’actes de langage, de façon à prendre en compte notamment les différentes modalités7. Un autre projet porte sur Langue et Dialogue, dans une autre perspective puisqu’il s’agit surtout du traitement de la sémantique et de l’intégration du contexte ; néanmoins, il prévoit l’étude des mécanismes fondamentaux de la communication en langue naturelle8. En raison du traitement linguistique présent dans le projet, le dialogue devient sans doute parfois « la communication » ou encore le fait de véhiculer une information. Dans ce projet, des questions se posent, telles que par exemple : « De quelle façon fonctionne le langage humain ? », « Quels sont les processus impliqués lorsque deux personnes engagent un dialogue ? », « Comment
2 Project-team CORDIAL, Man-Machine Oral and Multimodal Communication, INRIA Activity Report, Rennes, 2003, p. 1. D’un côté, les systèmes de dialogue naturel ne peuvent être développés sans une compréhension et une théorie de l’activité dialogique. D’un autre côté, le développement et le test de systèmes réels autorisent l’évaluation et la constitution de corpora (nous traduisons). 3 ibid., p. 1. Nous modélisons le phénomène du dialogue, en utilisant le concept d’acte de langage et d’acte de dialogue, et nous considérons qu’une séquence d’échanges peut être analysée comme le résultat d’une planification (nous traduisons). 4 ibid., p. 2. 5 ibid., p. 1 : « We model the dialogue phenomena by using the concepts of speech acts and dialogue acts, and we consider that a sequence of exchange can be analyzed as the result of planning. This model gives a satisfactory modeling of many phenomena in real dialogues, such as the coordination between different negotiations phases and the management of the user’s knowledge base. However, several points are not straightforwardly modeled in such a theory : parts of the dialogue do not carry any obvious intention or errors in understanding may mistake the planner, etc. Moreover, the extraction of the dialogue acts from the speech of the user is a complex problem, as is also the restitution of the dialogue acts of the system into synthetic speech. » 6 ibid., p. 2 : « Our project is using a family of dialogue models, based on speech acts plans. This modeling takes into account the general framework of communication and makes easier the implementation on computer. » 7 cf. Maybury, Project-team CORDIAL, Man-Machine Oral and Multimodal Communication, p. 4. 8 Project-team L&D, Langue et Dialogue, Rapport d’activité INRIA, Lorraine, 2004, p. 2 : « fundamental mechanisms of communication in natural language » ; « implementation of effective dialogue systems » ; « design of generic methods and tools for the refined study of real dialogue situations ».

10

font-ils exactement pour se comprendre ? » ; « Est-il possible de modéliser de telles interactions sur ordinateur, et dans l’affirmative, quels sont les méthodes et outils à définir9 ? ». Les aspects pragmatiques et sémantiques sont envisagés ; les formalismes sophistiqués de représentation du discours (DRT) permettent le développement d’une sémantique formelle. L’inférence et les environnements multimodaux ont été particulièrement étudiés, en lien avec des théories récentes et des données empiriques. Ce projet étudie différents cas du dialogue avec la machine, comme le « Man-Machine Dialogue (MMD), in which the machine is treated as an interlocutor, and Computer-Mediated Dialogues (CMD), in which human participants communicate with each other using machines as a medium10 ». De plus, le dialogue multimodal requiert des analyses particulières des différentes modalités mises en œuvre dans le dialogue11. Les aspects de standardisation sont également étudiés, de façon à avoir des corpus homogènes12. Contrairement au projet CORDIAL, les aspects dialogiques de la conversation sont moindres par rapport aux aspects sémantiques et d’encodage dans une linguistique formelle, jusqu’à obtenir des ressources standardisées, utilisables à un niveau européen. L’axe de recherche se développe davantage en ce sens, plutôt que sur la situation pragmatique ou d’énonciation à intégrer dans le dialogue. Dans le travail de G. Pitel, le système d’interprétation MICO et l’architecture dialogique du projet InterViews sont présentés. En s’interrogeant sur ce que cette architecture a de dialogique, on peut remarquer que ce dernier a été développé en suivant l’approche du médiateur ; « l’utilisateur est un humain qui interagit en langue naturelle avec le composant effectif. Nous dirons qu’une telle interaction est « dialogique »13 ». Ce caractère dialogique concerne les différentes fonctions, à
ibid., p. 3 : « How does human language work ? What are the processes involved when two people have a dialogue ? How do they understand each other ? Is it possible to model such interactions on a computer and, if so, what are the methods and tools we need ? Such questions raise many scientific problems, such as how the sound systems of human languages function (phonology), and what is involved in the organization of grammatical structure (syntax). In the ‘Langue et Dialogue’ Team, we are particularly interested in semantic and pragmatic aspects of human language and with the computational problems they give rise to. » 10 ibid., p. 4 : « The research carried out on human computer-mediated dialogues also explores the relationships between language and cognition, but in a way that is the reverse of that found in MMD. In CMD, we are not concerned to develop efficient dialogue systems inspired by human cognitive skills, rather we aim to study human cognition by means of dialogue systems. When we implement experimental communication interfaces for human dialogues, we want them to reveal which factors promote (or prevent) various forms of collaboration in dialogue. » 11 ibid., p. 7 : « The design of multimodal systems requires a deep analysis of the way meaning is divided between language and gesture. » 12 ibid., p. 8 : « Working with normalized linguistic resources enables us to validate, by observation, our theoretical models, and also provides us with a generic source of information (for example lexical information) for the prototypes which we develop. Thus, we think that it is necessary to actively contribute to the definition of deeper norms in linguistic engineering domain and to participate in the spreading of existing normative frames. Accordingly, the « Langue et Dialogue » team occupies an active place in the national and international community in the domain of the standardization of linguistic resources and their use. » 13 G. Pitel, MICO : La notion de Construction Située pour un Modèle d’Interprétation et de Traitement de la Référence pour le Dialogue Finalisé, Thèse de Doctorat, Université Paris-XI, 2004, p. 165.
9

11

savoir : contrôle, commande, et assistance. Dès lors, cette architecture utilise bien un médiateur, représentation du composant, qui lui confère ce caractère dialogique. Nous pouvons interroger quant à la signification donnée ici à ce terme. Est-ce que le fait d’interagir avec un composant en langue naturelle donne à cette interaction un caractère dialogique, simplement du fait qu’il y a interaction en langage naturel ? La définition du dialogue est nécessaire à cette analyse. Celle proposée par ces travaux concerne davantage la phrase de dialogue ou dialogique14. Dès lors, cette succession de trois définitions déplace l’attention première, des aspects grammaticaux aux aspects d’exécution, à travers le caractère actif des « phrases de dialogue », rattachées aux actes de langage de J.-L. Austin et J. Searle. On observe en effet que depuis les aspects grammaticaux, c’est-à-dire syntaxiques et sémantiques ensemble, on en vient au langage parlé qui correspond à la situation plus précise d’un dialogue, entre humains ou avec la machine. Néanmoins, on retrouve au moment de la compréhension, dans le système de dialogue, la nécessité de déchiffrer l’énoncé parlé au niveau de sa syntaxe et de sa sémantique. Dès lors, à l’analyse, la phrase de dialogue conserve certains aspects de la phrase narrative ; de même, la phrase dialogique nécessite, pour « faire effectuer une tâche », que la machine puisse passer par les deux autres étapes, à savoir comprendre l’énoncé oral dans ses aspects grammaticaux ; et, de ce fait, comprendre les aspects sémantiques d’une part, et comprendre l’action en jeu pour l’effectuer ou bien générer une réponse adéquate d’autre part. Dès lors, l’interaction homme-machine, que seule la phrase dialogique concerne pour cet auteur, se trouve néanmoins dans la nécessité de faire recours aux phrases précédentes ; afin de prévoir les étapes de compréhension et de réponse du DHM. Dans cette thèse, il est observé que, le plus souvent, l’utilisateur dialogue avec la machine pour exécuter une tâche15. Dès lors, la machine est avant tout l’exécutant de l’action requise ou de l’information recherchée, lorsqu’elle apporte la réponse. En ce cas, elle ne produit rien en fin de compte, mais restitue ce que l’informaticien a implémenté. Cependant, aujourd’hui, certaines tâches comme le jeu de dames, et dans quelques années le jeu d’échecs, dépassent les attentes de l’utilisateur humain en termes de réponse (dans le jeu, par l’adversaire qui est la machine). Dans une
ibid., p. 170, selon l’auteur : « La phrase narrative c’est une phrase « de livre » à la syntaxe et à la sémantique très normées. C’est d’abord sur ce type de phrases qu’ont porté les recherches en TALN, où les aspects grammaticaux sont très forts. La phrase de dialogue : c’est une phrase émise entre humains de manière orale. Austin puis Searle ont bien montré la spécificité de la langue orale par rapport à la langue écrite. La phrase dialogique : c’est une phrase émise par un humain seul, dans le cadre strict de son interaction avec une machine, dans le but d’effectuer ou de faire effectuer une tâche. » 15 ibid., p. 169 : « Cependant, si on se restreint au domaine de la langue qui concerne le dialogue entre humains, cette approche est difficile à tenir : l’observation de divers corpus de dialogue (par exemple, les corpus de conversations téléphoniques) fait apparaître que la syntaxe des phrases est pauvre (mots isolés, inversés, simples juxtapositions, usage fort de l’implicite pour la référence (surtout la métonymie), etc.) et que la sémantique est fortement liée au contexte. Maintenant, si nous considérons, à plus forte raison, le cas tout particulier du dialogue homme/machine, on constate immédiatement que le dialogue est quasiment toujours orienté tâche, i.e. c’est un dialogue où l’utilisateur humain est le maître et de plus ne dialogue avec la machine que dans le but d’effectuer (ou de faire effectuer) une certaine tâche. Dans ce cas, tous les traits qui distinguent le dialogue humain de la narration se trouvent très accentués » ; voir aussi p. 170.
14

12

telle configuration, la machine dépasse en réponse la capacité humaine ; c’est pourtant bien cette machine qu’il s’agit de dominer, dans le dialogue hommemachine décrit ici. Pour ce faire, il faudrait pouvoir en dominer toujours l’action ou la réponse. Dans le cas présent, cette machine n’a pas les facultés dont l’ordinateur peut bénéficier aujourd’hui. Si elle ne possède pas ces facultés d’exécution, on peut certes interroger la façon dont elle a été développée ; ou bien, elle les possède et alors elle n’est plus seulement exécutant. Dès lors, le modèle décrit ci-dessus est sans doute à penser à frais nouveaux, de façon à ce qu’une autre forme d’interaction, et non plus celle de la domination, soit intégrée à l’interaction dialogique16. Cette interaction dialogique a lieu à travers un médiateur. Le médiateur en question « est une description, une représentation du composant qui est dédiée à l’interaction avec l’utilisateur17 ». L’auteur comprend alors la phrase dialogique comme caractéristique de l’interaction homme-machine, de façon à faire effectuer une action convenue par cette machine. Est-ce bien là tout le dialogisme, que de dominer l’instrument, et de le faire acquiescer à une action qu’il peut décoder et exécuter en fonction des moyens de comprendre le langage naturel qui ont été implémentés ? Qu’est-ce que ce dialogisme emprunte effectivement au dialogue ou en conceptualise justement, qualifié par les phrases de dialogue précédentes ? Car il s’agit surtout de comprendre et résoudre la question posée par l’utilisateur au système ; l’interaction dialogique permet, dès lors, une réponse appropriée. L’auteur se rend compte lui-même de l’insuffisance d’une analyse syntaxique et sémantique : « Cela n’est pas toujours possible, même si la requête est syntaxiquement et sémantiquement correcte ». Est-ce à dire qu’interpréter la requête ne suffit pas toujours pour y formuler une réponse adéquate ? Que manque-t-il, dès lors, à cette interaction dialogique ? Que peut-elle proposer de plus, pour être vraiment performante ? Elle doit certes commencer par comprendre la requête utilisateur ; dès cette étape, des problèmes de lecture, déchiffrage, de la requête, peuvent se poser, indépendamment de la capacité de la machine à formuler une réponse. Cette réponse est, en général, générée au moyen des capacités de langage qui ont été implémentées (générateur de dialogue le plus souvent, avec une grammaire formelle capable de produire un énoncé en langue naturelle à partir d’un formalisme interprétable en machine). L’interaction dialogique, alors même qu’elle a une modélisation, se heurte donc, de l’avis de l’auteur, à des problèmes de diagnostic, de planification, d’incapacité physique. C’est pourtant dans de telles situations qu’une grammaire formelle doit néanmoins trouver une réponse « qui paraisse pertinente pour l’utilisateur » ; qui, dès lors, doit bien interpréter l’énoncé ou la requête entrante, malgré ses multiples sources d’ambiguïtés syntaxique et sémantique inhérentes.
16 17

Cf. http://www.nature.com/news/2007/070716/full/070716-13.html G. Pitel, 2004, op. cit., p. 168 : « A partir de ce modèle cognitif, l’utilisateur interagit principalement de manière dialogique avec le médiateur-composant, c’est-à-dire en langue naturelle que nous appellerons (un peu abusivement) des questions. Entre l’utilisateur et le médiateur, il y a un flux bidirectionnel de questions/réponses : - Questions : utilisateur/médiateur ; ce sont des phrases en langue naturelle, - Réponses : médiateur/utilisateur ; ce sont des phrases en langue naturelle et/ou des actions (perceptibles dans l’interface). »

13

L’analyse de la question comprend bien les phases suivantes : analyse lexicale, syntaxique, sémantique, pragmatique ; chacune, et non seulement la phase d’analyse pragmatique, fait intervenir le « contexte situationnel » ; car, dans le dialogue homme-machine, le contexte est toujours très important, à toutes les phases de l’analyse18. Enfin, on peut remarquer que : « Dans InterViews, notre objectif est d’introduire un principe de généricité dans l’interaction avec des composants actifs19 ». Il s’agit alors de réfléchir à la fois avec la structure, et non pas seulement avec le contenu ; en déterminant des contraintes sur la structure et sur le contenu20. De nouveaux services « gestion de l’agenda de tous les personnels, redirection d’appels, renseignement » sont envisagés par l’auteur, qui propose également d’étendre les services rendus au secrétaire virtuel ou au robot. Une implémentation du modèle MICO, qui repose sur les schémas, les contextes et les observateurs, est également présentée21. Le flux, même bidirectionnel, constitue-t-il un dialogue ? De même, l’acte dialogique, orienté vers la réalisation d’une tâche précise et prédéterminée ? Le modèle sous-jacent prend en compte certains aspects, mais n’est pas dialogique tant que ces deux questions se posent. Une autre manière d’aborder le dialogue consiste à analyser sa structure. Par exemple, la thèse de N. Colineau (1997) exploite des marqueurs discursifs, selon les cadres de discours de M. Charolles. L’identification est effectuée au moyen de divers indices, de façon à mettre en évidence à la fois les actes de dialogue, la structure discursive et les thèmes principaux manipulés dans ces cadres, voire des « chaînes thématiques22 ». Par contre, en ce qui concerne le modèle du dialogue, celui-ci n’est jamais vraiment mis en exergue, au profit d’une intéressante recherche au sujet des structures discursives, dans la ligne des cadres discursifs repérés par les marqueurs linguistiques de M. Charolles ; quoique la situation d’énonciation concrète soit bien prise en compte dans son ensemble, et par ce moyen le dialogue.
18 ibid., pp. 169-170 : « L’analyse de la phrase dialogique est dirigée par le médiateur de deux manières » : « les phrases de l’utilisateur sont a priori de nature dialogique, i.e. des demandes de contrôle/contrôle/assistance et non de nature narrative, poétique, donc vues comme des actes de langage ; et elles sont « fortement associées à une intention d’agir dans et sur une situation (i.e. le fonctionnement du composant). » 19 ibid., p. 170. 20 ibid., pp. 160-161. 21 G. Pitel et J.-P. Sansonnet, « Modèle d’interprétation constructionnelle par observateurs pour les systèmes de dialogue avec support visuel », AGENTAL « Agents et LANGUE », Journée ATALA, Paris, 13 mars 2004 : « Nous décrivons une implémentation du modèle MICO, modèle d’interprétation constructionnelle par observateurs, qui a été conçu pour supporter le traitement de problèmes de niveau pragmatique dans un même formalisme que ceux de niveaux sémantiques ou syntaxiques. Notre modèle est fondé sur les grammaires de construction de Fillmore. La principale originalité de ce modèle est de travailler sur des données topologiquement situées, ce qui permet de représenter aussi bien une phrase (espace à une dimension) qu’une scène visuelle (deux dimensions ou plus). La seconde originalité du système est que toutes les opérations d’analyse sont représentées à partir d’agents légers que nous appelons observateurs. Ces observateurs définissent des connexions entrantes ou sortantes vers les contextes, ainsi que des contraintes topologiques entre ces connexions. » 22 N. Colineau, Etude des marqueurs discursifs dans le dialogue finalisé, Thèse de Doctorat, Université Joseph Fourrier, 1997, résumé de thèse : « Trois types d’indices linguistiques ont été retenus : les indices intervenant dans la détermination des actes de dialogue, les indices de connexion dont le rôle est de marquer la structure du discours et les indices de cohésion rendant compte des chaînes thématiques. »

14

On remarque qu’il est davantage question d’élaborer un modèle conceptuel du discours, qu’un modèle du dialogue23. Par ailleurs, l’approche expérimentale mise en œuvre permet l’observation de dialogues concrets, avant tout modèle de dialogue à strictement parler. La thèse critique le modèle de Cohen, Allen et Perrault, basé principalement sur les concepts de croyance et de schéma d’action, au motif que ce dialogue induit une relation maître-esclave unidirectionnelle, et de ce fait restreint le dialogue, sans intégrer les situations de dialogue collaboratif24. Elle expose également le modèle de Grosz et Sidner, avec la notion de plan partagé qui permet de partager les croyances25. Cette approche propose néanmoins l’identification des actes de langage, également à travers les marqueurs retenus ; il s’agit davantage d’un cadre actionnel que d’un cadre dialogique26. Les aspects actionnels et de la valeur discursive des énoncés, bien que le contexte d’énonciation et les partenaires en dialogue soient pris en compte, reviennent au premier plan ; car le dialogue hommemachine et l’acte dialogique qui le constitue renvoient à l’action. D’une part, l’aspect actionnel concerne le langage comme action, puisque J.-L. Austin, J. Searle et D. Vanderveken sont à l’origine de ce modèle, d’autre part, il y est lié parce que l’étude concrète renvoie aux actions effectuées par la machine. Ce dernier point constitue une caractéristique précise du dialogue homme-machine, qui consiste néanmoins à faire exécuter des actions par une machine, même en sortant du paradigme unidirectionnel du maître et de l’esclave. En effet, la théorie des actes de dialogue, si elle a le mérite de pouvoir prendre en compte des segments plus larges et complexes que les seuls actes de langage, repose néanmoins sur la même philosophie du langage, où ce dernier est comparé à l’action : « Il s’agit donc de comprendre comment le dialogue se structure et comment sont agencés les actes entre eux27 » ; tel est le modèle qui va également permettre l’analyse des dialogues

23 ibid., p. 5 : « Par ailleurs, dans le cadre d’une coopération franco-canadienne, ce travail s’insère dans le projet MAREDI (MArqueurs et REprésentation du DIscours) mené conjointement par B. Moulin et S. Delisle. Ce projet vise à développer une approche d’analyse de discours afin d’élaborer un modèle conceptuel du discours sous la forme d’un ensemble d’états mentaux structurés. » 24 ibid., p. 13. 25 ibid., p. 15 : « Chaque plan partagé est constitué d’un ensemble de croyances mutuelles et d’intentions individuelles. La reconnaissance de plan consiste alors à déterminer quelles sont ces croyances et ces intentions. » 26 ibid., p. 44 : « L’analyse en actes de dialogue repose sur la théorie des actes de langage (cf. section 1.1 de l’introduction) et de la logique illocutoire (Vanderveken, 1988) qui associe à chaque énonciation, un contenu propositionnel renvoyant en quelque sorte à la sémantique de l’énoncé, et une force illocutoire spécifiant ce que le locuteur désire accomplir par son énonciation. La force illocutoire elle-même est décomposée en plusieurs caractéristiques, dont le but illocutoire constitue la plus importante. » ; puis, p. 46 : « Ainsi, notre analyse en actes de dialogue prend en compte le contexte d’énonciation, ainsi que les partenaires de l’interaction à travers la notion de but et d’effets attendus. Notre perspective se situe donc dans un cadre à la fois dialogique et actionnel ». Cependant, p. 54 : « L’analyse des actes de dialogue, et plus particulièrement de la valeur discursive de ces actes, consiste à rechercher des éléments pertinents permettant d’associer un énoncé à une action (ce que le locuteur veut faire). Notre démarche s’articule en deux temps : tout d’abord, procéder à une recherche de marques à partir de l’étude du corpus, ensuite, étant donné un ensemble de marques définies, mettre en place un processus d’association tel qu’à une combinaison de marques corresponde un type d’acte. » 27 ibid., p. 67.

15

concrets et des situations d’usage réel28. Les différents actes (directs, indirects, informatifs), sont repérés au moyen de différents marqueurs linguistiques, de façon à bien savoir quel est le type d’acte explicitement annoncé par le locuteur29. Ces corpus de dialogue sont également analysés avec une analyse pragmatique, ce qui est en effet judicieux en contexte de dialogue oral30. La théorie du dialogue réellement utilisée est aussi celle de D. Luzatti31 ; l’intérêt de cette approche consiste à retenir des marqueurs linguistiques, par surcroît des marqueurs de structuration32. Ainsi, il ne s’agit pas d’entrer dans une interprétation du sens des énoncés de dialogue, mais de repérer directement des marques linguistiques qui sont directement interprétables et comportent certainement un équivalent en machine, en termes d’exécution ; par exemple, elle ne nécessite pas d’entrer dans une interprétation de type syntaxico-sémantique33. On remarque toutefois que le caractère unidirectionnel d’une relation maître-esclave a encore été mentionné dans le cadre de ce travail. Le dialogue homme-machine peinerait-il à sortir de ce paradigme ? La thèse de L. Villaseñor-Pineda34 (1999) a pour objet la construction d’un modèle du dialogue qui soit générique, indépendant de la tâche ; le dialogue correspondant à
28 ibid., p. 67 : « Nous percevons cette organisation à travers deux types d’information : d’une part, les marques de connexion permettant notamment de déterminer lorsqu’une séquence débute, lorsqu’elle est poursuivie, interrompue ou bien close, et d’autre part, la nature des enchaînements relevés. » 29 ibid., p. 129. 30 ibid., p. 149 : « Ainsi, ce système identifie en contexte les énoncés accomplis. Nous modélisons cette identification d’actes de dialogue par un réseau connexionniste récurrent. » ; et, p. 154 : « Le réseau connexionniste élaboré est un réseau localiste, récurrent (ce qui permet de traiter les effets de contexte), sans apprentissage et présentant une architecture modulaire (les unités et les connexions du réseau font partie d’une base de connaissance donnée en début de session au réseau). » 31 ibid., p. 181 : « D. Luzzati distingue deux axes d’orientation du dialogue, un axe régissant et un axe d’incidence. ‘...soit demande d’information et délivrance des renseignements s’enchaînent sans difficulté, et il s’agit d’un dialogue régissant ; soit des demandes de précisions, d’explication, de confirmation ou de reformulation doivent intervenir pour qu’une question ou une réponse soit acceptée, et il s’agit d’un dialogue incident’ (Luzzati, 1995b : 185). » 32 ibid., pp. 247-248 : « Nous avons étudié quelques-uns de ces indices ; ils interviennent à des niveaux différents dans l’organisation et la compréhension des échanges discursifs. Trois niveaux d’analyse nous ont paru intéressants : 1-La structuration du dialogue ; les marques de connexion en relation avec un modèle des enchaînements d’actes indiquent les grandes articulations du dialogue en rapport avec la tâche accomplie. Elles fournissent des repères à l’interlocuteur ; ainsi, il peut suivre la tâche, notamment lorsque le but n’est pas explicite. 2-La nature des actes langagiers accomplis. Nous avons montré qu’il existait des régularités dans l’emploi de certaines marques lexicales, et dans l’emploi de constructions syntaxiques, même si on ne peut pas établir de correspondances biunivoques entre les actes de dialogue et les constructions syntaxiques employées. 3-La cohésion du dialogue. Les marques de cohésion complètent les marques de connexion ; elles permettent également de suivre la tâche en cours, en mettant en évidence les mouvements argumentatifs, ainsi que les changements ou les ruptures de thèmes. » 33 ibid., p. 249. 34 L. Villaseñor-Pineda, Contribution à l’apprentissage dans le dialogue homme-machine, Thèse de Doctorat, Université Joseph Fourrier, 1999, p. 6 : « L’idée envisagée est la définition d’un modèle de dialogue indépendant de la tâche, où le domaine de travail est défini par l’application, mais où le système de dialogue ne connaît pas, a priori, la ou les tâches possibles à faire. »

16

des actions effectuées avec la machine, étant toujours orienté tâche. De fait, plusieurs tâches pouvant être concernées, cette thèse propose en quelque sorte de mutualiser le modèle du dialogue, finalement récurrent à un niveau plus générique, quelle que soit la tâche effectuée ; ce modèle peut donc être indépendant de la tâche, et ainsi servir quelle que soit cette tâche, de façon économique en termes de réalisation, puisque alors il ne sera pas nécessaire de développer un dialogue spécifique en fonction de la recherche documentaire, du renseignement téléphonique ou d’autres tâches potentielles35. Le modèle logique du dialogue pris en compte, basé sur les travaux de J. Caelen, intègre à la fois une logique de l’action, « pour décrire les actions et les effets produits par ces actions » et une logique dialogique « pour exprimer les engagements, les interruptions et les incompréhensions lors des échanges dialogiques, en fonction des buts du dialogue ». On remarque que cette logique prend en compte la forme à la fois du dialogue, avec ses caractéristiques (logique dialogique) et relève encore de la philosophie du langage, en ce sens que l’action est considérée en premier lieu. On peut supposer que, comme dans le modèle précédent, cette logique relève avant tout du langage, et de ce fait du dialogue, comme action. L’expression concrète de ce point de vue, dans le modèle logique, prend bien la forme d’une description – d’une modélisation – des actions et non du contenu des énoncés, comme dans un modèle pragmatique. Les « effets » en question ne peuvent non plus être des contenus, mais davantage des phénomènes, par exemple de compréhension ou d’autres actions, comme des réponses, verbales ou manuelles (exécution d’une commande par exemple). Le modèle retenu est ainsi d’abord basé sur la philosophie du langage ; puis, sur une extension de la logique illocutoire au dialogue36. La thèse analyse, d’une part, le modèle structural du dialogue, par exemple à la suite de linguistes comme E. Roulet, d’autre part le modèle davantage hérité de l’informatique, basé sur la planification ; de façon à les critiquer et proposer sa propre approche. Les inconvénients liés au modèle structural consistent en l’établissement d’une structure a priori, d’un dialogue qui, dans certains cas, peut ne pas en avoir37. L’approche proposée fait au
35 ibid., p. 6 : « La modélisation des échanges dialogiques entre l’utilisateur et la machine est réalisée dans un cadre logique, fondé sur l’action, qui permet d’expliquer le déroulement d’un dialogue hommemachine [Caelen 95]. Elle contient des éléments d’une logique épistémique – pour la représentation des connaissances –, d’une logique de l’action – pour décrire les actions et effets produits par ces actions –, et d’une logique dialogique – pour exprimer les engagements, les interruptions et les incompréhensions lors des échanges dialogiques, en fonction des buts du dialogue –. De cette façon, notre modèle intègre la gestion des échanges langagiers et non-langagiers, la coordination des actions à partir de la reconnaissance de plans en fonction des actions observées, et la construction de connaissances communes à travers l’acquisition de nouvelles tâches. » 36 ibid., p. 13, sur la philosophie du langage : « Autrement dit, cette énonciation ne décrit pas un état du monde mais accomplit une action, un changement du monde. C’est le point de départ de l’idée selon laquelle dire, c’est faire. » et, p. 15, sur l’extension dialogique de la logique illocutoire : « Les travaux de Trognon et Brassac [Trognon & Brassac 92] proposent une interprétation dialogique de la logique illocutoire, dans cette conception, la force illocutoire d’un acte n’est effective qu’après la réponse de l’interlocuteur, car elle est fonction de cette réponse. Les notions de réussite et de satisfaction d’un acte de langage, reprises de travaux de Vanderveken, sont fondamentales dans ce modèle. » 37 ibid., p. 20 : « Le principal problème de l’approche structurale est qu’elle fait l’hypothèse qu’il existe une structure qui décrit le dialogue à partir des régularités dans les échanges, et que cette structure est

17

contraire droit aux interlocuteurs pour aborder l’aspect communicationnel : « C’est à travers les modalités des actes de dialogue et la distinction entre les deux possibles interlocuteurs d’un dialogue que notre approche aborde cet aspect communicationnel38. » ; les travaux sont dès lors basés sur le modèle projectif de Vernant, qui correspond au dialogue, celui-ci s’organisant toujours autour d’un but, initialisant un « processus de convergence39 ». Ce choix s’explique, par rapport aux modèles présentés, par le fait que peu d’approches récentes s’intéressent au dialogue pour soi, des modèles structuraux aux modèles de planification, et jusqu’à celui de l’interaction rationnelle. Ainsi, pour faire droit à une analyse dialogique, l’auteur choisit-il le modèle proposé par Vernant, comme point d’appui de sa propre méthode ; de façon à voir le dialogue comme une succession de changements d’états organisés et orientés en fonction d’un but. Il repère également le modèle de J. Lehuen, qui prend en compte l’apprentissage, étant donné que les situations de dialogue sont toujours nouvelles40. Le modèle proposé vise enfin à incorporer des facultés d’adaptation et de coopération41 ; de façon à montrer « la faisabilité d’un système coopératif : un système qui s’adapte grâce à l’interaction avec l’utilisateur, et qui a pour base d’interaction, le dialogue en langage naturel42 ». Par ailleurs, dans une des publications, les auteurs signalent que « Notre idée est de fonder notre modèle de dialogue sur la notion d’apprentissage des savoirs et des savoir-faire » ;
déterminée a priori. Ainsi tous les dialogues, au moins théoriquement, peuvent être analysés à partir de cette structure. Bien que la fonction première des modèles structuraux soit de décrire le fonctionnement d’un dialogue et pas de doter un système informatique d’une compétence dialogique, différents systèmes de DHM ont été obtenus (par exemple, SUNDIAL [Bilange 92], STUDIA [Chevallier 92], Diabolo [Vilnat 97]). Ces systèmes tentent de mettre en œuvre une grammaire pour le dialogue, qui sert à identifier l’intervention de l’utilisateur et à produire l’intervention pertinente de la part de la machine. Les modèles structuraux adoptent une démarche descriptive et non explicative du dialogue, en effet, ils minimisent la dépendance du dialogue envers le contexte qui l’entoure et le caractère opportuniste du dialogue. » 38 ibid., p. 42. 39 ibid., p. 33, sur l’interaction communicationnelle de Vernant : « Pour analyser les actes de discours l’auteur considère deux possibilités : une analyse interactionnelle et une autre transactionnelle. L’analyse interactionnelle rend compte de la fonction communicationnelle des actes de discours et met en relation le locuteur et l’allocutaire comme coauteurs d’un procès dialogique. » 40 ibid., pp. 43ss : « Cette vision du dialogue est plus proche des modèles structuraux du dialogue que ceux qui sont fondés sur la planification – ou de ceux basés sur l’interaction rationnelle, dans lesquels le traitement du dialogue per se est complètement absent, puisqu’ils assument le dialogue comme un résultat d’un comportement rationnel –. Néanmoins, l’approche de Vernant nous permet d’expliquer le dialogue en fonction d’un but qui n’est pas complètement spécifié, comme c’est le cas dans une situation de conception. » ; et, p. 72 : « Nous avons présenté dans ce chapitre les principaux aspects de la notion de coopération utilisés dans notre travail : l’apprentissage et la reconnaissance de tâches. » 41 ibid., p. 135 : « Ce travail s’est concentré sur un aspect du dialogue homme-machine, celui où la machine prend un rôle d’assistant pour coopérer à la réalisation d’une tâche. Pour aborder ce problème, nous avons proposé de donner à la machine des capacités pour interagir avec l’utilisateur et établir, en dialoguant, quoi faire et comment faire. Ainsi, compte tenu du caractère spécifique que nous voulions modéliser, nous avons développé – à partir d’une étude de différents modèles de dialogue hommemachine – un modèle de DHM finalisé, basé sur la logique modale. Nous avons, en outre, adapté l’existant pour l’acquisition et la formation de concepts, ainsi que pour la reconnaissance de la tâche poursuivie par l’utilisateur. Ces capacités d’adaptation sont centrales pour l’incorporation de la coopération dans notre modèle de dialogue. Enfin, nous avons montré la faisabilité de nos idées, en réalisant un système informatique. » 42 ibid., p. 137.

18

inversant ainsi le rapport entre dialogue et apprentissage, au sens où ce n’est plus le dialogue qui s’apprend pour la machine, mais le modèle même qui se trouve fondé sur cet apprentissage ; cette méthode a certes le mérite d’être empirique. Le but consiste bien en une meilleure adaptation aux situations nouvelles, dans un cadre actionnel, qui prévaut sur le dialogue lui-même43 ; la réponse est le plus souvent une action pertinente de la machine, dans le cadre d’une tâche. Finalement, dans cette approche par l’apprentissage, « le problème en DHM est idéalement de prédire les actes ou au moins de les situer dans un cadre référentiel précis pour orienter le dialogue44 » ; ce qui requiert surtout un « modèle de tâche » susceptible d’orienter l’action en cours. Mais, un tel modèle, pour un « dialogue homme-machine », n’estil pas très réducteur en ce qui concerne le dialogue ? Le dialogue homme-machine n’acquiert-il pas surtout ainsi un modèle réduit du dialogue ? C’est-à-dire, réduit à l’exécution de tâches qu’il aura apprises, pour une interaction finalement très limitée à quelques réalisations ? Le projet « Portail Vocal d’Entreprise – PVE » constitue un autre exemple d’approche du dialogue homme-machine. Dans la thèse de N.-H. Nguyen qui le présente, des dialogues réels sont modélisés. On peut remarquer que la démarche est expérimentale et empirique, des cas concrets au modèle ; une autre manière de procéder aurait consisté à aller d’un modèle défini vers l’analyse des cas concrets. Dans ce dernier cas, un modèle théorique ou logique peut certes être utilisé ensuite, pour modéliser de façon formelle des dialogues réels observés, au moyen d’un formalisme correspondant au modèle dialogique et logique. La démarche proposée ici est résolument expérimentale. Cette approche expérimentale a ainsi le mérite de pointer sur les problèmes concrets posés en dialogue homme-machine par l’insuffisance des technologies de reconnaissance de la parole45. En effet, la phase de compréhension des énoncés et de la situation pragmatique dans laquelle il est énoncé (contexte dialogique, situationnel, énonciatif) est nécessaire au dialogue ; sans pouvoir comprendre l’énoncé de l’interlocuteur, la machine, l’utilisateur ou encore des interlocuteurs quels qu’ils soient, ne peuvent dialoguer. Une infrastructure de système de dialogue est élaborée pour conforter l’approche théorique ; elle est expérimentée dans le cadre d’un système de dialogue dédié au service d’organisation de réunions : MELINA46. Il souhaite intégrer, pour le dialogue homme-machine, la négociation aux facultés de dialogue du système, voire

43 J. Caelen, L. Villaseñor-Pineda, « Dialogue homme-machine et apprentissage », in Zreik K. (coord.), Apprentissage par l’interaction, Paris : Europia productions, 1997, pp. 83-118 : « Cette relation opérateur-tâche place le dialogue homme-machine dans un cadre actionnel. A travers et par le dialogue, la machine doit également apprendre de nouvelles actions ou optimiser son comportement face à de nouvelles situations. » 44 ibid. 45 N.-H. Nguyen, Dialogue homme-machine : modélisation de multisession, Thèse de Doctorat, Université Joseph Fourrier, 2005, pp. 26ss : « A titre d’exemple, la reconnaissance de la parole n’est pas encore parfaite ; les modules de compréhension et d’interprétation ne peuvent envisager tous les contextes et peuvent donc provoquer des incompréhensions, des malentendus. » 46 ibid., p. 160.

19

la coordination de négociations47. Les perspectives concernent aussi l’adjonction de modalités complémentaires, jugées utiles d’un point de vue dialogique48. L’apport de ce travail consiste en le modèle générique de l’architecture, d’un dialogue indépendant de la tâche, comme le font remarquer également J. Caelen et N.-H. Nguyen49. Il s’agit de concevoir une architecture générique, pour construire des systèmes de dialogue oraux homme-machine ; c’est-à-dire, relativement indépendants de la tâche : « dans cette architecture, le modèle de dialogue est séparé complètement par rapport au modèle de la tâche ». Lors de l’interprétation pragmatique, « le module de compréhension est l’entrée du module d’interprétation », l’acte de langage est alors déterminé. Les actes de langage et les stratégies du dialogue sont surtout pris en compte ici pour modéliser un dialogue à partir des situations concrètes rencontrées. Les actes de langage ne doivent-ils pas cependant devenir des actes de dialogue, comme c’est le cas dans le projet INRIA, si le dialogue dans sa globalité doit être pris en compte ? Doit-on supposer que la stratégie est alors un fil conducteur entre cette succession d’actes de langage repérés lors du dialogue ? La thèse de J. Rouillard (2000) porte également sur le dialogue homme-machine, dans le cadre du développement du système HALPIN, c’est-à-dire un système d’Hyperdialogue en langage proche de l’interaction naturelle (hyperdialogue ou dialogue homme-machine, coopératif et finalisé, dans un environnement hypertextuel), utilisé notamment pour la recherche documentaire ou « nouvelle méthodologie de recueil de corpus via le World Wide Web », visant à accroître la pertinence des systèmes de dialogue homme-machine en recueillant des corpus sur le Web. Le travail s’intéresse aussi à « l’insuffisance de robustesse des systèmes » de dialogue, afin de l’améliorer50 ; la thèse « a pour objet le dialogue écrit et oral, entre un interlocuteur humain et une machine, via le réseau Internet » et prend en exemple notamment la recherche documentaire. Elle se fonde également sur l’usage et de ce fait, l’observation de dialogues concrets, à partir desquels s’élabore le modèle. Une définition du dialogue est donnée51 : le dialogue est vu comme un
47 ibid., p. 165ss : « Du point de vue du dialogue, nous espérons, dans un premier temps, pouvoir offrir une meilleure capacité de négociation dans un système de dialogue. » 48 ibid., p. 160 : « En effet, au point de vue dialogique, la vision apporte véritablement des données complémentaires nécessaires via les gestes, les attitudes de visage, etc., de l’utilisateur. Ces données enrichissent évidemment la capacité de compréhension sémantique, ainsi que d’interprétation pragmatique du système de dialogue. » 49 J. Caelen, N.-H. Nguyen, « Vers Une Architecture Générique De Système De Dialogue HommeMachine », RIVF, 2003, pp. 23-26. 50 J. Rouillard, « Hyperdialogue Homme-Machine sur le World Wide Web : le système HALPIN », Colloque International Ergonomie et Informatique, ERGO’IA, 1998 ; voir aussi J. Rouillard, J. Caelen, « Étude du dialogue Homme-Machine en langue naturelle sur le Web pour une recherche documentaire », Actes du Deuxième Colloque International sur l’Apprentissage personne-système, CAPS 1998. 51 J. Rouillard, Hyperdialogue sur Internet : Le système HALPIN, Thèse de Doctorat, Université Joseph Fourrier, 2000, p. 54 : « Pour nous, le dialogue est un processus tendant à maximiser l’accord entre les interlocuteurs à propos d’une tâche qu’ils ont à faire en commun. Différentes stratégies de dialogue doivent être envisagées, selon les types d’usagers et les objectifs à atteindre. Une stratégie de dialogue est la manière de gérer les échanges entre interlocuteurs pour aboutir à un objectif. Cela consiste à maintenir un but, le déplacer, en proposer un nouveau, le différer, etc. Dans une stratégie coopérative, les

20

processus, il tend à un maximum de consensus entre les deux interlocuteurs, et implique également une tâche concrète, sur laquelle se mettre effectivement d’accord, et non pas seulement un accord de vues sur un objet, ou encore une similitude d’utilisation du vocabulaire. Ce dialogue est toujours accompagné d’une stratégie, qui vise normalement à le faire réussir par différents moyens. Une des caractéristiques du dialogue homme-machine consiste en ce que l’utilisateur est maître de ses actions. Il doit « se mettre d’accord » avec la machine au sujet de la tâche qu’il lui commande. La construction d’un vocabulaire commun est également comprise, ainsi que les modalités d’interaction disponibles52. La compréhension est également vue comme primordiale, pour pouvoir répondre correctement dans le cadre du dialogue53. La recherche documentaire, à l’oral et à l’écrit, est étudiée à la fois à travers la navigation et le dialogue homme-machine54. L’état de l’art réalisé révèle que ce dialogue est utilisé via le téléphone ou l’ordinateur, pour réaliser des actions ponctuelles55. La conception du dialogue qui sous-tend cette approche est clairement exprimée. Outre les concepts d’ouverture et de fermeture de dialogue, les concepts utilisés dans le système peuvent être développés56.
« Le dialogue est un processus tendant à maximiser l’accord entre les interlocuteurs à propos d’une tâche qu’ils ont à faire en commun57 ».
interlocuteurs coopèrent grâce au dialogue, afin que l’objet de la requête soit clair et précis. En stratégie réactive, la réponse à une question est apportée dès que possible, quitte à faire des hypothèses s’il existe des ambiguïtés dans l’énoncé. Il peut y avoir une stratégie constructive lorsque le sujet de la requête dévie du thème principal abordé. On rencontre également des stratégies négociées si les buts des agents s’éloignent trop l’un de l’autre. Les interlocuteurs vont devoir négocier, chacun d’eux essayant d’obtenir une solution optimale. » 52 ibid., p. 158 : « Les limites et les contraintes d’utilisation sont en fait liées aux médias d’interaction : parole et/ou clavier. Il est certain que la qualité du module de reconnaissance vocale est primordiale. » 53 ibid., p. 79. 54 ibid., p. 163 : « Dans le cadre du projet Orion, nous nous sommes intéressés à l’étude de nouvelles formes d’interactions pour la navigation et la recherche d’informations sur le Web. Cette thèse avait pour but de rendre compte des difficultés rencontrées par les utilisateurs naviguant et recherchant de l’information sur le Web, et devait permettre d’explorer des pistes dans le domaine du dialogue HommeMachine, écrit et oral. » 55 ibid., pp. 163ss : « Un état de l’art des systèmes de DHM a permis de constater que les supports les plus employés sont le téléphone et l’ordinateur, que la plupart des applications permettent d’accéder à des bases de données explicites limitées, d’effectuer, grâce au dialogue, des actions sur ces BD, et enfin que la moitié des systèmes de DHM considère l’utilisateur de manière générique, tandis que l’autre moitié des systèmes s’adapte dynamiquement à l’usager, au cours du dialogue. » 56 ibid., « La base de concepts est indépendante de tout code logiciel. Ainsi, une simple mise à jour dans le fichier de concepts permet d’augmenter les compétences du système. Avec ce système évolutif et notre approche de dialogue par reconnaissance de concepts, nous rejoignons des travaux comme ceux de [PONTON 96] ou de [LEHUEN 97], qui tendent à définir un système noyau, non dédié, autour duquel on apporte des éléments de vocabulaire spécifiques à une tâche précise. Catherine Chanet pose le problème de l’identification de la demande dans un dialogue finalisé. Elle dit que « Tous les énoncés ne sont pas des demandes. Dans le domaine de la recherche de renseignements, le dialogue est conduit par l’utilisateur. Si cet utilisateur est a priori susceptible de formuler un grand nombre de demandes, il peut aussi apporter de l’information au système ou l’utiliser à des fins autres qu’informatives. » [CHANET 96]. Dans le corpus, on retrouve cette propriété à plusieurs reprises. La Capture 5 en est un bon exemple : l’usager voudrait faire effectuer une tâche à l’ordinateur (« cherche-moi le bon ! ») ou bien l’informer de ses avancées (« aïe, j’ai trouvé ! »). » 57 J. Rouillard, J. Caelen, 1998, op. cit., voir aussi le schéma d’architecture tel qu’il existe.

21

« Dialogue » vers un but ou une tâche

Internet

« dialogue » homme - machine
Fichiers dialogue corpus Halpin Serveur lemmatiseur Dialogue informatique : dialogue pragmatique, sans modèle théorique du dialogue humain

Utilisateur Terminal client
Interaction ?

Serveur système Halpin

Conception sous - jacente

Serveur bibliothèque - tirage au sort d’un ouvrage - requête sur critère usager Serveurs - réseaux

du langage : analyse niveaux linguistiques langage - nomenclature (liste, dictionnaire, lemme)

Figure 1 : Analyse de l’architecture pour le « dialogue » avec le système HALPIN La Thèse de T. Fouquet (2004)58 porte plus spécifiquement sur la modélisation des attentes en dialogue oral59, dans l’hypothèse « que la prise en compte des attentes du locuteur peut faciliter l’interprétation de l’énoncé et le contrôle du dialogue60 » ; J. Lehuen (1997), L. Vilnat ou T. Lemeunier (2000) « ont déjà introduit la notion d’attente dans leur modèle ». L’application cible est un assistant dans le cadre d’un projet Portail Vocal d’Entreprise. Le modèle de la transmission de Shannon et la déclinaison pour la transmission de la pensée sont analysés61 et critiqués, au motif que le processus de parole est non-séquentiel et que la pensée ne peut être transmise exactement ; on pourrait ajouter à cette considération de T. Fouquet que l’expression de la pensée doit être également prise en compte dans ce processus de transmission. D’ailleurs, l’auteur remarque que « la communication verbale implique une interprétation de l’environnement acoustique », et qu’il « se produit donc quelque chose de plus qu’un simple décodage du sens linguistique ». De ce fait, il se réfère à Greimas pour définir le dialogue comme « un procès qui fait sens » ; ainsi qu’à la
58 T. Fouquet, Modélisation des attentes en dialogue oral, Thèse de Doctorat, Université Joseph Fourrier, 2004. 59 ibid., p. 79 : « Actuellement, différents modèles de dialogue permettent d’améliorer la communication homme-machine. Ceux-ci ne tiennent pas compte des attentes des interlocuteurs. » 60 ibid., pp. 23-24 : « Nous verrons dans cette thèse l’indexation des attentes sur la gestion des buts. » et p. 80 : « L’attente, en général, peut se définir au niveau d’un locuteur comme un état mental dans lequel sont codés les buts, les connaissances (sur la tâche), les règles de la conversation et les rôles des participants » ; p. 81 : « Nous considérons les attentes du point de vue du locuteur, comme les résultats espérés de ses actes. » ; p. 82 : « Les attentes sont donc, pour nous, codées par l’état mental (d’un locuteur) qui contient les buts (et les engagements), les connaissances (sur le monde et sur la tâche), les règles de conversation, et les rôles des participants. » 61 ibid., p. 40.

22

philosophie du langage (J.-L. Austin, J. Searle, G. Frege) en ce qui concerne la force assertive62. Cet essai d’intégrer une définition du dialogue et la référence à la force assertive du langage donne lieu à l’analyse du locutoire, de l’illocutoire, du perlocutoire ; et des énoncés assertifs et performatifs, à travers les actes de langage de Searle. Une réflexion sur les conditions du discours dialogique et de l’intercompréhension s’ensuit et tient compte des tours de parole63. Cette réflexion intègre également l’aspect social64, non seulement l’aspect pragmatique65. L’étude souhaiterait se baser davantage sur les corpus, le dialogue humain et le dialogue homme-machine étant différents66. T. Fouquet et J. Caelen présentent deux plates-formes d’expérimentation de dialogue homme-machine, intégrant des aspects pragmatiques du dialogue, dans le projet d’Agent Conversationnel Expressif (ACE), dont l’originalité consiste « en le développement d’un modèle de communication gestuelle générique67 ». La première plate-forme sert aux tests unitaires pour évaluer chaque séquence ; la deuxième, aux « interactions en magicien d’Oz pour manipuler l’agent ». Elles permettent
ibid., p. 83 : « L’acte de dialogue est défini comme une action intentionnelle qui a pour paramètre un locuteur, un auditeur, et un contenu propositionnel. » 63 ibid., p. 52 : « L’approche issue de la philosophie du discours est essentiellement monologique, car elle ne prend pas en compte la dimension dialogique à la différence des jeux de langage de Wittgenstein. En effet, il n’y a pas de notion d’interlocution entre un locuteur et un allocutaire. » ; et, p. 54 : « De plus, la logique illocutoire reste essentiellement monologique. Austin et Searle ne prennent pas en compte l’interaction. Or, un acte de discours ne prend sens que dans le contexte du dialogue, où la même forme peut recevoir plusieurs interprétations. Une extension est nécessaire pour aborder les problèmes du dialogue (notamment sa dynamique) et de l’intersubjectivité. » 64 ibid., p. 56 : « tout être social va donc, dans l’interaction, essayer de cacher sa face négative et de montrer sa face positive, et éventuellement de percer la face négative de l’interlocuteur. » ; mais encore, l’action située de Suchman, p. 57 : « Suchman [Suchman 87] va plus loin encore en introduisant la notion d’action située. Dans un tel type d’action, l’accent est mis sur la prise de décision en situation, faisant par cela intervenir plus fortement le contexte. Elle montre ainsi que par la grande dynamique du dialogue, les inter-actants s’adaptent et s’ajustent en permanence, ce qui rend très difficile la prise en compte d’un acte de parole par un tiers, car ce tiers n’a pas accès à la double interprétation du locuteur et de l’allocutaire. Elle fonde alors sa description de la conversation sur des stratégies opportunistes, qui ne sont instanciables que localement et en tous cas non planifiables à long terme. Par cela, elle remet en cause un certain nombre de théories fondées de près ou de loin sur la logique des intentions. Malheureusement, son apport, très riche par ailleurs, reste plus critique que constructif, car elle ne propose pas de modèle formalisable pour le dialogue. » 65 ibid., p. 65, cite Jacquet 1997 : « Dans les applications de communication homme-machine, la pragmatique joue donc un rôle très important dans l’interaction entre l’homme et l’univers de l’application et pour interpréter correctement l’énoncé. Elle considère l’énoncé et son contexte. Elle permet notamment de résoudre les problèmes référentiels. » (Anaphore, Deixis en sont deux modes). 66 ibid., p. 127 : « Souhaitant concevoir des systèmes interactifs de dialogue homme-machine, nous manquons de corpus. Or, l’étude de la communication homme-machine ne peut se fonder uniquement sur le modèle de la communication humaine. L’interaction homme-machine fait apparaître des phénomènes différents de l’interaction humaine. » ; p. 142 : « Selon l’hypothèse que les dialogues homme-machine sont différents de ceux entre humains particulièrement. » ; p. 152 : « Dans l’historique du dialogue, seuls nous intéressent les énoncés où l’interlocuteur pose une attente : les cas de demande d’action, d’information ou d’engagement. » ; et, p. 171, la notion d’attentes du locuteur, et non plus seulement de la machine. 67 T. Fouquet, J. Caelen, « Deux plates-formes pour l’expérimentation d’un agent conversationnel animé », Actes de WACA`01: Premier Workshop francophone sur Agents Conversationnels Animés, Leibnitz, IMAG, Grenoble, 2005.
62

23

respectivement l’évaluation de dialogues homme-machine multimodaux, ainsi que l’évaluation ergonomique de ce nouvel agent. Les paradigmes des tests effectués pour ce système interactif sont les suivants : en compréhension, [Dialogue, question, réponse], concernant les attendus [Dialogue, attendu, réponse], et les attentes, [Utilisateur, Attentes, Réponse, Dialogue] ; l’autre partie de l’évaluation porte sur les aspects interactifs et ergonomiques. Les auteurs pensent « à y intégrer les aspects pragmatiques68 ». L’ensemble des thèses que nous venons de voir sont effectuées au sein d’un même laboratoire, qui publie également des travaux majeurs, révélant la conception sousjacente du dialogue et son rapport au dialogue homme-machine. Pour J. Caelen, ce dialogue homme-machine est fondamentalement différent du dialogue humain69 et comporte un certain nombre de stratégies. Mais, en ce cas, n’avons-nous pas en effet à en imaginer le modèle ? Puisque au point de départ, en ce cas, le dialogue hommemachine ne correspond à rien de concret dans la réalité, étant différent du seul dialogue que l’on connaisse. Dans un autre article, le dialogue est également pensé comme une activité finalisée : « Le dialogue peut dès lors être envisagé comme un jeu orienté vers cette finalité70 ». Pour chaque acte, « on définit pour chaque acte de parole, sa force illocutoire exprimée à l’aide des typologies de Searle/Vanderveken71 ». Puis, la gestion des tours de parole est effectuée par un algorithme ; les cas traités sont des dialogues simples, où l’opportunisme ou la résolution d’un problème domine72. Enfin, le cadre actionnel73 est prédominant, ainsi
68 ibid., conclusion : « L’étape suivante consistera en le développement du modèle de dialogue du système. Son efficacité d’interaction est très importante. Nous pensons donc y intégrer les aspects pragmatiques [Xuereb et Caelen 2004 ; Fouquet 2004]. » 69 J. Caelen, « Strategies of dialogue », Speech Technology and Human-Computer Dialogue Conference, Romane Academiei, Bucarest, pp. 27-42, 2003, p. 15 : « The man machine dialogue (MMD) is fundamentally different from the human dialogue. The logic that we have described is not used to simulate a human dialogue with a machine, but to represent and formalize the mechanisms of the manmachine dialogue, or rather of the verbal interaction since the interaction is done in relation to a task which underlies the dialogue. This logic is based on the beliefs, the goals and the acts and contains implicitly a deontic logic (as « social » obligations of the partners). By making the strategies of dialogue vary, one ends up with relatively natural dialogues. We have willingly considered that the MMD is a mechanism of handling of goals with a language component : it must connect a user with his task, with the assistance of the machine. It is thus through an operative and actional framework that we base our approach. This framework allows to give a more generic basis to the man machine interaction : one thus imagines rather easily that this model can adapt itself to any form of non language interaction. » 70 J. Caelen, « Les jeux dialogiques : stratégies et buts », in Dialogue et Interaction, Cours école d’été du CNRS, 2006, 42p. 71 ibid. 72 ibid., « Les services vocaux sont très utiles dans les situations où l’opportunisme domine. Le dialogue oral dans ces situations s’apparente à un dialogue de résolution de problème en face à face : obtenir un accord, se coordonner pour une action, obtenir une information-clef pour débloquer une situation, etc… Dans un dialogue simple, un but est généralement un état du monde ou un état mental que l’on veut atteindre au cours du dialogue. » 73 ibid., « La logique que nous avons décrite ne sert pas à simuler un dialogue humain avec une machine, mais à représenter et formaliser les mécanismes du dialogue homme-machine ou plutôt de l’interaction verbale puisque l’interaction se fait à propos d’une tâche qui sous-tend le dialogue. Cette logique s’appuie sur les croyances, les buts et les actes et contient implicitement une logique déontique (obligations « sociales » des partenaires). En faisant varier les stratégies dialogiques, on aboutit à des dialogues

24

que l’observation de corpus réels ; la complexité d’une interaction entre l’homme et la machine est ainsi gérée en fonction de la performance en ce qui concerne la tâche à accomplir. En effet, s’il importe de se comprendre et d’éviter les malentendus, ce n’est pas pour étudier les difficultés posées par le dialogue en tant que tel ou gérer une complexité qui lui serait propre, d’autant plus qu’une séparation très nette, presque radicale, est posée entre le dialogue humain et le dialogue homme-machine. D’ailleurs, pouvons-nous savoir si le dialogue homme-machine, ainsi isolé du dialogue humain, demeure un phénomène complexe ; ou bien si, essentiellement orienté vers la résolution de problème ou l’exécution de tâche, il se réduit en fait, par exemple, à ce dont la machine est capable ? La résolution de problème ou la tâche réelle à accomplir convoque, plutôt qu’une fonction dialogique proprement dite, à la fois l’action corrélée au langage, et la fonction du langage relative à l’objet (voire l’action concrète présente ou future, désignée ou en référence) sur lequel se mettre d’accord. Le modèle du dialogue utilisé est bien un modèle logique, ce dernier doit de plus être efficace, de façon à bien répondre à la demande de l’utilisateur. Dans un article consacré aux systèmes multimodaux74, l’auteur s’interroge sur le phénomène social constitué par la communication. La référence à Wittgenstein n’explique pas s’il s’agit de décrire une situation d’interlocution, des rôles dialogiques ou bien justement l’interaction ; le terme « communication hommemachine », lui semble abusif car « la machine n’est pas un être social, n’a pas d’intention ni de culture75 ». Est-ce à dire que le dialogue homme-machine est un dialogue avec une entité aux capacités et références limitées – la machine ? Pourtant, les progrès technologiques ne permettent-ils pas aujourd’hui d’en faire une entité robuste, fiable, utile ? Les deux notions pour lesquelles la relation homme-machine est considérée ici sont les suivantes : communiquer, voire plutôt interagir. Nous pouvons remarquer qu’il n’est pas, alors, question de dialoguer. Le processus observé est à la fois actionnel et dialogique. Le dialogue obéit à des règles décrites ; mais on peut interroger au sujet du modèle du dialogue, tandis que les règles et le module sont quant à eux bien présents. L’historique du dialogue participe également de ce sens, puisqu’il reconstitue l’enchaînement des évènements et fournit alors un contexte susceptible d’éclaircir ce dont il est question dans tel énoncé. Les modules du dialogue en question sont réalisés en intelligence avec les niveaux d’analyse du traitement automatique des langues (qui correspondent aux niveaux d’analyse linguistique) auquel un niveau pragmatique est intégré76 ; ils sont utilisés dans le modèle DIRA, qui comporte aussi un modèle de dialogue.

relativement naturels. Nous avons volontairement considéré que le DHM est un mécanisme de gestion de buts à composante langagière : il doit mettre en correspondance un usager avec sa tâche, avec l’assistance de la machine. C’est donc à travers un cadre opératif et actionnel que nous fondons notre démarche. Ce cadre permet de donner une assise plus générique à l’interaction homme-machine : on imagine donc assez aisément que ce modèle peut s’adapter à toute forme d’interaction non langagière. » 74 J. Caelen, « Systèmes interactifs multimodaux », [en ligne] http://wwwclips.imag.fr/geod/User/jean.caelen/. 75 ibid., p. 1. 76 ibid., pp. 9-11.

25

Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.