Extraction de traits sémantiques  à partir d’interactions langagières  dans le cadre de l’étude
11 pages
Français

Extraction de traits sémantiques à partir d’interactions langagières dans le cadre de l’étude

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
11 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Traitement des interactions langagiŁresdans les collectifs humains mØdiatisØsUne approche par les actes de dialogueGabriel RipocheLIMSI-CNRS18 novembre 2002à–Projet « Organizational Dynamics of Software Problems »CollaborateursLes Gasser – ISRL, University of IllinoisWalt Scacchi ISR, University of CaliforniaJean-Paul Sansonnet et Bill Turner LIMSIObjectifs du projet tudier la gestion collectiv e des problŁmes logicielsL objectif est de comprendre comment l es problŁmes logiciels sont gØrØs collectivement au sein de projets importants, en basant les recherches sur l Øtude d une base empirique de grande envergure. Le but de ces recherches est de contribuer l Ølaboration d une thØorie de la gestion de problŁmes logiciels.DØvelopper de nouveaux outils de supportUne thØorie de la gestion de problŁmes logiciels permettrait de concevoir de nouveaux outils intØgrant les concepts de socio-informatique mis en relief dans l Øtape prØcØdente. Au del des outils, ce sont les pratiques qui pourraient bØnØficier d une mei lleure comprØhension des processus impliquØs dans la gestion de problŁmes logiciels.Approche LIMSI tudier les in teractions collectivesL approche du LIMSI consiste s intØresser plus spØcifiquement l in teraction prenant place au sein du collectif et identifier le r l e qu ell e joue dans la construction et dans l Øvoluti on des pratiques collectives distribuØes.ModØliser les pratiquesUn des ØlØments clØ dans l Ølaboration d une ...

Informations

Publié par
Nombre de lectures 36
Langue Français

Extrait

Traitement des interactions langagières dans les collectifs humains médiatisés
Une approche par les actes de dialogue
Gabriel Ripoche LIMSI-CNRS
18 novembre 2002
Projet « Organizational Dynamics of Software Problems »
Collaborateurs Les Gasser ISRL, University of Illinois Walt Scacchi ISR, University of California Jean-Paul SansonnetetBill Turner LIMSI
Objectifs du projet Étudier la gestion collective des problèmes logiciels Lobjectif est de comprendre comment les problèmes logiciels sont gérés collectivement au sein de projets importants, en basant les recherches sur létude dune base empirique de grande envergure. Le but de ces recherches est de contribuer à lélaboration dune théorie de la gestion de problèmes logiciels. Développer de nouveaux outils de support Une théorie de la gestion de problèmes logiciels permettrait de concevoir de nouveaux outils intégrant les concepts de socio-informatique mis en relief dans létape précédente. Au delà des outils, ce sont les pratiques qui pourraient bénéficier dune meilleure compréhension des processus impliqués dans la gestion de problèmes logiciels.
Approche LIMSI Étudier les interactions collectives Lapproche du LIMSI consiste à sintéresser plus spécifiquement à linteraction prenant place au sein du collectif et à identifier le rôle quelle joue dans la construction et dans lévolution des pratiques collectives distribuées. Modéliser les pratiques Un des éléments clé dans lélaboration dune théorie des PCD consiste à concevoir un modèle offrant un cadre formel aux différentes études de linteraction qui vont être menées. Ce modèle doit permettre de décomposer les pratiques en éléments plus facilement manipulables et de servir de lien entre les différents niveaux danalyse.
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
2
Le collectif étudié : Bugzilla
Communautés Open Source Modèle de PCD Les communautés open source fonctionnent selon le modèle du Bazaar (décrit par Eric S. Raymond) dont les principales caractéristiques en font un sujet détude idéal pour les PCD :peu de structure hiérarchique, participation spontanée,forte distribution des ressources(géographiques, techniques, logistiques, etc.). Facilité détude Une très grande majorité des interactions au sein de ces communautés se font sousforme électronique du fait de la forte distribution géographique principalement, mais également afin de constituer une base de connaissances pour la communauté  et les archives sontaccessibles librement.
Mozilla 5 ans dactivité Grand nombre de participants14 000 rapporteurs, 800 développeurs. Projet dune grande complexité 1 projet principal (navigateur Internet) et plusieurs projets annexes (constituants ou facilitateurs).
Bugzilla Système de gestion de bugs Visualisation et recherche de rapports de bugs; aide à la mise en place dune collaboration efficace. Taille importante 150 000 rapports de bugs et environ 1 500 000 commentaires langagiers. Représentation de Mozilla Bugzilla capture la quasi totalité des interactions liées à la gestion des problèmes dans le collectif Mozilla. De ce point de vue, ce système fait office de représentation du collectif dans le contexte des activités liées à la gestion des problèmes. Il est donc possible, à partir du « corpus Bugzilla », détudier les pratiques à luvre dans ce contexte.
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
3
Le corpus Bugzilla
: des rapports de bugs
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
4
Pertinence de létude et du traitement des interactions langagières
Pourquoi les interactions ? Représentativité Les interactions tiennent lieu de représentation indirecte des actions intervenant au sein du collectif. Linteraction parle de(action passée ou future) ouporte sur(action présente) une action spécifique. Persistance Les interactions sont les seules« traces » persistantesde lactivité dun collectif. Ce sont donc les uniques données qui peuvent être obtenues et analysées en dehors dune étude « sur le vif ».
Pourquoi la langue naturelle ? Dominance Contrairement au paradigme classique de la communication Homme-Machine où il est aisé (voire nécessaire) de formaliser linteraction, la communication Homme-Homme (médiatisée par la machine) est largement dominée par les interactions enlangue naturelle. Sémantique Les aspects langagiers apportent unsupportaux éléments plus formels en permettant lajustificationdes états et des actions représentés par ces éléments. Ils sont donc porteurs dusensqui explique lévolution du collectif.
Pourquoi un traitement automatique ? Quantité Étant donnée limportance des corpus dinteractions, les méthodes danalyse manuelles sont inappropriées et seul un traitement automatiquepeut mener à des résultats significatifs dans des temps raisonnables. Spécificité Lobjectif principal est de se faire comprendre par tout le monde, doù unestandardisationdu langage (qui est dautant plus importante que le collectif est fortement distribué et donc disparate au niveau linguistique). Par ailleurs, la forte spécialisation de la tâche conduit à une sorte de «langage métier». Extraction Lobjectif nest pas de comprendre lintégralité des interactions ayant lieu au sein du collectif mais seulement dextraireles informations nécessaires à la modélisation des pratiques collectives distribuées.
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
5
Définition dune taxonomie dactes de dialogue pour linteraction collective
Utilisation de l'existant De nombreux travaux ont été effectués dans le domaine de la modélisation des conversations. Ces taxonomies ont servi de base au développement dune taxonomie adaptée aux spécificités des interactions collectives. La taxonomie résultante reste par ailleurs compatible avec les différents concepts introduits dans ces taxonomies (niveaux de tâche, topic, etc.) même sils nont pas été utilisés dans ce travail. Adaptation au corpus La définition de la taxonomie est également basée sur une pré-étude dun sous-ensemble du corpus Bugzilla (environ 20 rapports de bugs). Les messages ont été annotés manuellement et la taxonomie a été élaborée selon un processus de raffinements successifs.
Action Act Request action Commit Offer Reject
act actreq com off rej
Information Informinf Request info.infreq
Opinion Comment Suggest Request opinion Agree Disagree
cmt sug opireq agr dis
Modificateurs Conditioncnd Illustrationill Justificationjus Negociationneg
Autres Acknowledge Request attention Sorry Thanks Copy Semi-formal Data Unknown
ack attreq sor thx cop semf dat ukn
Répartition par catégories Lobjectif principal est de développer un outil permettant dobserver «ce que les gens font» au sein du collectif. Les actes de dialogue ont donc été répartis selon le type de contribution quils représentent. Pas de structure a priori La plupart des taxonomies existantes imposent une structure de dialogue en définissant des mécanismes darticulation régissant les actes de dialogue (ex.: fonctions avant et arrières). Cette taxonomie considère que ces mécanismes sont despropriétés implicitesdes différents types dactes de dialogue et quil nest pas nécessaire de les annoter explicitement. Ce choix allège aussi le processus dannotation.
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
6
Développement dun outil dannotation assistée
Caractéristiques  Fichier de définition des balises  Utilisation simultanée de plusieurs sets de balises  Relations (hyperliens) entre actes de dialogue  Commentaires attachés aux balises  Fonctions de visualisation (filtrage, coloration)
Propriétés annotées  Actes de dialogue  Relations entre actes de dialogue
Bugzilla database
Bug report
Zentag (GUI)
Annotated database
Annotated report
Scripts
Zentag (engine)
------ Additional Comment #1 From Actor-2 2001-10-12 20:35 -----Actor-1 -<opireq id=17>any ideas where this should go?</opireq> <sug id=18>Netwerking or event handling?</sug>
------ Additional Comment #2 From Actor-1 2001-10-13 13:02 -----<act id=19 ref=17>over to Editor first</act>. <inf id=20>Confirmed</inf> <cnd id=21 ref=20>with 081108 on NT</cnd>
------ Additional Comment #3 From Actor-3 2001-10-16 06:36 -----<act id=22>moving to networking</act>,<jst id=23 ref=22>this is not an editor issue</jst>
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
7
Zentag : un outil pour lannotation assistée dinteractions langagières
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
8
Analyse des données annotées
Rapports annotés Nombre de messages Actes de dialogue Relations
58 579 3161 880
Taxonomie pertinente Catégories principales : 85% / Inconnus : 3,13% (les catégories principales (64,5%) sont : Action, Information et Opinion, auxquelles se rajoute la valeur informative ou suggestive de la classe des Modificateurs (20,5%))
Importance de linformation 55% des actes ont une valeur informative (en considérant la valeur informative des Modificateurs) Une grande partie de lactivité du collectif a pour objectif de construire uneconnaissance collectivedu problème, de ses symptômes et des informations utiles à sa résolution.
Structure du dialogue clairsemée 10% des actes liés (les relations « modificatrices » ne sont pas prises en compte car elles nexpriment pas la structure mais un processus de raisonnement) La structure apparaît très faiblement au niveau des actes de dialogue. Cela peut provenir du mode de fonctionnement du collectif ou du niveau de représentation.
Peu dinteractions directes 7% de requêtes dont 30% sont liées Indique une grandespontanéitéet une bonneautonomie: le fonctionnement du collectif est appris et les membres se prennent en charge et contribuent deux-mêmes sans que cela leur soit demandé explicitement. Dautre part, peu de requêtes sont directement abordées, ce qui peut sexpliquer par le fait que seuls sexpriment les individus ayant une réponse (les gens ne sachant pas ne disent rien plutôt que dencombrer la discussion).
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
9
Hypothèses sur le fonctionnement du
collectif Bugzilla
Modèle du blackboard Brainstorming Les caractéristiques observées (peu dinteraction directes, importance de linformation, peu dactes liés) indiquent un comportement où tout le monde contribue de linformation sans trop sarticuler avec les autres contributions. Le mode de fonctionnement nest donc pas Individu-Individu (SMA) mais Individu-Collectif (blackboard). Interactions anonymes et publiques Lensemble du collectif a toujours « droit de regard et daction » sur les interactions (même si le destinataire est explicitement nommé). Lobjectif final dune contribution est de compléter la connaissance de lensemble du collectif. Limportance nest pas la personne qui contribue mais ce quelle contribue.
Modèle de lheuristique collective
Blackboard = « carte » dun problème Interactions = construction de la carte Un problème peut être considéré comme un espace de recherche (une carte) qui va être peuplé par les contributions du collectif. Dans ce contexte, un problème sera défini par latopologiede son espace de recherche que les interactions définiront par lapport dinformations telles que : symptômes, contraintes, procédures applicables, etc. Adifférentes classesde problèmes correspondrontdifférentes heuristiquesde définition de la topologie.
Heuristiques collectives = pratiques collectives distribuées On peut alors définir une pratique collective par une ou plusieurs heuristiques particulières, cest-à-dire un type de comportement adapté à la résolution dune classe de problèmes (et par extension : adapté à une activité spécifique).
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
10
Conclusions sur la représentation des interactions collectives
Limites de lapproche par les actes de dialogue Références manquantes aux niveaux supérieurs Il se peut quun acte fasse référence à lintégralité dun message, ou à une activité ayant lieu au sein du collectif. Une représentation au niveau des actes de dialogue ne permettra pas de faire apparaître ce type de référence. Représentation insuffisante de la structure de linteraction Les actes de dialogue ne permettent pas de rendre compte des relations qui articulent les activités entre elles. La plupart des contributions se font dans le cadre dune activité et pas en relation avec un acte de dialogue spécifique. Il est donc impossible de justifier une action à un instant précis sans connaître lactivité en cours.
Comment modéliser linteraction et les pratiques collectives distribuées ?
Dialogue
Action
Activité
Quelles sont les valeurs illocutoires du message ? Quelles relations les actes de dialogue entretiennent-t-ils entre eux ? Dans quel but la personne envoie-t-elle ce message ? Quelle est linfluence sur les messages précédents / suivants ? Quelles sont les motivations du collectif ? Quel rôle ce message joue-t-il dans la chaîne des activités ?  une première tentative de modélisation hiérarchique des PCD 
Quel modèle adopter ? Il apparaît que le choix dun modèle permettant de représenter les mécanismes à luvre dans les PCD nest pas chose facile. Dune part il sagit de définir quels sont les apports dun modèle particulier pour létude des pratiques, ce qui pose le problème de lévaluation du modèle ; et dautre part il sagit darticuler les différents niveaux de représentation entre eux, ce qui implique de mieux connaître les mécanismes en jeu. Quelles relations entre action et interaction ? Il sagit de définir la position de linteraction (représentation de laction) par rapport à lactivité du collectif. Peut-on considérer que linteraction sert de base à un modèle hiérarchique des PCD ou doit on considérer quelle est parallèle à cette activité, ce qui permet détudier les apports de linteraction à chaque niveau du modèle ?
Gabriel Ripoche  Traitement des interactions langagières dans les collectifs humains médiatisés
11
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents