Un système multi-agent pour la détection et la correction des erreurs cachées en langue Arabe

feriel - Fériel Ben Fraj

YouScribe est heureux de vous offrir cette publication

131 pages

Français

YouScribe est heureux de vous offrir cette publication

A propos
Informations
Extrait

Description

Ce travail aborde le problème des erreurs cachées en langue Arabe. Ce sont des fautes orthographiques produisant des mots lexicalement licites. Ce genre d’erreurs touche des niveaux d’analyse linguistique plus hauts que le niveau morphologique. Nous proposons alors une classification hiérarchique de ces erreurs en deux grandes catégories ; à savoir syntaxique et sémantique. La problématique en main nous entraîne, vers un besoin de coopération, de parallélisme et de compétition avec une nécessité d’interférence et d’échange d’informations entre les différentes phases d’analyse justifiant ainsi une réalisation Multi-Agent. Le système de détection-correction que nous proposons est composé de deux groupes d’agents pour la détection : un groupe syntaxique utilisant les règles grammaticales afin de vérifier la validité syntaxique des phrases et un groupe sémantique à base d’informations sémantiques et statistiques consacré à la vérification sémantique. Pour la correction, un agent est dédié à cette tâche et bénéficie de la présence des deux vérificateurs (syntaxique et sémantique) pour minimiser la liste des candidats à la correction de l’erreur. Nous examinons, alors, les comportements sociaux des agents au sein de leurs organisations respectives et de leur environnement. Notre objectif ne se limitant pas seulement à une étude théorique, nous présentons également la mise en place et l’évaluation du système réalisé.

Sujets

Traitement automatique du langage naturel

Système multi-agents

Arabe

Informations

Publié par	feriel
Publié le	21 janvier 2012
Nombre de lectures	1 424
Langue	Français
Poids de l'ouvrage	1 Mo

Extrait

Université de la Manouba Ecole Nationale des Sciences de l’Informatique Cycle des Etudes Doctorales Mémoire de Mastère présenté en vue de l’obtention du Diplôme de Mastère en Informatique Option : Génies Documentiel et Logiciel Par Fériel BEN FRAJ Un système multi-agent pour la détection et la correction des erreurs cachées en langue Arabe Réalisé au sein du Laboratoire de Recherche en Génies Documentiel et Logiciel sous l’encadrement du Professeur Mohamed BEN AHMED et le co-encadrement du Dr. Chiraz ZRIBI BEN OTHMANE Soutenu le 30 octobre 2004 devant le jury d’examen : Pr. Abdelfattah BELGHITH : Président Dr. Chafia MANKAI : Rapporteur Pr. Mohamed BEN AHMED : Encadrant Dr. Chiraz ZRIBI BEN OTHMANE : Co-encadrant i Dédicaces A la mémoire de ma grand-mère, A ma mère la plus adorable des mamans qui ne cesse de me submerger d’amour et de tendresse sans faille, A mon père à qui je ne peux exprimer ma gratitude, A ma sœur et mon frère qui m’ont encouragé et supporté dans des moments où j’étais insupportable, A ma tante Habiba et mon oncle Salah qui m’ont soutenu (dans tous les sens du terme) au quotidien, Et à tous ceux que j’aime, je dédie ce travail. ii Remerciements Je tiens à remercier tout d’abord Monsieur Abdelfatteh BELGHITH, Professeur à l’Ecole Nationale des Sciences de l’Informatique de Tunis, pour l’honneur qu’il me fait à présider ce jury. Je remercie très sincèrement Madame Chafia MANKAI, Maître de conférence à l’Institut Supérieur de Gestion de Tunis qui a bien voulu accepter d’être rapporteur de ce mémoire. J’exprime toute ma reconnaissance à Monsieur Mohamed BEN AHMED, Professeur à l’Ecole Nationale des Sciences de l’Informatique de Tunis, qui a dirigé ce travail. Ses enseignements et ses conseils judicieux pendant toutes ces années m’ont incité à aimer l’Informatique. Son rayonnement et sa présence chaleureuse de la première année Mastère jusqu’à ce jour, ont largement contribué à mon désir d’être un « éternel » chercheur au sein de son laboratoire. Je remercie également Madame Chiraz BEN OTHMANE ZRIBI, Maître assistante à la Faculté des Sciences de Bizerte, co-encadrante de ce mémoire, sans qui ce travail n’aurait pas vu le jour. La justesse de ses remarques, ses conseils et surtout ses encouragements ont été particulièrement précieux pour moi. Je tiens à lui exprimer toute ma reconnaissance pour sa présence, sa disponibilité, son écoute et son aide aux moments où j’en ai eu besoin. Je lui dédie ce travail. Je remercie aussi mes collègues du laboratoire RIADI pour l’ambiance et la bonne humeur qui ont régné tout au long de ces années d’étude. Enfin, je tiens à remercier tous ceux qui ont contribué de près ou de loin à l’accomplissement de ce travail. iii RESUME Ce travail aborde le problème des erreurs cachées en langue Arabe. Ce sont des fautes orthographiques produisant des mots lexicalement licites. Ce genre d’erreurs touche des niveaux d’analyse linguistique plus hauts que le niveau morphologique. Nous proposons alors une classification hiérarchique de ces erreurs en deux grandes catégories ; à savoir syntaxique et sémantique. La problématique en main nous entraîne, vers un besoin de coopération, de parallélisme et de compétition avec une nécessité d’interférence et d’échange d’informations entre les différentes phases d’analyse justifiant ainsi une réalisation Multi-Agent. Le système de détection-correction que nous proposons est composé de deux groupes d’agents pour la détection : un groupe syntaxique utilisant les règles grammaticales afin de vérifier la validité syntaxique des phrases et un groupe sémantique à base d’informations sémantiques et statistiques consacré à la vérification sémantique. Pour la correction, un agent est dédié à cette tâche et bénéficie de la présence des deux vérificateurs (syntaxique et sémantique) pour minimiser la liste des candidats à la correction de l’erreur. Nous examinons, alors, les comportements sociaux des agents au sein de leurs organisations respectives et de leur environnement. Notre objectif ne se limitant pas seulement à une étude théorique, nous présentons également la mise en place et l’évaluation du système réalisé. MOTS CLES : TALN, erreur cachée, langue, système Multi-Agent, détection, correction, analyse linguistique. TITLE : A Multi-Agent system for context-sensitive spelling detection and correction ABSTRACT In this work, we address the problem of context-sensitive spelling in Arabic language. These are spelling errors that result in valid words. This kind of errors concerns linguistic analysis levels higher than the morphological level. We propose then a hierarchical classification of these errors in two main categories: syntactic and semantic. Thus, our problem leads to a need for collaboration, parallelism and competition in addition to information exchange between the different analysis phases, witch justify a Multi-Agent architecture. Our detection- correction system is composed of two agent groups for detection: a syntactic one that uses grammatical rules in order to check the syntactic validity of the sentences and a semantic one based on semantic and statistics information and is devoted to the semantic checking. A correction agent benefits from the support of the two previous detections’ groups (syntactic and semantic) minimizes the list of the correction candidates. We examine, then, the social behaviours of the agents within their respective organizations and their environment. Our purpose isn’t limited in the plan, we present as well the realization and the evaluation of the system carried out in this research. KEY WORDS : NLP, context-sensitive spelling, language, Multi-Agent system, detection, correction, linguistic analysis. iv TABLE DES MATIERES Introduction générale .......................................................................................... 1 CHAPITRE 1 : ETAT DE L’ART DES ERREURS CACHEES ....................................... 4 1.1. Les travaux antérieurs ................................................................................................ 4 1.1.1. Méthode purement statistique (1995) ................................................................................ 4 1.1.2. Méthodes à base d’informations contextuelles ................................................................. 5 1.1.3. Méthodes hybrides .............................................................................................................. 8 1.2. Les travaux connexes ................................................................................................... 18 1.2.1. Traitement des erreurs syntaxiques ................................................................................ 18 1.2.2. Le traitement contextuel des erreurs orthographiques ................................................. 24 1.3. Synthèse et comparaison .............................................................................................. 28 CHAPITRE 2 : LES ERREURS CACHEES EN LANGUE ARABE ............................... 33 2.1. Définition des erreurs cachées ..................................................................................... 33 2.2. L’impact des spécificités de la langue Arabe sur les erreurs cachées ..................... 34 2.2.1. Le phénomène d’agglutination ......................................................................................... 34 2.2.2. L’ambiguïté vocalique ...................................................................................................... 34 2.2.3. L’ambiguïté grammaticale ............................................................................................... 35 2.2.4. La proximité lexicale ......................................................................................................... 36 2.3. Les hypothèses de restriction du problème ................................................................ 36 2.4. Typologie des erreurs cachées en langue Arabe ........................................................ 38 2.4.1. Les anomalies syntaxiques ................................................................................................ 39 2.4.2. Les anomalies sémantiques ............................................................................................... 41 CHAPITRE 3 : SYSTEMES MULTI-AGENTS ET TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES ...................................................................................... 42 3.1. Les origines des SMAs ................................................................................................. 42 3.2. Qu’est-ce qu’un agent ? ............................................................................................... 43 3.3. Qu’est-ce qu’un Système Multi-Agent ? .................................................................... 44 3.4. Les notions de base liées aux SMAs ............................................................................ 45 3.4.1. L’interaction ...................................................................................................................... 45 3.4.2. La communication ............................................................................................................. 45 3.4.3. La compétition ................................................................................................................... 45 v 3.4.4. La coordination ................................................................................................................. 46 3.4.5. Le parallélisme .................................................................................................................. 46 3.5. Quand utiliser un SMA ? ...........................