[dumas-00504848, v1] Approche mixte pour la traduction ...
113 pages
Français

[dumas-00504848, v1] Approche mixte pour la traduction ...

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
113 pages
Français
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description



Approche mixte pour la traduction
automatique statistique










Nom : AFLI
Prénom : Haithem
UFR des Sciences du langage
Mémoire de master 2 recherche - 30 crédits- Mention sciences du langage
Spécialité: Modélisation et traitement automatique en industrie de la langue : Parole, Ecrit,
Apprentissage (TALEP)
Sous la direction de Laurent BESACIER, Hervé Blanchon et Véronique Aubergé



Année universitaire 2009-2010

1

dumas-00504848, version 1 - 21 Jul 2010 MOTS-CLÉS : Traduction Automatique Statistique ; Modèle de langage ; Modèles de
traduction ; Alignement ; Approche hiérarchique en traduction statistique.
RÉSUMÉ
La mondialisation a eu des effets considérables sur l‟essor de l‟industrie de la langue, et plus
particulièrement en traduction automatique où la demande ne cesse de croître. Ainsi, les besoins
en matière de systèmes de traduction automatique plus fiables augmentent de plus en plus. Pour
cela nous sommes intéressés à la conception de systèmes de traduction automatique basés sur les
modèles statistiques.
Ce travail présente une amélioration des phases d‟optimisation et d‟alignement d‟un système
de traduction automatique statistique pour la paire de langue arabe/anglais. Nous avons aussi
construit un système hiérarchique. Pour décrire notre travail, nous présentons les outils utilisés.
Enfin, nous présentons une évaluation qualitative et quantitative de nos expériences qui
permettent d‟obtenir des premiers résultats ...

Sujets

Informations

Publié par
Nombre de lectures 81
Langue Français
Poids de l'ouvrage 2 Mo

Extrait

Approche mixte pour la traduction automatique statistique Nom : AFLI Prénom : Haithem UFR des Sciences du langage Mémoire de master 2 recherche - 30 crédits- Mention sciences du langage Spécialité: Modélisation et traitement automatique en industrie de la langue : Parole, Ecrit, Apprentissage (TALEP) Sous la direction de Laurent BESACIER, Hervé Blanchon et Véronique Aubergé Année universitaire 2009-2010 1 dumas-00504848, version 1 - 21 Jul 2010 MOTS-CLÉS : Traduction Automatique Statistique ; Modèle de langage ; Modèles de traduction ; Alignement ; Approche hiérarchique en traduction statistique. RÉSUMÉ La mondialisation a eu des effets considérables sur l‟essor de l‟industrie de la langue, et plus particulièrement en traduction automatique où la demande ne cesse de croître. Ainsi, les besoins en matière de systèmes de traduction automatique plus fiables augmentent de plus en plus. Pour cela nous sommes intéressés à la conception de systèmes de traduction automatique basés sur les modèles statistiques. Ce travail présente une amélioration des phases d‟optimisation et d‟alignement d‟un système de traduction automatique statistique pour la paire de langue arabe/anglais. Nous avons aussi construit un système hiérarchique. Pour décrire notre travail, nous présentons les outils utilisés. Enfin, nous présentons une évaluation qualitative et quantitative de nos expériences qui permettent d‟obtenir des premiers résultats encourageants. KEYWORDS : Statistical machine translation; language model; translation model; alignment; hierarchical phrase-based approach ABSTRACT Machine Translation witnessed a major revolution in the area of natural language processing and the needs for reliable automatic machine translation systems increase. Therefore, we focused on the design of an automatic translation system based on statistical models. This work presents an improvement of the tuning and alignment of an existing statistical machine translation using a phrase-based approach for the Arabic/English language pair. We build also a new system based on hierarchical phrase-based approach. For this reason, we present the tools used in both systems. Finally, we present a qualitative and quantitative analyses of our different experiments that show first encouraging results. 2 dumas-00504848, version 1 - 21 Jul 2010 Remerciements J‟ai une vive dette envers tous ceux qui m‟ont aidé à rassembler les faits qui constituent l‟indispensable fondation de ce travail. Je remercie tout particulièrement : M. Laurent BESACIER et M. Hervé BLANCHON, de m‟avoir accueilli au sein du GETALP (LIG), et d‟offrir ainsi la possibilité de travailler dans un laboratoire de linguistique informatique de renommée mondiale. Ils ont toujours été disponibles, malgré de nombreuses occupations, pour m‟aider dans mon travail par leurs précieux conseils qui m‟ont été d‟une grande aide au cours de ce mémoire. Qu‟ils trouvent ici le témoignage de toute mon reconnaissance et mon profond respect. Mme Veronique AUBERGE mon encadrant à l‟université Stendhal – Grenoble3 pour l‟intérêt qu‟elle m‟a manifesté. Qu‟elle trouve ici l‟expression de ma profonde gratitude. Mes enseignants pour la qualité de l‟enseignement qu‟ils m‟ont disposé durant mes études, surtout monsieur Georges ANTONIADIS le responsable de notre master Enfin, je garde une place toute particulière à mon père Abdelhafid qui est toujours à mes cotés, à ma tendre et affectueuse mère Rebeh pour tout l‟amour qu‟elle me donne, à mon cher frères Baligh, à ma sœur Boutheina et à la grande famille AFLI. En exprimant toutes mes reconnaissances pour leurs sacrifices, leurs patiences compréhensives et leurs encouragements au-delà de toutes limites. Il y a une personne de très grande importance dans ma vie, qui m‟accompagne et qui me soutient tout le temps par la force et l‟énergie qui lui sont disponibles. Je te remercie infiniment ma chérie. Haithem 3 dumas-00504848, version 1 - 21 Jul 2010 SOMMAIRE Partie I : Etat d’art .............................................................................................................. 11 1 Chapitre 1: Survol des méthodes des systèmes de traduction automatique .................. 12 1.1 Introduction ................................................................................................................... 12 1.2 Histoire de la traduction automatique ............ 12 1.3 Architectures des systèmes de traduction automatique ................................................. 12 1.3.1 Architecture linguistique ....................................................... 13 1.3.2 Architecture computationnelle .............................................. 14 1.4 Traduction automatique statistique ................................................ 15 1.4.1 Modèle de langue .................................................................................................. 16 1.4.2 Modèle de traduction ............................. 17 1.4.3 Notion d‟alignement .............................................................................................. 18 1.4.4 Modèles de traduction à base de mots ................................... 19 1.4.5 Les modèles de traduction à base de segments ...................................................... 21 1.4.6 Décodage ............................................................................... 22 1.4.7 Evaluation de la qualité des traductions ................................................................ 23 1.5 Conclusion ..................................................................................... 25 2 Chapitre 2 : Langue arabe et TALN .................................................. 26 2.1 Introduction ................................................................................... 26 2.2 Origine de la langue arabe ............................................................. 26 2.3 Variétés .......................................................................................... 27 2.3.1 L‟arabe classique ................................................................... 27 2.3.2 L‟arabe standard contemporain ou moderne ......................... 27 2.3.3 L‟arabe médian ...................................................................................................... 28 2.3.4 L‟arabe dialectal .... 28 2.4 Morphologie de la langue arabe .................................................................................... 28 2.4.1 Présentation ........................................... 28 2.4.2 Les classes ................................................................................. 29 2.5 Structure d‟un mot arabe ............................................................................................... 31 2.6 Catégories du mot .......................................... 32 4 dumas-00504848, version 1 - 21 Jul 2010 2.6.1 Le verbe ................................................................................................................. 32 2.6.2 Les noms ................ 33 2.6.3 Les particules ......................................................................................................... 34 2.7 Problèmes de la langue arabe en TALN ........ 34 2.7.1 Absence des voyelles ............................................................................................. 34 2.7.2 La segmentation des textes .................... 35 2.7.3 Problème de l‟ordre des mots dans la phrase......................................................... 35 2.7.4 Problèmes de proclitique ....................................................... 35 2.8 Conclusion ..................................................................................... 36 Partie II : Outils et Données pour la TA Arabe/Anglais .................................. 37 3 Chapitre 3 : Construction d’un système de traduction automatique ............................. 38 3.1 Introduction ................................................................................................................... 38 3.2 Outils utilisés ................. 38 3.2.1 MOSES .................................................................................................................. 39 3.2.2 Bitexte ................... 39 3.3 Création d‟un système de traduction ............................................................................. 40 3.3.1 Architecture de travail ........................................................................................... 41 3.3.2 Apprentissage du modèle de traduction ................................. 41 3.3.3 Optimisation et traduction ..................................................................................... 42 3.3.4 Ajustement des poids ............................. 42 3.3.5 Traduction du corpus de test .................................................................................. 43 3.4 Conclusion ..................................................... 43 4 Chapitre 4 : Traduction automatique arabe/anglais ........................................................ 44 4.1 Introduction ................................................................................... 44 4.2 Alignement et analyse morphologique de la langue ...................................................... 44 4.3 Les systèmes de traduction arabe/anglais développés au LIG ....................................... 47 4.4 Conditions expérimentales et systèmes de référence..................................................... 47 4.4.1 Données utilisées ................................................................................................... 48 4.4.2 Préparation des corpus ........................... 49 4.4.3 Architecture des systèmes utilisés ......................................................................... 49 4.5 Comparaison des résultats produite en changeant l‟alignement
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents