Des méthodes mixtes pour la traduction automatique statistique  Arabe  Anglais

Des méthodes mixtes pour la traduction automatique statistique Arabe Anglais

-

Documents
28 pages
Lire
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Université StendhalLaboratoire d’Informatique de GrenobleEquipe GETALPRéalisé par Atef Ben YoussefSous la direction de Laurent Besacier1Hervé Blanchon Georges AntoniadisPlan Contexte du projet Langue arabe La traduction statistique Étiquetage (POS Tagger) Données et outils  Expériences et évaluation Conclusion et perspective 2Contexte du projetLangue arabeLa traduction statistique Étiquetage (POS Tagger)Données et outilsExpériences et évaluationConclusion et perspective Contexte du projetObjectifs :  Améliorer un système état de l’art en enrichissant les données. Comparer les performances de 2 systèmes : Système construit sur des données brutessur dées enrichies Enrichir les données : Ajouter des classes morphosyntaxiques aux données. Deuxième niveau (aller plus loin)  Ajouter le sens aux données.3Contexte du projetContexte Langue arabeLangue arabeLa traduction statistique La traduction statistiquePOS Tagger Anglais et Arabe Étiquetage (POS Tagger)Perspective Données et outilsConclusionExpériences et évaluationConclusion et perspective Langue arabe Riche morphologie  Problèmes du traitement automatique de la langue arabe Absence des voyelles Ambiguïté Sens de mot Fonction de mot Détection de racine Problème de segmentation4Contexte du projetLangue arabeLa traduction prbabilisteÉtiquetage (POS Tagger)Données et outilsExpériences et évaluationConclusion et perspective Traduction Probabiliste ...

Sujets

Informations

Publié par
Nombre de visites sur la page 292
Langue Français
Signaler un problème

Université StendhalLaboratoire d’Informatique de Grenoble
Equipe GETALP
Réalisé par
Atef Ben Youssef
Sous la direction de
Laurent Besacier
1Hervé Blanchon Georges AntoniadisPlan
 Contexte du projet
 Langue arabe
 La traduction statistique
 Étiquetage (POS Tagger)
 Données et outils
 Expériences et évaluation
 Conclusion et perspective
2Contexte du projet
Langue arabe
La traduction statistique
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Contexte du projet
Objectifs :
 Améliorer un système état de l’art en enrichissant les
données.
 Comparer les performances de 2 systèmes :
 Système construit sur des données brutes
sur dées enrichies
 Enrichir les données :
 Ajouter des classes morphosyntaxiques aux données.
 Deuxième niveau (aller plus loin)
 Ajouter le sens aux données.
3Contexte du projetContexte
Langue arabeLangue arabe
La traduction statistique La traduction statistique
POS Tagger Anglais et Arabe Étiquetage (POS Tagger)
Perspective Données et outils
ConclusionExpériences et évaluation
Conclusion et perspective Langue arabe
 Riche morphologie
 Problèmes du traitement automatique de la langue arabe
 Absence des voyelles
 Ambiguïté
 Sens de mot
 Fonction de mot
 Détection de racine
 Problème de segmentation
4Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Traduction Probabiliste
 La traduction statistique se résume à trouver le document cible ayant la
plus grande probabilité d’être la traduction d’un document source .
 Le théorème de Bayes :
 s est le mot à traduire
 t est une traduction possible du mot s
 Pr(t|s) est la valeur assignée pour chaque paire de mots (t,s)
 Puisque le dénominateur est indépendant de t, s est fixe
t = argmax Pr(t) Pr(s|t) t
Les trois défis informatiques présentés par la traduction statistique :
 Le modèle de langage Pr(t).
 Le modèle du traduction Pr(s|t).
 L’algorithme de recherche (argmax ).t 5Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèles de langue
 Un modèle statistique de langue donne la probabilité d’observer
un mot sachant ceux qui le précèdent.
 Ces modèles sont obtenus à partir de données d’entraînement (ou
d’apprentissage) sur des corpus de la langue cible.
 Les systèmes à base de modèles de langue statistiques
permettent d’estimer la probabilité a priori de la séquence de mots
S = m , m , ..., m selon l'équation suivante :1 2 n
P( S ) = P(m ) x P( m | m ) x ... x P( m | m , m , ..., m ) 1 2 1 n 1 2 n-1
6Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèles de traduction
 Le modèle de traduction donne la probabilité qu’un mot ou un groupe
de mots dans la langue source soit traduit par un autre dans la langue
cible.
 Un modèle de traduction est vu comme un modèle d’alignement de
mots.
The program has been implemented
Le programme a été mis en application
I J Nous nous intéressons ici au problème du calcul de P(s |t )
 Brown et al, propose cinq modèles IBM de traduction pour :
I J Modéliser P(S=s |T=t )
 Chaque modèle diffère de l’autre par la façon de calculer la probabilité
de traduction Pr(s|t). 7Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Machine de traduction
Phase d’entraînement
Texte source (réalisée une seule fois)
s
Corpus
P(s|t) Modèle de Arabe
traduction
Décodeur
Argmax p(e)*p(f/e)
P(t) Corpus Modèle de
Anglaislangage
t
Texte cible
Machine de traduction statistique : Arabe/Anglais 8Contexte du projet
Langue arabe
La traduction prbabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective Modèle factoriel
• les processus de traduction sont divisés en trois étapes [Koehn et
Hoang, 2007]. :
• Traduire les lemmes d'entrée par les lemmes de sortie
• Traduire les informations morphosyntaxiques (POS) et morphologiques.
• Générer les mots en tenant compte des facteurs linguistiques traduits.
9Exemple d’un modèle factorielContexte du projet
Langue arabe
La traduction probabiliste
Étiquetage (POS Tagger)
Données et outils
Expériences et évaluation
Conclusion et perspective POS Tagger : Anglais
 Utilisation de 36 balises (Tagset)
Are these all your personal effects?
 Étiqueteur TreeTagger :
Are VBP be
these DT these
all PDT all
your PP$ your
personal JJ personal
effects NNS effect
? SENT ?
 Évaluation [Schmid, 1994] :
97.53% 10