La commission européenne facilite la traduction assistée par

De
Publié par

IP/08/60 Bruxelles, le 18 janvier 2008 La Commission européenne facilite la traduction assistée par ordinateur et la rend plus accessible La Commission européenne a franchi une nouvelle étape dans sa volonté de promouvoir le multilinguisme comme un élément essentiel de l’unité européenne dans la diversité. Son corpus, qui contient environ 1 million de phrases et leurs traductions de haute qualité dans 22 des 23 langues officielles de l'UE — y compris celles des nouveaux États membres —, est le plus grand jamais réuni dans autant de langues et est désormais librement accessible. Ce type de données est très recherché par les concepteurs de systèmes de traduction automatique dans lesquels le logiciel «apprend», à partir de textes traduits par l’homme, à traduire correctement des mots et des expressions remis en contexte. Ces données peuvent également faciliter le développement d’autres outils logiciels linguistiques tels que les correcteurs grammaticaux et orthographiques, les dictionnaires en ligne et les systèmes de catégorisation de textes multilingues. Leonard Orban, membre de la Commission chargé du multilinguisme, a déclaré: «Cette initiative de la Commission européenne vise à dynamiser les technologies liées au langage humain, à favoriser le multilinguisme et à rendre la traduction assistée par ordinateur plus facile, moins chère et plus accessible.
Publié le : jeudi 21 juillet 2011
Lecture(s) : 237
Nombre de pages : 2
Voir plus Voir moins
IP/08/60
Bruxelles, le 18 janvier 2008
La Commission européenne facilite la traduction
assistée par ordinateur et la rend plus accessible
La Commission européenne a franchi une nouvelle étape dans sa volonté de
promouvoir le multilinguisme comme un élément essentiel de l’unité
européenne dans la diversité. Son corpus, qui contient environ 1 million de
phrases et leurs traductions de haute qualité dans 22 des 23 langues
officielles de l'UE — y compris celles des nouveaux États membres —, est le
plus grand jamais réuni dans autant de langues et est désormais librement
accessible. Ce type de données est très recherché par les concepteurs de
systèmes de traduction automatique dans lesquels le logiciel «apprend», à
partir de textes traduits par l’homme, à traduire correctement des mots et
des expressions remis en contexte. Ces données peuvent également faciliter
le développement d’autres outils logiciels linguistiques tels que les
correcteurs grammaticaux et orthographiques, les dictionnaires en ligne et
les systèmes de catégorisation de textes multilingues.
Leonard Orban, membre de la Commission chargé du multilinguisme, a déclaré:
«Cette initiative de la Commission européenne vise à dynamiser les technologies
liées au langage humain, à favoriser le multilinguisme et à rendre la traduction
assistée par ordinateur plus facile, moins chère et plus accessible. Les citoyens
appartenant aux communautés linguistiques les plus petites pourront accéder plus
facilement aux documents et aux pages web qui ne sont disponibles que dans les
langues les plus utilisées.»
Selon Janez Potočnik, membre de la Commission chargé de la science et de la
recherche, «ce corpus unique de données linguistiques contribue à l’apparition d’une
nouvelle génération d'outils logiciels pour le traitement du langage humain et aide à
renforcer la compétitivité du secteur des langues, qui est déjà l’un des secteurs
connaissant la croissance la plus rapide dans l’Union européenne.»
Les institutions de l'UE possèdent un nombre de textes multilingues plus important
que n’importe quelle autre organisation du fait de l’obligation de traduire le droit
communautaire dans chacune des 23 langues officielles. Leurs services de
traduction travaillent avec 253 combinaisons de paires de langues potentielles et
traduisent environ 1,5 million de pages par an.
S’il existe de nombreuses traductions de textes anglais ou français sur l’internet, les
ressources sont plus rares pour des langues comme le letton ou le roumain et elles
sont pratiquement inexistantes pour les combinaisons de deux langues pour
lesquelles peu de ressources existent.
2
La Commission publie donc, grâce à la coopération de ses traducteurs et de ses
chercheurs en interne, un vaste corpus de phrases extraites de documents
juridiques couvrant les domaines technique, politique et social, disponibles en
22 langues. Dans ce recueil de traduction, il est possible de trouver des phrases et
leur équivalent dans toutes les autres langues officielles. Seules les traductions en
gaélique ne sont pas encore disponibles. La publication de ces données
linguistiques constitue un bon exemple de la politique transparente menée par la
Commission pour la réutilisation de ses informations et suit l’ouverture au public des
bases de données documentaires et terminologiques de l’Union européenne, Eur-
Lex et IATE.
La Commission possède une vaste expérience dans le développement d’outils pour
le traitement de textes multilingues et se trouve à l’avant-garde du multilinguisme, en
offrant au public la possibilité de rechercher des articles de presse dans 35 langues
sur son site European Media Monitoring. Le volet «Technologies de l’information et
de la communication» du 7
e
programme-cadre de recherche et de développement
soutient la recherche sur la traduction automatique et sur d’autres technologies liées
au langage.
Pour de plus amples informations sur les données de traduction, voir:
http://langtech.jrc.it/DGT-TM.html
Le
European
Media
Monitor
est
disponible
à
l’adresse
suivante:
http://emm.jrc.it/overview.html
Soyez le premier à déposer un commentaire !

17/1000 caractères maximum.