XLM-T: Scaling up Multilingual Machine Translation with Pretrained   Cross-lingual Transformer Encoders

Shuming Ma; Jian Yang; Haoyang Huang; Zewen Chi; Li Dong; Dongdong; Zhang; Hany Hassan Awadalla; Alexandre Muzio; Akiko Eriguchi; Saksham; Singhal; Xia Song; Arul Menezes; Furu Wei

arXiv:2012.15547·cs.CL·January 1, 2021·23 cites

XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders

Shuming Ma, Jian Yang, Haoyang Huang, Zewen Chi, Li Dong, Dongdong, Zhang, Hany Hassan Awadalla, Alexandre Muzio, Akiko Eriguchi, Saksham, Singhal, Xia Song, Arul Menezes, Furu Wei

PDF

Open Access

TL;DR

XLM-T leverages pretrained cross-lingual Transformer encoders for multilingual machine translation, significantly improving performance across multiple datasets and demonstrating versatility in related multilingual tasks.

Contribution

The paper introduces XLM-T, a novel approach that fine-tunes pretrained cross-lingual models for multilingual translation, outperforming traditional randomly initialized models.

Findings

01

Significant BLEU score improvements on WMT and OPUS-100 datasets.

02

Effective even with strong back-translation baselines.

03

Analysis shows benefits in syntactic parsing, word alignment, and classification.

Abstract

Multilingual machine translation enables a single model to translate between different languages. Most existing multilingual machine translation systems adopt a randomly initialized Transformer backbone. In this work, inspired by the recent success of language model pre-training, we present XLM-T, which initializes the model with an off-the-shelf pretrained cross-lingual Transformer encoder and fine-tunes it with multilingual parallel data. This simple method achieves significant improvements on a WMT dataset with 10 language pairs and the OPUS-100 corpus with 94 pairs. Surprisingly, the method is also effective even upon the strong baseline with back-translation. Moreover, extensive analysis of XLM-T on unsupervised syntactic parsing, word alignment, and multilingual classification explains its effectiveness for machine translation. The code will be at https://aka.ms/xlm-t.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsNatural Language Processing Techniques · Topic Modeling · Text Readability and Simplification

MethodsLinear Layer · Absolute Position Encodings · Position-Wise Feed-Forward Layer · Byte Pair Encoding · Multi-Head Attention · Dropout · Softmax · Dense Connections · Label Smoothing · Attention Is All You Need