Towards Inducing Long-Context Abilities in Multilingual Neural Machine   Translation Models

Varun Gumma; Pranjal A. Chitale; Kalika Bali

arXiv:2408.11382·cs.CL·February 11, 2025

Towards Inducing Long-Context Abilities in Multilingual Neural Machine Translation Models

Varun Gumma, Pranjal A. Chitale, Kalika Bali

PDF

Open Access 1 Datasets 1 Video

TL;DR

This paper explores transitioning pre-trained multilingual NMT models from sinusoidal to relative positional embeddings using parameter-efficient fine-tuning, enhancing long-context translation abilities without performance loss.

Contribution

It demonstrates effective methods for switching positional embeddings in multilingual NMT models and inducing long-context capabilities with minimal additional data.

Findings

01

Relative PEs outperform sinusoidal PEs on document-level benchmarks.

02

RoPE consistently outperforms ALiBi and sinusoidal embeddings.

03

A small amount of long-context data enables cross-lingual length generalization.

Abstract

Neural Machine Translation (NMT) models have traditionally used Sinusoidal Positional Embeddings (PEs), which often struggle to capture long-range dependencies and are inefficient for handling extended context or document-level translation tasks. This work addresses the challenge of transitioning pre-trained NMT models from absolute Sinusoidal PEs to Relative PEs, such as RoPE and ALiBi, without compromising performance. We demonstrate that parameter-efficient fine-tuning, using only a small amount of high-quality data, can successfully facilitate this transition. Experimental results indicate that switching from Sinusoidal to Relative PEs results in competitive translation quality on sentence-level evaluation benchmarks. Additionally, models trained with RoPE consistently outperform those using ALiBi and Sinusoidal PEs on document-level benchmarks across both string-based metrics and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

bingbangboom/gsm8k-hindi
dataset· 74 dl
74 dl

Videos

Towards Inducing Long-Context Abilities in Multilingual Neural Machine Translation Models· underline

Taxonomy

TopicsNatural Language Processing Techniques

MethodsSoftmax · Attention Is All You Need · Attention with Linear Biases