OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

Sai Koneru; Matthias Huck; Jan Niehues

arXiv:2512.00234·cs.CL·April 2, 2026

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

Sai Koneru, Matthias Huck, Jan Niehues

PDF

1 Repo 2 Models

TL;DR

OmniFusion is an end-to-end multimodal translation model that combines pretrained multimodal foundation models with translation LLMs, enabling simultaneous multilingual multimodal translation with reduced latency and improved quality.

Contribution

It introduces a novel fusion strategy connecting multimodal foundation models with translation LLMs for end-to-end training in multilingual multimodal translation.

Findings

01

Reduces 1-second latency in simultaneous speech translation.

02

Effectively leverages audio and visual inputs for translation.

03

Improves overall translation quality.

Abstract

There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

saikoneru/OmniFusion
github

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.