MambaTrans: Multimodal Fusion Image Translation via Large Language Model Priors for Downstream Visual Tasks

Yushen Xu; Xiaosong Li; Zhenyu Kuang; Xiaoqi Cheng; Haishu Tan; Huafeng Li

arXiv:2508.07803·cs.CV·August 12, 2025

MambaTrans: Multimodal Fusion Image Translation via Large Language Model Priors for Downstream Visual Tasks

Yushen Xu, Xiaosong Li, Zhenyu Kuang, Xiaoqi Cheng, Haishu Tan, Huafeng Li

PDF

Open Access

TL;DR

MambaTrans introduces a novel multimodal image translation method leveraging large language model priors and advanced attention modules to improve downstream visual task performance without retraining existing models.

Contribution

The paper proposes MambaTrans, a new multimodal fusion image translator that integrates large language model descriptions and semantic masks to enhance downstream task accuracy.

Findings

01

Improves object detection and segmentation performance on multimodal images.

02

Effectively leverages large language model priors for image translation.

03

Enhances visual capabilities with novel attention modules.

Abstract

The goal of multimodal image fusion is to integrate complementary information from infrared and visible images, generating multimodal fused images for downstream tasks. Existing downstream pre-training models are typically trained on visible images. However, the significant pixel distribution differences between visible and multimodal fusion images can degrade downstream task performance, sometimes even below that of using only visible images. This paper explores adapting multimodal fused images with significant modality differences to object detection and semantic segmentation models trained on visible images. To address this, we propose MambaTrans, a novel multimodal fusion image modality translator. MambaTrans uses descriptions from a multimodal large language model and masks from semantic segmentation models as input. Its core component, the Multi-Model State Space Block, combines…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdvanced Image Fusion Techniques · Advanced Neural Network Applications · Image Enhancement Techniques