MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

Yiqing Liang; Jielin Qiu; Wenhao Ding; Zuxin Liu; James Tompkin; Mengdi Xu; Mengzhou Xia; Zhengzhong Tu; Laixi Shi; Jiacheng Zhu

arXiv:2505.24871·cs.CV·June 6, 2025

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu

PDF

Open Access

TL;DR

This paper introduces a systematic framework for multi-domain multimodal reinforcement learning with verifiable rewards, optimizing data mixtures to enhance reasoning and generalization in large language models across vision-language tasks.

Contribution

It proposes a novel post-training framework with a data mixture strategy that predicts and optimizes the best dataset combination for improved multimodal LLM performance.

Findings

01

Multi-domain RLVR significantly improves reasoning accuracy.

02

Optimized data mixtures outperform uniform mixtures.

03

Model accuracy increases by over 20% compared to baseline.

Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1)…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Domain Adaptation and Few-Shot Learning · Reinforcement Learning in Robotics