MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Yicheng Xiao; Lin Song; Yukang Chen; Yingmin Luo; Yuxin Chen; Yukang Gan; Wei Huang; Xiu Li; Xiaojuan Qi; Ying Shan

arXiv:2505.13031·cs.AI·June 12, 2025

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Yicheng Xiao, Lin Song, Yukang Chen, Yingmin Luo, Yuxin Chen, Yukang Gan, Wei Huang, Xiu Li, Xiaojuan Qi, Ying Shan

PDF

Open Access 1 Repo 1 Models 1 Video

TL;DR

MindOmni is a unified multimodal large language model that enhances reasoning and generation capabilities in vision-language tasks through a novel training strategy including RGPO reinforcement learning.

Contribution

It introduces a new training approach with RGPO for multimodal models, improving reasoning and generation performance over existing systems.

Findings

01

Outperforms existing models on understanding benchmarks

02

Demonstrates advanced reasoning, especially in mathematical tasks

03

Achieves superior multimodal reasoning and generation capabilities

Abstract

Recent text-to-image systems face limitations in handling multimodal inputs and complex reasoning tasks. We introduce MindOmni, a unified multimodal large language model that addresses these challenges by incorporating reasoning generation through reinforcement learning. MindOmni leverages a three-phase training strategy: i) design of a unified vision language model with a decoder-only diffusion module, ii) supervised fine-tuning with Chain-of-Thought (CoT) instruction data, and iii) our proposed Reasoning Generation Policy Optimization (RGPO) algorithm, utilizing multimodal feedback to effectively guide policy updates. Experimental results demonstrate that MindOmni outperforms existing models, achieving impressive performance on both understanding and generation benchmarks, meanwhile showcasing advanced fine-grained reasoning generation capabilities, especially with mathematical…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

easonxiao-888/mindomni
pytorchOfficial

Models

🤗
EasonXiao-888/MindOmni
model· 34 dl· ♡ 2
34 dl♡ 2

Videos

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO· slideslive

Taxonomy

TopicsMultimodal Machine Learning Applications · Topic Modeling · Natural Language Processing Techniques

MethodsDiffusion