Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Yana Wei; Liang Zhao; Jianjian Sun; Kangheng Lin; Jisheng Yin; Jingcheng Hu; Yinmin Zhang; En Yu; Haoran Lv; Zejia Weng; Jia Wang; Chunrui Han; Yuang Peng; Qi Han; Zheng Ge; Xiangyu Zhang; Daxin Jiang; Vishal M. Patel

arXiv:2507.05255·cs.CV·September 23, 2025

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel

PDF

Open Access

TL;DR

This paper introduces Open-Vision-Reasoner, a multimodal large language model trained through a two-stage process combining linguistic fine-tuning and reinforcement learning, achieving state-of-the-art visual reasoning performance.

Contribution

It presents a novel two-stage training paradigm for MLLMs that transfers cognitive behaviors from language models to enhance visual reasoning capabilities.

Findings

01

Behavior transfer occurs early due to linguistic mental imagery.

02

Cold start memorizes visual behaviors; RL scales effective patterns.

03

Transfer emphasizes high-utility behaviors like visual reflection.

Abstract

The remarkable reasoning capability of large language models (LLMs) stems from cognitive behaviors that emerge through reinforcement with verifiable rewards. This work investigates how to transfer this principle to Multimodal LLMs (MLLMs) to unlock advanced visual reasoning. We introduce a two-stage paradigm built on Qwen2.5-VL-7B: a massive linguistic cold-start fine-tuning, followed by multimodal reinforcement learning (RL) spanning nearly 1,000 steps, surpassing all previous open-source efforts in scale. This pioneering work reveals three fundamental insights: 1) Behavior transfer emerges surprisingly early in cold start due to linguistic mental imagery. 2) Cold start broadly memorizes visual behaviors, while RL critically discerns and scales up effective patterns. 3) Transfer strategically favors high-utility behaviors such as visual reflection. Our resulting model,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Domain Adaptation and Few-Shot Learning · Advanced Graph Neural Networks