VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Jinxiang Lai; Wenzhe Zhao; Zexin Lu; Hualei Zhang; Qinyu Yang; Rongwei Quan; Zhimin Li; Shuai Shao; Song Guo; Qinglin Lu

arXiv:2603.08812·cs.CV·March 11, 2026

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu

PDF

Open Access

TL;DR

VisionCreator-R1 introduces a reflection-enhanced visual generation agent with a novel training methodology, significantly improving multi-image visual content generation by addressing mid-trajectory errors through systematic reflection and plan optimization.

Contribution

It proposes a reflection-augmented agent with a new RPCO training method, enabling better correction of visual errors during multi-image generation tasks.

Findings

01

Outperforms Gemini2.5Pro on multiple benchmarks

02

Uncovers asymmetry in reflection and planning optimization in RL

03

Effective in both single-image and multi-image tasks

Abstract

Visual content generation has advanced from single-image to multi-image workflows, yet existing agents remain largely plan-driven and lack systematic reflection mechanisms to correct mid-trajectory visual errors. To address this limitation, we propose VisionCreator-R1, a native visual generation agent with explicit reflection, together with a Reflection-Plan Co-Optimization (RPCO) training methodology. Through extensive experiments and trajectory-level analysis, we uncover reflection-plan optimization asymmetry in reinforcement learning (RL): planning can be reliably optimized via plan rewards, while reflection learning is hindered by noisy credit assignment. Guided by this insight, our RPCO first trains on the self-constructed VCR-SFT dataset with reflection-strong single-image trajectories and planning-strong multi-image trajectories, then co-optimization on VCR-RL dataset via RL.…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Generative Adversarial Networks and Image Synthesis · Reinforcement Learning in Robotics