STEP3-VL-10B Technical Report

Ailin Huang; Chengyuan Yao; Chunrui Han; Fanqi Wan; Hangyu Guo; Haoran Lv; Hongyu Zhou; Jia Wang; Jian Zhou; Jianjian Sun; Jingcheng Hu; Kangheng Lin; Liang Zhao; Mitt Huang; Song Yuan; Wenwen Qu; Xiangfeng Wang; Yanlin Lai; Yingxiu Zhao; Yinmin Zhang; Yukang Shi; Yuyang Chen; Zejia Weng; Ziyang Meng; Ang Li; Aobo Kong; Bo Dong; Changyi Wan; David Wang; Di Qi; Dingming Li; En Yu; Guopeng Li; Haiquan Yin; Han Zhou; Hanshan Zhang; Haolong Yan; Hebin Zhou; Hongbo Peng; Jiaran Zhang; Jiashu Lv; Jiayi Fu; Jie Cheng; Jie Zhou; Jisheng Yin; Jingjing Xie; Jingwei Wu; Jun Zhang; Junfeng Liu; Kaijun Tan; Kaiwen Yan; Liangyu Chen; Lina Chen; Mingliang Li; Qian Zhao; Quan Sun; Shaoliang Pang; Shengjie Fan; Shijie Shang; Siyuan Zhang; Tianhao You; Wei Ji; Wuxun Xie; Xiaobo Yang; Xiaojie Hou; Xiaoran Jiao; Xiaoxiao Ren; Xiangwen Kong; Xin Huang; Xin Wu; Xing Chen; Xinran Wang; Xuelin Zhang; Yana Wei; Yang Li; Yanming Xu; Yeqing Shen; Yuang Peng; Yue Peng; Yu Zhou; Yusheng Li; Yuxiang Yang; Yuyang Zhang; Zhe Xie; Zhewei Huang; Zhenyi Lu; Zhimin Fan; Zihui Cheng; Daxin Jiang; Qi Han; Xiangyu Zhang; Yibo Zhu; Zheng Ge

arXiv:2601.09668·cs.CV·January 16, 2026

STEP3-VL-10B Technical Report

Ailin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen

PDF

Open Access 9 Models

TL;DR

STEP3-VL-10B is a compact, open-source multimodal foundation model that achieves high performance and complex reasoning capabilities comparable to much larger models through innovative training and reasoning strategies.

Contribution

The paper introduces a novel training and reasoning framework for a 10B parameter model that rivals larger models in multimodal intelligence.

Findings

01

Achieves 92.2% on MMBench and 80.11% on MMMU

02

Surpasses larger models in complex reasoning tasks

03

Provides an open-source, reproducible baseline

Abstract

We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10 $\times$ -20 $\times$ larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Advanced Neural Network Applications · Reinforcement Learning in Robotics