Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Zhixiang Wei; Yi Li; Zhehan Kan; Xinghua Jiang; Zuwei Long; Shifeng Liu; Hongze Shen; Wei Liu; Xiaoyu Tan; Haojia Lin; Yubo Zhu; Qianyu Li; Di Yin; Haoyu Cao; Weibo Gu; Xin Li; Yinsong Liu; Deqiang Jiang; Xing Sun; Yunsheng Wu; Mingkong Tang; Shuangyin Liu; Lexiang Tang; Haodong Lin; Junru Lu; Jiarui Qin; Lingfeng Qiao; Ruizhi Qiao; Bo Ke; Jianfeng He; Ke Li; Yangning Li; Yunhang Shen; Mengdan Zhang; Peixian Chen; Kun Yin; Bing Liu; Yunfei Wu; Huang Chen; Zhongpeng Cai; Xiaotian Li

arXiv:2601.19798·cs.CV·January 28, 2026

Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Zhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang

PDF

Open Access 4 Models

TL;DR

Youtu-VL introduces a unified autoregressive supervision framework that enhances visual detail retention in vision-language models, enabling more comprehensive multimodal understanding and vision-centric task performance.

Contribution

It proposes VLUAS, a novel training paradigm shifting from vision-as-input to vision-as-target, improving visual detail modeling in VLMs without task-specific modifications.

Findings

01

Achieves competitive results on multimodal tasks

02

Enables vision-centric tasks without additional modules

03

Provides a robust foundation for generalist visual agents

Abstract

Despite the significant advancements represented by Vision-Language Models (VLMs), current architectures often exhibit limitations in retaining fine-grained visual information, leading to coarse-grained multimodal comprehension. We attribute this deficiency to a suboptimal training paradigm inherent in prevailing VLMs, which exhibits a text-dominant optimization bias by conceptualizing visual signals merely as passive conditional inputs rather than supervisory targets. To mitigate this, we introduce Youtu-VL, a framework leveraging the Vision-Language Unified Autoregressive Supervision (VLUAS) paradigm, which fundamentally shifts the optimization objective from ``vision-as-input'' to ``vision-as-target.'' By integrating visual tokens directly into the prediction stream, Youtu-VL applies unified autoregressive supervision to both visual details and linguistic content. Furthermore, we…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Domain Adaptation and Few-Shot Learning · Generative Adversarial Networks and Image Synthesis