Inference-Time Scaling for Visual AutoRegressive modeling by Searching Representative Samples

Weidong Tang; Xinyan Wan; Siyu Li; Xiumei Wang

arXiv:2601.07293·cs.CV·January 13, 2026

Inference-Time Scaling for Visual AutoRegressive modeling by Searching Representative Samples

Weidong Tang, Xinyan Wan, Siyu Li, Xiumei Wang

PDF

Open Access

TL;DR

This paper introduces VAR-Scaling, a novel inference-time scaling framework for visual autoregressive models that uses kernel density estimation and hybrid sampling to improve output quality and diversity.

Contribution

It pioneers inference-time scaling for VQ-based visual autoregressive models by mapping discrete spaces to quasi-continuous ones and employing a density-adaptive hybrid sampling strategy.

Findings

01

Significant quality improvements in class-conditional and text-to-image tasks.

02

Effective navigation of sampling distributions via KDE-based mapping.

03

Enhanced output diversity and fidelity through hybrid sampling.

Abstract

While inference-time scaling has significantly enhanced generative quality in large language and diffusion models, its application to vector-quantized (VQ) visual autoregressive modeling (VAR) remains unexplored. We introduce VAR-Scaling, the first general framework for inference-time scaling in VAR, addressing the critical challenge of discrete latent spaces that prohibit continuous path search. We find that VAR scales exhibit two distinct pattern types: general patterns and specific patterns, where later-stage specific patterns conditionally optimize early-stage general patterns. To overcome the discrete latent space barrier in VQ models, we map sampling spaces to quasi-continuous feature spaces via kernel density estimation (KDE), where high-density samples approximate stable, high-quality solutions. This transformation enables effective navigation of sampling distributions. We…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Domain Adaptation and Few-Shot Learning · Face recognition and analysis