Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment

Yuchen Sun; Pei Fu; Shaojie Zhang; Anan Du; Xiuwen Xi; Ruoceng Zhang; Zhenbo Luo; Jian Luan; Chongyang Zhang

arXiv:2605.14311·cs.LG·May 18, 2026

Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment

Yuchen Sun, Pei Fu, Shaojie Zhang, Anan Du, Xiuwen Xi, Ruoceng Zhang, Zhenbo Luo, Jian Luan, Chongyang Zhang

PDF

TL;DR

This paper introduces BBCritic, a contrastive learning-based GUI critic that captures hierarchical affordance structures, surpassing binary classifiers in fine-grained ranking and zero-shot transferability.

Contribution

It proposes a novel contrastive learning paradigm for GUI critique, addressing binary model limitations and introducing a hierarchical benchmark for evaluation.

Findings

01

BBCritic outperforms binary models with 7B parameters.

02

Demonstrates strong zero-shot transferability.

03

Introduces BBBench, a hierarchical GUI critic benchmark.

Abstract

Test-Time Scaling (TTS), which samples multiple candidate actions and ranks them via a Critic Model, has emerged as a promising paradigm for generalist GUI agents. Its efficacy thus hinges on the critic's fine-grained ranking ability. However, existing GUI critic models uniformly adopt binary classification. Our motivational analysis of these models exposes a severe entanglement: scores for valid actions and plausible-but-invalid distractors become indistinguishable. We attribute this failure to two structural defects: Affordance Collapse--the hierarchical affordance space is compressed into 0/1 labels; and Noise Sensitivity--binary objectives overfit to noisy decision boundaries. To resolve this, we introduce BBCritic (Beyond-Binary Critic), a paradigm shift grounded in the Functional Equivalence Hypothesis. Through two-stage contrastive learning, BBCritic aligns instructions and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.