COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking

Shukun Jia; Shiyu Hu; Yipei Wang; Ximeng Cheng; Yichao Cao; Xiaobo Lu

arXiv:2605.14795·cs.CV·May 15, 2026

COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking

Shukun Jia, Shiyu Hu, Yipei Wang, Ximeng Cheng, Yichao Cao, Xiaobo Lu

PDF

TL;DR

COAL introduces a novel framework combining semantic injection, counterfactual learning, and hierarchical integration to improve discriminative multi-object tracking under sparse supervision.

Contribution

It proposes a unified approach with external knowledge regularization, significantly enhancing RMOT performance in complex scenarios.

Findings

01

Surpasses state-of-the-art by 7.28% HOTA on Refer-KITTI-V2

02

Enhances instance discriminability with semantic injection via VLM

03

Enforces attribute verification through counterfactual learning

Abstract

Referring Multi-Object Tracking (RMOT) faces a fundamental structural contradiction between the high-discriminability demand and the sparse semantic supervision. This mismatch is particularly acute in highly homogeneous scenarios that require fine-grained discrimination over complex compositional semantics. However, under sparse supervision, models overfit to salient yet insufficient cues, thereby encouraging shortcut learning and semantic collapse. To resolve this, we propose COAL (Counterfactual and Observation-enhanced Alignment Learning), a framework that advances RMOT beyond isolated structural optimization through knowledge regularization. First, we introduce Explicit Semantic Injection (ESI) via a VLM to densify the observation space and enhance instance discriminability. Second, leveraging LLM reasoning, we propose Counterfactual Learning (CFL) to augment supervision, enforcing…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.