TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning

Sina Tayebati; Divake Kumar; Nastaran Darabi; Davide Ettori; Ranganath Krishnan; Amit Ranjan Trivedi

arXiv:2602.11409·cs.AI·February 13, 2026

TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning

Sina Tayebati, Divake Kumar, Nastaran Darabi, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi

PDF

Open Access

TL;DR

TRACER is a new trajectory-level uncertainty metric for AI agents that detects critical failures in multi-turn tool-using interactions, improving early failure prediction over existing methods.

Contribution

The paper introduces TRACER, a novel uncertainty metric that combines multiple signals to identify critical episodes in agentic reasoning, addressing limitations of single-shot uncertainty proxies.

Findings

01

TRACER improves AUROC by up to 37.1% over baselines.

02

TRACER enhances AUARC by up to 55%, enabling earlier failure detection.

03

Effective in complex conversational tool-use scenarios.

Abstract

Estimating uncertainty for AI agents in real-world multi-turn tool-using interaction with humans is difficult because failures are often triggered by sparse critical episodes (e.g., looping, incoherent tool use, or user-agent miscoordination) even when local generation appears confident. Existing uncertainty proxies focus on single-shot text generation and therefore miss these trajectory-level breakdown signals. We introduce TRACER, a trajectory-level uncertainty metric for dual-control Tool-Agent-User interaction. TRACER combines content-aware surprisal with situational-awareness signals, semantic and lexical repetition, and tool-grounded coherence gaps, and aggregates them using a tail-focused risk functional with a MAX-composite step risk to surface decisive anomalies. We evaluate TRACER on $τ^{2}$ -bench by predicting task failure and selective task execution. To this end, TRACER…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Topic Modeling · Explainable Artificial Intelligence (XAI)