Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Haojin Yang; Ai Jian; Xinyue Huang; Yiwei Wang; Weipeng Zhang; Ke Zeng; Xunliang Cai; Jingqing Ruan

arXiv:2603.01481·cs.AI·March 3, 2026

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Haojin Yang, Ai Jian, Xinyue Huang, Yiwei Wang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Jingqing Ruan

PDF

Open Access

TL;DR

This paper introduces DuCA, a novel reinforcement learning framework that disentangles and balances long-term and immediate goals in industrial sales language models, leading to improved conversion and language quality.

Contribution

The paper proposes Dual-Horizon Credit Assignment (DuCA) with Horizon-Independent Advantage Normalization (HIAN), a new method for balancing heterogeneous rewards in multi-turn RL for sales agents.

Findings

01

Achieves 6.82% relative improvement in conversion rate.

02

Reduces inter-sentence repetition by 82.28%.

03

Lowers identity detection rate by 27.35%.

Abstract

Optimizing large language models for industrial sales requires balancing long-term commercial objectives (e.g., conversion rate) with immediate linguistic constraints such as fluency and compliance. Conventional reinforcement learning often merges these heterogeneous goals into a single reward, causing high-magnitude session-level rewards to overwhelm subtler turn-level signals, which leads to unstable training or reward hacking. To address this issue, we propose Dual-Horizon Credit Assignment (DuCA), a framework that disentangles optimization across time scales. Its core, Horizon-Independent Advantage Normalization (HIAN), separately normalizes advantages from turn-level and session-level rewards before fusion, ensuring balanced gradient contributions from both immediate and long-term objectives to the policy update. Extensive experiments with a high-fidelity user simulator show DuCA…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Explainable Artificial Intelligence (XAI) · Topic Modeling