Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization

Gaurish Trivedi; Alakh Sharma; Kartikey Singh Bhandari; Yash Sinha; Pratik Narang; Dhruv Kumar; and Jagat Sesh Challa

arXiv:2602.06627·cs.LG·February 9, 2026

Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization

Gaurish Trivedi, Alakh Sharma, Kartikey Singh Bhandari, Yash Sinha, Pratik Narang, Dhruv Kumar, and Jagat Sesh Challa

PDF

Open Access

TL;DR

This paper introduces overlap geometry as a new trust region for policy optimization, using the Bhattacharyya coefficient to better control likelihood-ratio excursions and improve training stability over traditional KL-based methods.

Contribution

It proposes overlap geometry as an alternative to KL divergence for trust regions, deriving BTRPO and BPPO algorithms that enhance robustness and performance.

Findings

01

Overlap-based updates improve robustness in policy training.

02

Overlap constraints outperform KL-based methods in stability.

03

Proposed methods achieve better aggregate performance.

Abstract

Standard trust-region methods constrain policy updates via Kullback-Leibler (KL) divergence. However, KL controls only an average divergence and does not directly prevent rare, large likelihood-ratio excursions that destabilize training--precisely the failure mode that motivates heuristics such as PPO's clipping. We propose overlap geometry as an alternative trust region, constraining distributional overlap via the Bhattacharyya coefficient (closely related to the Hellinger/Renyi-1/2 geometry). This objective penalizes separation in the ratio tails, yielding tighter control over likelihood-ratio excursions without relying on total variation bounds that can be loose in tail regimes. We derive Bhattacharyya-TRPO (BTRPO) and Bhattacharyya-PPO (BPPO), enforcing overlap constraints via square-root ratio updates: BPPO clips the square-root ratio q = sqrt(r), and BTRPO applies a quadratic…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsStochastic Gradient Optimization Techniques · Reinforcement Learning in Robotics · Adversarial Robustness in Machine Learning