Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments

Boyang Xia; Weiyou Tian; Qingnan Ren; Jiaqi Huang; Jie Xiao; Shuo Lu; Kai Wang; Lynn Ai; Eric Yang; Bill Shi

arXiv:2602.08041·cs.LG·February 10, 2026

Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments

Boyang Xia, Weiyou Tian, Qingnan Ren, Jiaqi Huang, Jie Xiao, Shuo Lu, Kai Wang, Lynn Ai, Eric Yang, Bill Shi

PDF

Open Access

TL;DR

This paper introduces Implicit Strategic Optimization (ISO), a prediction-aware framework for long-horizon adversarial decision-making, demonstrating improved long-term performance in complex strategic environments like poker and Pokemon.

Contribution

The paper proposes ISO, combining a strategic reward model with optimistic learning, providing theoretical guarantees and practical improvements over existing methods in long-horizon strategic games.

Findings

01

ISO achieves sublinear regret and equilibrium convergence.

02

Experiments show improved long-term returns in poker and Pokemon.

03

Framework degrades gracefully under prediction noise.

Abstract

Training large language model (LLM) agents for adversarial games is often driven by episodic objectives such as win rate. In long-horizon settings, however, payoffs are shaped by latent strategic externalities that evolve over time, so myopic optimization and variation-based regret analyses can become vacuous even when the dynamics are predictable. To solve this problem, we introduce Implicit Strategic Optimization (ISO), a prediction-aware framework in which each agent forecasts the current strategic context and uses it to update its policy online. ISO combines a Strategic Reward Model (SRM) that estimates the long-run strategic value of actions with iso-grpo, a context-conditioned optimistic learning rule. We prove sublinear contextual regret and equilibrium convergence guarantees whose dominant terms scale with the number of context mispredictions; when prediction errors are bounded,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsArtificial Intelligence in Games · Sports Analytics and Performance · Advanced Bandit Algorithms Research