MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

Pengfei Li; Shijie Wang; Fangyuan Li; Yikun Fu; Kaifeng Liu; Kaiyan Zhang; Dazhi Zhang; Yuqiang Li; Biqing Qi; Bowen Zhou

arXiv:2604.14564·cs.AI·April 17, 2026

MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

Pengfei Li, Shijie Wang, Fangyuan Li, Yikun Fu, Kaifeng Liu, Kaiyan Zhang, Dazhi Zhang, Yuqiang Li, Biqing Qi, Bowen Zhou

PDF

1 Repo

TL;DR

MARS$^2$ introduces a multi-agent reinforcement learning framework that enhances code generation by enabling collaborative search within a shared tree-structured environment, improving performance over existing methods.

Contribution

It presents a novel multi-agent RL approach that models search as a learnable environment, facilitating collaboration and structured exploration for better code generation results.

Findings

01

Consistently improves performance across code generation benchmarks.

02

Effectively leverages multi-agent collaboration within tree search.

03

Demonstrates robustness across diverse models and training settings.

Abstract

Reinforcement learning (RL) paradigms have demonstrated strong performance on reasoning-intensive tasks such as code generation. However, limited trajectory diversity often leads to diminishing returns, which constrains the achievable performance ceiling. Search-enhanced RL alleviates this issue by introducing structured exploration, which remains constrained by the single-agent policy priors. Meanwhile, leveraging multiple interacting policies can acquire more diverse exploratory signals, but existing approaches are typically decoupled from structured search. We propose \textbf{MARS $^{2}$ } (Multi-Agent Reinforced Tree-Search Scaling), a unified RL framework in which multiple independently-optimized agents collaborate within a shared tree-structured search environment. MARS $^{2}$ models the search tree as a learnable multi-agent interaction environment, enabling heterogeneous agents to…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

TsinghuaC3I/MARTI
github

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.