EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving

Siwen Jiao; Kangan Qian; Hao Ye; Yang Zhong; Ziang Luo; Sicong Jiang; Zilin Huang; Yangyi Fang; Jinyu Miao; Zheng Fu; Yunlong Wang; Kun Jiang; Diange Yang; Rui Fan; Baoyun Peng

arXiv:2508.09158·cs.LG·August 15, 2025

EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving

Siwen Jiao, Kangan Qian, Hao Ye, Yang Zhong, Ziang Luo, Sicong Jiang, Zilin Huang, Yangyi Fang, Jinyu Miao, Zheng Fu, Yunlong Wang, Kun Jiang, Diange Yang, Rui Fan, Baoyun Peng

PDF

TL;DR

EvaDrive introduces an adversarial multi-objective reinforcement learning framework for autonomous driving, enabling iterative trajectory refinement and diverse decision-making without scalarization bias, achieving state-of-the-art results.

Contribution

It presents a novel closed-loop adversarial co-evolution framework for trajectory optimization that preserves preference diversity and enables iterative refinement.

Findings

01

Achieves 94.9 PDMS on NAVSIM v1, outperforming previous methods.

02

Attains 64.96 Driving Score on Bench2Drive, demonstrating state-of-the-art performance.

03

Generates diverse driving styles without external preference data.

Abstract

Autonomous driving faces significant challenges in achieving human-like iterative decision-making, which continuously generates, evaluates, and refines trajectory proposals. Current generation-evaluation frameworks isolate trajectory generation from quality assessment, preventing iterative refinement essential for planning, while reinforcement learning methods collapse multi-dimensional preferences into scalar rewards, obscuring critical trade-offs and yielding scalarization bias.To overcome these issues, we present EvaDrive, a novel multi-objective reinforcement learning framework that establishes genuine closed-loop co-evolution between trajectory generation and evaluation via adversarial optimization. EvaDrive frames trajectory planning as a multi-round adversarial game. In this game, a hierarchical generator continuously proposes candidate paths by combining autoregressive intent…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.