DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition

Yuki Kadokawa; Jonas Frey; Takahiro Miki; Takamitsu Matsubara; and Marco Hutter

arXiv:2505.06357·cs.RO·January 22, 2026

DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition

Yuki Kadokawa, Jonas Frey, Takahiro Miki, Takamitsu Matsubara, and Marco Hutter

PDF

Open Access

TL;DR

DAPPER introduces a novel reinforcement learning framework that enhances query efficiency by integrating preference discriminability and policy diversity, enabling more effective robot skill acquisition through fewer human queries.

Contribution

It proposes a discriminability-aware, policy-to-policy preference-based RL method that improves query efficiency by generating diverse policies and prioritizing discriminable queries.

Findings

01

Outperforms previous methods in query efficiency.

02

Effective in both simulated and real-world robot environments.

03

Especially robust under challenging discriminability conditions.

Abstract

Preference-based Reinforcement Learning (PbRL) enables policy learning through simple queries comparing trajectories from a single policy. While human responses to these queries make it possible to learn policies aligned with human preferences, PbRL suffers from low query efficiency, as policy bias limits trajectory diversity and reduces the number of discriminable queries available for learning preferences. This paper identifies preference discriminability, which quantifies how easily a human can judge which trajectory is closer to their ideal behavior, as a key metric for improving query efficiency. To address this, we move beyond comparisons within a single policy and instead generate queries by comparing trajectories from multiple policies, as training them from scratch promotes diversity without policy bias. We propose Discriminability-Aware Policy-to-Policy Preference-Based…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsReinforcement Learning in Robotics · Autonomous Vehicle Technology and Safety · Data Management and Algorithms