Maximum a Posteriori Policy Optimisation

Abbas Abdolmaleki; Jost Tobias Springenberg; Yuval Tassa; Remi Munos,; Nicolas Heess; Martin Riedmiller

arXiv:1806.06920·cs.LG·June 25, 2018·167 cites

Maximum a Posteriori Policy Optimisation

Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos,, Nicolas Heess, Martin Riedmiller

PDF

Open Access 3 Repos

TL;DR

Maximum a Posteriori Policy Optimisation (MPO) is a new reinforcement learning algorithm that improves sample efficiency, robustness, and convergence in continuous control tasks by using a coordinate ascent approach on a relative entropy objective.

Contribution

The paper introduces MPO, a novel off-policy reinforcement learning algorithm based on coordinate ascent on a relative entropy objective, unifying and extending existing methods.

Findings

01

Outperforms existing methods in sample efficiency

02

Demonstrates robustness to hyperparameters

03

Achieves competitive or superior final performance

Abstract

We introduce a new algorithm for reinforcement learning called Maximum aposteriori Policy Optimisation (MPO) based on coordinate ascent on a relative entropy objective. We show that several existing methods can directly be related to our derivation. We develop two off-policy algorithms and demonstrate that they are competitive with the state-of-the-art in deep reinforcement learning. In particular, for continuous control, our method outperforms existing methods with respect to sample efficiency, premature convergence and robustness to hyperparameter settings while achieving similar or better final performance.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsReinforcement Learning in Robotics · Advanced Multi-Objective Optimization Algorithms · Adaptive Dynamic Programming Control