Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Qijun Liao (1); Jue Yang (1); Yiting Kang (1); Xinxin Zhao (1); Yong Zhang (2); and Mingan Zhao (2) ((1) School of Mechanical Engineering; University of Science; Technology Beijing; China; (2) Jiangsu XCMG Construction Machinery Research Institute Co.; Ltd.; China)

arXiv:2603.11600·cs.LG·March 17, 2026

Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Qijun Liao (1), Jue Yang (1), Yiting Kang (1), Xinxin Zhao (1), Yong Zhang (2), and Mingan Zhao (2) ((1) School of Mechanical Engineering, University of Science, Technology Beijing, China, (2) Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China)

PDF

Open Access

TL;DR

This paper introduces H-EARS, a physics-guided reward shaping method that improves reinforcement learning efficiency and stability by integrating energy-aware regularization with potential-based reward shaping, suitable for safety-critical applications.

Contribution

The paper presents a unified, lightweight, physics-guided reward shaping framework with theoretical guarantees and practical validation, enabling efficient policy optimization without full system models.

Findings

01

Enhanced convergence and stability in RL algorithms.

02

Improved energy efficiency in control tasks.

03

Validated applicability in safety-critical vehicle simulations.

Abstract

Deep reinforcement learning excels in continuous control but often requires extensive exploration, while physics-based models demand complete equations and suffer cubic complexity. This study proposes Hybrid Energy-Aware Reward Shaping (H-EARS), unifying potential-based reward shaping with energy-aware action regularization. H-EARS constrains action magnitude while balancing task-specific and energy-based potentials via functional decomposition, achieving linear complexity O(n) by capturing dominant energy components without full dynamics. We establish a theoretical foundation including: (1) functional independence for separate task/energy optimization; (2) energy-based convergence acceleration; (3) convergence guarantees under function approximation; and (4) approximate potential error bounds. Lyapunov stability connections are analyzed as heuristic guides. Experiments across baselines…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsReinforcement Learning in Robotics · Muscle activation and electromyography studies · Neurological disorders and treatments