Quantum Boltzmann Machines for Sample-Efficient Reinforcement Learning

Thore Gerlach; Michael Schenk; Verena Kain

arXiv:2511.04856·cs.LG·November 10, 2025

Quantum Boltzmann Machines for Sample-Efficient Reinforcement Learning

Thore Gerlach, Michael Schenk, Verena Kain

PDF

Open Access

TL;DR

This paper presents a hybrid quantum-classical model called CSQBMs for continuous-action reinforcement learning, enabling efficient sampling and stable learning with reduced qubit requirements.

Contribution

It introduces a novel continuous semi-quantum Boltzmann machine model with analytical gradients, enhancing sample efficiency and stability in reinforcement learning.

Findings

01

Supports continuous actions with quantum Boltzmann distributions.

02

Enables analytical gradient computation for integration into Actor-Critic.

03

Improves stability by replacing maximization with sampling.

Abstract

We introduce theoretically grounded Continuous Semi-Quantum Boltzmann Machines (CSQBMs) that supports continuous-action reinforcement learning. By combining exponential-family priors over visible units with quantum Boltzmann distributions over hidden units, CSQBMs yield a hybrid quantum-classical model that reduces qubit requirements while retaining strong expressiveness. Crucially, gradients with respect to continuous variables can be computed analytically, enabling direct integration into Actor-Critic algorithms. Building on this, we propose a continuous Q-learning framework that replaces global maximization by efficient sampling from the CSQBM distribution, thereby overcoming instability issues in continuous control.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsQuantum Computing Algorithms and Architecture · Quantum many-body systems · Generative Adversarial Networks and Image Synthesis