ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection

He Geng; Yangmin Huang; Lixian Lai; Qianyun Du; Hui Chu; Zhiyang He; Jiaxue Hu; Xiaodong Tao

arXiv:2604.08326·cs.AI·April 10, 2026

ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection

He Geng, Yangmin Huang, Lixian Lai, Qianyun Du, Hui Chu, Zhiyang He, Jiaxue Hu, Xiaodong Tao

PDF

TL;DR

ProMedical introduces a hierarchical, fine-grained alignment framework for medical LLMs using explicit criteria injection, improving safety and accuracy through a new dataset, reward model, and evaluation suite.

Contribution

The paper presents a novel explicit criteria injection paradigm and a comprehensive dataset for aligning medical LLMs with clinical standards, enhancing safety and performance.

Findings

01

Improved accuracy by 22.3% using ProMedical-RM-guided reinforcement learning.

02

Enhanced safety compliance by 21.7%, rivaling proprietary models.

03

Robust generalization demonstrated on external medical benchmarks.

Abstract

Aligning Large Language Models (LLMs) with high-stakes medical standards remains a significant challenge, primarily due to the dissonance between coarse-grained preference signals and the complex, multi-dimensional nature of clinical protocols. To bridge this gap, we introduce ProMedical, a unified alignment framework grounded in fine-grained clinical criteria. We first construct ProMedical-Preference-50k, a dataset generated via a human-in-the-loop pipeline that augments medical instructions with rigorous, physician-derived rubrics. Leveraging this corpus, we propose the Explicit Criteria Injection paradigm to train a multi-dimensional reward model. Unlike traditional scalar reward models, our approach explicitly disentangles safety constraints from general proficiency, enabling precise guidance during reinforcement learning. To rigorously validate this framework, we establish…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.