MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Baorong Shi; Bo Cui; Boyuan Jiang; Deli Yu; Fang Qian; Haihua Yang; Huichao Wang; Jiale Chen; Jianfei Pan; Jieqiong Cao; Jinghao Lin; Kai Wu; Lin Yang; Shengsheng Yao; Tao Chen; Xiaojun Xiao; Xiaozhong Ji; Xu Wang; Yijun He; Zhixiong Yang

arXiv:2602.12705·cs.CL·April 8, 2026

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang

PDF

TL;DR

MedXIAOHE is a comprehensive medical vision-language model that achieves state-of-the-art performance and incorporates advanced reasoning, knowledge coverage, and reliability features for clinical applications.

Contribution

It introduces an entity-aware continual pretraining framework and reinforcement learning-based reasoning methods for improved medical understanding and decision-making.

Findings

01

Achieves state-of-the-art results on diverse medical benchmarks.

02

Surpasses leading closed-source multimodal systems in multiple capabilities.

03

Enhances reasoning and reliability in medical AI applications.

Abstract

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.