Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

Jian Jiang; Chenxi Lin; Yiming Gu; Zengyi Qin; Zhitao Zeng; Kun Yuan; Yonghao Long; Xiang Xia; Cheng Yuan; Yuqi Wang; Zijie Yue; Kunyi Yang; Yuting Zhang; Zhu Zhuo; Dian Qin; Xin Wang; NG Chi Fai; Brian Anthony; Daguang Xu; Guy Rosman; Ozanan Meireles; Zizhen Zhang; Nicolas Padoy; Hesheng Wang; Qi Dou; Yueming Jin; Yutong Ban

arXiv:2603.12430·cs.CV·March 16, 2026

Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

Jian Jiang, Chenxi Lin, Yiming Gu, Zengyi Qin, Zhitao Zeng, Kun Yuan, Yonghao Long, Xiang Xia, Cheng Yuan, Yuqi Wang, Zijie Yue, Kunyi Yang, Yuting Zhang, Zhu Zhuo, Dian Qin, Xin Wang, NG Chi Fai, Brian Anthony, Daguang Xu, Guy Rosman, Ozanan Meireles, Zizhen Zhang

PDF

Open Access

TL;DR

Surg-R1 is a hierarchical surgical vision-language model with a large reasoning dataset, trained via a multi-stage pipeline, achieving superior interpretability and performance across multiple surgical understanding benchmarks.

Contribution

Introduces a three-level hierarchical reasoning framework, the largest surgical reasoning dataset, and a four-stage training pipeline for scalable and interpretable surgical decision support.

Findings

01

Achieves highest Arena Score of 64.9% on public benchmarks.

02

Outperforms existing models on multiple surgical tasks.

03

Improves external validation performance by 15.2 percentage points.

Abstract

Surgical scene understanding demands not only accurate predictions but also interpretable reasoning that surgeons can verify against clinical expertise. However, existing surgical vision-language models generate predictions without reasoning chains, and general-purpose reasoning models fail on compositional surgical tasks without domain-specific knowledge. We present Surg-R1, a surgical Vision-Language Model that addresses this gap through hierarchical reasoning trained via a four-stage pipeline. Our approach introduces three key contributions: (1) a three-level reasoning hierarchy decomposing surgical interpretation into perceptual grounding, relational understanding, and contextual reasoning; (2) the largest surgical chain-of-thought dataset with 320,000 reasoning pairs; and (3) a four-stage training pipeline progressing from supervised fine-tuning to group relative policy…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSurgical Simulation and Training · Multimodal Machine Learning Applications · Artificial Intelligence in Healthcare and Education