Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning

Haozhen Gong; Xiaozhong Ji; Yuansen Liu; Wenbin Wu; Xiaoxiao Yan; Jingjing Liu; Kai Wu; Jiazhen Pan; Bailiang Jian; Jiangning Zhang; Xiaobin Hu; Hongwei Bran Li

arXiv:2512.00818·cs.AI·April 1, 2026

Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning

Haozhen Gong, Xiaozhong Ji, Yuansen Liu, Wenbin Wu, Xiaoxiao Yan, Jingjing Liu, Kai Wu, Jiazhen Pan, Bailiang Jian, Jiangning Zhang, Xiaobin Hu, Hongwei Bran Li

PDF

TL;DR

Med-CMR is a comprehensive benchmark designed to evaluate medical multimodal reasoning in AI models, focusing on visual understanding and complex clinical scenarios across diverse medical data.

Contribution

This paper introduces Med-CMR, a detailed benchmark with fine-grained evaluation, challenging tasks, and extensive data to assess medical multimodal reasoning capabilities.

Findings

01

GPT-5 achieves 57.81% accuracy on multiple-choice questions.

02

Specialized medical models do not outperform general models.

03

Long-tail generalization remains a major challenge.

Abstract

MLLMs MLLMs are beginning to appear in clinical workflows, but their ability to perform complex medical reasoning remains unclear. We present Med-CMR, a fine-grained Medical Complex Multimodal Reasoning benchmark. Med-CMR distinguishes from existing counterparts by three core features: 1) Systematic capability decomposition, splitting medical multimodal reasoning into fine-grained visual understanding and multi-step reasoning to enable targeted evaluation; 2) Challenging task design, with visual understanding across three key dimensions (small-object detection, fine-detail discrimination, spatial understanding) and reasoning covering four clinically relevant scenarios (temporal prediction, causal reasoning, long-tail generalization, multi-source integration); 3) Broad, high-quality data coverage, comprising 20,653 Visual Question Answering (VQA) pairs spanning 11 organ systems and 12…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.