MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Jiyao Liu; Junzhi Ning; Chenglong Ma; Wanying Qu; Jianghan Shen; Siqi Luo; Jinjie Wei; Jin Ye; Pengze Li; Tianbin Li; Jiashi Lin; Hongming Shan; Xinzhe Luo; Xiaohong Liu; Lihao Liu; Junjun He; Ningsheng Xu

arXiv:2603.07769·cs.CV·March 10, 2026

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu

PDF

Open Access 1 Datasets

TL;DR

MedQ-Deg is a comprehensive benchmark designed to evaluate medical multimodal large language models across various image quality degradations, revealing systematic performance drops and confidence issues in clinical scenarios.

Contribution

This work introduces MedQ-Deg, a large-scale, multidimensional benchmark with expert-calibrated degradations and a confidence calibration metric for assessing medical MLLMs.

Findings

01

Model performance declines with increased degradation severity.

02

Models often overestimate confidence despite poor accuracy.

03

Behavior varies across modalities, degradation types, and capability dimensions.

Abstract

Despite impressive performance on standard benchmarks, multimodal large language models (MLLMs) face critical challenges in real-world clinical environments where medical images inevitably suffer various quality degradations. Existing benchmarks exhibit two key limitations: (1) absence of large-scale, multidimensional assessment across medical image quality gradients and (2) no systematic confidence calibration analysis. To address these gaps, we present MedQ-Deg, a comprehensive benchmark for evaluating medical MLLMs under image quality degradations. MedQ-Deg provides multi-dimensional evaluation spanning 18 distinct degradation types, 30 fine-grained capability dimensions, and 7 imaging modalities, with 24,894 question-answer pairs. Each degradation is implemented at 3 severity degrees, calibrated by expert radiologists. We further introduce Calibration Shift metric, which quantifies…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

jiyaoliufd/MedQ-DEG-Bench
dataset· 46 dl
46 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsImage and Video Quality Assessment · Radiology practices and education · Artificial Intelligence in Healthcare and Education