Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

Yixiong Chen; Wenjie Xiao; Pedro R. A. S. Bassi; Xinze Zhou; Sezgin Er; Ibrahim Ethem Hamamci; Zongwei Zhou; Alan Yuille

arXiv:2505.18915·cs.CV·May 27, 2025

Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

Yixiong Chen, Wenjie Xiao, Pedro R. A. S. Bassi, Xinze Zhou, Sezgin Er, Ibrahim Ethem Hamamci, Zongwei Zhou, Alan Yuille

PDF

Open Access 1 Repo 1 Datasets

TL;DR

This paper introduces DeepTumorVQA, a comprehensive 3D medical benchmark for tumor-centric visual question answering in CT scans, revealing current vision-language models' strengths and limitations in clinical diagnosis tasks.

Contribution

It provides a large-scale, challenging dataset and benchmark for evaluating VLMs in 3D medical diagnosis, highlighting the importance of multimodal pretraining and component design.

Findings

01

Models perform well on measurement tasks but poorly on recognition and reasoning.

02

Large-scale multimodal pretraining improves model performance.

03

Proper image preprocessing and vision module design are critical for 3D perception.

Abstract

Vision-Language Models (VLMs) have shown promise in various 2D visual tasks, yet their readiness for 3D clinical diagnosis remains unclear due to stringent demands for recognition precision, reasoning ability, and domain knowledge. To systematically evaluate these dimensions, we present DeepTumorVQA, a diagnostic visual question answering (VQA) benchmark targeting abdominal tumors in CT scans. It comprises 9,262 CT volumes (3.7M slices) from 17 public datasets, with 395K expert-level questions spanning four categories: Recognition, Measurement, Visual Reasoning, and Medical Reasoning. DeepTumorVQA introduces unique challenges, including small tumor detection and clinical reasoning across 3D anatomy. Benchmarking four advanced VLMs (RadFM, M3D, Merlin, CT-CHAT), we find current models perform adequately on measurement tasks but struggle with lesion recognition and reasoning, and are…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

schuture/deeptumorvqa
noneOfficial

Datasets

tumor-vqa/DeepTumorVQA_1.0
dataset· 30 dl
30 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications