MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai; Wen Qian; Bo Liu; Hongyan Li; Hao Luo; Fan Wang; Bohan Zhuang; Shenda Hong

arXiv:2602.09587·cs.CV·May 13, 2026

MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai, Wen Qian, Bo Liu, Hongyan Li, Hao Luo, Fan Wang, Bohan Zhuang, Shenda Hong

PDF

1 Models 1 Datasets

TL;DR

MieDB-100k is a large, diverse, high-quality dataset designed to advance text-guided medical image editing by addressing current data limitations.

Contribution

The paper introduces MieDB-100k, a comprehensive dataset constructed through expert models and synthetic methods, enabling improved medical image editing models.

Findings

01

Models trained on MieDB-100k outperform existing models.

02

The dataset demonstrates strong generalization in medical image editing.

03

Rigorous manual inspection ensures clinical fidelity.

Abstract

The scarcity of high-quality data remains a primary bottleneck in adapting multimodal generative models for medical image editing. Existing medical image editing datasets often suffer from limited diversity, neglect of medical image understanding and inability to balance quality with scalability. To address these gaps, we propose MieDB-100k, a large-scale, high-quality and diverse dataset for text-guided medical image editing. It categorizes editing tasks into perspectives of Perception, Modification and Transformation, considering both understanding and generation abilities. We construct MieDB-100k via a data curation pipeline leveraging both modality-specific expert models and rule-based data synthetic methods, followed by rigorous manual inspection to ensure clinical fidelity. Extensive experiments demonstrate that model trained with MieDB-100k consistently outperform both…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

🤗
gguf-org/medgemma-1.5-4b-it-gguf
model· 676 dl· ♡ 1
676 dl♡ 1

Datasets

Laiyf/MieDB-100k
dataset· 432 dl
432 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.