Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Tuan Truong; Melanie Dohmen; Sara Lorio; Matthias Lenga

arXiv:2602.23833·eess.IV·May 22, 2026

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Tuan Truong, Melanie Dohmen, Sara Lorio, Matthias Lenga

PDF

TL;DR

This paper introduces a multimodal framework combining image content and metadata with cross-attention and dictionary learning for robust DICOM series classification, addressing metadata inconsistencies and missing data.

Contribution

It presents a novel end-to-end approach that explicitly models metadata sparsity and cross-modal interactions without imputation, improving classification robustness.

Findings

01

Outperforms image-only, metadata-only, and baseline multimodal methods.

02

Handles missing and inconsistent metadata without imputation.

03

Demonstrates improved robustness and generalization across datasets.

Abstract

Automated identification of DICOM image series is essential for large-scale medical image analysis, quality control, protocol harmonization, and reliable downstream processing. However, DICOM series classification remains challenging due to heterogeneous slice content, variable series length, and entirely missing, incomplete or inconsistent DICOM metadata. We propose an end-to-end multimodal framework for DICOM series classification that jointly models image content and acquisition metadata while explicitly accounting for all these challenges. (i) Images and metadata are encoded with modality-aware modules and fused using a bi-directional cross-modal attention mechanism. (ii) Metadata is processed by a sparse, missingness-aware encoder based on learnable feature dictionaries and value-conditioned modulation. By design, the approach does not require any form of imputation. (iii)…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsRadiomics and Machine Learning in Medical Imaging · Medical Imaging and Analysis · Artificial Intelligence in Healthcare and Education