Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

Melika Filvantorkaman; Mohsen Piri

arXiv:2602.17689·cs.LG·February 23, 2026

Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

Melika Filvantorkaman, Mohsen Piri

PDF

Open Access

TL;DR

This paper introduces Robust-MMR, a self-supervised pre-training framework for medical vision-language models that enhances robustness to domain shifts, leading to improved performance across various benchmarks and under perturbed conditions.

Contribution

It proposes a novel robustness-aware pre-training method that incorporates domain-invariance and modality resilience, addressing a gap in existing multi-modal medical models.

Findings

01

Achieves 78.9% cross-domain accuracy on VQA-RAD, outperforming baselines.

02

Improves perturbed VQA-RAD accuracy from 69.1% to 75.6%.

03

Reduces mean rank degradation in retrieval from over 16 to 4.1.

Abstract

Medical vision-language models show strong potential for joint reasoning over medical images and clinical text, but their performance often degrades under domain shift caused by variations in imaging devices, acquisition protocols, and reporting styles. Existing multi-modal pre-training methods largely overlook robustness, treating it as a downstream adaptation problem. In this work, we propose Robust Multi-Modal Masked Reconstruction (Robust-MMR), a self-supervised pre-training framework that explicitly incorporates robustness objectives into masked vision-language learning. Robust-MMR integrates asymmetric perturbation-aware masking, domain-consistency regularization, and modality-resilience constraints to encourage domain-invariant representations. We evaluate Robust-MMR on multiple medical vision-language benchmarks, including medical visual question answering (VQA-RAD, SLAKE,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Domain Adaptation and Few-Shot Learning · COVID-19 diagnosis using AI