Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM

Dingjie Song; Sicheng Lai; Mingxuan Wang; Shunian Chen; Lichao Sun; Benyou Wang

arXiv:2411.03823·cs.CV·September 23, 2025

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM

Dingjie Song, Sicheng Lai, Mingxuan Wang, Shunian Chen, Lichao Sun, Benyou Wang

PDF

Open Access 1 Repo 1 Video

TL;DR

This paper systematically analyzes data contamination in multimodal large language models, revealing significant contamination issues that impact fair evaluation and model reliability, with contamination often originating during unimodal pre-training.

Contribution

The paper introduces MM-Detect, an analytical framework for quantifying multimodal data contamination, and provides comprehensive analysis across multiple models and benchmarks.

Findings

01

Significant data contamination detected in proprietary and older models.

02

Contamination often originates during unimodal pre-training, not just multimodal fine-tuning.

03

Contamination impacts evaluation fairness and model reliability.

Abstract

The rapid advancement of multimodal large language models (MLLMs) has significantly enhanced performance across benchmarks. However, data contamination-unintentional memorization of benchmark data during model training-poses critical challenges for fair evaluation. Existing detection methods for unimodal large language models (LLMs) are inadequate for MLLMs due to multimodal data complexity and multi-phase training. We systematically analyze multimodal data contamination using our analytical framework, MM-Detect, which defines two contamination categories-unimodal and cross-modal-and effectively quantifies contamination severity across multiple-choice and caption-based Visual Question Answering tasks. Evaluations on twelve MLLMs and five benchmarks reveal significant contamination, particularly in proprietary models and older benchmarks. Crucially, contamination sometimes originates…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

MLLM-Data-Contamination/MM-Detect
pytorchOfficial

Videos

Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM· underline

Taxonomy

TopicsNatural Language Processing Techniques · Library Science and Information Systems · Digital Rights Management and Security

MethodsBalanced Selection · Sparse Evolutionary Training