Uncovering and Mitigating Transient Blindness in Multimodal Model Editing

Xiaoqi Han; Ru Li; Ran Yi; Hongye Tan; Zhuomin Liang; V\'ictor Guti\'errez-Basulto; Jeff Z. Pan

arXiv:2511.13243·cs.LG·November 18, 2025

Uncovering and Mitigating Transient Blindness in Multimodal Model Editing

Xiaoqi Han, Ru Li, Ran Yi, Hongye Tan, Zhuomin Liang, V\'ictor Guti\'errez-Basulto, Jeff Z. Pan

PDF

Open Access 1 Video

TL;DR

This paper introduces a comprehensive evaluation framework for multimodal model editing, revealing transient blindness caused by overfitting to text and proposing adversarial losses to improve edit locality and robustness.

Contribution

It presents a new locality evaluation framework, a dynamic visual question answering benchmark, and adversarial training methods to mitigate transient blindness in multimodal models.

Findings

01

Outperforms existing baselines in reducing transient blindness

02

Improves locality by 17% on average

03

Reveals overfitting to text tokens during edits

Abstract

Multimodal Model Editing (MMED) aims to correct erroneous knowledge in multimodal models. Existing evaluation methods, adapted from textual model editing, overstate success by relying on low-similarity or random inputs, obscure overfitting. We propose a comprehensive locality evaluation framework, covering three key dimensions: random-image locality, no-image locality, and consistent-image locality, operationalized through seven distinct data types, enabling a detailed and structured analysis of multimodal edits. We introduce De-VQA, a dynamic evaluation for visual question answering, uncovering a phenomenon we term transient blindness, overfitting to edit-similar text while ignoring visuals. Token analysis shows edits disproportionately affect textual tokens. We propose locality-aware adversarial losses to balance cross-modal representations. Empirical results demonstrate that our…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

Uncovering and Mitigating Transient Blindness in Multimodal Model Editing· underline

Taxonomy

TopicsMultimodal Machine Learning Applications · Topic Modeling · Data Visualization and Analytics