ReasonEdit: Editing Vision-Language Models using Human Reasoning

Jiaxing Qiu; Kaihua Hou; Roxana Daneshjou; Ahmed Alaa; Thomas Hartvigsen

arXiv:2602.02408·cs.CV·May 13, 2026

ReasonEdit: Editing Vision-Language Models using Human Reasoning

Jiaxing Qiu, Kaihua Hou, Roxana Daneshjou, Ahmed Alaa, Thomas Hartvigsen

PDF

TL;DR

ReasonEdit is a novel vision-language model editor that incorporates human reasoning explanations, improving editing accuracy and generalization on reasoning-heavy visual question answering tasks.

Contribution

It introduces a new editing setup that stores human reasoning in a codebook and uses a topology-balanced embedding, achieving state-of-the-art results.

Findings

01

ReasonEdit outperforms existing editors on multiple datasets.

02

Using human reasoning during editing enhances generalization.

03

The approach effectively handles reasoning-heavy vision-language tasks.

Abstract

Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-language models (VLMs), no existing editors tackle reasoning-heavy tasks, which typically require humans and models to reason about images. We therefore propose ReasonEdit, the first VLM editor to let users explain their reasoning during editing, introducing a new, practical model editing setup. ReasonEdit continuously stores human reasoning in a codebook, and retrieves only relevant facts during inference using a novel topology-balanced multimodal embedding method inspired by network science. Across four VLMs on multiple rationale-based visual question answering datasets, ReasonEdit achieves state-of-the-art editing performance, ultimately showing that using human reasoning during editing greatly improves edit generalization.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.