FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Yongwen Lai; Chaoqun Wang; Shaobo Min

arXiv:2602.08725·cs.CV·February 10, 2026

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Yongwen Lai, Chaoqun Wang, Shaobo Min

PDF

Open Access

TL;DR

FusionEdit introduces a training-free image editing framework that uses semantic discrepancy measurement, distance-aware latent fusion, and attention modulation to achieve precise, natural, and controllable edits without artifacts.

Contribution

It proposes a novel training-free method combining semantic discrepancy detection, soft mask generation, and attention modulation for improved image editing.

Findings

01

Outperforms state-of-the-art editing methods in experiments.

02

Produces natural edits with smooth transitions and minimal artifacts.

03

Enhances editability and global consistency in image modifications.

Abstract

Text-guided image editing aims to modify specific regions according to the target prompt while preserving the identity of the source image. Recent methods exploit explicit binary masks to constrain editing, but hard mask boundaries introduce artifacts and reduce editability. To address these issues, we propose FusionEdit, a training-free image editing framework that achieves precise and controllable edits. First, editing and preserved regions are automatically identified by measuring semantic discrepancies between source and target prompts. To mitigate boundary artifacts, FusionEdit performs distance-aware latent fusion along region boundaries to yield the soft and accurate mask, and employs a total variation loss to enforce smooth transitions, obtaining natural editing results. Second, FusionEdit leverages AdaIN-based modulation within DiT attention layers to perform a statistical…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Advanced Image Fusion Techniques · Digital Media Forensic Detection