EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

Xiangyuan Wang; Honghao Cai; Yunhao Bai; Tianze Zhou; Haohua Chen; Yao Hu; Xu Tang; Yibo Chen; Wei Zhu

arXiv:2604.08213·cs.CV·April 10, 2026

EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

Xiangyuan Wang, Honghao Cai, Yunhao Bai, Tianze Zhou, Haohua Chen, Yao Hu, Xu Tang, Yibo Chen, Wei Zhu

PDF

TL;DR

EditCaption introduces a scalable two-stage pipeline combining supervised fine-tuning and preference optimization to improve human-aligned instruction synthesis for image editing, significantly reducing errors.

Contribution

The paper presents a novel two-stage method for instruction synthesis that addresses systematic failure modes in vision-language models, enhancing alignment and accuracy.

Findings

01

Fine-tuned models outperform baselines on multiple benchmarks.

02

Critical errors reduced from 47.75% to 23%.

03

Model correctness increased from 41.75% to 66%.

Abstract

High-quality training triplets (source-target image pairs with precise editing instructions) are a critical bottleneck for scaling instruction-guided image editing models. Vision-language models (VLMs) are widely used for automated instruction synthesis, but we identify three systematic failure modes in image-pair settings: orientation inconsistency (e.g., left/right confusion), viewpoint ambiguity, and insufficient fine-grained attribute description. Human evaluation shows that over 47% of instructions from strong baseline VLMs contain critical errors unusable for downstream training. We propose EditCaption, a scalable two-stage post-training pipeline for VLM-based instruction synthesis. Stage 1 builds a 100K supervised fine-tuning (SFT) dataset by combining GLM automatic annotation, EditScore-based filtering, and human refinement for spatial, directional, and attribute-level accuracy.…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.