FireRed-Image-Edit-1.0 Technical Report

Super Intelligence Team: Changhao Qiao; Chao Hui; Chen Li; Cunzheng Wang; Dejia Song; Jiale Zhang; Jing Li; Qiang Xiang; Runqi Wang; Shuang Sun; Wei Zhu; Xu Tang; Yao Hu; Yibo Chen; Yuhao Huang; Yuxuan Duan; Zhiyi Chen; Ziyuan Guo

arXiv:2602.13344·cs.CV·February 23, 2026

FireRed-Image-Edit-1.0 Technical Report

Super Intelligence Team: Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo

PDF

Open Access 7 Models 1 Datasets

TL;DR

FireRed-Image-Edit introduces a diffusion transformer for instruction-based image editing, achieving state-of-the-art results through extensive data curation, multi-stage training, and innovative optimization techniques, supported by a new comprehensive benchmark.

Contribution

The paper presents a novel diffusion transformer model with advanced training strategies and a large, high-quality dataset for instruction-based image editing, along with a new benchmark suite.

Findings

01

Achieves state-of-the-art performance on REDEdit-Bench and public benchmarks.

02

Introduces new techniques like Multi-Condition Aware Bucket Sampler and Asymmetric Gradient Optimization.

03

Demonstrates strong semantic coverage and instruction alignment in image editing tasks.

Abstract

We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Datasets

FireRedTeam/REDEdit-Bench
dataset· 249 dl
249 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Cell Image Analysis Techniques · Multimodal Machine Learning Applications