Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

Lei Chen; Yuan Meng; Chen Tang; Xinzhu Ma; Jingyan Jiang; Xin Wang,; Zhi Wang; Wenwu Zhu

arXiv:2406.17343·cs.CV·November 21, 2024·1 cites

Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers

Lei Chen, Yuan Meng, Chen Tang, Xinzhu Ma, Jingyan Jiang, Xin Wang,, Zhi Wang, Wenwu Zhu

PDF

Open Access 1 Repo

TL;DR

Q-DiT introduces a novel post-training quantization method for diffusion transformers, significantly reducing computational costs while maintaining high image and video generation quality, through adaptive quantization techniques.

Contribution

The paper presents Q-DiT, a new PTQ framework that effectively handles variance in diffusion transformers using automatic granularity allocation and sample-wise dynamic activation quantization.

Findings

01

Achieves a 1.09 FID reduction on ImageNet W6A8 quantization.

02

Maintains high fidelity in W4A8 quantization for image and video generation.

03

Establishes new benchmarks for efficient quantization of diffusion transformers.

Abstract

Recent advancements in diffusion models, particularly the architectural transformation from UNet-based models to Diffusion Transformers (DiTs), significantly improve the quality and scalability of image and video generation. However, despite their impressive capabilities, the substantial computational costs of these large-scale models pose significant challenges for real-world deployment. Post-Training Quantization (PTQ) emerges as a promising solution, enabling model compression and accelerated inference for pretrained models, without the costly retraining. However, research on DiT quantization remains sparse, and existing PTQ frameworks, primarily designed for traditional diffusion models, tend to suffer from biased quantization, leading to notable performance degradation. In this work, we identify that DiTs typically exhibit significant spatial variance in both weights and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

juanerx/q-dit
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdvanced Memory and Neural Computing · Neural Networks and Reservoir Computing · Neural Networks and Applications

MethodsAttention Is All You Need · Softmax · Layer Normalization · Byte Pair Encoding · Label Smoothing · Diffusion · Position-Wise Feed-Forward Layer · Dropout · Adam · Linear Layer