PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio   Diffusion Models

Jayneel Vora; Aditya Krishnan; Nader Bouacida; Prabhu RV Shankar,; Prasant Mohapatra

arXiv:2409.13894·cs.SD·September 24, 2024

PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models

Jayneel Vora, Aditya Krishnan, Nader Bouacida, Prabhu RV Shankar,, Prasant Mohapatra

PDF

Open Access

TL;DR

This paper presents PTQ4ADM, a post-training quantization framework for audio diffusion models that significantly reduces model size with minimal impact on synthesis quality, enabling efficient deployment in resource-limited settings.

Contribution

The paper introduces novel prompt augmentation and activation-aware calibration techniques for quantizing text-conditional audio diffusion models, maintaining high quality with reduced model size.

Findings

01

Model size reduced by up to 70%

02

Quantization to 4-bit weights and 8-bit activations preserves quality

03

Achieves comparable synthesis quality with full-precision models

Abstract

Denoising diffusion models have emerged as state-of-the-art in generative tasks across image, audio, and video domains, producing high-quality, diverse, and contextually relevant data. However, their broader adoption is limited by high computational costs and large memory footprints. Post-training quantization (PTQ) offers a promising approach to mitigate these challenges by reducing model complexity through low-bandwidth parameters. Yet, direct application of PTQ to diffusion models can degrade synthesis quality due to accumulated quantization noise across multiple denoising steps, particularly in conditional tasks like text-to-audio synthesis. This work introduces PTQ4ADM, a novel framework for quantizing audio diffusion models(ADMs). Our key contributions include (1) a coverage-driven prompt augmentation method and (2) an activation-aware calibration set generation algorithm for…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMusic and Audio Processing · Speech Recognition and Synthesis · Speech and Audio Processing

MethodsSparse Evolutionary Training · Diffusion