VIVAT: Virtuous Improving VAE Training through Artifact Mitigation

Lev Novitskiy; Viacheslav Vasilev; Maria Kovaleva; Vladimir Arkhipkin; Denis Dimitrov

arXiv:2506.07863·cs.CV·December 2, 2025

VIVAT: Virtuous Improving VAE Training through Artifact Mitigation

Lev Novitskiy, Viacheslav Vasilev, Maria Kovaleva, Vladimir Arkhipkin, Denis Dimitrov

PDF

Open Access 1 Models

TL;DR

VIVAT is a practical method that systematically reduces artifacts in VAE training, improving image quality and generation metrics without major architectural changes.

Contribution

It introduces a taxonomy of artifacts and simple modifications to mitigate them, achieving state-of-the-art results in VAE image reconstruction and generation.

Findings

01

Significant improvements in PSNR and SSIM metrics.

02

Enhanced CLIP scores for text-to-image generation.

03

Effective artifact mitigation through loss and padding adjustments.

Abstract

Variational Autoencoders (VAEs) remain a cornerstone of generative computer vision, yet their training is often plagued by artifacts that degrade reconstruction and generation quality. This paper introduces VIVAT, a systematic approach to mitigating common artifacts in KL-VAE training without requiring radical architectural changes. We present a detailed taxonomy of five prevalent artifacts - color shift, grid patterns, blur, corner and droplet artifacts - and analyze their root causes. Through straightforward modifications, including adjustments to loss weights, padding strategies, and the integration of Spatially Conditional Normalization, we demonstrate significant improvements in VAE performance. Our method achieves state-of-the-art results in image reconstruction metrics (PSNR and SSIM) across multiple benchmarks and enhances text-to-image generation quality, as evidenced by…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

🤗
Anzhc/MS-LC-EQ-D-VR_VAE
model· 2.4k dl· ♡ 55
2.4k dl♡ 55

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Computer Graphics and Visualization Techniques · Face recognition and analysis

MethodsContrastive Language-Image Pre-training