BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Taesoo Park; Mungwi Jeong; Mingyu Park; Narae Kim; Junyoung Kim; Mujung Kim; Jisang Yoo; Hoyun Lee; Sanghoon Kim; Soonchul Kwon

arXiv:2506.09487·cs.SD·March 10, 2026

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon

PDF

Open Access 1 Repo

TL;DR

BemaGANv2 introduces innovative discriminator combination strategies and architectural enhancements to improve long-term audio generation quality in GAN-based vocoders, evaluated through comprehensive objective and subjective metrics.

Contribution

It proposes a new discriminator architecture (MED) and evaluates various configurations, advancing the state-of-the-art in long-term audio synthesis with detailed reproducibility.

Findings

01

Enhanced long-range dependency modeling in audio

02

Superior performance on objective metrics like FAD and MCD

03

Improved subjective audio quality in evaluations

Abstract

This paper presents BemaGANv2, an advanced GAN-based vocoder designed for high-fidelity and long-term audio generation, with a focus on systematic evaluation of discriminator combination strategies. Long-term audio generation is critical for applications in Text-to-Music (TTM) and Text-to-Audio (TTA) systems, where maintaining temporal co- herence, prosodic consistency, and harmonic structure over extended durations remains a significant challenge. Built upon the original BemaGAN architecture, BemaGANv2 incorporates major architectural innovations by replacing traditional ResBlocks in the generator with the Anti-aliased Multi-Periodicity composition (AMP) module, which internally applies the Snake activation function to better model periodic structures. In the discriminator framework, we integrate the Multi-Envelope Discriminator (MED), a novel architecture we proposed, to extract rich…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

dinhoitt/bemaganv2
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMusic and Audio Processing · Speech Recognition and Synthesis · Music Technology and Sound Studies