VERSA: A Versatile Evaluation Toolkit for Speech, Audio, and Music

Jiatong Shi; Hye-jin Shim; Jinchuan Tian; Siddhant Arora; Haibin Wu,; Darius Petermann; Jia Qi Yip; You Zhang; Yuxun Tang; Wangyou Zhang; Dareen; Safar Alharthi; Yichen Huang; Koichi Saito; Jionghao Han; Yiwen Zhao; Chris; Donahue; Shinji Watanabe

arXiv:2412.17667·cs.SD·March 28, 2025

VERSA: A Versatile Evaluation Toolkit for Speech, Audio, and Music

Jiatong Shi, Hye-jin Shim, Jinchuan Tian, Siddhant Arora, Haibin Wu,, Darius Petermann, Jia Qi Yip, You Zhang, Yuxun Tang, Wangyou Zhang, Dareen, Safar Alharthi, Yichen Huang, Koichi Saito, Jionghao Han, Yiwen Zhao, Chris, Donahue, Shinji Watanabe

PDF

Open Access 2 Repos 1 Video

TL;DR

VERSA is a comprehensive, user-friendly evaluation toolkit that provides 65 metrics for speech, audio, and music signals, supporting diverse applications like speech synthesis, enhancement, and music generation.

Contribution

Introduces VERSA, a versatile, standardized evaluation toolkit with extensive metrics and flexible configurations for speech, audio, and music signal assessment.

Findings

01

Supports 65 metrics with 729 variations

02

Enables evaluation across multiple downstream scenarios

03

Demonstrates effectiveness in diverse audio applications

Abstract

In this work, we introduce VERSA, a unified and standardized evaluation toolkit designed for various speech, audio, and music signals. The toolkit features a Pythonic interface with flexible configuration and dependency control, making it user-friendly and efficient. With full installation, VERSA offers 65 metrics with 729 metric variations based on different configurations. These metrics encompass evaluations utilizing diverse external resources, including matching and non-matching reference audio, text transcriptions, and text captions. As a lightweight yet comprehensive toolkit, VERSA is versatile to support the evaluation of a wide range of downstream scenarios. To demonstrate its capabilities, this work highlights example use cases for VERSA, including audio coding, speech synthesis, speech enhancement, singing synthesis, and music generation. The toolkit is available at…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Videos

VERSA: A Versatile Evaluation Toolkit for Speech, Audio, and Music· underline

Taxonomy

TopicsSpeech and Audio Processing · Speech Recognition and Synthesis · Music and Audio Processing