Step-Audio: Unified Understanding and Generation in Intelligent Speech   Interaction

Ailin Huang; Boyong Wu; Bruce Wang; Chao Yan; Chen Hu; Chengli Feng,; Fei Tian; Feiyu Shen; Jingbei Li; Mingrui Chen; Peng Liu; Ruihang Miao; Wang; You; Xi Chen; Xuerui Yang; Yechang Huang; Yuxiang Zhang; Zheng Gong; Zixin; Zhang; Hongyu Zhou; Jianjian Sun; Brian Li; Chengting Feng; Changyi Wan,; Hanpeng Hu; Jianchang Wu; Jiangjie Zhen; Ranchen Ming; Song Yuan; Xuelin; Zhang; Yu Zhou; Bingxin Li; Buyun Ma; Hongyuan Wang; Kang An; Wei Ji; Wen Li,; Xuan Wen; Xiangwen Kong; Yuankai Ma; Yuanwei Liang; Yun Mou; Bahtiyar Ahmidi,; Bin Wang; Bo Li; Changxin Miao; Chen Xu; Chenrun Wang; Dapeng Shi; Deshan; Sun; Dingyuan Hu; Dula Sai; Enle Liu; Guanzhe Huang; Gulin Yan; Heng Wang,; Haonan Jia; Haoyang Zhang; Jiahao Gong; Junjing Guo; Jiashuai Liu; Jiahong; Liu; Jie Feng; Jie Wu; Jiaoren Wu; Jie Yang; Jinguo Wang; Jingyang Zhang,; Junzhe Lin; Kaixiang Li; Lei Xia; Li Zhou; Liang Zhao; Longlong Gu; Mei Chen,; Menglin Wu; Ming Li; Mingxiao Li; Mingliang Li; Mingyao Liang; Na Wang; Nie; Hao; Qiling Wu; Qinyuan Tan; Ran Sun; Shuai Shuai; Shaoliang Pang; Shiliang; Yang; Shuli Gao; Shanshan Yuan; Siqi Liu; Shihong Deng; Shilei Jiang; Sitong; Liu; Tiancheng Cao; Tianyu Wang; Wenjin Deng; Wuxun Xie; Weipeng Ming,; Wenqing He; Wen Sun; Xin Han; Xin Huang; Xiaomin Deng; Xiaojia Liu; Xin Wu,; Xu Zhao; Yanan Wei; Yanbo Yu; Yang Cao; Yangguang Li; Yangzhen Ma; Yanming; Xu; Yaoyu Wang; Yaqiang Shi; Yilei Wang; Yizhuang Zhou; Yinmin Zhong; Yang; Zhang; Yaoben Wei; Yu Luo; Yuanwei Lu; Yuhe Yin; Yuchu Luo; Yuanhao Ding,; Yuting Yan; Yaqi Dai; Yuxiang Yang; Zhe Xie; Zheng Ge; Zheng Sun; Zhewei; Huang; Zhichao Chang; Zhisheng Guan; Zidong Yang; Zili Zhang; Binxing Jiao,; Daxin Jiang; Heung-Yeung Shum; Jiansheng Chen; Jing Li; Shuchang Zhou,; Xiangyu Zhang; Xinhao Zhang; Yibo Zhu

arXiv:2502.11946·cs.CL·February 19, 2025

Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

Ailin Huang, Boyong Wu, Bruce Wang, Chao Yan, Chen Hu, Chengli Feng,, Fei Tian, Feiyu Shen, Jingbei Li, Mingrui Chen, Peng Liu, Ruihang Miao, Wang, You, Xi Chen, Xuerui Yang, Yechang Huang, Yuxiang Zhang, Zheng Gong, Zixin, Zhang, Hongyu Zhou, Jianjian Sun, Brian Li

PDF

Open Access 1 Repo 1 Datasets

TL;DR

Step-Audio introduces a comprehensive open-source speech understanding and generation model with advanced control, voice cloning, and task management capabilities, setting new benchmarks in open-source speech AI.

Contribution

It presents the first production-ready open-source unified speech-text model, a generative speech data engine, and an instruction-driven control system, advancing open-source multimodal speech AI.

Findings

01

Achieves state-of-the-art performance on human evaluations.

02

Improves open-source benchmark scores by 9.3%.

03

Demonstrates effective dynamic control and complex task management.

Abstract

Real-time speech interaction, serving as a fundamental interface for human-machine collaboration, holds immense potential. However, current open-source models face limitations such as high costs in voice data collection, weakness in dynamic control, and limited intelligence. To address these challenges, this paper introduces Step-Audio, the first production-ready open-source solution. Key contributions include: 1) a 130B-parameter unified speech-text multi-modal model that achieves unified understanding and generation, with the Step-Audio-Chat version open-sourced; 2) a generative speech data engine that establishes an affordable voice cloning framework and produces the open-sourced lightweight Step-Audio-TTS-3B model through distillation; 3) an instruction-driven fine control system enabling dynamic adjustments across dialects, emotions, singing, and RAP; 4) an enhanced cognitive…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

stepfun-ai/step-audio
pytorchOfficial

Datasets

stepfun-ai/StepEval-Audio-360
dataset· 50 dl
50 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech and dialogue systems

MethodsLLaMA