MiMo-Audio: Audio Language Models are Few-Shot Learners

Xiaomi LLM-Core Team: Dong Zhang; Gang Wang; Jinlong Xue; Kai Fang; Liang Zhao; Rui Ma; Shuhuai Ren; Shuo Liu; Tao Guo; Weiji Zhuang; Xin Zhang; Xingchen Song; Yihan Yan; Yongzhe He; Cici; Bowen Shen; Chengxuan Zhu; Chong Ma; Chun Chen; Heyu Chen; Jiawei Li; Lei Li; Menghang Zhu; Peidian Li; Qiying Wang; Sirui Deng; Weimin Xiong; Wenshan Huang; Wenyu Yang; Yilin Jiang; Yixin Yang; Yuanyuan Tian; Yue Ma; Yue Yu; Zihan Zhang; Zihao Yue; Bangjun Xiao; Bingquan Xia; Bofei Gao; Bowen Ye; Can Cai; Chang Liu; Chenhong He; Chunan Li; Dawei Zhu; Duo Zhang; Fengyuan Shi; Guoan Wang; Hailin Zhang; Hanglong Lv; Hanyu Li; Hao Tian; Heng Qu; Hongshen Xu; Houbin Zhang; Huaqiu Liu; Jiangshan Duo; Jianguang Zuo; Jianyu Wei; Jiebao Xiao; Jinhao Dong; Jun Shi; Junhao Hu; Kainan Bao; Kang Zhou; Linghao Zhang; Meng Chen; Nuo Chen; Peng Zhang; Qianli Chen; Qiantong Wang; Rang Li; Shaohui Liu; Shengfan Wang; Shicheng Li; Shihua Yu; Shijie Cao; Shimao Chen; Shuhao Gu; Weikun Wang; Wenhan Ma; Xiangwei Deng; Xing Yong; Xing Zhang; Xu Wang; Yifan Song; Yihao Zhao; Yingbo Zhao; Yizhao Gao; Yu Cheng; Yu Tu; Yudong Wang; Zhaojun Huang; Zhengju Tang; Zhenru Lin; Zhichao Song; Zhipeng Xu; Zhixian Zheng; Zihan Jiang

arXiv:2512.23808·cs.CL·January 1, 2026

MiMo-Audio: Audio Language Models are Few-Shot Learners

Xiaomi LLM-Core Team: Dong Zhang, Gang Wang, Jinlong Xue, Kai Fang, Liang Zhao, Rui Ma, Shuhuai Ren, Shuo Liu, Tao Guo, Weiji Zhuang, Xin Zhang, Xingchen Song, Yihan Yan, Yongzhe He, Cici, Bowen Shen, Chengxuan Zhu, Chong Ma, Chun Chen, Heyu Chen, Jiawei Li, Lei Li, Menghang Zhu

PDF

Open Access

TL;DR

MiMo-Audio demonstrates that scaling large audio models enables few-shot learning and generalization across diverse audio tasks, achieving state-of-the-art results in open-source benchmarks.

Contribution

This work introduces MiMo-Audio, a large-scale audio language model that exhibits few-shot learning and generalization capabilities, surpassing prior models in multiple audio understanding and generation tasks.

Findings

01

Achieves SOTA on speech and audio benchmarks

02

Generalizes to unseen tasks like voice conversion and style transfer

03

Demonstrates realistic speech generation capabilities

Abstract

Existing audio language models typically rely on task-specific fine-tuning to accomplish particular audio tasks. In contrast, humans are able to generalize to new audio tasks with only a few examples or simple instructions. GPT-3 has shown that scaling next-token prediction pretraining enables strong generalization capabilities in text, and we believe this paradigm is equally applicable to the audio domain. By scaling MiMo-Audio's pretraining data to over one hundred million of hours, we observe the emergence of few-shot learning capabilities across a diverse set of audio tasks. We develop a systematic evaluation of these capabilities and find that MiMo-Audio-7B-Base achieves SOTA performance on both speech intelligence and audio understanding benchmarks among open-source models. Beyond standard metrics, MiMo-Audio-7B-Base generalizes to tasks absent from its training data, such as…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech Recognition and Synthesis · Music and Audio Processing · Emotion and Mood Recognition