MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Ziyang Ma; Yinghao Ma; Yanqiao Zhu; Chen Yang; Yi-Wen Chao; Ruiyang Xu; Wenxi Chen; Yuanzhe Chen; Zhuo Chen; Jian Cong; Kai Li; Keliang Li; Siyou Li; Xinfeng Li; Xiquan Li; Zheng Lian; Yuzhe Liang; Minghao Liu; Zhikang Niu; Tianrui Wang; Yuping Wang; Yuxuan Wang; Yihao Wu; Guanrou Yang; Jianwei Yu; Ruibin Yuan; Zhisheng Zheng; Ziya Zhou; Haina Zhu; Wei Xue; Emmanouil Benetos; Kai Yu; Eng-Siong Chng; Xie Chen

arXiv:2505.13032·cs.SD·May 20, 2025

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Ziyang Ma, Yinghao Ma, Yanqiao Zhu, Chen Yang, Yi-Wen Chao, Ruiyang Xu, Wenxi Chen, Yuanzhe Chen, Zhuo Chen, Jian Cong, Kai Li, Keliang Li, Siyou Li, Xinfeng Li, Xiquan Li, Zheng Lian, Yuzhe Liang, Minghao Liu, Zhikang Niu, Tianrui Wang, Yuping Wang, Yuxuan Wang, Yihao Wu

PDF

Open Access 1 Repo 8 Models 1 Datasets

TL;DR

MMAR is a comprehensive benchmark designed to evaluate deep reasoning in audio-language models across diverse real-world audio tasks, emphasizing multi-step reasoning and domain-specific knowledge.

Contribution

This paper introduces MMAR, a large, multi-disciplinary audio reasoning benchmark with hierarchical questions and Chain-of-Thought annotations, expanding evaluation beyond existing domain-specific datasets.

Findings

01

Current models struggle with MMAR's complex reasoning tasks.

02

MMAR reveals significant limitations in existing audio reasoning capabilities.

03

Benchmark encourages development of more advanced, multi-step reasoning models.

Abstract

We introduce MMAR, a new benchmark designed to evaluate the deep reasoning capabilities of Audio-Language Models (ALMs) across massive multi-disciplinary tasks. MMAR comprises 1,000 meticulously curated audio-question-answer triplets, collected from real-world internet videos and refined through iterative error corrections and quality checks to ensure high quality. Unlike existing benchmarks that are limited to specific domains of sound, music, or speech, MMAR extends them to a broad spectrum of real-world audio scenarios, including mixed-modality combinations of sound, music, and speech. Each question in MMAR is hierarchically categorized across four reasoning layers: Signal, Perception, Semantic, and Cultural, with additional sub-categories within each layer to reflect task diversity and complexity. To further foster research in this area, we annotate every question with a…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

ddlbojack/mmar
noneOfficial

Models

Datasets

BoJack/MMAR
dataset· 837 dl
837 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMusic and Audio Processing · Multimodal Machine Learning Applications · Speech Recognition and Synthesis

MethodsSparse Evolutionary Training