Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study

Guanyu Hou; Jiaming He; Yinhang Zhou; Ji Guo; Yitong Qiao; Rui Zhang; Wenbo Jiang

arXiv:2505.19598·cs.CL·July 11, 2025

Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study

Guanyu Hou, Jiaming He, Yinhang Zhou, Ji Guo, Yitong Qiao, Rui Zhang, Wenbo Jiang

PDF

Open Access 1 Video

TL;DR

This paper systematically evaluates the robustness of large audio-language models against various malicious audio injection attacks, revealing vulnerabilities and the influence of attack positioning and model characteristics on resilience.

Contribution

It introduces a benchmark framework for assessing robustness of LALMs and provides insights into factors affecting their vulnerability to audio injection attacks.

Findings

01

Models show significant performance disparities under attack.

02

Attack effectiveness depends on malicious content placement.

03

Safety-aligned models are more resistant to instruction-following attacks.

Abstract

Large Audio-Language Models (LALMs) are increasingly deployed in real-world applications, yet their robustness against malicious audio injection attacks remains underexplored. This study systematically evaluates five leading LALMs across four attack scenarios: Audio Interference Attack, Instruction Following Attack, Context Injection Attack, and Judgment Hijacking Attack. Using metrics like Defense Success Rate, Context Robustness Score, and Judgment Robustness Index, their vulnerabilities and resilience were quantitatively assessed. Experimental results reveal significant performance disparities among models; no single model consistently outperforms others across all attack types. The position of malicious content critically influences attack effectiveness, particularly when placed at the beginning of sequences. A negative correlation between instruction-following capability and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study· underline

Taxonomy

TopicsMusic and Audio Processing · Speech Recognition and Synthesis · Speech and Audio Processing