DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment

Ke-Han Lu; Zhehuai Chen; Szu-Wei Fu; Chao-Han Huck Yang; Sung-Feng Huang; Chih-Kai Yang; Chee-En Yu; Chun-Wei Chen; Wei-Chih Chen; Chien-yu Huang; Yi-Cheng Lin; Yu-Xiang Lin; Chi-An Fu; Chun-Yi Kuan; Wenze Ren; Xuanjun Chen; Wei-Ping Huang; En-Pei Hu; Tzu-Quan Lin; Yuan-Kuei Wu; Kuan-Po Huang; Hsiao-Ying Huang; Huang-Cheng Chou; Kai-Wei Chang; Cheng-Han Chiang; Boris Ginsburg; Yu-Chiang Frank Wang; Hung-yi Lee

arXiv:2507.02768·eess.AS·March 20, 2026

DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment

Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Sung-Feng Huang, Chih-Kai Yang, Chee-En Yu, Chun-Wei Chen, Wei-Chih Chen, Chien-yu Huang, Yi-Cheng Lin, Yu-Xiang Lin, Chi-An Fu, Chun-Yi Kuan, Wenze Ren, Xuanjun Chen, Wei-Ping Huang, En-Pei Hu, Tzu-Quan Lin, Yuan-Kuei Wu

PDF

2 Repos 1 Models 1 Datasets

TL;DR

DeSTA2.5-Audio introduces a novel self-generated cross-modal alignment method for large audio language models, enabling robust, general-purpose auditory perception while preserving language abilities, demonstrated on diverse benchmarks.

Contribution

We propose a self-generated training strategy that balances knowledge retention and audio perception in large audio language models, using a large-scale, diverse dataset.

Findings

01

Achieved state-of-the-art performance on multiple audio-language benchmarks.

02

Demonstrated effective preservation of language abilities during audio training.

03

Outperformed existing strategies in comprehensive comparative studies.

Abstract

We introduce DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM) designed for robust auditory perception and instruction-following. Recent LALMs augment Large Language Models (LLMs) with auditory capabilities by training on large-scale audio-instruction datasets. However, existing LALMs have often suffered from the catastrophic forgetting of the LLM's original abilities. Therefore, balancing knowledge retention and audio perception has become a critical challenge. To address this, we revisit the data construction pipeline and propose a self-generated cross-modal alignment strategy in which the backbone LLM generates its own training targets, named DeSTA. This approach aims at preserving the LLM's native language proficiency thereby enabling zero-shot generalization without task-specific tuning. We construct DeSTA-AQA5M, a large-scale, task-agnostic dataset containing 5…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Models

🤗
DeSTA-ntu/DeSTA2.5-Audio-Llama-3.1-8B
model· 567 dl· ♡ 6
567 dl♡ 6

Datasets

DeSTA-ntu/DeSTA-AQA5M-FROM-Llama3.1-8B-Instruct
dataset· 206 dl
206 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.