Marco-ASR: A Principled and Metric-Driven Framework for Fine-Tuning Large-Scale ASR Models for Domain Adaptation

Xuanfan Ni; Fei Yang; Fengping Tian; Qingjuan Li; Chenyang Lyu; Yichao Du; Longyue Wang; Weihua Luo; Kaifu Zhang

arXiv:2512.22165·cs.SD·December 30, 2025

Marco-ASR: A Principled and Metric-Driven Framework for Fine-Tuning Large-Scale ASR Models for Domain Adaptation

Xuanfan Ni, Fei Yang, Fengping Tian, Qingjuan Li, Chenyang Lyu, Yichao Du, Longyue Wang, Weihua Luo, Kaifu Zhang

PDF

Open Access

TL;DR

This paper introduces a metric-driven fine-tuning framework for large-scale ASR models, enhancing domain adaptation by optimizing learning rates and data strategies, validated across multiple models and datasets.

Contribution

It presents a novel, principled approach to fine-tuning large ASR models using performance metrics, addressing domain mismatch and overfitting issues.

Findings

01

Improved domain-specific ASR accuracy across multiple models.

02

Effective learning rate optimization enhances fine-tuning.

03

Framework prevents overfitting in diverse datasets.

Abstract

Automatic Speech Recognition (ASR) models have achieved remarkable accuracy in general settings, yet their performance often degrades in domain-specific applications due to data mismatch and linguistic variability. This challenge is amplified for modern Large Language Model (LLM)-based ASR systems, whose massive scale and complex training dynamics make effective fine-tuning non-trivial. To address this gap, this paper proposes a principled and metric-driven fine-tuning framework for adapting both traditional and LLM-based ASR models to specialized domains. The framework emphasizes learning rate optimization based on performance metrics, combined with domain-specific data transformation and augmentation. We empirically evaluate our framework on state-of-the-art models, including Whisper, Whisper-Turbo, and Qwen2-Audio, across multi-domain, multilingual, and multi-length datasets. Our…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech Recognition and Synthesis · Voice and Speech Disorders · Speech and Audio Processing