AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

Junxiao Xue; Xiaozhen Liu; Xuecheng Wu; Xinyi Yin; Danlei Huang; Fei Yu

arXiv:2508.07608·cs.MM·August 12, 2025

AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition

Junxiao Xue, Xiaozhen Liu, Xuecheng Wu, Xinyi Yin, Danlei Huang, Fei Yu

PDF

Open Access

TL;DR

This paper introduces AD-AVSR, a novel asymmetric dual-stream framework for audio-visual speech recognition that enhances cross-modal interactions and robustness in noisy environments, outperforming existing methods.

Contribution

The paper proposes a bidirectional modality enhancement framework with asymmetric audio encoding and collaborative modules for improved AVSR performance.

Findings

01

Outperforms state-of-the-art methods on LRS2 and LRS3 datasets.

02

Demonstrates increased robustness in noisy conditions.

03

Effective cross-modal noise suppression and visual refinement.

Abstract

Audio-visual speech recognition (AVSR) combines audio-visual modalities to improve speech recognition, especially in noisy environments. However, most existing methods deploy the unidirectional enhancement or symmetric fusion manner, which limits their capability to capture heterogeneous and complementary correlations of audio-visual data-especially under asymmetric information conditions. To tackle these gaps, we introduce a new AVSR framework termed AD-AVSR based on bidirectional modality enhancement. Specifically, we first introduce the audio dual-stream encoding strategy to enrich audio representations from multiple perspectives and intentionally establish asymmetry to support subsequent cross-modal interactions. The enhancement process involves two key components, Audio-aware Visual Refinement Module for enhanced visual representations under audio guidance, and Cross-modal Noise…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech and Audio Processing · Hearing Loss and Rehabilitation · Music and Audio Processing