Improving Audio-Visual Speech Recognition by Lip-Subword Correlation   Based Visual Pre-training and Cross-Modal Fusion Encoder

Yusheng Dai; Hang Chen; Jun Du; Xiaofei Ding; Ning Ding; Feijun Jiang,; Chin-Hui Lee

arXiv:2308.08488·cs.CL·March 12, 2024·2 cites

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder

Yusheng Dai, Hang Chen, Jun Du, Xiaofei Ding, Ning Ding, Feijun Jiang,, Chin-Hui Lee

PDF

Open Access 1 Repo

TL;DR

This paper introduces novel lip-visual correlation techniques and an audio-guided fusion encoder to enhance audio-visual speech recognition, achieving superior results with less training data compared to existing methods.

Contribution

The paper proposes a novel lip-syllable correlation method for better alignment and an audio-guided fusion encoder to improve AVSR performance in a pre-training framework.

Findings

01

Improved AVSR accuracy on MISP2021-AVSR dataset

02

Effective alignment of lip shapes with syllable boundaries

03

Superior performance with less training data

Abstract

In recent research, slight performance improvement is observed from automatic speech recognition systems to audio-visual speech recognition systems in the end-to-end framework with low-quality videos. Unmatching convergence rates and specialized input representations between audio and visual modalities are considered to cause the problem. In this paper, we propose two novel techniques to improve audio-visual speech recognition (AVSR) under a pre-training and fine-tuning training framework. First, we explore the correlation between lip shapes and syllable-level subword units in Mandarin to establish good frame-level syllable boundaries from lip shapes. This enables accurate alignment of video and audio streams during visual model pre-training and cross-modal fusion. Next, we propose an audio-guided cross-modal fusion encoder (CMFE) neural network to utilize main training parameters for…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

mispchallenge/misp-icme-avsr
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech and Audio Processing · Advanced Adaptive Filtering Techniques · Face recognition and analysis