SeQuiFi: Mitigating Catastrophic Forgetting in Speech Emotion   Recognition with Sequential Class-Finetuning

Sarthak Jain; Orchid Chetia Phukan; Swarup Ranjan Behera; Arun Balaji; Buduru; Rajesh Sharma

arXiv:2410.12567·eess.AS·October 17, 2024

SeQuiFi: Mitigating Catastrophic Forgetting in Speech Emotion Recognition with Sequential Class-Finetuning

Sarthak Jain, Orchid Chetia Phukan, Swarup Ranjan Behera, Arun Balaji, Buduru, Rajesh Sharma

PDF

Open Access

TL;DR

SeQuiFi introduces a sequential class-finetuning method that effectively reduces catastrophic forgetting in speech emotion recognition, outperforming existing techniques across diverse multilingual datasets.

Contribution

The paper presents SeQuiFi, a novel sequential class-finetuning approach that improves continual learning in speech emotion recognition by mitigating catastrophic forgetting.

Findings

01

SeQuiFi outperforms vanilla fine-tuning and SOTA methods in accuracy and F1 scores.

02

Effective across multiple multilingual speech emotion datasets.

03

Significantly reduces catastrophic forgetting in SER tasks.

Abstract

In this work, we introduce SeQuiFi, a novel approach for mitigating catastrophic forgetting (CF) in speech emotion recognition (SER). SeQuiFi adopts a sequential class-finetuning strategy, where the model is fine-tuned incrementally on one emotion class at a time, preserving and enhancing retention for each class. While various state-of-the-art (SOTA) methods, such as regularization-based, memory-based, and weight-averaging techniques, have been proposed to address CF, it still remains a challenge, particularly with diverse and multilingual datasets. Through extensive experiments, we demonstrate that SeQuiFi significantly outperforms both vanilla fine-tuning and SOTA continual learning techniques in terms of accuracy and F1 scores on multiple benchmark SER datasets, including CREMA-D, RAVDESS, Emo-DB, MESD, and SHEMO, covering different languages.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech Recognition and Synthesis · Speech and Audio Processing · Music and Audio Processing