Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and   Neural Architecture Search

Zihan Wang; Qi Meng; HaiFeng Lan; XinRui Zhang; KeHao Guo; Akshat; Gupta

arXiv:2211.08237·cs.SD·November 17, 2022

Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search

Zihan Wang, Qi Meng, HaiFeng Lan, XinRui Zhang, KeHao Guo, Akshat, Gupta

PDF

Open Access

TL;DR

This paper introduces a multilingual speech emotion recognition model that leverages multi-gating and neural architecture search to improve accuracy across languages, especially low-resource ones.

Contribution

It proposes a novel multi-domain, language-specific SER model with multi-gating and neural architecture search, enhancing performance on low-resource languages.

Findings

01

Achieved 3% accuracy improvement for German

02

Achieved 14.3% accuracy improvement for French

03

Introduced contrastive auxiliary loss for better feature separation

Abstract

Speech emotion recognition (SER) classifies audio into emotion categories such as Happy, Angry, Fear, Disgust and Neutral. While Speech Emotion Recognition (SER) is a common application for popular languages, it continues to be a problem for low-resourced languages, i.e., languages with no pretrained speech-to-text recognition models. This paper firstly proposes a language-specific model that extract emotional information from multiple pre-trained speech models, and then designs a multi-domain model that simultaneously performs SER for various languages. Our multidomain model employs a multi-gating mechanism to generate unique weighted feature combination for each language, and also searches for specific neural network structure for each language through a neural architecture search module. In addition, we introduce a contrastive auxiliary loss to build more separable representations…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech and Audio Processing · Speech Recognition and Synthesis · Emotion and Mood Recognition