Cross-Modality and Within-Modality Regularization for Audio-Visual   DeepFake Detection

Heqing Zou; Meng Shen; Yuchen Hu; Chen Chen; Eng Siong Chng; Deepu; Rajan

arXiv:2401.05746·cs.MM·January 12, 2024·1 cites

Cross-Modality and Within-Modality Regularization for Audio-Visual DeepFake Detection

Heqing Zou, Meng Shen, Yuchen Hu, Chen Chen, Eng Siong Chng, Deepu, Rajan

PDF

Open Access 1 Repo

TL;DR

This paper introduces a novel regularization framework for audio-visual DeepFake detection that maintains modality distinctions and improves the alignment of multimodal representations, leading to better detection accuracy.

Contribution

It proposes cross-modality and within-modality regularization techniques combined with an audio-visual transformer to enhance DeepFake detection by preserving modality-specific information.

Findings

01

Effective in maintaining modality distinctions during learning

02

Improves detection accuracy on FakeAVCeleb dataset

03

Outperforms existing methods in robustness and precision

Abstract

Audio-visual deepfake detection scrutinizes manipulations in public video using complementary multimodal cues. Current methods, which train on fused multimodal data for multimodal targets face challenges due to uncertainties and inconsistencies in learned representations caused by independent modality manipulations in deepfake videos. To address this, we propose cross-modality and within-modality regularization to preserve modality distinctions during multimodal representation learning. Our approach includes an audio-visual transformer module for modality correspondence and a cross-modality regularization module to align paired audio-visual signals, preserving modality distinctions. Simultaneously, a within-modality regularization module refines unimodal representations with modality-specific targets to retain modal-specific details. Experimental results on the public audio-visual…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

vincent-zhq/mrdf
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsDigital Media Forensic Detection · Speech and Audio Processing · Music and Audio Processing