Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer

Hyo-Jeong Jang

arXiv:2511.15741·cs.AI·November 21, 2025

Uncertainty-Resilient Multimodal Learning via Consistency-Guided Cross-Modal Transfer

Hyo-Jeong Jang

PDF

Open Access

TL;DR

This paper introduces a framework for uncertainty-resilient multimodal learning that leverages consistency-guided cross-modal transfer to improve robustness and stability in noisy, heterogeneous data environments.

Contribution

It proposes a novel approach using semantic consistency in a shared latent space to enhance robustness and data efficiency in multimodal learning systems.

Findings

01

Significantly improves model stability and robustness to noise.

02

Enhances semantic robustness and data efficiency.

03

Captures reliable cross-modal structures under challenging conditions.

Abstract

Multimodal learning systems often face substantial uncertainty due to noisy data, low-quality labels, and heterogeneous modality characteristics. These issues become especially critical in human-computer interaction settings, where data quality, semantic reliability, and annotation consistency vary across users and recording conditions. This thesis tackles these challenges by exploring uncertainty-resilient multimodal learning through consistency-guided cross-modal transfer. The central idea is to use cross-modal semantic consistency as a basis for robust representation learning. By projecting heterogeneous modalities into a shared latent space, the proposed framework mitigates modality gaps and uncovers structural relations that support uncertainty estimation and stable feature learning. Building on this foundation, the thesis investigates strategies to enhance semantic robustness,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsEmotion and Mood Recognition · Multimodal Machine Learning Applications · Domain Adaptation and Few-Shot Learning