UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

Jiehui Huang; Yuechen Zhang; Xu He; Yuan Gao; Zhi Cen; Bin Xia; Yan Zhou; Xin Tao; Pengfei Wan; Jiaya Jia

arXiv:2512.07831·cs.CV·December 9, 2025

UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

Jiehui Huang, Yuechen Zhang, Xu He, Yuan Gao, Zhi Cen, Bin Xia, Yan Zhou, Xin Tao, Pengfei Wan, Jiaya Jia

PDF

Open Access 1 Datasets

TL;DR

UnityVideo is a comprehensive multi-modal framework for world-aware video generation that integrates various data modalities and training paradigms to improve generalization, quality, and physical consistency in generated videos.

Contribution

It introduces a novel unified framework with dynamic noising and a modality switcher, along with a large-scale dataset, advancing multi-modal video generation capabilities.

Findings

01

Enhanced zero-shot generalization to unseen data

02

Improved video quality and consistency

03

Faster convergence through joint optimization

Abstract

Recent video generation models demonstrate impressive synthesis capabilities but remain limited by single-modality conditioning, constraining their holistic world understanding. This stems from insufficient cross-modal interaction and limited modal diversity for comprehensive world knowledge representation. To address these limitations, we introduce UnityVideo, a unified framework for world-aware video generation that jointly learns across multiple modalities (segmentation masks, human skeletons, DensePose, optical flow, and depth maps) and training paradigms. Our approach features two core components: (1) dynamic noising to unify heterogeneous training paradigms, and (2) a modality switcher with an in-context learner that enables unified processing via modular parameters and contextual learning. We contribute a large-scale unified dataset with 1.3M samples. Through joint optimization,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

JackAILab/OpenUni
dataset· 368 dl
368 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Human Pose and Action Recognition · Advanced Vision and Imaging