OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving

Tao Tang; Enhui Ma; xia zhou; Letian Wang; Tianyi Yan; Xueyang Zhang; Kun Zhan; Peng Jia; XianPeng Lang; Jia-Wang Bian; Kaicheng Yu; Xiaodan Liang

arXiv:2512.14225·cs.CV·December 17, 2025

OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving

Tao Tang, Enhui Ma, xia zhou, Letian Wang, Tianyi Yan, Xueyang Zhang, Kun Zhan, Peng Jia, XianPeng Lang, Jia-Wang Bian, Kaicheng Yu, Xiaodan Liang

PDF

Open Access

TL;DR

OmniGen introduces a unified framework for generating aligned multimodal sensor data in autonomous driving, improving efficiency and consistency across LiDAR and camera modalities using a shared BEV space and advanced reconstruction techniques.

Contribution

The paper presents OmniGen, a novel multimodal sensor generation model that unifies LiDAR and camera data in a shared BEV space with a new reconstruction method and controllable generation capabilities.

Findings

01

Achieves high-quality aligned multimodal sensor data synthesis.

02

Demonstrates improved multimodal consistency and flexibility.

03

Outperforms existing single-modality generative approaches.

Abstract

Autonomous driving has seen remarkable advancements, largely driven by extensive real-world data collection. However, acquiring diverse and corner-case data remains costly and inefficient. Generative models have emerged as a promising solution by synthesizing realistic sensor data. However, existing approaches primarily focus on single-modality generation, leading to inefficiencies and misalignment in multimodal sensor data. To address these challenges, we propose OminiGen, which generates aligned multimodal sensor data in a unified framework. Our approach leverages a shared Bird\u2019s Eye View (BEV) space to unify multimodal features and designs a novel generalizable multimodal reconstruction method, UAE, to jointly decode LiDAR and multi-view camera data. UAE achieves multimodal sensor decoding through volume rendering, enabling accurate and flexible reconstruction. Furthermore, we…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdvanced Vision and Imaging · Multimodal Machine Learning Applications · Advanced Neural Network Applications