Kling-Omni Technical Report

Kling Team: Jialu Chen; Yuanzheng Ci; Xiangyu Du; Zipeng Feng; Kun Gai; Sainan Guo; Feng Han; Jingbin He; Kang He; Xiao Hu; Xiaohua Hu; Boyuan Jiang; Fangyuan Kong; Hang Li; Jie Li; Qingyu Li; Shen Li; Xiaohan Li; Yan Li; Jiajun Liang; Borui Liao; Yiqiao Liao; Weihong Lin; Quande Liu; Xiaokun Liu; Yilun Liu; Yuliang Liu; Shun Lu; Hangyu Mao; Yunyao Mao; Haodong Ouyang; Wenyu Qin; Wanqi Shi; Xiaoyu Shi; Lianghao Su; Haozhi Sun; Peiqin Sun; Pengfei Wan; Chao Wang; Chenyu Wang; Meng Wang; Qiulin Wang; Runqi Wang; Xintao Wang; Xuebo Wang; Zekun Wang; Min Wei; Tiancheng Wen; Guohao Wu; Xiaoshi Wu; Zhenhua Wu; Da Xie; Yingtong Xiong; Yulong Xu; Sile Yang; Zikang Yang; Weicai Ye; Ziyang Yuan; Shenglong Zhang; Shuaiyu Zhang; Yuanxing Zhang; Yufan Zhang; Wenzheng Zhao; Ruiliang Zhou; Yan Zhou; Guosheng Zhu; Yongjie Zhu

arXiv:2512.16776·cs.CV·December 19, 2025

Kling-Omni Technical Report

Kling Team: Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin

PDF

Open Access

TL;DR

Kling-Omni is a versatile multimodal generative framework that synthesizes high-quality videos from diverse visual language inputs, integrating generation, editing, and reasoning in a unified system.

Contribution

It introduces a holistic end-to-end system for multimodal video creation, combining diverse inputs and tasks into a single framework with comprehensive data and optimized training strategies.

Findings

01

Demonstrates exceptional in-context video generation capabilities

02

Enables reasoning-based video editing and instruction following

03

Supports cinematic-quality, highly intelligent video synthesis

Abstract

We present Kling-Omni, a generalist generative framework designed to synthesize high-fidelity videos directly from multimodal visual language inputs. Adopting an end-to-end perspective, Kling-Omni bridges the functional separation among diverse video generation, editing, and intelligent reasoning tasks, integrating them into a holistic system. Unlike disjointed pipeline approaches, Kling-Omni supports a diverse range of user inputs, including text instructions, reference images, and video contexts, processing them into a unified multimodal representation to deliver cinematic-quality and highly-intelligent video content creation. To support these capabilities, we constructed a comprehensive data system that serves as the foundation for multimodal video creation. The framework is further empowered by efficient large-scale pre-training strategies and infrastructure optimizations for…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Generative Adversarial Networks and Image Synthesis · Human Motion and Animation