Step-Video-T2V Technical Report: The Practice, Challenges, and Future of   Video Foundation Model

Guoqing Ma; Haoyang Huang; Kun Yan; Liangyu Chen; Nan Duan; Shengming; Yin; Changyi Wan; Ranchen Ming; Xiaoniu Song; Xing Chen; Yu Zhou; Deshan Sun,; Deyu Zhou; Jian Zhou; Kaijun Tan; Kang An; Mei Chen; Wei Ji; Qiling Wu; Wen; Sun; Xin Han; Yanan Wei; Zheng Ge; Aojie Li; Bin Wang; Bizhu Huang; Bo Wang,; Brian Li; Changxing Miao; Chen Xu; Chenfei Wu; Chenguang Yu; Dapeng Shi,; Dingyuan Hu; Enle Liu; Gang Yu; Ge Yang; Guanzhe Huang; Gulin Yan; Haiyang; Feng; Hao Nie; Haonan Jia; Hanpeng Hu; Hanqi Chen; Haolong Yan; Heng Wang,; Hongcheng Guo; Huilin Xiong; Huixin Xiong; Jiahao Gong; Jianchang Wu; Jiaoren; Wu; Jie Wu; Jie Yang; Jiashuai Liu; Jiashuo Li; Jingyang Zhang; Junjing Guo,; Junzhe Lin; Kaixiang Li; Lei Liu; Lei Xia; Liang Zhao; Liguo Tan; Liwen; Huang; Liying Shi; Ming Li; Mingliang Li; Muhua Cheng; Na Wang; Qiaohui Chen,; Qinglin He; Qiuyan Liang; Quan Sun; Ran Sun; Rui Wang; Shaoliang Pang,; Shiliang Yang; Sitong Liu; Siqi Liu; Shuli Gao; Tiancheng Cao; Tianyu Wang,; Weipeng Ming; Wenqing He; Xu Zhao; Xuelin Zhang; Xianfang Zeng; Xiaojia Liu,; Xuan Yang; Yaqi Dai; Yanbo Yu; Yang Li; Yineng Deng; Yingming Wang; Yilei; Wang; Yuanwei Lu; Yu Chen; Yu Luo; Yuchu Luo; Yuhe Yin; Yuheng Feng; Yuxiang; Yang; Zecheng Tang; Zekai Zhang; Zidong Yang; Binxing Jiao; Jiansheng Chen,; Jing Li; Shuchang Zhou; Xiangyu Zhang; Xinhao Zhang; Yibo Zhu; Heung-Yeung; Shum; Daxin Jiang

arXiv:2502.10248·cs.CV·February 25, 2025

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Guoqing Ma, Haoyang Huang, Kun Yan, Liangyu Chen, Nan Duan, Shengming, Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun,, Deyu Zhou, Jian Zhou, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen, Sun, Xin Han, Yanan Wei, Zheng Ge, Aojie Li

PDF

Open Access 3 Repos 3 Models 1 Datasets

TL;DR

This paper introduces Step-Video-T2V, a large-scale text-to-video model with advanced compression, bilingual encoding, and denoising techniques, achieving state-of-the-art quality on a new benchmark and discussing future challenges in video foundation modeling.

Contribution

The paper presents a novel 30B parameter text-to-video model with integrated compression, bilingual encoding, and a new evaluation benchmark, advancing the state-of-the-art in video generation.

Findings

01

Achieves state-of-the-art text-to-video quality on Step-Video-T2V-Eval benchmark.

02

Demonstrates effective video compression and high-quality reconstruction.

03

Identifies limitations and future directions for diffusion-based video models.

Abstract

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Models

Datasets

stepfun-ai/Step-Video-T2V-Eval
dataset· 414 dl
414 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsVideo Coding and Compression Technologies

MethodsSoftmax · Attention Is All You Need · Direct Preference Optimization