DeepSeek-V3 Technical Report

DeepSeek-AI; Aixin Liu; Bei Feng; Bing Xue; Bingxuan Wang; Bochao Wu,; Chengda Lu; Chenggang Zhao; Chengqi Deng; Chenyu Zhang; Chong Ruan; Damai; Dai; Daya Guo; Dejian Yang; Deli Chen; Dongjie Ji; Erhang Li; Fangyun Lin,; Fucong Dai; Fuli Luo; Guangbo Hao; Guanting Chen; Guowei Li; H. Zhang; Han; Bao; Hanwei Xu; Haocheng Wang; Haowei Zhang; Honghui Ding; Huajian Xin,; Huazuo Gao; Hui Li; Hui Qu; J.L. Cai; Jian Liang; Jianzhong Guo; Jiaqi Ni,; Jiashi Li; Jiawei Wang; Jin Chen; Jingchang Chen; Jingyang Yuan; Junjie Qiu,; Junlong Li; Junxiao Song; Kai Dong; Kai Hu; Kaige Gao; Kang Guan; Kexin; Huang; Kuai Yu; Lean Wang; Lecong Zhang; Lei Xu; Leyi Xia; Liang Zhao; Litong; Wang; Liyue Zhang; Meng Li; Miaojun Wang; Mingchuan Zhang; Minghua Zhang,; Minghui Tang; Mingming Li; Ning Tian; Panpan Huang; Peiyi Wang; Peng Zhang,; Qiancheng Wang; Qihao Zhu; Qinyu Chen; Qiushi Du; R.J. Chen; R.L. Jin; Ruiqi; Ge; Ruisong Zhang; Ruizhe Pan; Runji Wang; Runxin Xu; Ruoyu Zhang; Ruyi Chen,; S.S. Li; Shanghao Lu; Shangyan Zhou; Shanhuang Chen; Shaoqing Wu; Shengfeng; Ye; Shengfeng Ye; Shirong Ma; Shiyu Wang; Shuang Zhou; Shuiping Yu; Shunfeng; Zhou; Shuting Pan; T. Wang; Tao Yun; Tian Pei; Tianyu Sun; W.L. Xiao,; Wangding Zeng; Wanjia Zhao; Wei An; Wen Liu; Wenfeng Liang; Wenjun Gao,; Wenqin Yu; Wentao Zhang; X.Q. Li; Xiangyue Jin; Xianzu Wang; Xiao Bi,; Xiaodong Liu; Xiaohan Wang; Xiaojin Shen; Xiaokang Chen; Xiaokang Zhang,; Xiaosha Chen; Xiaotao Nie; Xiaowen Sun; Xiaoxiang Wang; Xin Cheng; Xin Liu,; Xin Xie; Xingchao Liu; Xingkai Yu; Xinnan Song; Xinxia Shan; Xinyi Zhou,; Xinyu Yang; Xinyuan Li; Xuecheng Su; Xuheng Lin; Y.K. Li; Y.Q. Wang; Y.X.; Wei; Y.X. Zhu; Yang Zhang; Yanhong Xu; Yanhong Xu; Yanping Huang; Yao Li; Yao; Zhao; Yaofeng Sun; Yaohui Li; Yaohui Wang; Yi Yu; Yi Zheng; Yichao Zhang,; Yifan Shi; Yiliang Xiong; Ying He; Ying Tang; Yishi Piao; Yisong Wang; Yixuan; Tan; Yiyang Ma; Yiyuan Liu; Yongqiang Guo; Yu Wu; Yuan Ou; Yuchen Zhu; Yuduan; Wang; Yue Gong; Yuheng Zou; Yujia He; Yukun Zha; Yunfan Xiong; Yunxian Ma,; Yuting Yan; Yuxiang Luo; Yuxiang You; Yuxuan Liu; Yuyang Zhou; Z.F. Wu; Z.Z.; Ren; Zehui Ren; Zhangli Sha; Zhe Fu; Zhean Xu; Zhen Huang; Zhen Zhang; Zhenda; Xie; Zhengyan Zhang; Zhewen Hao; Zhibin Gou; Zhicheng Ma; Zhigang Yan,; Zhihong Shao; Zhipeng Xu; Zhiyu Wu; Zhongyu Zhang; Zhuoshu Li; Zihui Gu,; Zijia Zhu; Zijun Liu; Zilin Li; Ziwei Xie; Ziyang Song; Ziyi Gao; Zizheng Pan

arXiv:2412.19437·cs.CL·February 19, 2025·220 cites

DeepSeek-V3 Technical Report

DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu,, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai, Dai, Daya Guo, Dejian Yang, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin,, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen

PDF

Open Access 4 Repos 10 Models 1 Datasets 2 Videos

TL;DR

DeepSeek-V3 is a large, efficient Mixture-of-Experts language model with 671 billion parameters, achieving high performance through innovative architectures and training strategies while maintaining cost-effectiveness and training stability.

Contribution

Introduction of DeepSeek-V3 with novel load balancing and multi-token prediction strategies, setting new standards in large-scale language model training and performance.

Findings

01

Outperforms open-source models in benchmarks

02

Achieves comparable results to top closed-source models

03

Requires only 2.788M GPU hours for training

Abstract

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and DeepSeekMoE architectures, which were thoroughly validated in DeepSeek-V2. Furthermore, DeepSeek-V3 pioneers an auxiliary-loss-free strategy for load balancing and sets a multi-token prediction training objective for stronger performance. We pre-train DeepSeek-V3 on 14.8 trillion diverse and high-quality tokens, followed by Supervised Fine-Tuning and Reinforcement Learning stages to fully harness its capabilities. Comprehensive evaluations reveal that DeepSeek-V3 outperforms other open-source models and achieves performance comparable to leading closed-source models. Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Models

Datasets

alpha-one-index/awesome-ai-index
dataset· 167 dl
167 dl

Videos

DeepSeek V3 - The King is Back…For Free!· youtube

"OpenAI is Not God” - The DeepSeek Documentary on Liang Wenfeng, R1 and What's Next· youtube

Taxonomy

TopicsDistributed and Parallel Computing Systems · Robotics and Automated Systems

MethodsSoftmax · Attention Is All You Need