DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts   Language Model

DeepSeek-AI; Aixin Liu; Bei Feng; Bin Wang; Bingxuan Wang; Bo Liu,; Chenggang Zhao; Chengqi Dengr; Chong Ruan; Damai Dai; Daya Guo; Dejian Yang,; Deli Chen; Dongjie Ji; Erhang Li; Fangyun Lin; Fuli Luo; Guangbo Hao,; Guanting Chen; Guowei Li; H. Zhang; Hanwei Xu; Hao Yang; Haowei Zhang,; Honghui Ding; Huajian Xin; Huazuo Gao; Hui Li; Hui Qu; J.L. Cai; Jian Liang,; Jianzhong Guo; Jiaqi Ni; Jiashi Li; Jin Chen; Jingyang Yuan; Junjie Qiu,; Junxiao Song; Kai Dong; Kaige Gao; Kang Guan; Lean Wang; Lecong Zhang; Lei; Xu; Leyi Xia; Liang Zhao; Liyue Zhang; Meng Li; Miaojun Wang; Mingchuan; Zhang; Minghua Zhang; Minghui Tang; Mingming Li; Ning Tian; Panpan Huang,; Peiyi Wang; Peng Zhang; Qihao Zhu; Qinyu Chen; Qiushi Du; R.J. Chen; R.L.; Jin; Ruiqi Ge; Ruizhe Pan; Runxin Xu; Ruyi Chen; S.S. Li; Shanghao Lu,; Shangyan Zhou; Shanhuang Chen; Shaoqing Wu; Shengfeng Ye; Shirong Ma; Shiyu; Wang; Shuang Zhou; Shuiping Yu; Shunfeng Zhou; Size Zheng; T. Wang; Tian Pei,; Tian Yuan; Tianyu Sun; W.L. Xiao; Wangding Zeng; Wei An; Wen Liu; Wenfeng; Liang; Wenjun Gao; Wentao Zhang; X.Q. Li; Xiangyue Jin; Xianzu Wang; Xiao Bi,; Xiaodong Liu; Xiaohan Wang; Xiaojin Shen; Xiaokang Chen; Xiaosha Chen,; Xiaotao Nie; Xiaowen Sun; Xiaoxiang Wang; Xin Liu; Xin Xie; Xingkai Yu,; Xinnan Song; Xinyi Zhou; Xinyu Yang; Xuan Lu; Xuecheng Su; Y. Wu; Y.K. Li,; Y.X. Wei; Y.X. Zhu; Yanhong Xu; Yanping Huang; Yao Li; Yao Zhao; Yaofeng Sun,; Yaohui Li; Yaohui Wang; Yi Zheng; Yichao Zhang; Yiliang Xiong; Yilong Zhao,; Ying He; Ying Tang; Yishi Piao; Yixin Dong; Yixuan Tan; Yiyuan Liu; Yongji; Wang; Yongqiang Guo; Yuchen Zhu; Yuduan Wang; Yuheng Zou; Yukun Zha; Yunxian; Ma; Yuting Yan; Yuxiang You; Yuxuan Liu; Z.Z. Ren; Zehui Ren; Zhangli Sha,; Zhe Fu; Zhen Huang; Zhen Zhang; Zhenda Xie; Zhewen Hao; Zhihong Shao; Zhiniu; Wen; Zhipeng Xu; Zhongyu Zhang; Zhuoshu Li; Zihan Wang; Zihui Gu; Zilin Li,; Ziwei Xie

arXiv:2405.04434·cs.CL·June 21, 2024·100 cites

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu,, Chenggang Zhao, Chengqi Dengr, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang,, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fuli Luo, Guangbo Hao,, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Yang

PDF

Open Access 5 Repos 10 Models

TL;DR

DeepSeek-V2 is an advanced Mixture-of-Experts language model that offers high performance with economical training, efficient inference, and innovative architectures, supporting very long contexts and achieving top-tier results among open-source models.

Contribution

The paper introduces DeepSeek-V2, featuring novel architectures like MLA and DeepSeekMoE, enabling strong, cost-effective training and efficient inference for large-scale language modeling.

Findings

01

Achieves superior performance compared to previous models.

02

Reduces training costs by 42.5%.

03

Increases generation throughput by 5.76 times.

Abstract

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsExpert finding and Q&A systems · Topic Modeling · Speech and dialogue systems