Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated   Parameters by Tencent

Xingwu Sun; Yanfeng Chen; Yiqing Huang; Ruobing Xie; Jiaqi Zhu; Kai; Zhang; Shuaipeng Li; Zhen Yang; Jonny Han; Xiaobo Shu; Jiahao Bu; Zhongzhi; Chen; Xuemeng Huang; Fengzong Lian; Saiyong Yang; Jianfeng Yan; Yuyuan Zeng,; Xiaoqin Ren; Chao Yu; Lulu Wu; Yue Mao; Jun Xia; Tao Yang; Suncong Zheng; Kan; Wu; Dian Jiao; Jinbao Xue; Xipeng Zhang; Decheng Wu; Kai Liu; Dengpeng Wu,; Guanghui Xu; Shaohua Chen; Shuang Chen; Xiao Feng; Yigeng Hong; Junqiang; Zheng; Chengcheng Xu; Zongwei Li; Xiong Kuang; Jianglu Hu; Yiqi Chen; Yuchi; Deng; Guiyang Li; Ao Liu; Chenchen Zhang; Shihui Hu; Zilong Zhao; Zifan Wu,; Yao Ding; Weichao Wang; Han Liu; Roberts Wang; Hao Fei; Peijie Yu; Ze Zhao,; Xun Cao; Hai Wang; Fusheng Xiang; Mengyuan Huang; Zhiyuan Xiong; Bin Hu,; Xuebin Hou; Lei Jiang; Jianqiang Ma; Jiajia Wu; Yaping Deng; Yi Shen; Qian; Wang; Weijie Liu; Jie Liu; Meng Chen; Liang Dong; Weiwen Jia; Hu Chen; Feifei; Liu; Rui Yuan; Huilin Xu; Zhenxiang Yan; Tengfei Cao; Zhichao Hu; Xinhua; Feng; Dong Du; Tinghao Yu; Yangyu Tao; Feng Zhang; Jianchen Zhu; Chengzhong; Xu; Xirui Li; Chong Zha; Wen Ouyang; Yinben Xia; Xiang Li; Zekun He; Rongpeng; Chen; Jiawei Song; Ruibin Chen; Fan Jiang; Chongqing Zhao; Bo Wang; Hao Gong,; Rong Gan; Winston Hu; Zhanhui Kang; Yong Yang; Yuhong Liu; Di Wang; Jie Jiang

arXiv:2411.02265·cs.CL·November 7, 2024·6 cites

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Xingwu Sun, Yanfeng Chen, Yiqing Huang, Ruobing Xie, Jiaqi Zhu, Kai, Zhang, Shuaipeng Li, Zhen Yang, Jonny Han, Xiaobo Shu, Jiahao Bu, Zhongzhi, Chen, Xuemeng Huang, Fengzong Lian, Saiyong Yang, Jianfeng Yan, Yuyuan Zeng,, Xiaoqin Ren, Chao Yu, Lulu Wu, Yue Mao, Jun Xia

PDF

Open Access 3 Repos 8 Models

TL;DR

Hunyuan-Large is the largest open-source Transformer-based mixture of experts model with 389 billion parameters, demonstrating superior performance across multiple benchmarks and introducing novel training techniques and insights into MoE scaling laws.

Contribution

It introduces Hunyuan-Large, the largest open-source MoE model, with innovative training strategies and comprehensive analysis of MoE scaling laws and learning rate schedules.

Findings

01

Outperforms LLama3.1-70B across various tasks

02

Comparable to LLama3.1-405B in performance

03

Provides insights into MoE scaling and optimization

Abstract

In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large's superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAge of Information Optimization