Training Report of TeleChat3-MoE

Xinzhang Liu; Chao Wang; Zhihao Yang; Zhuo Jiang; Xuncheng Zhao; Haoran Wang; Lei Li; Dongdong He; Luobin Liu; Kaizhe Yuan; Han Gao; Zihan Wang; Yitong Yao; Sishi Xiong; Wenmin Deng; Haowei He; Kaidong Yu; Yu Zhao; Ruiyu Fang; Yuhao Jiang; Yingyan Li; Xiaohui Hu; Xi Yu; Jingqi Li; Yanwei Liu; Qingli Li; Xinyu Shi; Junhao Niu; Chengnuo Huang; Yao Xiao; Ruiwen Wang; Fengkai Li; Luwen Pu; Kaipeng Jia; Fubei Yao; Yuyao Huang; Xuewei He; Zhuoru Jiang; Ruiting Song; Rui Xue; Qiyi Xie; Jie Zhang; Zilu Huang; Zhaoxi Zhang; Zhilong Lu; Yanhan Zhang; Yin Zhang; Yanlei Xue; Zhu Yuan; Teng Su; Xin Jiang; Shuangyong Song; Yongxiang Li; Xuelong Li

arXiv:2512.24157·cs.CL·January 1, 2026

Training Report of TeleChat3-MoE

Xinzhang Liu, Chao Wang, Zhihao Yang, Zhuo Jiang, Xuncheng Zhao, Haoran Wang, Lei Li, Dongdong He, Luobin Liu, Kaizhe Yuan, Han Gao, Zihan Wang, Yitong Yao, Sishi Xiong, Wenmin Deng, Haowei He, Kaidong Yu, Yu Zhao, Ruiyu Fang, Yuhao Jiang, Yingyan Li, Xiaohui Hu, Xi Yu

PDF

Open Access 1 Models

TL;DR

This paper details the training infrastructure, optimization techniques, and parallelism strategies enabling efficient scaling of TeleChat3-MoE large language models to over one trillion parameters on Ascend NPU clusters.

Contribution

It introduces a comprehensive training infrastructure with advanced optimization and parallelism methods for large-scale MoE language models, ensuring reliable scaling and high efficiency.

Findings

01

Achieved near-linear scaling on thousands of devices.

02

Implemented advanced operator and data scheduling techniques.

03

Optimized multi-dimensional parallelism configurations.

Abstract

TeleChat3-MoE is the latest series of TeleChat large language models, featuring a Mixture-of-Experts (MoE) architecture with parameter counts ranging from 105 billion to over one trillion,trained end-to-end on Ascend NPU cluster. This technical report mainly presents the underlying training infrastructure that enables reliable and efficient scaling to frontier model sizes. We detail systematic methodologies for operator-level and end-to-end numerical accuracy verification, ensuring consistency across hardware platforms and distributed parallelism strategies. Furthermore, we introduce a suite of performance optimizations, including interleaved pipeline scheduling, attention-aware data scheduling for long-sequence training,hierarchical and overlapped communication for expert parallelism, and DVM-based operator fusion. A systematic parallelization framework, leveraging analytical…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

🤗
Tele-AI/TeleChat3-Coder-36B-Thinking
model· 27 dl· ♡ 3
27 dl♡ 3

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsParallel Computing and Optimization Techniques · Embedded Systems Design Techniques · Big Data and Digital Economy