Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Ling Team; Anqi Shen; Baihui Li; Bin Hu; Bin Jing; Cai Chen; Chao Huang; Chao Zhang; Chaokun Yang; Cheng Lin; Chengyao Wen; Congqi Li; Deng Zhao; Dingbo Yuan; Donghai You; Fagui Mao; Fanzhuang Meng; Feng Xu; Guojie Li; Guowei Wang; Hao Dai; Haonan Zheng; Hong Liu; Jia Guo; Jiaming Liu; Jian Liu; Jianhao Fu; Jiannan Shi; Jianwen Wang; Jianxin Lai; Jin Yang; Jun Mei; Jun Zhou; Junbo Zhao; Junping Zhao; Kuan Xu; Le Su; Lei Chen; Li Tang; Liang Jiang; Liangcheng Fu; Lianhao Xu; Linfeng Shi; Lisha Liao; Longfei Zheng; Meng Li; Mingchun Chen; Qi Zuo; Qiang Cheng; Qianggang Cao; Qitao Shi; Quanrui Guo; Senlin Zhu; Shaofei Wang; Shaomian Zheng; Shuaicheng Li; Shuwei Gu; Siba Chen; Tao Wu; Tao Zhang; Tianyu Zhang; Tianyu Zhou; Tiwei Bie; Tongkai Yang; Wang Hong; Wang Ren; Weihua Chen; Wenbo Yu; Wengang Zheng; Xiangchun Wang; Xiaodong Yan; Xiaopei Wan; Xin Zhao; Xinyu Kong; Xinyu Tang; Xudong Han; Xudong Wang; Xuemin Yang; Xueyu Hu; Yalin Zhang; Yan Sun; Yicheng Shan; Yilong Wang; Yingying Xu; Yongkang Liu; Yongzhen Guo; Yuanyuan Wang; Yuchen Yan; Yuefan Wang; Yuhong Guo; Zehuan Li; Zhankai Xu; Zhe Li; Zhenduo Zhang; Zhengke Gui; Zhenxuan Pan; Zhenyu Huang; Zhenzhong Lan; Zhiqiang Ding; Zhiqiang Zhang; Zhixun Li; Zhizhen Liu; Zihao Wang; Zujie Wen

arXiv:2510.18855·cs.CL·October 28, 2025

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

Ling Team, Anqi Shen, Baihui Li, Bin Hu, Bin Jing, Cai Chen, Chao Huang, Chao Zhang, Chaokun Yang, Cheng Lin, Chengyao Wen, Congqi Li, Deng Zhao, Dingbo Yuan, Donghai You, Fagui Mao, Fanzhuang Meng, Feng Xu, Guojie Li, Guowei Wang, Hao Dai, Haonan Zheng, Hong Liu, Jia Guo

PDF

6 Models

TL;DR

This paper introduces Ring-1T, a trillion-parameter reasoning model with novel training innovations, achieving state-of-the-art benchmarks and enabling open access to large-scale reasoning capabilities.

Contribution

It presents three new methods—IcePop, C3PO++, and ASystem—for training trillion-scale models efficiently and reliably, and releases the first open-source trillion-parameter reasoning model.

Findings

01

Achieved high benchmark scores across multiple reasoning tasks.

02

Demonstrated stable training of trillion-parameter models.

03

Enabled open access to a state-of-the-art reasoning model.

Abstract

We present Ring-1T, the first open-source, state-of-the-art thinking model with a trillion-scale parameter. It features 1 trillion total parameters and activates approximately 50 billion per token. Training such models at a trillion-parameter scale introduces unprecedented challenges, including train-inference misalignment, inefficiencies in rollout processing, and bottlenecks in the RL system. To address these, we pioneer three interconnected innovations: (1) IcePop stabilizes RL training via token-level discrepancy masking and clipping, resolving instability from training-inference mismatches; (2) C3PO++ improves resource utilization for long rollouts under a token budget by dynamically partitioning them, thereby obtaining high time efficiency; and (3) ASystem, a high-performance RL framework designed to overcome the systemic bottlenecks that impede trillion-parameter model training.…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.