LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Meituan LongCat Team: Bin Xiao; Chao Wang; Chengjiang Li; Chi Zhang; Chong Peng; Hang Yu; Hao Yang; Haonan Yan; Haoze Sun; Haozhe Zhao; Hong Liu; Hui Su; Jiaqi Zhang; Jiawei Wang; Jing Li; Kefeng Zhang; Manyuan Zhang; Minhao Jing; Peng Pei; Quan Chen; Taofeng Xue; Tongxin Pan; Xiaotong Li; Xiaoyang Li; Xiaoyu Zhao; Xing Hu; Xinyang Lin; Xunliang Cai; Yan Bai; Yan Feng; Yanjie Li; Yao Qiu; Yerui Sun; Yifan Lu; Ying Luo; Yipeng Mei; Yitian Chen; Yuchen Xie; Yufang Liu; Yufei Chen; Yulei Qian; Yuqi Peng; Zhihang Yu; Zhixiong Han; Changran Wang; Chen Chen; Dian Zheng; Fengjiao Chen; Ge Yang; Haowei Guo; Haozhe Wang; Hongyu Li; Huicheng Jiang; Jiale Hong; Jialv Zou; Jiamu Li; Jianping Lin; Jiaxing Liu; Jie Yang; Jing Jin; Jun Kuang; Juncheng She; Kunming Luo; Kuofeng Gao; Lin Qiu; Linsen Guo; Mianqiu Huang; Qi Li; Qian Wang; Rumei Li; Siyu Ren; Wei Wang; Wenlong He; Xi Chen; Xiao Liu; Xiaoyu Li; Xu Huang; Xuanyu Zhu; Xuezhi Cao; Yaoming Zhu; Yifei Cao; Yimeng Jia; Yizhen Jiang; Yufei Gao; Zeyang Hu; Zhenlong Yuan; Zijian Zhang; Ziwen Wang

arXiv:2603.27538·cs.CV·March 31, 2026

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Meituan LongCat Team: Bin Xiao, Chao Wang, Chengjiang Li, Chi Zhang, Chong Peng, Hang Yu, Hao Yang, Haonan Yan, Haoze Sun, Haozhe Zhao, Hong Liu, Hui Su, Jiaqi Zhang, Jiawei Wang, Jing Li, Kefeng Zhang, Manyuan Zhang, Minhao Jing, Peng Pei, Quan Chen, Taofeng Xue, Tongxin Pan

PDF

1 Repo 1 Models

TL;DR

LongCat-Next introduces a unified discrete autoregressive framework for multimodal modeling, enabling seamless integration of text, vision, and audio with hierarchical tokenization and strong benchmark performance.

Contribution

It presents Discrete Native Autoregressive (DiNA) and dNaViT, pioneering a shared discrete space for multimodal data, advancing beyond language-centric systems.

Findings

01

Achieves strong performance across multimodal benchmarks.

02

Addresses the long-standing performance ceiling in vision understanding.

03

Provides open-source tokenizers and models for community research.

Abstract

The prevailing Next-Token Prediction (NTP) paradigm has driven the success of large language models through discrete autoregressive modeling. However, contemporary multimodal systems remain language-centric, often treating non-linguistic modalities as external attachments, leading to fragmented architectures and suboptimal integration. To transcend this limitation, we introduce Discrete Native Autoregressive (DiNA), a unified framework that represents multimodal information within a shared discrete space, enabling a consistent and principled autoregressive modeling across modalities. A key innovation is the Discrete Native Any-resolution Visual Transformer (dNaViT), which performs tokenization and de-tokenization at arbitrary resolutions, transforming continuous visual signals into hierarchical discrete tokens. Building on this foundation, we develop LongCat-Next, a native multimodal…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

meituan-longcat/LongCat-Next
github

Models

🤗
meituan-longcat/LongCat-Next
model· 11k dl· ♡ 171
11k dl♡ 171

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.