A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Ming Hu; Chenglong Ma; Wei Li; Wanghan Xu; Jiamin Wu; Jucheng Hu; Tianbin Li; Guohang Zhuang; Jiaqi Liu; Yingzhou Lu; Ying Chen; Chaoyang Zhang; Cheng Tan; Jie Ying; Guocheng Wu; Shujian Gao; Pengcheng Chen; Jiashi Lin; Haitao Wu; Lulu Chen; Fengxiang Wang; Yuanyuan Zhang; Xiangyu Zhao; Feilong Tang; Encheng Su; Junzhi Ning; Xinyao Liu; Ye Du; Changkai Ji; Pengfei Jiang; Cheng Tang; Ziyan Huang; Jiyao Liu; Jiaqi Wei; Yuejin Yang; Xiang Zhang; Guangshuai Wang; Yue Yang; Huihui Xu; Ziyang Chen; Yizhou Wang; Chen Tang; Jianyu Wu; Yuchen Ren; Siyuan Yan; Zhonghua Wang; Zhongxing Xu; Shiyan Su; Shangquan Sun; Runkai Zhao; Zhisheng Zhang; Dingkang Yang; Jinjie Wei; Jiaqi Wang; Jiahao Xu; Jiangtao Yan; Wenhao Tang; Hongze Zhu; Yu Liu; Fudi Wang; Yiqing Shen; Yuanfeng Ji; Yanzhou Su; Tong Xie; Hongming Shan; Chun-Mei Feng; Zhi Hou; Diping Song; Lihao Liu; Yanyan Huang; Lequan Yu; Bin Fu; Shujun Wang; Xiaomeng Li; Xiaowei Hu; Yun Gu; Ben Fei; Benyou Wang; Yuewen Cao; Minjie Shen; Jie Xu; Haodong Duan; Fang Yan; Hongxia Hao; Jielan Li; Jiajun Du; Yanbo Wang; Imran Razzak; Zhongying Deng; Chi Zhang; Lijun Wu; Conghui He; Zhaohui Lu; Jinhai Huang; Wenqi Shao; Yihao Liu; Siqi Luo; Yi Xin; Xiaohong Liu; Fenghua Ling; Yuqiang Li; Aoran Wang; Siqi Sun; Qihao Zheng; Nanqing Dong; Tianfan Fu; Dongzhan Zhou; Yan Lu; Wenlong Zhang; Jin Ye; Jianfei Cai; Yirong Chen; Wanli Ouyang; Yu Qiao; Zongyuan Ge; Shixiang Tang; Junjun He; Chunfeng Song; Lei Bai; Bowen Zhou

arXiv:2508.21148·cs.CL·October 21, 2025

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang

PDF

Open Access

TL;DR

This survey explores the development, challenges, and evaluation of scientific large language models (Sci-LLMs), emphasizing their data-centric evolution, multimodal reasoning, and potential for autonomous scientific discovery.

Contribution

It introduces a unified taxonomy of scientific data, analyzes over 270 datasets, and discusses a paradigm shift toward autonomous, knowledge-evolving AI agents in scientific research.

Findings

01

Sci-LLMs require heterogeneous, multi-scale data representations.

02

Over 190 benchmark datasets reveal a shift toward process-oriented evaluation.

03

Emerging solutions include semi-automated annotation and expert validation.

Abstract

Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands --…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMachine Learning in Materials Science · Topic Modeling · Artificial Intelligence in Healthcare and Education