Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Xue Liu; Xin Ma; Yuxin Ma; Yongchang Peng; Duo Wang; Zhoufutu Wen; Ge Zhang; Kaiyuan Zhang; Xinyu Chen; Yida Ding; Tianci He; Jiani Hou; Liang Hu; Ziyun Huang; Yongzhe Hui; Jianpeng Jiao; Chennan Ju; Yingru Kong; Yiran Li; Jiashuo Liu; Mengyun Liu; Luyao Ma; Fei Ni; Yiqing Ni; Pengbo Niu; Yueyan Qiu; Yanle Ren; Xinyu Shen; Zilin Shi; Zaiyuan Wang; Wenjie Yue; Chun Zhang; Shiyu Zhang; Xinyi Zhang; Kaiwen Zhao; Zhenwei Zhu; Shanshan Wu; Qi Zhao; Wenhao Huang

arXiv:2604.02368·cs.AI·April 22, 2026

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Yida Ding, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Jiashuo Liu, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni

PDF

TL;DR

XpertBench is a comprehensive, expert-level benchmark with 1,346 tasks across multiple domains, designed to evaluate LLMs' proficiency in complex, real-world professional tasks using detailed rubrics and a novel LLM-based evaluation method.

Contribution

The paper introduces XpertBench, a high-fidelity benchmark with expert-derived tasks and ShotJudge, an innovative LLM evaluation paradigm to assess professional-level AI performance.

Findings

01

State-of-the-art LLMs achieve only ~66% success on XpertBench.

02

Models show domain-specific strengths and weaknesses.

03

XpertBench reveals a significant 'expert-gap' in current AI systems.

Abstract

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.