M2G-Eval: Enhancing and Evaluating Multi-granularity Multilingual Code Generation

Fanglin Xu; Wei Zhang; Jian Yang; Guo Chen; Aishan Liu; Zhoujun Li; Xianglong Liu; Bryan Dai

arXiv:2512.22628·cs.CL·December 30, 2025

M2G-Eval: Enhancing and Evaluating Multi-granularity Multilingual Code Generation

Fanglin Xu, Wei Zhang, Jian Yang, Guo Chen, Aishan Liu, Zhoujun Li, Xianglong Liu, Bryan Dai

PDF

Open Access

TL;DR

M2G-Eval is a comprehensive multilingual, multi-granularity benchmark for evaluating large language models' code generation capabilities across different code scopes and 18 programming languages, revealing insights into model performance and transferability.

Contribution

Introduces M2G-Eval, a novel multi-granularity, multilingual framework with new models and extensive evaluation to diagnose code generation abilities at various levels.

Findings

01

Line-level tasks are easiest for models.

02

Performance gaps widen with task complexity.

03

Models learn transferable programming concepts across languages.

Abstract

The rapid advancement of code large language models (LLMs) has sparked significant research interest in systematically evaluating their code generation capabilities, yet existing benchmarks predominantly assess models at a single structural granularity and focus on limited programming languages, obscuring fine-grained capability variations across different code scopes and multilingual scenarios. We introduce M2G-Eval, a multi-granularity, multilingual framework for evaluating code generation in large language models (LLMs) across four levels: Class, Function, Block, and Line. Spanning 18 programming languages, M2G-Eval includes 17K+ training tasks and 1,286 human-annotated, contamination-controlled test instances. We develop M2G-Eval-Coder models by training Qwen3-8B with supervised fine-tuning and Group Relative Policy Optimization. Evaluating 30 models (28 state-of-the-art LLMs plus…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSoftware Engineering Research · Topic Modeling · Machine Learning in Materials Science