ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Duo Xu; Hao Cheng; Xin Lin; Zhen Xie; Hao Wang

arXiv:2511.02415·cs.CV·November 5, 2025

ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang

PDF

Open Access 1 Video

TL;DR

This paper introduces ChartM$^3$, a comprehensive dataset generated through a multi-stage code-driven pipeline, to enhance visual reasoning and understanding in chart comprehension tasks for multimodal large language models.

Contribution

The study presents a novel automated pipeline for creating complex chart datasets, significantly improving data diversity and reasoning capabilities in chart comprehension models.

Findings

01

Dataset contains 38K charts and 142K Q&A pairs.

02

Models trained on ChartM$^3$ outperform baselines in reasoning tasks.

03

Enhanced cross-domain generalization in chart understanding.

Abstract

Complex chart understanding tasks demand advanced visual recognition and reasoning capabilities from multimodal large language models (MLLMs). However, current research provides limited coverage of complex chart scenarios and computation-intensive reasoning tasks prevalent in real-world applications. This study proposes an automated multi-stage code-driven pipeline for systematically generating visual reasoning datasets to address these limitations. The pipeline integrates retrieval-augmented generation (RAG) to retrieve professional chart templates and employs chain-of-thought (CoT) strategies to generate reasoning codes that simulate real data distributions, thereby driving chart rendering and question-related statistical computations. Through model-based evaluation, the pipeline enhances chart diversity and data quality. Using this framework, we construct ChartM $^{3}$ , a…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

ChartM³: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension· underline

Taxonomy

TopicsMultimodal Machine Learning Applications · Topic Modeling · Explainable Artificial Intelligence (XAI)