WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts

Negar Foroutan; Angelika Romanou; Matin Ansaripour; Julian Martin Eisenschlos; Karl Aberer; R\'emi Lebret

arXiv:2506.15594·cs.CL·June 19, 2025

WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts

Negar Foroutan, Angelika Romanou, Matin Ansaripour, Julian Martin Eisenschlos, Karl Aberer, R\'emi Lebret

PDF

Open Access 1 Video

TL;DR

WikiMixQA is a new benchmark for evaluating models on complex question answering tasks involving tables and charts from Wikipedia, highlighting current limitations in long-context multimodal reasoning.

Contribution

Introduces WikiMixQA, a challenging multimodal benchmark with 1,000 questions over Wikipedia content, emphasizing complex reasoning and long-context understanding.

Findings

01

Proprietary models reach ~70% accuracy with direct context

02

Performance drops significantly with long document retrieval

03

GPT-4-o exceeds 50% accuracy in retrieval scenarios

Abstract

Documents are fundamental to preserving and disseminating information, often incorporating complex layouts, tables, and charts that pose significant challenges for automatic document understanding (DU). While vision-language large models (VLLMs) have demonstrated improvements across various tasks, their effectiveness in processing long-context vision inputs remains unclear. This paper introduces WikiMixQA, a benchmark comprising 1,000 multiple-choice questions (MCQs) designed to evaluate cross-modal reasoning over tables and charts extracted from 4,000 Wikipedia pages spanning seven distinct topics. Unlike existing benchmarks, WikiMixQA emphasizes complex reasoning by requiring models to synthesize information from multiple modalities. We evaluate 12 state-of-the-art vision-language models, revealing that while proprietary models achieve ~70% accuracy when provided with direct context,…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts· underline

Taxonomy

TopicsTopic Modeling · Data Quality and Management · Information Retrieval and Search Behavior