Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Yuechen Jiang; Enze Zhang; Md Mohsinul Kabir; Qianqian Xie; Stavroula Golfomitsou; Konstantinos Arvanitis; Sophia Ananiadou

arXiv:2604.07338·cs.CV·April 9, 2026

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou, Konstantinos Arvanitis, Sophia Ananiadou

PDF

1 Datasets

TL;DR

This paper introduces a new cross-cultural benchmark to evaluate vision-language models' ability to infer structured cultural metadata from images, revealing their current limitations and performance variability.

Contribution

It presents a novel benchmark and evaluation framework for assessing VLMs' cultural reasoning and structured metadata inference from images.

Findings

01

Models capture fragmented cultural signals.

02

Performance varies significantly across cultures.

03

Current VLMs show weak grounding in cultural metadata inference.

Abstract

Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We introduce a multi-category, cross-cultural benchmark for this task and evaluate VLMs using an LLM-as-Judge framework that measures semantic alignment with reference annotations. To assess cultural reasoning, we report exact-match, partial-match, and attribute-level accuracy across cultural regions. Results show that models capture fragmented signals and exhibit substantial performance variation across cultures and metadata types, leading to inconsistent and weakly grounded predictions. These findings highlight the limitations of current VLMs in structured cultural metadata inference beyond visual perception.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

Carolyn-Jiang/Metadata-Inference
dataset· 345 dl
345 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.