Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics

Wenrui Xu; Dalin Lyu; Weihang Wang; Jie Feng; Chen Gao; Yong Li

arXiv:2502.11859·cs.CV·August 6, 2025

Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics

Wenrui Xu, Dalin Lyu, Weihang Wang, Jie Feng, Chen Gao, Yong Li

PDF

Open Access 1 Datasets 1 Video

TL;DR

This paper introduces a psychometric framework for evaluating basic spatial abilities in Visual Language Models, benchmarking 13 models and revealing gaps compared to human spatial cognition, with implications for developing more embodied AI.

Contribution

It pioneers a psychometric approach to define and measure five basic spatial abilities in VLMs, providing a diagnostic toolkit and methodological foundation for spatial intelligence development.

Findings

01

VLMs show hierarchical spatial abilities similar to humans

02

Smaller models outperform larger ones in spatial tasks

03

Interventions like chain-of-thought improve VLM performance modestly

Abstract

The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson's r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

EmbodiedCity/BasicSpatialAbility
dataset· 825 dl
825 dl

Videos

Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics· underline

Taxonomy

TopicsSpatial Cognition and Navigation