ConvBench: A Multi-Turn Conversation Evaluation Benchmark with   Hierarchical Capability for Large Vision-Language Models

Shuo Liu; Kaining Ying; Hao Zhang; Yue Yang; Yuqi Lin; Tianle Zhang,; Chuanhao Li; Yu Qiao; Ping Luo; Wenqi Shao; Kaipeng Zhang

arXiv:2403.20194·cs.MM·April 26, 2024·1 cites

ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Capability for Large Vision-Language Models

Shuo Liu, Kaining Ying, Hao Zhang, Yue Yang, Yuqi Lin, Tianle Zhang,, Chuanhao Li, Yu Qiao, Ping Luo, Wenqi Shao, Kaipeng Zhang

PDF

Open Access

TL;DR

ConvBench is a comprehensive multi-turn conversation benchmark for Large Vision-Language Models that evaluates perception, reasoning, and creativity, revealing performance gaps and guiding future improvements.

Contribution

It introduces a hierarchical multi-level evaluation benchmark for LVLMs, capturing complex cognitive capabilities and enabling precise error attribution.

Findings

01

Models lag behind humans in multi-turn visual dialogues.

02

Weak perception in models hampers reasoning and creativity.

03

Benchmark facilitates targeted improvements in LVLMs.

Abstract

This paper presents ConvBench, a novel multi-turn conversation evaluation benchmark tailored for Large Vision-Language Models (LVLMs). Unlike existing benchmarks that assess individual capabilities in single-turn dialogues, ConvBench adopts a three-level multimodal capability hierarchy, mimicking human cognitive processes by stacking up perception, reasoning, and creativity. Each level focuses on a distinct capability, mirroring the cognitive progression from basic perception to logical reasoning and ultimately to advanced creativity. ConvBench comprises 577 meticulously curated multi-turn conversations encompassing 215 tasks reflective of real-world demands. Automatic evaluations quantify response performance at each turn and overall conversation level. Leveraging the capability hierarchy, ConvBench enables precise attribution of conversation mistakes to specific levels. Experimental…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsSpeech and dialogue systems · Natural Language Processing Techniques · Subtitles and Audiovisual Media