Structured Preference Optimization for Vision-Language Long-Horizon Task Planning

Xiwen Liang; Min Lin; Weiqi Ruan; Rongtao Xu; Yuecheng Liu; Jiaqi Chen; Bingqian Lin; Yuzheng Zhuang; Xiaodan Liang

arXiv:2502.20742·cs.CV·September 18, 2025

Structured Preference Optimization for Vision-Language Long-Horizon Task Planning

Xiwen Liang, Min Lin, Weiqi Ruan, Rongtao Xu, Yuecheng Liu, Jiaqi Chen, Bingqian Lin, Yuzheng Zhuang, Xiaodan Liang

PDF

1 Video

TL;DR

This paper introduces Structured Preference Optimization (SPO), a novel approach that enhances vision-language long-horizon task planning by improving reasoning quality and decision accuracy through preference evaluation and curriculum training.

Contribution

The paper proposes SPO, a new method for long-horizon vision-language planning, and introduces ExtendaBench, a comprehensive benchmark for evaluating such tasks.

Findings

01

SPO outperforms prior methods on long-horizon tasks.

02

SPO achieves approximately 6% GCR improvement in VirtualHome.

03

SPO achieves over 2% SR improvement in Habitat.

Abstract

Existing methods for vision-language task planning excel in short-horizon tasks but often fall short in complex, long-horizon planning within dynamic environments. These challenges primarily arise from the difficulty of effectively training models to produce high-quality reasoning processes for long-horizon tasks. To address this, we propose Structured Preference Optimization (SPO), which aims to enhance reasoning and action selection in long-horizon task planning through structured preference evaluation and optimized training strategies. Specifically, SPO introduces: 1) Preference-Based Scoring and Optimization, which systematically evaluates reasoning chains based on task relevance, visual grounding, and historical consistency; and 2) Curriculum-Guided Training, where the model progressively adapts from simple to complex tasks, improving its generalization ability in long-horizon…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

Structured Preference Optimization for Vision-Language Long-Horizon Task Planning· underline