Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Siwei Wu; Yizhi Li; Yuyang Song; Wei Zhang; Yang Wang; Riza Batista-Navarro; Xian Yang; Mingjie Tang; Bryan Dai; Jian Yang; Chenghua Lin

arXiv:2602.01244·cs.CL·February 4, 2026

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Siwei Wu, Yizhi Li, Yuyang Song, Wei Zhang, Yang Wang, Riza Batista-Navarro, Xian Yang, Mingjie Tang, Bryan Dai, Jian Yang, Chenghua Lin

PDF

Open Access 3 Models 1 Datasets

TL;DR

This paper introduces TerminalTraj, a scalable pipeline for generating high-quality, verified terminal trajectories from Dockerized environments, enabling improved training of agentic models for terminal tasks across diverse domains.

Contribution

The authors present TerminalTraj, a novel scalable pipeline that constructs Docker environments, generates task instances, and synthesizes verified trajectories, significantly advancing data quality and diversity for terminal-based agent training.

Findings

01

Curated 32,000 Docker images and generated over 50,700 verified trajectories.

02

Models trained on this data outperform baselines with up to 20% improvements.

03

TerminalTraj-32B achieves competitive performance with fewer than 100B parameters.

Abstract

Training agentic models for terminal-based tasks critically depends on high-quality terminal trajectories that capture realistic long-horizon interactions across diverse domains. However, constructing such data at scale remains challenging due to two key requirements: \textbf{\emph{Executability}}, since each instance requires a suitable and often distinct Docker environment; and \textbf{\emph{Verifiability}}, because heterogeneous task outputs preclude unified, standardized verification. To address these challenges, we propose \textbf{TerminalTraj}, a scalable pipeline that (i) filters high-quality repositories to construct Dockerized execution environments, (ii) generates Docker-aligned task instances, and (iii) synthesizes agent trajectories with executable validation code. Using TerminalTraj, we curate 32K Docker images and generate 50,733 verified terminal trajectories across eight…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Datasets

m-a-p/TerminalTraj
dataset· 151 dl
151 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Artificial Intelligence in Games · Advanced Neural Network Applications