Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

NVIDIA: Yan Wang; Wenjie Luo; Junjie Bai; Yulong Cao; Tong Che; Ke Chen; Yuxiao Chen; Jenna Diamond; Yifan Ding; Wenhao Ding; Liang Feng; Greg Heinrich; Jack Huang; Peter Karkus; Boyi Li; Pinyi Li; Tsung-Yi Lin; Dongran Liu; Ming-Yu Liu; Langechuan Liu; Zhijian Liu; Jason Lu; Yunxiang Mao; Pavlo Molchanov; Lindsey Pavao; Zhenghao Peng; Mike Ranzinger; Ed Schmerling; Shida Shen; Yunfei Shi; Sarah Tariq; Ran Tian; Tilman Wekel; Xinshuo Weng; Tianjun Xiao; Eric Yang; Xiaodong Yang; Yurong You; Xiaohui Zeng; Wenyuan Zhang; Boris Ivanovic; Marco Pavone

arXiv:2511.00088·cs.RO·January 8, 2026

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

NVIDIA: Yan Wang, Wenjie Luo, Junjie Bai, Yulong Cao, Tong Che, Ke Chen, Yuxiao Chen, Jenna Diamond, Yifan Ding, Wenhao Ding, Liang Feng, Greg Heinrich, Jack Huang, Peter Karkus, Boyi Li, Pinyi Li, Tsung-Yi Lin, Dongran Liu, Ming-Yu Liu, Langechuan Liu, Zhijian Liu, Jason Lu

PDF

Open Access 1 Models

TL;DR

Alpamayo-R1 is a vision-language-action model for autonomous driving that integrates causal reasoning with trajectory planning, significantly improving safety and decision accuracy in complex, long-tail scenarios.

Contribution

The paper introduces a novel causal reasoning dataset, a modular architecture combining pre-trained reasoning models with trajectory decoders, and a multi-stage training strategy for improved autonomous driving.

Findings

01

Up to 12% improvement in planning accuracy.

02

35% reduction in close encounters in simulation.

03

45% increase in reasoning quality after RL training.

Abstract

End-to-end architectures trained via imitation learning have advanced autonomous driving by scaling model size and data, yet performance remains brittle in safety-critical long-tail scenarios where supervision is sparse and causal understanding is limited. We introduce Alpamayo-R1 (AR1), a vision-language-action model (VLA) that integrates Chain of Causation reasoning with trajectory planning for complex driving scenarios. Our approach features three key innovations: (1) the Chain of Causation (CoC) dataset, built through a hybrid auto-labeling and human-in-the-loop pipeline producing decision-grounded, causally linked reasoning traces aligned with driving behaviors; (2) a modular VLA architecture combining Cosmos-Reason, a vision-language model pre-trained for Physical AI, with a diffusion-based trajectory decoder that generates dynamically feasible trajectories in real time; (3) a…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

🤗
nvidia/Alpamayo-R1-10B
model· 68k dl· ♡ 388
68k dl♡ 388

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAutonomous Vehicle Technology and Safety · Reinforcement Learning in Robotics · Adversarial Robustness in Machine Learning