ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics

Donato Caramia; Florian T. Pokorny; Giuseppe Triggiani; Denis Ruffino; David Naso; Paolo Roberto Massenio

arXiv:2512.09510·cs.RO·December 23, 2025

ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics

Donato Caramia, Florian T. Pokorny, Giuseppe Triggiani, Denis Ruffino, David Naso, Paolo Roberto Massenio

PDF

Open Access

TL;DR

ViTA-Seg is a real-time Vision Transformer framework that improves robotic bin-picking by accurately segmenting occluded objects, leveraging global attention and synthetic data for enhanced amodal perception.

Contribution

The paper introduces ViTA-Seg, a novel Vision Transformer-based approach with dual architectures for amodal segmentation, and a synthetic dataset for industrial scenarios.

Findings

01

Achieves high accuracy in amodal and occlusion segmentation

02

Operates efficiently for real-time robotic applications

03

Outperforms existing methods on benchmark datasets

Abstract

Occlusions in robotic bin picking compromise accurate and reliable grasp planning. We present ViTA-Seg, a class-agnostic Vision Transformer framework for real-time amodal segmentation that leverages global attention to recover complete object masks, including hidden regions. We proposte two architectures: a) Single-Head for amodal mask prediction; b) Dual-Head for amodal and occluded mask prediction. We also introduce ViTA-SimData, a photo-realistic synthetic dataset tailored to industrial bin-picking scenario. Extensive experiments on two amodal benchmarks, COOCA and KINS, demonstrate that ViTA-Seg Dual Head achieves strong amodal and occlusion segmentation accuracy with computational efficiency, enabling robust, real-time robotic manipulation.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsRobot Manipulation and Learning · Advanced Neural Network Applications · Robotic Path Planning Algorithms