CrossTracker: Robust Multi-modal 3D Multi-Object Tracking via Cross   Correction

Lipeng Gu; Xuefeng Yan; Weiming Wang; Honghua Chen; Dingkun Zhu,; Liangliang Nan; Mingqiang Wei

arXiv:2411.18850·cs.CV·December 2, 2024

CrossTracker: Robust Multi-modal 3D Multi-Object Tracking via Cross Correction

Lipeng Gu, Xuefeng Yan, Weiming Wang, Honghua Chen, Dingkun Zhu,, Liangliang Nan, Mingqiang Wei

PDF

Open Access

TL;DR

CrossTracker introduces a two-stage multi-modal 3D multi-object tracking framework that refines trajectories by leveraging complementary camera and LiDAR data, significantly improving tracking robustness.

Contribution

It proposes a novel two-stage architecture with dedicated modules for multi-modal fusion, coarse trajectory generation, and cross correction-based refinement, enhancing multi-modal 3D MOT performance.

Findings

01

Outperforms 18 state-of-the-art competitors in experiments.

02

Effectively fuses camera and LiDAR data for robust tracking.

03

Demonstrates significant improvements in tracking accuracy and robustness.

Abstract

The fusion of camera- and LiDAR-based detections offers a promising solution to mitigate tracking failures in 3D multi-object tracking (MOT). However, existing methods predominantly exploit camera detections to correct tracking failures caused by potential LiDAR detection problems, neglecting the reciprocal benefit of refining camera detections using LiDAR data. This limitation is rooted in their single-stage architecture, akin to single-stage object detectors, lacking a dedicated trajectory refinement module to fully exploit the complementary multi-modal information. To this end, we introduce CrossTracker, a novel two-stage paradigm for online multi-modal 3D MOT. CrossTracker operates in a coarse-to-fine manner, initially generating coarse trajectories and subsequently refining them through an independent refinement process. Specifically, CrossTracker incorporates three essential…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsVideo Surveillance and Tracking Methods · Advanced Image and Video Retrieval Techniques · Advanced Vision and Imaging