PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

Kai Yu; Shuang Zhou; Yiran Song; Zaifu Zhan; Jie Peng; Kaixiong Zhou; Tianlong Chen; Feng Xie; Meng Wang; Huazhu Fu; Mingquan Lin; Rui Zhang

arXiv:2604.04999·cs.LG·April 8, 2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

Kai Yu, Shuang Zhou, Yiran Song, Zaifu Zhan, Jie Peng, Kaixiong Zhou, Tianlong Chen, Feng Xie, Meng Wang, Huazhu Fu, Mingquan Lin, Rui Zhang

PDF

TL;DR

PRIME introduces a missing-aware multimodal pretraining framework that effectively learns from incomplete clinical data, improving cancer prognosis predictions across various tasks and cohorts.

Contribution

It proposes a novel prototype-driven approach that handles missing modalities without reconstructing raw signals, enhancing robustness and transferability in clinical settings.

Findings

01

Achieves state-of-the-art performance on cancer prognosis tasks.

02

Improves robustness under test-time missing modalities.

03

Supports parameter-efficient and label-efficient adaptation.

Abstract

Multimodal self-supervised pretraining offers a promising route to cancer prognosis by integrating histopathology whole-slide images, gene expression, and pathology reports, yet most existing approaches require fully paired and complete inputs. In practice, clinical cohorts are fragmented and often miss one or more modalities, limiting both supervised fusion and scalable multimodal pretraining. We propose PRIME, a missing-aware multimodal self-supervised pretraining framework that learns robust and transferable representations from partially observed cohorts. PRIME maps heterogeneous modality embeddings into a unified token space and introduces a shared prototype memory bank for latent-space semantic imputation via patient-level consensus retrieval, producing structurally aligned tokens without reconstructing raw signals. Two complementary pretraining objectives: inter-modality…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.