Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

Liren Chen; Lidong Sun; Mingyan Huang; Junzhe Tang; Yinghui Zhu; Guanjie Wang; Yiqing Xia; Ting Xiao

arXiv:2605.14710·cs.CV·May 15, 2026

Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

Liren Chen, Lidong Sun, Mingyan Huang, Junzhe Tang, Yinghui Zhu, Guanjie Wang, Yiqing Xia, Ting Xiao

PDF

TL;DR

This paper introduces a tri-modal fusion model for stroke prognosis that integrates medical images, clinical data, and generated diagnostic text, employing a novel Vision-Conditioned Dual Alignment Fusion Module for improved multimodal interaction.

Contribution

It presents a new tri-modal fusion framework using LLM-generated text and a specialized fusion module to enhance stroke prognosis accuracy beyond existing dual-modal methods.

Findings

01

Achieves state-of-the-art performance on clinical stroke datasets.

02

Effectively integrates visual, textual, and structured data for prognosis.

03

Improves multimodal fusion robustness with semantic alignment.

Abstract

Deep learning and multi-modal fusion have demonstrated transformative potential in medical diagnosis by integrating diverse data sources. However, accurate prognosis for ischemic stroke remains challenging due to limitations in existing multi-modal approaches. First, current methods are predominantly confined to dual-modal fusion, lacking a framework that effectively integrates the trifecta of medical images, structured clinical data, and unstructured text. Second, they often fail to establish deep bidirectional interactions between modalities; To address these critical gaps, this paper proposes a novel tri-modal fusion model for ischemic stroke prognosis. Our approach first enriches the data representation by employing a Large Language Model (LLM) to automatically generate semi-structured diagnostic text from brain MRIs. This process not only addresses the scarcity of expert…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.