VisTA: Vision-Text Alignment Model with Contrastive Learning using   Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's   Disease Diagnosis

Duy-Cat Can; Linh D. Dang; Quang-Huy Tang; Dang Minh Ly; Huong Ha,; Guillaume Blanc; Oliver Y. Ch\'en; and Binh T. Nguyen

arXiv:2502.01535·cs.CV·February 4, 2025

VisTA: Vision-Text Alignment Model with Contrastive Learning using Multimodal Data for Evidence-Driven, Reliable, and Explainable Alzheimer's Disease Diagnosis

Duy-Cat Can, Linh D. Dang, Quang-Huy Tang, Dang Minh Ly, Huong Ha,, Guillaume Blanc, Oliver Y. Ch\'en, and Binh T. Nguyen

PDF

Open Access

TL;DR

VisTA is a multimodal AI model that aligns vision and text data using contrastive learning to improve Alzheimer's diagnosis, providing accurate, interpretable, and evidence-based explanations with minimal training data.

Contribution

This work introduces VisTA, a novel contrastive learning-based multimodal model that significantly enhances AD diagnosis accuracy and explainability with limited training samples.

Findings

01

Achieved 74% accuracy in abnormality retrieval

02

Reached 88% accuracy in dementia prediction

03

Generated explanations aligned with human experts

Abstract

Objective: Assessing Alzheimer's disease (AD) using high-dimensional radiology images is clinically important but challenging. Although Artificial Intelligence (AI) has advanced AD diagnosis, it remains unclear how to design AI models embracing predictability and explainability. Here, we propose VisTA, a multimodal language-vision model assisted by contrastive learning, to optimize disease prediction and evidence-based, interpretable explanations for clinical decision-making. Methods: We developed VisTA (Vision-Text Alignment Model) for AD diagnosis. Architecturally, we built VisTA from BiomedCLIP and fine-tuned it using contrastive learning to align images with verified abnormalities and their descriptions. To train VisTA, we used a constructed reference dataset containing images, abnormality types, and descriptions verified by medical experts. VisTA produces four outputs: predicted…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsTopic Modeling · Biomedical Text Mining and Ontologies

MethodsContrastive Learning · ALIGN