Multi-step retrieval and reasoning improves radiology question answering with large language models

Sebastian Wind; Jeta Sopa; Daniel Truhn; Mahshad Lotfinia; Tri-Thien Nguyen; Keno Bressem; Lisa Adams; Mirabela Rusu; Harald K\"ostler; Gerhard Wellein; Andreas Maier; Soroosh Tayebi Arasteh

arXiv:2508.00743·cs.CL·January 1, 2026

Multi-step retrieval and reasoning improves radiology question answering with large language models

Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald K\"ostler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh

PDF

TL;DR

This paper introduces RaR, a multi-step retrieval and reasoning framework that significantly enhances the diagnostic accuracy, factual consistency, and clinical reliability of large language models in radiology question answering tasks.

Contribution

The paper presents a novel multi-step retrieval and reasoning approach (RaR) that improves radiology QA performance across diverse LLMs, especially benefiting smaller models.

Findings

01

RaR significantly improves diagnostic accuracy over zero-shot prompting.

02

RaR reduces hallucinations and retrieves relevant clinical context in nearly half of cases.

03

Small-scale models benefit the most from RaR, with minimal gains in very large models.

Abstract

Clinical decision-making in radiology increasingly benefits from artificial intelligence (AI), particularly through large language models (LLMs). However, traditional retrieval-augmented generation (RAG) systems for radiology question answering (QA) typically rely on single-step retrieval, limiting their ability to handle complex clinical reasoning tasks. Here we propose radiology Retrieval and Reasoning (RaR), a multi-step retrieval and reasoning framework designed to improve diagnostic accuracy, factual consistency, and clinical reliability of LLMs in radiology question answering. We evaluated 25 LLMs spanning diverse architectures, parameter scales (0.5B to >670B), and training paradigms (general-purpose, reasoning-optimized, clinically fine-tuned), using 104 expert-curated radiology questions from previously established RSNA-RadioQA and ExtendedQA datasets. To assess…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.