DALPHIN: Benchmarking Digital Pathology AI Copilots Against Pathologists on an Open Multicentric Dataset

Carlijn Lems; Sander Moonemans; Nat\'alie Klub\'i\v{c}kov\'a; Biagio Brattoli; Taebum Lee; Seokhwi Kim; Veronica Vilaplana; Laura Pons; Sapir Hochman; Mauricio Eduardo Su\'arez-Franck; Pedro Luis Fernandez; Julius Drachneris; Donatas Petroska; Renaldas Augulis; Arvydas Laurinavicius; Domingos Oliveira; Diana Montezuma; Anouk B. Bouwmeester; Dominique van Midden; Anne-Marie Vos; Shoko Vos; Jolique van Ipenburg; Maschenka Balkenhol; Koen Winkler; Iris Nagtegaal; Konnie Hebeda; Uta Flucke; Katrien Gr\"unberg; Josef Skopal; Brinder S. Chohan; Jordi Temprana-Salvador; Enrico Munari; Luca Cima; Giulia Querzoli; Yosamin Gonzalez Belisario; Jaeike W. Faber; Geert J.L.H. van Leenders; Jan H. von der Th\"usen; Lodewijk A.A. Brosens; Ronald R. de Krijger; Pieter Wesseling; Sandrine Florquin; Mateusz Maniewski; Adam Kowalewski; Robert Barna; Dina Tiniakos; Joan Lop Gros; Rogier Donders; Jake S.F. Maurits; Ming Yang Lu; Chengkuan Chen; Faisal Mahmood; Jeroen van der Laak; Nadieh Khalili; Fr\'ed\'erique Meeuwsen; Francesco Ciompi

arXiv:2605.03544·cs.CV·May 6, 2026

DALPHIN: Benchmarking Digital Pathology AI Copilots Against Pathologists on an Open Multicentric Dataset

Carlijn Lems, Sander Moonemans, Nat\'alie Klub\'i\v{c}kov\'a, Biagio Brattoli, Taebum Lee, Seokhwi Kim, Veronica Vilaplana, Laura Pons, Sapir Hochman, Mauricio Eduardo Su\'arez-Franck, Pedro Luis Fernandez, Julius Drachneris, Donatas Petroska, Renaldas Augulis

PDF

1 Repo

TL;DR

DALPHIN introduces a comprehensive open benchmark dataset to evaluate AI copilots in digital pathology, comparing their performance against expert pathologists across diverse cases and diagnoses.

Contribution

It provides the first multicentric open benchmark dataset for pathology AI copilots, including performance evaluation against human experts.

Findings

01

PathChat+ performed comparably to experts in 4 out of 6 tasks.

02

GPT-5 showed no significant difference from experts in 1 out of 6 tasks.

03

DALPHIN dataset covers 130 diagnoses, 6 countries, and 14 subspecialties.

Abstract

Foundation models with visual question answering capabilities for digital pathology are emerging. Such unprecedented technology requires independent benchmarking to assess its potential in assisting pathologists in routine diagnostics. We created DALPHIN, the first multicentric open benchmark for pathology AI copilots, comprising 1236 images from 300 cases, spanning 130 rare to common diagnoses, 6 countries, and 14 subspecialties. The DALPHIN design and dataset are introduced alongside a human performance benchmark of 31 pathologists from 10 countries with varying expertise. We report results for two general-purpose (GPT-5, Gemini 2.5 Pro) and one pathology-specific copilot (PathChat+) for sequential and independent answer generation. We observed no statistically significant difference from expert-level performance in four of six tasks for PathChat, 2/6 tasks for Gemini, and 1/6 tasks…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

null
github

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.