Understanding metric-related pitfalls in image analysis validation

Annika Reinke; Minu D. Tizabi; Michael Baumgartner; Matthias; Eisenmann; Doreen Heckmann-N\"otzel; A. Emre Kavur; Tim R\"adsch; Carole H.; Sudre; Laura Acion; Michela Antonelli; Tal Arbel; Spyridon Bakas; Arriel; Benis; Matthew Blaschko; Florian Buettner; M. Jorge Cardoso; Veronika; Cheplygina; Jianxu Chen; Evangelia Christodoulou; Beth A. Cimini; Gary S.; Collins; Keyvan Farahani; Luciana Ferrer; Adrian Galdran; Bram van Ginneken,; Ben Glocker; Patrick Godau; Robert Haase; Daniel A. Hashimoto; Michael M.; Hoffman; Merel Huisman; Fabian Isensee; Pierre Jannin; Charles E. Kahn,; Dagmar Kainmueller; Bernhard Kainz; Alexandros Karargyris; Alan; Karthikesalingam; Hannes Kenngott; Jens Kleesiek; Florian Kofler; Thijs Kooi,; Annette Kopp-Schneider; Michal Kozubek; Anna Kreshuk; Tahsin Kurc; Bennett A.; Landman; Geert Litjens; Amin Madani; Klaus Maier-Hein; Anne L. Martel; Peter; Mattson; Erik Meijering; Bjoern Menze; Karel G.M. Moons; Henning M\"uller,; Brennan Nichyporuk; Felix Nickel; Jens Petersen; Susanne M. Rafelski; Nasir; Rajpoot; Mauricio Reyes; Michael A. Riegler; Nicola Rieke; Julio; Saez-Rodriguez; Clara I. S\'anchez; Shravya Shetty; Maarten van Smeden,; Ronald M. Summers; Abdel A. Taha; Aleksei Tiulpin; Sotirios A. Tsaftaris; Ben; Van Calster; Ga\"el Varoquaux; Manuel Wiesenfarth; Ziv R. Yaniv; Paul F.; J\"ager; Lena Maier-Hein

arXiv:2302.01790·cs.CV·February 26, 2024·20 cites

Understanding metric-related pitfalls in image analysis validation

Annika Reinke, Minu D. Tizabi, Michael Baumgartner, Matthias, Eisenmann, Doreen Heckmann-N\"otzel, A. Emre Kavur, Tim R\"adsch, Carole H., Sudre, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel, Benis, Matthew Blaschko, Florian Buettner, M. Jorge Cardoso

PDF

Open Access

TL;DR

This paper provides a comprehensive, accessible resource on common pitfalls in validation metrics for image analysis, aiming to improve research reliability and cross-disciplinary understanding.

Contribution

It introduces a structured, expert-validated taxonomy of pitfalls in validation metrics, with illustrative examples, enhancing accessibility for researchers across disciplines.

Findings

01

Identified key pitfalls in validation metrics for image analysis.

02

Developed a comprehensive taxonomy of pitfalls.

03

Provided illustrative examples for each pitfall.

Abstract

Validation metrics are key for the reliable tracking of scientific progress and for bridging the current chasm between artificial intelligence (AI) research and its translation into practice. However, increasing evidence shows that particularly in image analysis, metrics are often chosen inadequately in relation to the underlying research problem. This could be attributed to a lack of accessibility of metric-related knowledge: While taking into account the individual strengths, weaknesses, and limitations of validation metrics is a critical prerequisite to making educated choices, the relevant knowledge is currently scattered and poorly accessible to individual researchers. Based on a multi-stage Delphi process conducted by a multidisciplinary expert consortium as well as extensive community feedback, the present work provides the first reliable and comprehensive common point of access…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsRadiomics and Machine Learning in Medical Imaging · Delphi Technique in Research · Artificial Intelligence in Healthcare and Education