Revisiting Generalization Measures Beyond IID: An Empirical Study under Distributional Shift

Sora Nakai; Youssef Fadhloun; Kacem Mathlouthi; Kotaro Yoshida; Ganesh Talluri; Ioannis Mitliagkas; Hiroki Naganuma

arXiv:2602.01718·cs.LG·February 3, 2026

Revisiting Generalization Measures Beyond IID: An Empirical Study under Distributional Shift

Sora Nakai, Youssef Fadhloun, Kacem Mathlouthi, Kotaro Yoshida, Ganesh Talluri, Ioannis Mitliagkas, Hiroki Naganuma

PDF

Open Access

TL;DR

This study evaluates the stability and predictive power of various generalization measures for deep learning models under distributional shifts, revealing that most measures are sensitive to such shifts while a few remain stable.

Contribution

It provides a comprehensive empirical benchmark of generalization measures across diverse distribution shifts, architectures, and training methods, including new calibration-based metrics.

Findings

01

Most measures are sensitive to distribution shifts.

02

A small subset of measures remains stable across shifts.

03

Calibration-based measures show promising stability.

Abstract

Generalization remains a central yet unresolved challenge in deep learning, particularly the ability to predict a model's performance beyond its training distribution using quantities available prior to test-time evaluation. Building on the large-scale study of Jiang et al. (2020). and concerns by Dziugaite et al. (2020). about instability across training configurations, we benchmark the robustness of generalization measures beyond IID regime. We train small-to-medium models over 10,000 hyperparameter configurations and evaluate more than 40 measures computable from the trained model and the available training data alone. We significantly broaden the experimental scope along multiple axes: (i) extending the evaluation beyond the standard IID setting to include benchmarking for robustness across diverse distribution shifts, (ii) evaluating multiple architectures and training recipes, and…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsGenerative Adversarial Networks and Image Synthesis · Machine Learning in Materials Science · Domain Adaptation and Few-Shot Learning