Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Ansar Aynetdinov; Patrick Haller; Alan Akbik

arXiv:2604.28075·cs.CL·May 4, 2026

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Ansar Aynetdinov, Patrick Haller, Alan Akbik

PDF

4 Models 4 Datasets

TL;DR

This paper demonstrates that for German language modeling, repeatedly training on high-quality filtered data yields better results than training once on larger, less filtered datasets, enhancing efficiency.

Contribution

The study introduces hierarchical quality filtering for German web data and shows that multi-epoch training on high-quality data outperforms single-pass training on larger datasets.

Findings

01

Repeated training on filtered data outperforms single-pass on larger datasets.

02

High-quality filtering leads to state-of-the-art results with fewer tokens.

03

Performance gap persists even after 7 epochs.

Abstract

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Datasets

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.