Repetition over Diversity: High-Signal Data Filtering for Sa

1. どんなもの？

非英語LLMにおけるデータ戦略の課題解決
ドイツ語を例に、大量の多様なデータで1回学習する「多様性」戦略と、厳選された高品質データを複数エポックで繰り返し学習する「繰り返し」戦略のどちらが効率的かを検証。
高品質データの繰り返し学習の優位性を実証
厳しくフィルタリングされた高品質データを複数エポックで学習する方が、大量の軽くフィルタリングされたデータを1回学習するよりも、一貫して高い性能を示すことを発見。この性能差は7エポック後も持続。

2. 先行研究と比べてどこがすごい？

英語LLMで示されていた高品質データフィルタリングの有効性を、非英語（特にドイツ語）に拡張し、具体的な学習戦略（多様性 vs 繰り返し）のトレードオフを明確に解決した点。
比較モデルよりも10-360倍少ないトークンで、ドイツ語LLMにおいて最先端（SOTA）の性能を達成した、その圧倒的なデータ効率性。
ドイツ語LLM「Boldt」と、クリーンな評価ベンチマークを研究コミュニティに公開した点。

3. 技術や手法の肝はどこ？

階層的品質フィルタリング
5億のドイツ語ウェブドキュメントに対し、複数の基準で品質を評価し、厳選された高品質なサブセットを構築。
学習戦略の比較実験
構築した高品質サブセットを複数エポックで繰り返し学習する戦略と、より大きく軽くフィルタリングされたデータをシングルパスで学習する戦略を、複数のモデルスケールとトークン予算で比較。

4. どうやって有効だと検証した？

複数のモデルスケールとトークン予算を設定し、異なる学習戦略（繰り返し vs シングルパス）でモデルを訓練し、その性能を比較。
実験の結果、高品質データの繰り返し学習が、より大きく、フィルタリングが少ないセットでのシングルパス学習を一貫して上回ることを確認し、この性能差が7エポック後も持続することを示した。
開発したドイツ語LLM「Boldt」が、既存の比較モデルと比較して10-360倍少ないトークンでSOTAの性能を達成したことを示すことで、手法の有効性を実証した。

5. 議論はある？

アブストラクトからは直接的な議論点は読み取れないが、一般的に、階層的品質フィルターの具体的な構築コストや、その基準が他の非英語高リソース言語（フランス語、日本語など）にどの程度一般化できるかについては、さらなる検証が必要となる可能性がある。
7エポック後も性能差が持続するとあるが、それ以上のエポック数でのデータ飽和の限界や、繰り返し学習がもたらす過学習のリスクについては、詳細な分析が求められる。

6. 次に読むべき論文は？

データキュレーションや品質フィルタリングに関する論文（特に英語LLMにおける先行研究）。
非英語LLMや多言語LLMのデータ戦略に関する論文。
「semantic concentration」やデータ効率的な学習に関する論文。
ドイツ語のLLMやベンチマークに関する最新の研究。

Abstract (原文)

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling💻 コードあり

Abstract (原文)