← ポータルに戻る

Toto 2.0: Time Series Forecasting Enters the Scaling Era💻 コードあり

Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac等 · time series foundation models, forecasting models, parameter scaling · 2026-05-19 ⭐ 8/10
💡 時系列予測でも、LLMのようにモデルを大きくすると性能が伸びることを、4M〜2.5Bパラメータのオープンウェイトモデル群で示した研究。
1. どんなもの?
  • 時系列予測のためのスケーラブルなファウンデーションモデル「Toto 2.0」ファミリーを提案。
  • 単一のトレーニングレシピで4Mから2.5Bパラメータまで、モデルサイズをスケールさせることで予測品質が確実に向上することを示した。
  • Apache 2.0ライセンスで、5つのオープンウェイトモデルのチェックポイントが公開されている。
  • 複数の主要な時系列予測ベンチマークで新たなState-of-the-Art (SOTA) を達成。
  • 観測性ベンチマークBOOM、汎用ベンチマークGIFT-Eval、汚染耐性ベンチマークTIMEの3つで最高性能を記録した。
2. 先行研究と比べてどこがすごい?
  • 時系列予測モデルにおいて、大規模言語モデル(LLM)のようにパラメータスケールが性能向上に直結する「スケーリング則」を実証した点。
  • 単一のトレーニングレシピで広範なパラメータスケール(4M〜2.5B)に対応し、信頼性の高い性能改善を実現した汎用性の高さ。
  • 複数の異なる性質を持つベンチマーク(観測性、汎用、汚染耐性)で一貫してSOTAを達成し、モデルの堅牢性と汎用性を示した。
  • オープンウェイトモデルとして公開され、研究コミュニティや実務家が容易に利用・発展させられる点。
3. 技術や手法の肝はどこ?
  • **スケーラブルなアーキテクチャとトレーニングレシピ**: 大規模なパラメータ数に対応し、単一のレシピで効率的に学習できる設計が核となっている。具体的なアーキテクチャは明記されていないが、Transformerベースの可能性が高い。
  • **大規模なトレーニングデータ**: ファウンデーションモデルの学習には、多様で膨大な時系列データセットが用いられていると推測される。
  • **u-muPハイパーパラメータ転送パイプライン**: 異なるモデルサイズ間でハイパーパラメータを効率的に転送・調整する手法を採用。これにより、大規模モデルのトレーニングと最適化が容易になり、スケーリングの効率化に貢献している。
4. どうやって有効だと検証した?
  • 提案モデル「Toto 2.0」ファミリーを、以下の3つの主要な時系列予測ベンチマークで評価した。
  • **BOOM**: 観測性データに特化したベンチマーク。
  • **GIFT-Eval**: 標準的な汎用時系列予測ベンチマーク。
  • **TIME**: 最近導入された、データ汚染に耐性を持つベンチマーク。
  • これらのベンチマークにおいて、既存のState-of-the-Art (SOTA) モデルを上回る予測性能を達成したことを示した。
  • パラメータ数を4Mから2.5Bまで段階的にスケールさせ、その際の予測品質の改善を定量的に実証した。
5. 議論はある?
  • アブストラクトからは直接的な議論や限界は読み取れないが、一般的な大規模モデルの課題として、トレーニングおよび推論における高い計算リソース要求が挙げられる。
  • 大規模なトレーニングデータセットの構築とそのデータに含まれる潜在的なバイアスが、モデルの予測に与える影響については、さらなる分析が必要となる可能性がある。
  • 汎用的なファウンデーションモデルが、特定のドメインや非常にニッチな時系列データに対して、どれだけ最適化された性能を発揮できるかについては、今後の研究の余地がある。
6. 次に読むべき論文は?
  • **時系列ファウンデーションモデルの先行研究**: 時系列データにTransformerなどの大規模モデルを適用した初期の研究。
  • **u-muP (universal μ-parameterization) に関する論文**: 大規模モデルのハイパーパラメータ転送とスケーリングに関する詳細な技術理解のため。
  • **各ベンチマークのオリジナル論文**: BOOM, GIFT-Eval, TIMEベンチマークの設計思想、データセット、評価指標について深く理解するため。
  • **大規模言語モデルのスケーリング則に関する論文**: ChinchillaやPaLMなど、LLMにおけるパラメータスケーリングと性能の関係を論じた研究。

Abstract (原文)

We show that time series foundation models scale: a single training recipe produces reliable forecast-quality improvements from 4M to 2.5B parameters. We release Toto 2.0, a family of five open-weights forecasting models trained under this recipe. The Toto 2.0 family sets a new state of the art on three forecasting benchmarks: BOOM, our observability benchmark; GIFT-Eval, the standard general-purpose benchmark; and the recent contamination-resistant TIME benchmark. This report describes our experimental results and details the design decisions behind Toto 2.0: its architecture and training recipe, training data, and the u-muP hyperparameter transfer pipeline. All five base checkpoints are released under Apache 2.0.