Manifold-Aware Exploration for Reinforcement Learning in Vid

1. どんなもの？

動画生成における強化学習（RL）の不安定性を解決する新しい手法「SAGE-GRPO（Stable Alignment via Exploration）」を提案しています。
従来のGRPO（Group Relative Policy Optimization）ベースの動画生成手法は、複雑な解空間とODE-to-SDE変換による過剰なノイズが原因で、ロールアウト品質の低下や報酬推定の不安定さという課題を抱えていました。
事前学習済みモデルが定義する「有効な動画データ多様体（manifold）」の近傍に探索を制約することで、高品質な動画生成と安定した報酬学習を両立させます。

2. 先行研究と比べてどこがすごい？

従来のGRPOベースの動画生成手法（例: FlowGRPO）が抱えていた、ODE-to-SDE変換による過剰なノイズ注入とそれに伴うロールアウト品質の低下、報酬推定の不安定性という根本的な問題を解決しています。
SAGE-GRPOは、多様体認識探索と多段階の制約を導入することで、これらの課題を克服。報酬最大化と全体的な動画品質の両方において、従来のメソッドと比較して一貫して優れた性能を示します。

3. 技術や手法の肝はどこ？

**多様体認識探索:** 事前学習済みモデルが定義する「有効な動画データ多様体」の近傍に探索を限定し、生成される動画の品質を保証します。
**ミクロレベルの制約:**
**対数曲率補正を伴う多様体認識SDE:** 探索のノイズを精密に制御し、多様体からの逸脱を防ぎます。
**勾配ノルムイコライザー:** タイムステップ間のサンプリングと更新の安定性を確保します。
**マクロレベルの制約:**
**周期的な移動アンカーと段階的な制約を持つデュアルトラストリージョン:** トラストリージョンが多様体に近いチェックポイントを追跡し、長期間にわたるドリフトを効果的に制限します。

4. どうやって有効だと検証した？

**基盤モデル:** HunyuanVideo1.5を動画生成モデルとして使用しました。
**報酬モデル:** オリジナルのVideoAlignを報酬モデルとして利用しました。
**評価指標:** VQ（Video Quality）、MQ（Motion Quality）、TA（Temporal Alignment）といった動画品質指標に加え、CLIPScore、PickScoreといった視覚的メトリクスを用いて評価しました。
**結果:** 従来のGRPOベース手法と比較して、すべての評価指標で一貫した性能向上を達成し、報酬最大化と全体的な動画品質の両方で優れた性能を示しました。

5. 議論はある？

アブストラクトからは直接的な議論の記述はありませんが、本手法は動画生成におけるRLの主要な課題を解決し、一貫した性能向上を達成していると強調されています。
一般的に、多様体の定義やその近傍の探索範囲の決定、計算コスト、そして多様体からの逸脱を完全に防ぐことの難しさなどが、今後の議論や改善の余地となり得ます。

6. 次に読むべき論文は？

**FlowGRPO:** 本論文で言及されている先行研究であり、GRPOベースの動画生成の基礎を理解するために重要です。
**VideoAlign:** 報酬モデルとして使用されている論文で、動画の評価指標やアライメント手法について深く知ることができます。
**HunyuanVideo1.5:** 基盤となる動画生成モデルの論文で、そのアーキテクチャや性能を理解するのに役立ちます。
**ODE-to-SDE変換に関する基礎論文:** 拡散モデルや確率微分方程式を用いた生成モデルの探索メカニズムをより深く理解するために推奨されます。
**幾何学的深層学習（Geometric Deep Learning）や多様体学習（Manifold Learning）に関する論文:** 「多様体認識」という概念の理論的背景を深めるために有用です。

Abstract (原文)

Group Relative Policy Optimization (GRPO) methods for video generation like FlowGRPO remain far less reliable than their counterparts for language models and images. This gap arises because video generation has a complex solution space, and the ODE-to-SDE conversion used for exploration can inject excess noise, lowering rollout quality and making reward estimates less reliable, which destabilizes post-training alignment. To address this problem, we view the pre-trained model as defining a valid video data manifold and formulate the core problem as constraining exploration within the vicinity of this manifold, ensuring that rollout quality is preserved and reward estimates remain reliable. We propose SAGE-GRPO (Stable Alignment via Exploration), which applies constraints at both micro and macro levels. At the micro level, we derive a precise manifold-aware SDE with a logarithmic curvature correction and introduce a gradient norm equalizer to stabilize sampling and updates across timesteps. At the macro level, we use a dual trust region with a periodic moving anchor and stepwise constraints so that the trust region tracks checkpoints that are closer to the manifold and limits long-horizon drift. We evaluate SAGE-GRPO on HunyuanVideo1.5 using the original VideoAlign as the reward model and observe consistent gains over previous methods in VQ, MQ, TA, and visual metrics (CLIPScore, PickScore), demonstrating superior performance in both reward maximization and overall video quality. The code and visual gallery are available at https://dungeonmassster.github.io/SAGE-GRPO-Page/.

Manifold-Aware Exploration for Reinforcement Learning in Video Generation💻 コードあり

Abstract (原文)