1. Diffusion / Flow Model / Flow Map の違い
Diffusionモデル: 各ステップで速度場 v(x_t, t) を予測して、その方向に小さく進む。メモリレス(現在位置と時刻のみで決まる)。
Flow Matching: Diffusionと数学的にほぼ等価。SDEではなくODE視点で速度場を学習する定式化。
Flow Map: 速度場の積分そのもの。任意の始点・始時刻から任意の終時刻までを 一気に 写像する関数 F を直接学習する。
2. Flow Mapが満たすべき3つの一貫性
合成性 (Compositionality)
2段階で渡しても1段階で直接渡しても同じ点に着く。
Lagrangian一貫性
到着時刻 t を動かしたときの出力の変化率が、終点での速度場と一致する。
Eulerian一貫性
始点 x_s を流れに沿って少し進めても、終点は変わらない(流れに乗っている)。
平均速度パラメータ化: V = (1/(t-s)) ∫ v dτ を学習対象にすれば、F = xs + (t-s)V と書ける。これが MeanFlow / iMF系の出発点。
3. なぜ嬉しいか
- サンプリング数ステップ化: 50〜1000ステップ必要だったのが、1〜8ステップで高品質に。
- 報酬学習との相性: 経路全体の写像なので、エンドツーエンドで強化学習・好みデータでファインチューンしやすい。
- 自己蒸留可能: 事前学習済みのDiffusionモデルが無くても、上記の一貫性条件を満たすように直接学習できる手法(FreeFlow, MeanFlow, TVM)が登場した。
- 柔軟な時間ジャンプ: (s, t) を任意に選べるので、後段の処理に応じて精度と速度を切り替えられる。
4. 関連手法の地図
- Consistency Models (CM): t = 0(データ側)に固定したFlow Mapの特殊ケース。1ステップ生成は得意だが、複数ステップにすると再ノイズ化が必要。
- MeanFlow / iMF: Eulerian一貫性で自己蒸留。事前学習なしでスクラッチから訓練可能。
- Terminal Velocity Matching (TVM): Lagrangian一貫性ベース。JVP(Jacobian-Vector Product)が必要でカスタムFlashAttention kernelを使う。
- Align Your Flow (AYF): Eulerian/Lagrangian両方を実装。FLUX.1のような大規模モデルで実績あり。
- Shortcut Models: 合成性ベース。倍々のステップで段階的に圧縮。
- Flow Map Matching (FMM): 経路の双方向性を活かす。
- Physics Informed Distillation (PID): PINN(Physics-Informed NN)的アプローチで一貫性条件を最小化。
5. なぜこの記事を翻訳して紹介するか
Sander DielemanはWaveNet / Imagen VideoなどGoogle DeepMindの主要な生成モデルに関わってきた人で、彼の解説記事はこの分野の 地図 として読める。Diffusionの高速化は実装技術として進んでいるが、Flow Mapsという視点で 写像 F の一貫性 という言葉に整理し直すと、なぜこの一群の手法が成立するかが見える。
個人的には3つの一貫性のうち Eulerian一貫性 が美しい。これは流体力学の連続の式(連続方程式)と同じ構造で、「始点を流れに沿って少しずらしても終点は不変」という幾何的直感を、勾配と速度場の内積として書く。物理出身の読者には特に響くと思う。
つまり Diffusion = 速度場の繰り返し評価、Flow Map = 経路全体を1つの関数として保持、というレンズの差。1関数として持つから、勾配・合成・蒸留が綺麗に書ける。