Flow Maps — Diffusionモデルの「経路全体を一気に渡す」写像（Sander Dieleman 2026/05/06）日本語要約

1. Diffusion / Flow Model / Flow Map の違い

Diffusionモデル: 各ステップで速度場 v(x_t, t) を予測して、その方向に小さく進む。メモリレス（現在位置と時刻のみで決まる）。

Flow Matching: Diffusionと数学的にほぼ等価。SDEではなくODE視点で速度場を学習する定式化。

Flow Map: 速度場の積分そのもの。任意の始点・始時刻から任意の終時刻までを 一気に 写像する関数 F を直接学習する。

F(x_s, s, t) = x_s + ∫_s^t v(x_τ, τ) dτ

2. Flow Mapが満たすべき3つの一貫性

合成性 (Compositionality)

F(F(x_s, s, t), t, u) = F(x_s, s, u)

2段階で渡しても1段階で直接渡しても同じ点に着く。

Lagrangian一貫性

∂F/∂t (x_s, s, t) = v(F(x_s, s, t), t)

到着時刻 t を動かしたときの出力の変化率が、終点での速度場と一致する。

Eulerian一貫性

∂F/∂s (x_s, s, t) + ∇_{x_s}F · v(x_s, s) = 0

始点 x_s を流れに沿って少し進めても、終点は変わらない（流れに乗っている）。

平均速度パラメータ化: V = (1/(t-s)) ∫ v dτ を学習対象にすれば、F = x_s + (t-s)V と書ける。これが MeanFlow / iMF系の出発点。

3. なぜ嬉しいか

サンプリング数ステップ化: 50〜1000ステップ必要だったのが、1〜8ステップで高品質に。
報酬学習との相性: 経路全体の写像なので、エンドツーエンドで強化学習・好みデータでファインチューンしやすい。
自己蒸留可能: 事前学習済みのDiffusionモデルが無くても、上記の一貫性条件を満たすように直接学習できる手法（FreeFlow, MeanFlow, TVM）が登場した。
柔軟な時間ジャンプ: (s, t) を任意に選べるので、後段の処理に応じて精度と速度を切り替えられる。

4. 関連手法の地図

Consistency Models (CM): t = 0（データ側）に固定したFlow Mapの特殊ケース。1ステップ生成は得意だが、複数ステップにすると再ノイズ化が必要。
MeanFlow / iMF: Eulerian一貫性で自己蒸留。事前学習なしでスクラッチから訓練可能。
Terminal Velocity Matching (TVM): Lagrangian一貫性ベース。JVP（Jacobian-Vector Product）が必要でカスタムFlashAttention kernelを使う。
Align Your Flow (AYF): Eulerian/Lagrangian両方を実装。FLUX.1のような大規模モデルで実績あり。
Shortcut Models: 合成性ベース。倍々のステップで段階的に圧縮。
Flow Map Matching (FMM): 経路の双方向性を活かす。
Physics Informed Distillation (PID): PINN（Physics-Informed NN）的アプローチで一貫性条件を最小化。

5. なぜこの記事を翻訳して紹介するか

Sander DielemanはWaveNet / Imagen VideoなどGoogle DeepMindの主要な生成モデルに関わってきた人で、彼の解説記事はこの分野の地図として読める。Diffusionの高速化は実装技術として進んでいるが、Flow Mapsという視点で写像 F の一貫性という言葉に整理し直すと、なぜこの一群の手法が成立するかが見える。

個人的には3つの一貫性のうち Eulerian一貫性 が美しい。これは流体力学の連続の式（連続方程式）と同じ構造で、「始点を流れに沿って少しずらしても終点は不変」という幾何的直感を、勾配と速度場の内積として書く。物理出身の読者には特に響くと思う。

つまり Diffusion = 速度場の繰り返し評価、Flow Map = 経路全体を1つの関数として保持、というレンズの差。1関数として持つから、勾配・合成・蒸留が綺麗に書ける。