Repurposing Geometric Foundation Models for Multi-view Diffu

1. どんなもの？

Geometric Latent Diffusion (GLD)という、Novel View Synthesis (NVS)のための新しい拡散モデルフレームワークを提案。
NVSは、与えられた視点から新しい視点の画像を生成するタスク。
既存の「幾何学的基盤モデル（Geometric Foundation Models）」が持つ、幾何学的に一貫した特徴空間を、マルチビュー拡散モデルの潜在空間として再利用する。
この特徴空間は、高忠実度なRGB再構築能力と、視点間の強力な幾何学的対応を符号化しているため、NVSに最適であると主張。

2. 先行研究と比べてどこがすごい？

従来のNVS手法が、視点に依存しないVAE（Variational Autoencoder）の潜在空間を利用していたのに対し、GLDは幾何学的基盤モデルの「幾何学的特徴空間」を潜在空間として活用することで、視点間の幾何学的整合性を自然に実現。
2D画像品質と3D一貫性メトリックの両方で、VAEおよびRAE（Reconstruction Autoencoder）ベースの手法を上回る性能を発揮。
VAE潜在空間と比較して、トレーニング速度を4.4倍以上高速化。
大規模なテキスト-to-画像事前学習を一切行わずに、その拡散モデルをゼロから学習しているにもかかわらず、大規模な事前学習を利用する最先端手法と競争力のある性能を達成。

3. 技術や手法の肝はどこ？

**肝は「幾何学的基盤モデルの特徴空間の再利用」**：DINOやCLIPの視覚エンコーダのような、自己教師あり学習によって幾何学的対応を学習したモデルから得られる特徴マップを、拡散モデルの潜在空間として直接利用する点。
この特徴空間が、単なる画像特徴だけでなく、異なる視点間でのピクセルレベルの対応関係（幾何学的対応）を強力に保持していることを発見し、これをNVSの潜在空間として活用することで、明示的な3D制約なしに幾何学的整合性を実現している。

4. どうやって有効だと検証した？

2D画像品質（例: FID, LPIPS）および3D一貫性メトリックを用いて、提案手法GLDの性能を評価。
VAEおよびRAEをベースとした既存のNVS手法と比較し、GLDが両方のメトリックで優れていることを示した。
トレーニング時間の比較を行い、VAE潜在空間を用いた場合と比較して4.4倍以上の高速化を実証。
大規模なテキスト-to-画像事前学習を利用する最先端のNVS手法との比較も行い、GLDが事前学習なしにもかかわらず競争力のある性能を示すことを確認。

5. 議論はある？

「幾何学的基盤モデル」の選択がGLDの性能に大きく影響する可能性がある。どの基盤モデルがNVSタスクに最も適しているか、その選定基準やモデル間の比較は重要になりそう。
大規模な事前学習なしでSOTAに匹敵する性能を達成しているが、完全に凌駕しているわけではない。さらなる性能向上には、やはり何らかの事前学習（例えば、幾何学的基盤モデル自体の事前学習）の活用が不可欠になる可能性も考えられる。
特定のデータセットやシーンタイプ（例: 静的なオブジェクト、屋内シーンなど）に特化している可能性があり、より多様な動的シーンや複雑な環境への汎用性についてはさらなる検証が必要かもしれない。

6. 次に読むべき論文は？

「DINO」や「CLIP」の視覚エンコーダなど、自己教師あり学習による幾何学的対応学習に関する論文。
Novel View Synthesis (NVS) の分野における、大規模なテキスト-to-画像事前学習を活用した最先端手法に関する論文。
VAEやRAEを潜在空間として利用したマルチビュー画像生成やNVSの先行研究。

Abstract (原文)

While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.

Repurposing Geometric Foundation Models for Multi-view Diffusion💻 コードあり

Abstract (原文)