この記事で分かること:
- 360°動画がそのまま「歩き回れる3D空間」になる技術
- 4D Gaussian Splatting (4DGS) の仕組み
- SOG圧縮で1GBを42MBに(95%削減)
- 実際のワークフローと必要ツール
はじめに:動画が「空間」になる
2025年、3D技術に革命が起きている。360°カメラで撮影した動画が、そのまま「歩き回れる3D空間」に変換できるようになった。
Twitterで見かけたこのツイートが発端だった:
「360°動画が、そのまま動く「3D空間」になる… Insta360 X5の360°動画を正距円筒に展開→各フレームをDA-2で処理→Gaussian Splats化→SOGで約3MB/フレームに圧縮→SuperSplatで「4DGSパノラマ」として連続再生。」
— @taziku_co
これを見て「何が起きているのか」を調べた。結果、2024〜2025年に急速に発展した複数の技術が組み合わさっていることが分かった。
技術スタック全体像
↓
2
正距円筒図法 (Equirectangular) - 球面→平面展開
↓
3
Depth Anything V2 - 各フレームの深度推定
↓
4
3D Gaussian Splatting - 点群として3D化
↓
5
SOG (Spatially Ordered Gaussians) - 約3MB/フレームに圧縮
↓
6
SuperSplat - 4DGSパノラマとして連続再生
各技術の詳細
1. 360°カメラ(Insta360 X5)
全方位カメラで撮影された動画は、球面上の映像データとして記録される。これを後処理しやすい「正距円筒図法」に展開する。世界地図のメルカトル図法のようなもので、球面を長方形に引き伸ばす。
2. Depth Anything V2 (DA-2)
特徴
単眼画像から高精度な深度マップを推定するAIモデル。2024年に公開され、リアルタイム処理が可能。
役割
各フレームの「どこが手前で、どこが奥か」を推定。これが3D空間構築の鍵。
3. 3D Gaussian Splatting (3DGS)
2023年にSIGGRAPHで発表された革命的技術。従来のNeRFと比較して:
| 項目 |
NeRF |
3D Gaussian Splatting |
| 学習時間 |
数時間〜数日 |
1.5時間以下 |
| レンダリング |
オフライン |
リアルタイム |
| 表現形式 |
暗黙的(ボリューム) |
明示的(点群) |
| ブラウザ対応 |
困難 |
可能 |
4. 4D Gaussian Splatting (4DGS)
3DGSに「時間軸」を追加したもの。CVPR 2024で発表。
4DGSの仕組み:
- 3D Gaussians + 4D Neural Voxels で動的シーンを表現
- HexPlaneベースの分解エンコーディング
- 軽量MLPでGaussian変形を予測
- RTX 3090で800×800 82FPS!
5. SOG (Spatially Ordered Gaussians)
PlayCanvasが開発した3DGS圧縮フォーマット。
技術的ポイント:
- Morton Order: 空間充填曲線でデータを整列、GPU最適化
- 量子化: 精度を落とさず容量削減
- Self-Organizing Gaussians: ECCV 2024で発表された理論がベース
6. SuperSplat
ブラウザベースの3DGS編集・公開プラットフォーム。
- オープンソース、エンジン非依存
- SOGフォーマットをネイティブサポート
- クロップ、フィルタ、最適化機能
- URL: superspl.at
応用可能性
VR/AR体験
実写360°映像がインタラクティブな3D空間に。「見る」から「入る」へ。
映画・映像制作
ポストプロダクションでカメラ位置を自由に変更。再撮影不要。
スポーツ分析
試合映像を3D再構成。任意の角度からリプレイ。
不動産・観光
物件・観光地のバーチャルウォークスルー。360°ツアーの次の進化形。
2025年の最新動向
Splat4D
SIGGRAPH 2025で発表。単眼動画から高品質4DGSを生成。Multi-view Diffusionモデルを使い、時空間の一貫性を保証。
P-4DGS
動画コーデックのイントラ/インター予測を応用した圧縮手法。90倍圧縮を実現。
4DGS-Craft
InstructPix2Pixを使った4DGS編集。「この人物を別の服に」などのテキスト指示で編集可能。
課題と今後
現状の課題:
- 時間的一貫性: フレーム間のちらつきがまだある
- 計算コスト: リアルタイム処理にはハイエンドGPUが必要
- 透明物体: ガラスなどの表現が難しい
- 動的オブジェクト: 高速に動く物体の追従が課題
しかし、2024年から2025年にかけての進歩は驚異的だ。Neuro-samaのようなAI VTuberがリアルタイムで動くように、360°動画の3D空間化もまもなく「当たり前」になるだろう。
参考リンク
まとめ
360°動画→4DGSパノラマ変換は、複数の最先端技術が組み合わさって実現している:
- Depth Anything V2で各フレームの深度を推定
- 3D Gaussian Splattingで点群として3D化
- 4DGSで時間軸を追加して動的シーンに
- SOGで95%圧縮してWeb配信可能に
- SuperSplatでブラウザ再生
「動画を撮るだけで3D空間が作れる」時代が来ている。VR/ARの未来はもうすぐそこだ。