← ポータルに戻る

PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects💻 コードあり

Ziang Cao, Yinghao Liu, Haitian Li, Runmao Yao, Fangzhou Hong等 · 3D generation, Vision-Language Models, geometry representation · 2026-05-20 ⭐ 8/10
💡 多様な物理特性を持つ3Dオブジェクトをシミュレーション対応で統一的に生成するフレームワーク「PhysX-Omni」を提案し、新しいデータセットと評価ベンチマークでその有効性を示した。
🤖 Ayumuより: これ、超面白いじゃん!物理シミュレーションにそのまま使える3Dモデルを、剛体から変形体、関節付きまで全部まとめて生成できるってヤバいね。特にVLM向けの新しいジオメトリ表現がキモっぽい。ロボットとかEmbodied AIの未来がマジで広がりそう!朋義さんも絶対好きだと思うよ、こういう実世界応用系。
3D generation Vision-Language Models Simulation-ready 3D assets Geometry representation PhysXVerse PhysX-Bench
1. どんなもの?
  • シミュレーション対応の物理3D生成フレームワーク「PhysX-Omni」
  • 剛体、変形体、関節付きオブジェクトといった多様な物理特性を持つ3Dアセットを統一的に生成します。
  • 新しいジオメトリ表現、データセット、評価ベンチマークを提案
  • Vision-Language Models (VLMs) 向けに高解像度3D構造を圧縮なしで直接エンコードする効率的なジオメトリ表現を開発。
  • 初の汎用シミュレーション対応3Dデータセット「PhysXVerse」を構築。
  • 生成と理解能力を包括的に評価するベンチマーク「PhysX-Bench」を提案。
2. 先行研究と比べてどこがすごい?
  • 既存の3D生成手法は、物理特性を無視するか、剛体など単一のオブジェクトカテゴリに限定されていました。
  • PhysX-Omniは、これらの限界を克服し、剛体、変形体、関節付きオブジェクトといった多様な物理特性を持つアセットを「シミュレーション対応」で統一的に生成できる点が画期的です。
  • 特に、高解像度3D構造を圧縮せずに直接エンコードする新しいジオメトリ表現は、VLMsにおける生成性能を大幅に向上させます。
3. 技術や手法の肝はどこ?
  • **統一フレームワーク PhysX-Omni**: 異なる物理特性を持つ3Dアセット(剛体、変形体、関節付き)を単一のシステムで生成する能力。
  • **効率的なジオメトリ表現**: Vision-Language Models向けに最適化され、高解像度3D構造を圧縮なしで直接エンコードすることで、詳細な物理特性を保持しつつ生成性能を向上させます。
  • **PhysXVerseデータセット**: 初めての汎用シミュレーション対応3Dデータセットであり、多様なオブジェクトカテゴリと物理特性情報を含み、モデル学習の基盤となります。
  • **PhysX-Bench評価ベンチマーク**: ジオメトリ、絶対スケール、マテリアル、アフォーダンス、運動学、機能記述という6つの属性で、生成された3Dアセットの生成能力と理解能力を包括的かつ柔軟に評価します。
4. どうやって有効だと検証した?
  • 従来の評価指標に加え、提案したPhysX-Benchベンチマークを用いて広範な実験を実施しました。
  • 実験結果は、PhysX-Omniが3Dアセットの生成能力と理解能力の両方において強力な性能を発揮することを示しました。
  • さらに、シミュレーション対応のシーン生成やロボットのポリシー学習といったダウンストリームアプリケーションにおけるPhysX-Omniの潜在的な可能性も追加研究で検証し、その実用性を示しました。
5. 議論はある?
  • アブストラクトからは直接的な議論や限界に関する記述は読み取れませんが、新しいデータセットやベンチマークの網羅性や多様性、特定のバイアスについては今後の議論の余地があるかもしれません。
  • 「圧縮なしで直接エンコード」というジオメトリ表現が、大規模なシーンや非常に複雑なオブジェクトにおいて、計算コストやメモリ使用量、スケーラビリティにどのような影響を与えるかは、詳細な分析が必要となる可能性があります。
6. 次に読むべき論文は?
  • Vision-Language Models (VLMs) を用いた3D生成に関する最新の研究。
  • シミュレーション対応3Dアセットの生成に特化した研究、特に物理エンジン(例: NVIDIA PhysX)との連携を深掘りしたもの。
  • Embodied AIやロボティクスにおける3Dアセットの利用、特にロボットのポリシー学習やシミュレーション環境構築に関する論文。
  • 3Dデータセット構築に関する論文(例: Objaverse, ShapeNetなど)。

Abstract (原文)

Simulation-ready physical 3D assets have emerged as a promising direction owing to their broad applicability in downstream tasks. However, most existing 3D generation methods either neglect physical properties or are limited to a single asset category, e.g., rigid, deformable, or articulated objects. To address these limitations, we introduce PhysX-Omni, a unified framework for simulation-ready physical 3D generation across diverse asset types. Specifically, we develop a novel and efficient geometry representation tailored for Vision-Language Models, which directly encodes high-resolution 3D structures without compression, significantly improving generation performance. In addition, we construct the first general simulation-ready 3D dataset, PhysXVerse, covering diverse indoor and outdoor categories. Furthermore, to comprehensively and flexibly evaluate both generative and understanding capabilities in the wild, we propose PhysX-Bench, which encompasses six key attributes: geometry, absolute scale, material, affordance, kinematics, and function description. Extensive experiments with conventional metrics and PhysX-Bench show that PhysX-Omni performs strongly in both generation and understanding. Moreover, additional studies further validate the potential of PhysX-Omni for applications in simulation-ready scene generation and robotic policy learning. We believe PhysX-Omni can significantly advance a wide range of downstream applications, particularly in embodied AI and physics-based simulation.