← ポータルに戻る

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents💻 コードあり

Tencent Robotics X, HY Vision Team, Xumin Yu, Zuyan Liu, Ziyi Wang等 · Vision-Language Models, embodied agents, Mixture-of-Transformers · 2026-04-08 ⭐ 9/10
💡 リアルワールドのエンボディードエージェント向けに、MoTアーキテクチャと自己進化型学習、オンポリシー蒸留を組み合わせた高性能なVLM基盤モデル「HY-Embodied-0.5」を提案し、実世界ロボット制御で有効性を実証した。
🤖 Ayumuより: HY-Embodied-0.5、まじでヤバいね!エンボディードエージェントの未来を切り開く感じ。MoTで視覚認識を強化しつつ、自己進化と蒸留で推論もバッチリ。2Bと32Bの二刀流で、エッジからフロンティアまでカバーしてるのが賢い。ロボット制御での実証もアツいし、Gemini 3.0 Proに匹敵って聞いたら、朋義さんも絶対チェックするべきだよ!
Vision-Language Models embodied agents Mixture-of-Transformers foundation models robot control on-policy distillation self-evolving learning
1. どんなもの?
  • リアルワールドのエンボディードエージェント向け基盤モデル「HY-Embodied-0.5」ファミリー。
  • 空間・時間的視覚認識と、予測・インタラクション・計画のための高度なエンボディード推論能力を強化することに特化。
  • 2つの主要なバリアントを提供。
  • 2B(20億)の活性化パラメータを持つ効率的なモデル:エッジデバイスへの展開を想定。
  • 32B(320億)の活性化パラメータを持つ強力なモデル:複雑な推論タスクをターゲット。
  • コードとモデルはオープンソースで公開されている。
2. 先行研究と比べてどこがすごい?
  • 一般的なVision-Language Models (VLMs) とエンボディードエージェントの要求とのギャップを埋めることに成功。
  • Mixture-of-Transformers (MoT) アーキテクチャと潜在トークンにより、きめ細かい視覚認識を大幅に強化。
  • 反復的自己進化型ポストトレーニングパラダイムを導入し、推論能力を向上。
  • オンポリシー蒸留により、大規模モデルの高度な能力を小型モデルに効率的に転移させ、小型モデルの性能を最大化。
  • 22の広範なベンチマーク(視覚認識、空間推論、エンボディード理解)で、MoT-2Bモデルは同サイズのSOTAモデルを16ベンチマークで上回り、32BモデルはGemini 3.0 Proのようなフロンティアモデルに匹敵する性能を達成。
  • ダウンストリームのロボット制御実験において、堅牢なVLM基盤を活用したVision-Language-Action (VLA) モデルが、実世界の物理評価で優れた結果を示した。
3. 技術や手法の肝はどこ?
  • **Mixture-of-Transformers (MoT) アーキテクチャ**: エンボディードタスクに不可欠なきめ細かい視覚認識をサポートするため、モダリティ固有の計算を可能にし、潜在トークンを組み込むことで知覚表現を効果的に強化。
  • **反復的自己進化型ポストトレーニングパラダイム**: モデルの推論能力を継続的に向上させるための手法。
  • **オンポリシー蒸留**: 大規模モデル(32B)が持つ高度な能力を、より小型で効率的なモデル(2B)に転送し、コンパクトなモデルの性能ポテンシャルを最大限に引き出す。
4. どうやって有効だと検証した?
  • 視覚認識、空間推論、エンボディード理解にわたる22の広範なベンチマークで評価を実施。
  • MoT-2Bモデルは、同サイズの最先端モデルを16のベンチマークで上回る性能を示した。
  • 32Bバリアントは、Gemini 3.0 Proのようなフロンティアモデルに匹敵する性能を達成した。
  • ダウンストリームのロボット制御実験で有効性を検証。
  • 提案モデルの堅牢なVLM基盤を利用してVision-Language-Action (VLA) モデルを訓練し、実世界の物理環境におけるロボット制御タスクで説得力のある結果を達成した。
5. 議論はある?
  • アブストラクトからは直接的な議論は読み取れないが、実世界エージェントの無限の多様性や予期せぬ状況への汎化能力は常に課題となる。
  • 32Bモデルの運用には高い計算リソースが必要であり、性能とリソースのトレードオフは継続的な検討事項となる。
  • エンボディードエージェントが実世界で行動する際の安全性や倫理的側面については、今後の研究でより深く議論されるべき点である。
6. 次に読むべき論文は?
  • Google Gemini 3.0 Proに関する論文(比較対象として挙げられているフロンティアモデル)
  • Embodied AIにおけるVision-Language-Action (VLA) モデルやロボット学習に関する最新の研究論文
  • Mixture-of-Experts (MoE) やTransformerアーキテクチャの進化に関する論文
  • 自己教師あり学習や蒸留技術を用いた基盤モデルの効率化に関する論文

Abstract (原文)

We introduce HY-Embodied-0.5, a family of foundation models specifically designed for real-world embodied agents. To bridge the gap between general Vision-Language Models (VLMs) and the demands of embodied agents, our models are developed to enhance the core capabilities required by embodied intelligence: spatial and temporal visual perception, alongside advanced embodied reasoning for prediction, interaction, and planning. The HY-Embodied-0.5 suite comprises two primary variants: an efficient model with 2B activated parameters designed for edge deployment, and a powerful model with 32B activated parameters targeted for complex reasoning. To support the fine-grained visual perception essential for embodied tasks, we adopt a Mixture-of-Transformers (MoT) architecture to enable modality-specific computing. By incorporating latent tokens, this design effectively enhances the perceptual representation of the models. To improve reasoning capabilities, we introduce an iterative, self-evolving post-training paradigm. Furthermore, we employ on-policy distillation to transfer the advanced capabilities of the large model to the smaller variant, thereby maximizing the performance potential of the compact model. Extensive evaluations across 22 benchmarks, spanning visual perception, spatial reasoning, and embodied understanding, demonstrate the effectiveness of our approach. Our MoT-2B model outperforms similarly sized state-of-the-art models on 16 benchmarks, while the 32B variant achieves performance comparable to frontier models such as Gemini 3.0 Pro. In downstream robot control experiments, we leverage our robust VLM foundation to train an effective Vision-Language-Action (VLA) model, achieving compelling results in real-world physical evaluations. Code and models are open-sourced at https://github.com/Tencent-Hunyuan/HY-Embodied.