← ポータルに戻る

MMSkills: Towards Multimodal Skills for General Visual Agents💻 コードあり

Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu等 · multimodal procedural knowledge, visual agents, skill packages · 2026-05-14 ⭐ 9/10

💡 視覚エージェントが再利用可能なマルチモーダルスキルを自動生成・活用し、多様なタスクを効率的にこなすためのフレームワーク「MMSkills」を提案。

🤖 Ayumuより: これ、めっちゃ面白いね！既存のエージェントがテキストとかコードに頼りがちだったのを、視覚情報込みの「マルチモーダルスキル」として扱おうって発想が新しい。特に、ユーザーの操作ログから自動でスキルを生成しちゃうGeneratorとか、それをライブ環境で柔軟に使うブランチロード型エージェントの仕組みがすごい。汎用的なビジュアルエージェントの実現に一歩近づく論文だと思うよ。朋義さんもきっと好きでしょ！

multimodal procedural knowledge visual agents skill packages MMSkills trajectory-to-skill Generator branch-loaded multimodal skill agent

1. どんなもの？

ビジュアルエージェントのためのマルチモーダルな再利用可能スキルパッケージ「MMSkills」を提案。
既存のスキルがテキストやコードに偏る中、視覚情報を含む「マルチモーダルな手続き的知識」を重視。
MMSkillは、テキスト手順、ランタイム状態カード、マルチビューキーフレームを組み合わせたコンパクトなパッケージで、実行時の視覚的意思決定を支援する。

2. 先行研究と比べてどこがすごい？

既存のスキルパッケージが主にテキストやコードに限定されていたのに対し、視覚エージェントに必要な「マルチモーダルな手続き的知識」を形式化し、具体的なパッケージ（MMSkill）として実装した点。
公開された非評価軌跡から、エージェントが再利用可能なマルチモーダルスキルを自動生成するGeneratorを開発。これにより、手動でのスキル作成の手間を削減し、多様なスキルを効率的に獲得できる。
推論時に、過度な画像コンテキストや参照スクリーンショットへの過剰な固定なしに、ライブ環境とスキルを整合させ、構造化されたガイダンスを生成する新しい利用方法（ブランチロード型エージェント）を提案した点。

3. 技術や手法の肝はどこ？

**MMSkillパッケージの構造**: テキスト手順、ランタイム状態カード、マルチビューキーフレームを組み合わせることで、視覚的な状態認識と手順実行に必要な情報をコンパクトにまとめる。
**スキル生成器 (Agentic Trajectory-to-Skill Generator)**: 公開された非評価軌跡から、ワークフローグルーピング、手順誘導、視覚的グラウンディング、メタスキルガイドによる監査を通じて、再利用可能なマルチモーダルスキルを自動抽出・生成する。
**ブランチロード型マルチモーダルスキルエージェント**: 推論時、選択されたスキル（状態カードとキーフレーム）を一時的な「ブランチ」で検査し、ライブ環境と整合。整合された情報から、メインエージェントが実行可能な構造化されたガイダンスを生成する。

4. どうやって有効だと検証した？

GUIベースおよびゲームベースのビジュアルエージェントベンチマークで実験を実施。
MMSkillsを導入することで、フロンティア（最先端）モデルと小規模なマルチモーダルエージェントの両方において、エージェントの性能が一貫して向上することを示した。
これは、外部のマルチモーダル手続き的知識が、エージェントモデル内部の事前知識を効果的に補完することを示唆している。

5. 議論はある？

スキル生成の自動化は強力だが、非評価軌跡の品質や多様性がスキルの汎用性やロバスト性に影響を与える可能性がある。
スキルパッケージのコンパクトさと、複雑なタスクや多様な環境で必要な情報が不足しないか、あるいは過剰にならないかのバランスが課題となる。
ブランチロード型エージェントのアライメント機構のロバスト性や計算コスト、特に環境変化が大きいケースでの性能が今後の課題として考えられる。

6. 次に読むべき論文は？

ビジュアルエージェントにおけるスキル学習やプランニングに関する論文（例: SayCan, Inner Monologue）。
マルチモーダルな知識表現や推論に関する論文。
軌跡データからの行動学習やスキル抽出に関する論文。
汎用ロボットエージェントの基盤モデルに関する論文（例: Foundation Models for Generalist Robots）。

Abstract (原文)

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.

📄 arxiv ページ 📑 PDF ⭐ GitHub (97 stars)