← ポータルに戻る
OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis💻 コードあり
Kanzhi Cheng, Zehao Li, Zheng Ma, Nuo Chen, Jialin Cao等 ·
vision-language models, mobile agents, task synthesis pipeline · 2026-04-16
⭐ 8/10
💡 モバイルエージェントのデータギャップを埋めるため、高品質なタスク指示と行動軌跡を合成するオープンソースフレームワーク「OpenMobile」を提案し、既存のオープンデータ手法を凌駕する性能を達成した。
🤖 Ayumuより: これ、モバイルエージェントのデータ不足問題を解決する画期的な研究だね!特に、学習者とエキスパートを切り替えるポリシー切り替え戦略でエラー回復データもちゃんと集めてるのが賢い。オープンソースでデータとコードを公開してくれてるから、他の研究者もすぐに追試したり発展させたりできるのが素晴らしいよ。朋義さんもVLMの応用には興味あるでしょ?これは要チェックだよ!
vision-language models mobile agents task synthesis trajectory synthesis open-source imitation learning AndroidWorld
1. どんなもの?
- モバイルエージェントのオープンソースデータ生成フレームワーク「OpenMobile」
- 高品質なタスク指示とエージェントの行動軌跡(trajectory)を合成する。
- 既存の高性能モバイルエージェントが訓練データや合成手法を非公開にしている課題を解決し、研究コミュニティにデータとコードを公開することで、モバイルエージェント研究の促進を目指す。
- 主に2つの主要コンポーネントで構成される。
- スケーラブルなタスク合成パイプライン
- ポリシー切り替え戦略による軌跡生成
2. 先行研究と比べてどこがすごい?
- 既存の高性能モバイルエージェントはデータ非公開だが、OpenMobileは合成データとコードを完全にオープンソースで公開している。
- これにより、研究コミュニティが透明性を持ってモバイルエージェントを開発・評価できる基盤を提供する。
- 既存のオープンデータを用いたアプローチを大幅に上回る性能を達成。
- AndroidWorldベンチマークで、ファインチューニングしたQwen3-VLが64.7%の成功率を記録し、既存のオープンデータ手法を大きく凌駕する。
- 性能向上がベンチマークへの過学習ではなく、広範な機能カバーによるものであることを透明性のある分析で検証している。
3. 技術や手法の肝はどこ?
- **スケーラブルなタスク合成パイプライン**
- 環境探索を通じてグローバルな環境メモリを構築する。
- このメモリを活用し、多様で根拠のある(grounded)タスク指示を自動生成する。
- **ポリシー切り替え戦略による軌跡生成(trajectory rollout)**
- 学習者モデル(learner)とエキスパートモデル(expert)を交互に切り替えて行動軌跡を生成する。
- この戦略により、標準的な模倣学習では見落とされがちな、エージェントがエラーから回復する際の重要なデータを効果的に収集できる。
4. どうやって有効だと検証した?
- OpenMobileで合成したデータを用いて訓練したエージェントを、3つの動的モバイルエージェントベンチマーク(AndroidWorldなど)で評価した。
- 特に、ファインチューニングしたQwen2.5-VLとQwen3-VLがAndroidWorldでそれぞれ51.7%と64.7%の成功率を達成し、既存のオープンデータアプローチを大きく上回ることを示した。
- 合成されたタスク指示とベンチマークテストセットの重複度を透明に分析し、性能向上が特定のベンチマークへの過学習ではなく、エージェントが広範な機能をカバーできるようになった結果であることを確認した。
5. 議論はある?
- 本論文はデータギャップを埋めることに焦点を当てており、その目的は達成されている。
- 今後の議論としては、合成データの品質が実世界の多様なシナリオにどれだけ対応できるか、また、合成されたタスクの複雑性や未知の環境への汎化能力をさらに向上させる方法などが考えられる。
- エラー回復データの収集は重要だが、その質と量、そしてそれがエージェントのロバスト性に与える影響について、さらに詳細な分析が求められる可能性もある。
6. 次に読むべき論文は?
- **AndroidWorldベンチマークに関する論文**: モバイルエージェントの評価基準として参照されているため、その詳細を理解するために読むと良いでしょう。
- **Vision-Language Models (VLM) をモバイルエージェントに応用した他の研究**: 例えば、AppAgentやMobile-Agentなど、他の高性能モバイルエージェントに関する論文。
- **模倣学習におけるエラー回復戦略やデータ拡張に関する研究**: OpenMobileのポリシー切り替え戦略の背景にある理論や、他のデータ拡張手法と比較するために役立ちます。
Abstract (原文)
Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.