UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Ex

1. どんなもの？

**自己進化型モバイルGUIエージェント「UI-Voyager」**
Multimodal Large Language Models (MLLMs) を基盤とし、モバイルGUIを自律的に操作するエージェント。
失敗経験から効率的に学習し、手動アノテーションなしで継続的に性能を向上させることを目指す。
**2段階の学習メカニズム**
第1段階: Rejection Fine-Tuning (RFT) でデータとモデルを共進化させる。
第2段階: Group Relative Self-Distillation (GRSD) で失敗軌跡を成功軌跡から得られる密な教師信号で修正する。

2. 先行研究と比べてどこがすごい？

**失敗軌跡からの学習効率の向上**
既存手法が抱える「失敗した軌跡からの非効率な学習」という課題に対し、GRSDにより成功軌跡から密なステップレベルの教師信号を生成し、失敗軌跡を効果的に修正する。
**スパース報酬下での信用割り当ての明確化**
長期間のGUIタスクにおける「スパースな報酬による曖昧な信用割り当て」の問題を、GRSDが特定する重要な分岐点と密な教師信号によって緩和する。
**人間レベルを超える高性能と自律性**
AndroidWorldベンチマークで81.0% Pass@1を達成し、多くの最新ベースラインを上回り、人間レベルの性能を超える。高価な手動データアノテーションが不要な点が実用的。

3. 技術や手法の肝はどこ？

**Rejection Fine-Tuning (RFT) (第1段階)**
モデルが生成した軌跡を評価し、成功した軌跡のみを学習データとしてモデルを継続的にファインチューニングする。
モデルの性能向上に伴い、より質の高いデータが生成され、データとモデルが相互に進化する自律的なループを形成する。
**Group Relative Self-Distillation (GRSD) (第2段階)**
複数のエージェントが並行してタスクを実行する「グループロールアウト」を実施。
成功した軌跡と失敗した軌跡を比較し、両者が分岐した「重要なフォークポイント（分岐点）」を特定する。
成功軌跡から、失敗軌跡の修正に必要な「密なステップレベルの教師信号」を抽出し、失敗軌跡を直接的に修正することで、学習効率を大幅に向上させる。

4. どうやって有効だと検証した？

**ベンチマークと性能評価**
AndroidWorldベンチマークを用いて、提案手法の有効性を検証。
4Bモデルが81.0%のPass@1成功率を達成し、これは多くの最新ベースラインを凌駕し、人間レベルの性能を超えることを示した。
**アブレーションスタディ**
GRSDの各コンポーネントの寄与を個別に評価し、その有効性を定量的に検証した。
**ケーススタディ**
具体的なGUIタスクのシナリオにおいて、UI-Voyagerがどのように失敗から学習し、タスクを成功させるかを詳細に分析し、手法の有効性を実証した。

5. 議論はある？

アブストラクトからは直接的な議論の記述はないが、自己進化型エージェントの一般的な課題として、初期の性能が低い場合のRFTの探索効率や、GRSDにおける「重要な分岐点」の特定ロジックの頑健性、そして実世界の多様なGUI環境への汎化能力などが今後の検討課題となりうる。また、グループロールアウトに伴う計算リソースの要求も考慮される。

6. 次に読むべき論文は？

**Rejection Fine-Tuning (RFT) の元論文**：RFTの理論的背景と実装の詳細を深く理解するため。
**Group Relative Self-Distillation (GRSD) に関連する自己蒸留や強化学習における報酬設計に関する論文**：GRSDの着想源や、スパース報酬問題への他のアプローチについて学ぶため。
**AndroidWorldベンチマークを提案した論文や、そこで競合する他の高性能モバイルGUIエージェントに関する最新研究**：この分野のフロンティアと課題を把握するため。
**MLLM (Multimodal Large Language Models) の最新の進展に関する論文**：UI-Voyagerの基盤技術であるMLLMの能力と限界を理解するため。

Abstract (原文)

Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience💻 コードあり

Abstract (原文)