EnterpriseOps-Gym: Environments and Evaluations for Stateful

1. どんなもの？

LLMエージェントの企業環境での評価ベンチマーク「EnterpriseOps-Gym」を提案
現実の企業設定を模倣したコンテナ化サンドボックス環境を提供。
長期的な計画、永続的な状態変化、厳格なアクセスプロトコル、ツール検索摩擦といった現実の複雑さを評価対象とする。
164のデータベーステーブルと512の機能ツールを備え、8つのミッションクリティカルな分野（顧客サービス、HR、ITなど）にわたる1,150の専門家キュレーションタスクでエージェントを評価する。

2. 先行研究と比べてどこがすごい？

既存のベンチマークが捉えきれていなかった、現実の企業環境特有の複雑さ（長期計画、永続的な状態変化、厳格なアクセスプロトコル、ツール検索摩擦）を体系的に評価できる点が画期的。
大規模なDBとツールセット、そして状態管理を含むサンドボックス環境は、よりシンプルなタスクベースのベンチマークとは異なり、現実世界への適用可能性を深く探求できる。

3. 技術や手法の肝はどこ？

**コンテナ化されたサンドボックス環境:** 実際の企業システムを模倣し、エージェントの行動による状態変化が永続的に反映される。
**大規模なツールセットとデータベース:** 164のDBテーブルと512の機能ツールを用意し、現実の「検索摩擦」を再現。エージェントは適切なツールや情報を自律的に探し出す必要がある。
**専門家キュレーションタスク:** 8つのミッションクリティカルな分野で、現実的な複雑なタスクを1,150個用意し、多様なシナリオに対応。
**評価指標:** タスクの成功率だけでなく、実行不可能なタスクを適切に拒否する能力も評価対象とする。

4. どうやって有効だと検証した？

14の最先端LLM（Claude Opus 4.5を含む）をEnterpriseOps-Gymで評価。
トップモデルでも成功率が37.4%に留まることを示し、現在のLLMエージェントの企業環境における限界を明確にした。
オラクル（人間）の計画を提供した場合、パフォーマンスが14-35%ポイント向上することを分析し、戦略的推論が主要なボトルネックであることを特定した。
実行不可能なタスクの拒否能力も評価し、最高モデルで53.9%と不十分であることを示し、潜在的な有害作用のリスクを指摘した。
これらの結果から、EnterpriseOps-GymがLLMエージェントの現実的な課題を浮き彫りにする有効なテストベッドであることを証明した。

5. 議論はある？

現在のLLMエージェントは、自律的な企業展開にはまだ準備ができていないという結論を導き出している。
戦略的推論能力の向上が最も重要な研究課題であり、実行不可能なタスクを適切に拒否する能力も、安全な運用には不可欠であると強調している。
ベンチマークの規模は大きいものの、実際の企業環境はさらに複雑である可能性があり、特定の企業ドメインに特化した評価の必要性も今後の課題として考えられる。

6. 次に読むべき論文は？

LLMエージェントの計画能力や推論能力を向上させる手法に関する論文（例: Tree-of-Thought, Reflexion, CoT-SCなど）。
現実世界でのエージェントの安全性や頑健性に関する研究。
他のエージェントベンチマーク論文（例: AgentBench, MindAgent）と比較し、それぞれの特徴や評価観点の違いを理解する。
特定の企業ドメイン（例: IT運用、カスタマーサポート）におけるLLMエージェントの応用に関する論文。

Abstract (原文)

Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings💻 コードあり

Abstract (原文)