Exploration and Exploitation Errors Are Measurable for Langu

1. どんなもの？

LMエージェントの探索（Exploration）と活用（Exploitation）能力を定量的に評価する新しいフレームワークを提案。
複雑な意思決定タスクにおけるLMエージェントのコア要件である探索と活用の能力を、体系的に区別し定量化することが目的。
実用的なEmbodied AIシナリオにインスパイアされた、制御可能な環境を設計。
部分観測可能な2Dグリッドマップと未知のタスクDAG（有向非巡回グラフ）で構成され、マップ生成を調整することで探索または活用の難易度を強調できる。
エージェントの内部ポリシーにアクセスすることなく、観測された行動から探索エラーと活用エラーを測定するポリシー非依存の指標を開発。

2. 先行研究と比べてどこがすごい？

LMエージェントの探索・活用能力を、その内部ポリシーに依存せず、観測行動のみから体系的に区別し定量化できる点が画期的。
探索・活用の難易度をプログラムで調整可能な、現実的なEmbodied AIシナリオに即した新しい評価環境を構築した。
最先端のLMエージェントでさえ提案タスクに苦戦し、モデルごとに異なる失敗モードを示すことを発見し、現在のLMエージェントの限界と課題を明確にした。

3. 技術や手法の肝はどこ？

**制御可能な環境設計:** 部分観測可能な2Dグリッドマップと、完了すべき未知のタスクDAGを組み合わせた環境。マップの特性（例：壁の配置、アイテムの分散）を調整することで、探索または活用の難易度を細かく制御できる。
**ポリシー非依存の評価指標:** エージェントが実行した行動シーケンスから、探索が不足した「探索エラー」と、既知の情報をうまく活用できなかった「活用エラー」を定量的に算出する独自のメトリックを設計。
**ハーネスエンジニアリングによる改善:** 最小限の外部介入（プロンプトエンジニアリングや外部ツールの利用など）によって、LMエージェントの探索と活用の両方を大幅に改善できることを実証。

4. どうやって有効だと検証した？

様々な最先端のLMエージェント（アブストラクトでは「frontier LM agents」と記載）を提案環境で評価した。
その結果、SOTAモデルでさえ提案タスクに苦戦し、モデルごとに異なる失敗モードを示すことを確認し、評価指標の有効性を示した。
推論能力に優れたモデルがより効果的にタスクを解決することを発見し、モデルの能力とタスクパフォーマンスの関連性を明らかにした。
最小限のハーネスエンジニアリングを適用することで、LMエージェントの探索と活用のパフォーマンスが大幅に向上することを示し、実用的な改善策の可能性を提示した。

5. 議論はある？

アブストラクトからは直接的な議論や限界は読み取れないが、SOTAモデルが苦戦するという結果は、現在のLMエージェントが複雑な意思決定タスクにおいて、探索と活用のバランスを取る能力にまだ課題があることを示唆している。
「最小限のハーネスエンジニアリング」が具体的にどのような手法を指し、その汎用性や、より複雑なタスクへの適用可能性については、論文本体で詳細な議論が期待される。
提案された2DグリッドマップとDAGタスクの環境が、より多様なEmbodied AIシナリオや実世界の問題にどれだけ一般化できるか、という点も今後の議論の対象となり得る。

6. 次に読むべき論文は？

LMエージェントのプランニング、推論、意思決定能力に関する論文。
Embodied AIにおける探索・活用トレードオフや、強化学習における探索戦略に関する研究。
プロンプトエンジニアリングやエージェントアーキテクチャの改善によるLMの性能向上に関する論文。
「Measuring and Improving the Exploration-Exploitation Trade-off in Large Language Models」など、LMの探索・活用に焦点を当てた他の研究。

Abstract (原文)

Language Model (LM) agents are increasingly used in complex open-ended decision-making tasks, from AI coding to physical AI. A core requirement in these settings is the ability to both explore the problem space and exploit acquired knowledge effectively. However, systematically distinguishing and quantifying exploration and exploitation from observed actions without access to the agent's internal policy remains challenging. To address this, we design controllable environments inspired by practical embodied AI scenarios. Each environment consists of a partially observable 2D grid map and an unknown task Directed Acyclic Graph (DAG). The map generation can be programmatically adjusted to emphasize exploration or exploitation difficulty. To enable policy-agnostic evaluation, we design a metric to quantify exploration and exploitation errors from agent's actions. We evaluate a variety of frontier LM agents and find that even state-of-the-art models struggle on our task, with different models exhibiting distinct failure modes. We further observe that reasoning models solve the task more effectively and show both exploration and exploitation can be significantly improved through minimal harness engineering. We release our code https://github.com/jjj-madison/measurable-explore-exploit{here}.

Exploration and Exploitation Errors Are Measurable for Language Model Agents💻 コードあり

Abstract (原文)