← ポータルに戻る

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents💻 コードあり

Fanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu等 · language-model agents, multi-turn multi-day tasks, stateful sandboxed service environment · 2026-04-26 ⭐ 9/10
💡 LLM同僚エージェントの現実世界での持続性、適応性、マルチモーダル能力を評価するため、動的に状態が変化するサンドボックス環境とルールベースの厳密な評価を持つ新しいベンチマーク「ClawMark」を提案。
🤖 Ayumuより: 「同僚エージェント」ってコンセプトがもう面白いよね!既存のベンチマークが静的でテキスト中心だったのに対して、このClawMarkは「リビングワールド」って表現がぴったりな動的な環境で評価してるのがすごい。最強モデルでも厳密なタスク成功率が20%って結果は衝撃的で、まだまだAI同僚との道のりは長いってことを示してるね。特に、環境が変化した後にパフォーマンスが落ちるって分析は、これからのエージェント研究のボトルネックを明確にしてて、朋義さん、きっと興味深いと思うよ!
language-model agents multi-turn multi-day tasks stateful sandboxed service environment multimodal coworker agents benchmark evaluation
1. どんなもの?
  • LLM同僚エージェントのための新しいベンチマーク「ClawMark」
  • マルチターン、マルチデイ、マルチモーダルなタスクを評価する。現実世界の動的な環境変化(新着メール、カレンダー変更、ナレッジベース更新、画像/PDF/音声/動画/スプレッドシートからの情報出現)をシミュレートする。
  • 状態を持つサンドボックス環境とルールベースの厳密な評価システム
  • ファイルシステム、メール、カレンダー、ナレッジベース、スプレッドシートの5つのサービスがターン間で状態を変化させる。1537個の決定論的Pythonチェッカーによるスコアリングで、LLM-as-judgeのバイアスを排除し、客観性と再現性を確保。
2. 先行研究と比べてどこがすごい?
  • 動的な環境変化への対応
  • 既存ベンチマークが単一静的エピソード、テキスト中心であるのに対し、ClawMarkはターン間で環境状態が独立して変化する「リビングワールド」をシミュレート。これにより、エージェントの持続性、適応性、記憶力をより現実的に評価できる。
  • マルチモーダルな情報処理能力の評価
  • 画像、スキャンPDF、音声、動画、スプレッドシートなど、多様な形式の証拠を処理する能力を要求。既存のテキスト中心の限界を超え、より現実的な業務シナリオに対応する。
  • 決定論的かつ客観的な評価
  • LLM-as-judgeではなく、ルールベースのPythonチェッカーを使用することで、評価の客観性と再現性を大幅に向上。これにより、エージェントの真の能力を公平に比較できる。
3. 技術や手法の肝はどこ?
  • 状態を持つサンドボックス化されたサービス環境
  • ファイルシステム、メール、カレンダーなど、実際の業務で使われるサービスを模倣し、それらの状態がタスクの進行や外部要因によって動的に変化する仕組み。エージェントは過去の行動や環境の変化を記憶し、適応する必要がある。
  • マルチターン・マルチデイタスク設計
  • 単発の質問応答ではなく、複数日にわたる複雑なワークフローを模倣。エージェントは長期的な計画、情報の追跡、そして中断からの再開を求められる。
  • ルールベースの厳密な検証システム
  • 1537個のPythonチェッカーが、エージェントの最終的なサービス状態を検証し、タスクの達成度を客観的にスコアリング。部分的な進捗も評価する加重スコアと、厳密なタスク成功率の両方を提供する。
4. どうやって有効だと検証した?
  • 最先端エージェントシステムのベンチマーク
  • 7つのフロンティアエージェントシステムをClawMark上で評価し、その性能を定量的に測定した。
  • 定量的なスコアリングと課題の特定
  • 最強モデルでも加重スコア75.8%に留まり、厳密なタスク成功率は20.0%と低いことを示した。これは、部分的な進捗は可能だが、完全なエンドツーエンドのワークフロー完了が非常に難しいことを示唆し、ベンチマークが既存システムの限界を浮き彫りにしていることを示す。
  • ターンレベル分析によるボトルネックの特定
  • 最初の外因性環境更新後にエージェントのパフォーマンスが顕著に低下することを分析で示し、動的な状態変化への適応が主要な未解決課題であることを明確にした。これにより、ベンチマークが今後の研究方向性を示唆する有効なツールであることを証明。
5. 議論はある?
  • 厳密なタスク成功率の低さ
  • 最強モデルでも20%という結果は、現在のエージェントがまだ現実世界の複雑なマルチデイ・マルチターンタスクを完全にこなすには程遠いことを示している。部分的な進捗と完全な成功のギャップが大きい。
  • 動的環境への適応の難しさ
  • 環境が変化した後のパフォーマンス低下は、エージェントが新しい情報や変化した状況に効果的に適応し、計画を修正する能力が不足していることを示唆。これは、エージェントの記憶、推論、計画能力における根本的な課題を浮き彫りにする。
  • ベンチマークの複雑さと構築コスト
  • 100タスク、13シナリオ、5サービス、1537チェッカーという規模は非常に大きく、このような動的なベンチマークを構築・維持するコストは高い。今後の拡張性やコミュニティによる貢献のしやすさも考慮する必要があるかもしれない。
6. 次に読むべき論文は?
  • LLMエージェントの長期記憶、計画、および動的な環境への適応メカニズムに関する研究論文。
  • マルチモーダル情報処理能力を向上させるためのエージェントアーキテクチャや学習手法に関する論文。
  • LLM-as-judgeの課題と、より客観的で決定論的な評価手法を提案する論文。

Abstract (原文)

Language-model agents are increasingly used as persistent coworkers that assist users across multiple working days. During such workflows, the surrounding environment may change independently of the agent: new emails arrive, calendar entries shift, knowledge-base records are updated, and evidence appears across images, scanned PDFs, audio, video, and spreadsheets. Existing benchmarks do not adequately evaluate this setting because they typically run within a single static episode and remain largely text-centric. We introduce , a benchmark for coworker agents built around multi-turn multi-day tasks, a stateful sandboxed service environment whose state evolves between turns, and rule-based verification. The current release contains 100 tasks across 13 professional scenarios, executed against five stateful sandboxed services (filesystem, email, calendar, knowledge base, spreadsheet) and scored by 1537 deterministic Python checkers over post-execution service state; no LLM-as-judge is invoked during scoring. We benchmark seven frontier agent systems. The strongest model reaches 75.8 weighted score, but the best strict Task Success is only 20.0\%, indicating that partial progress is common while complete end-to-end workflow completion remains rare. Turn-level analysis shows that performance drops after the first exogenous environment update, highlighting adaptation to changing state as a key open challenge. We release the benchmark, evaluation harness, and construction pipeline to support reproducible coworker-agent evaluation.