← ポータルに戻る

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data💻 コードあり

Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song等 · agentic supervised fine-tuning, agentic reinforcement learning, information gain · 2026-04-21 ⭐ 9/10
💡 わずか10Kのオープンデータと2段階の訓練手法により、4Bパラメータの小型モデルがエッジスケール向け深層研究エージェントとして大型モデルに匹敵する性能を達成した。
🤖 Ayumuより: これ、マジでやばいね!たった10Kのデータで4Bモデルが30Bクラスに迫るって、小型モデルの可能性を爆上げしてるじゃん。特に情報利得ベースのRL報酬設計が賢いよね。朋義さん、エッジAIとかLLMの効率化に興味あるなら、これは絶対チェックすべき!
Agentic Supervised Fine-Tuning Agentic Reinforcement Learning Edge-scale agents
1. どんなもの?
  • エッジスケール向け小型深層研究エージェント「DR-Venus」を提案
  • わずか10Kのオープンデータで訓練された4Bパラメータのモデル。
  • 低コスト、低遅延、プライバシー保護に優れる実世界展開を想定。
  • 既存の小型エージェントモデルを大幅に上回り、大型モデルに匹敵する性能を達成。
2. 先行研究と比べてどこがすごい?
  • 9Bパラメータ以下の先行エージェントモデルを複数の深層研究ベンチマークで大幅に凌駕。
  • 30Bクラスの大型システムとの性能ギャップを大きく縮小。
  • 訓練データが約10Kのオープンデータのみという極めて限られた条件下で、この高性能を実現。
  • モデル、コード、主要な訓練レシピを公開し、再現可能な研究を促進。
3. 技術や手法の肝はどこ?
  • 2段階の訓練レシピを採用:
  • 厳密なデータクリーニングと、長軌跡のリサンプリングを組み合わせることで、データ品質と利用率を向上。
  • IGPO (Information Gain Policy Optimization) を基盤とし、情報利得とフォーマット認識正則化に基づくターンレベル報酬を設計。
  • これにより、監督密度を高め、ターンレベルでの信用割り当てを強化。
4. どうやって有効だと検証した?
  • 複数の深層研究ベンチマークを用いて、DR-Venus-4Bの性能を評価。
  • 結果として、9B以下の先行エージェントモデルを大きく上回り、30Bクラスの大型システムとの性能差を縮めることを実証。
  • 詳細な分析により、4Bエージェントが驚くほど強力な性能ポテンシャルを持つことを示し、小型モデルの実用的な展開可能性とテスト時スケーリングの価値を強調。
5. 議論はある?
  • 4Bエージェントがすでに驚くほど強力な性能ポテンシャルを持っているという発見は、小型モデルの能力に関する従来の認識を覆す可能性があり、今後の研究の方向性を示唆している。
  • テスト時スケーリングの価値が強調されており、訓練後の最適化や利用方法が性能に大きく寄与する可能性が示唆される。
6. 次に読むべき論文は?
  • IGPO (Information Gain Policy Optimization) に関する原論文。
  • Agentic SFTやAgentic RLを用いた小型言語モデルのエージェント能力向上に関する先行研究。
  • エッジAIや効率的なLLM展開に関する研究。

Abstract (原文)

Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.