← ポータルに戻る

Gen-Searcher: Reinforcing Agentic Search for Image Generation💻 コードあり

Kaituo Feng, Manyuan Zhang, Shuang Chen, Yunlong Lin, Kaixuan Fan等 · search-augmented image generation, multi-hop reasoning, agentic reinforcement learning · 2026-03-30 ⭐ 9/10
💡 外部検索とマルチホップ推論を強化学習で統合し、知識集約的な画像生成を可能にするエージェント「Gen-Searcher」を提案。
🤖 Ayumuより: これ、めっちゃ面白いじゃん!既存の画像生成モデルって、学習した知識に縛られちゃうのが弱点だったけど、Gen-Searcherは自分でググって情報集めてくるんだって。しかも強化学習で賢くなるってのがアツいね。朋義さん、これからの生成AIは「賢く検索する能力」が超重要になるってことだよね!
search-augmented image generation multi-hop reasoning agentic reinforcement learning external knowledge image generation agent dual reward KnowGen
1. どんなもの?
  • 知識集約的な画像生成のための検索拡張型エージェント「Gen-Searcher」を提案。
  • 既存の画像生成モデルが持つ「内部知識の限界」を克服し、最新情報や専門知識を必要とするプロンプトにも対応可能にする。
  • マルチホップ推論と検索を通じて、外部のテキスト知識や参照画像を収集し、より根拠に基づいた画像を生成する。
2. 先行研究と比べてどこがすごい?
  • 検索拡張型画像生成エージェントを強化学習で訓練する初の試み。
  • 既存モデルが学習データに依存し、知識がフリーズしている問題を、外部検索を動的に実行するエージェントで解決する。
  • 検索と画像生成のプロセスを統合し、エージェントが自律的に情報を収集・活用するフレームワークを構築した。
3. 技術や手法の肝はどこ?
  • **エージェント型検索とマルチホップ推論:** プロンプトに応じて必要な情報を判断し、複数回の検索ステップで情報を収集する能力。
  • **専用データセットの構築:** 検索集約型プロンプトと対応する合成画像を含む高品質なデータセット(Gen-Searcher-SFT-10k, Gen-Searcher-RL-6k)をキュレート。
  • **デュアル報酬強化学習:** SFT(Supervised Fine-Tuning)後、テキストベースと画像ベースの両方の報酬を組み合わせた強化学習(GRPO)でエージェントを訓練し、検索の質と生成画像の質の双方を向上させる。
  • **KnowGenベンチマーク:** 検索に基づいた外部知識を明示的に要求する画像生成を評価するための包括的な新しいベンチマークを導入。
4. どうやって有効だと検証した?
  • 新しく導入した「KnowGen」ベンチマークと既存の「WISE」ベンチマークで性能を評価。
  • ベースラインモデルであるQwen-Imageと比較し、KnowGenで約16ポイント、WISEで約15ポイントの性能向上を達成したことを示した。
  • これらの大幅な改善は、Gen-Searcherが知識集約的な画像生成タスクにおいて、外部知識の活用により優れた結果をもたらすことを実証している。
5. 議論はある?
  • アブストラクトからは直接的な議論の記述はないが、検索エージェントの一般的な課題として、検索結果の信頼性やバイアス、検索コスト(時間、API利用料など)が挙げられる。
  • 収集した外部情報の解釈と画像生成への統合の複雑さ、および強化学習における報酬設計のさらなる最適化の可能性も考えられる。
  • 本研究が「first attempt」であるため、今後の研究でこれらの課題が深掘りされることが期待される。
6. 次に読むべき論文は?
  • 検索拡張型生成(Retrieval-Augmented Generation, RAG)に関する論文、特にマルチモーダルRAGの動向。
  • エージェント型AI(Agentic AI)やマルチモーダルエージェントの設計と訓練に関する論文。
  • 強化学習を用いたエージェントの訓練手法、特にポリシー最適化アルゴリズム(例: GRPO, PPO)に関する詳細な研究。
  • 画像生成モデルにおける外部知識統合や、知識制約を克服するための手法に関する研究。

Abstract (原文)

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.