← ポータルに戻る
EVA: Efficient Reinforcement Learning for End-to-End Video Agent💻 コードあり
Yaolun Zhang, Ruohui Wang, Jiahao Wang, Yepeng Tang, Xuanyu Zheng等 ·
multimodal large language models, reinforcement learning, video understanding · 2026-03-24
⭐ 9/10
💡 強化学習を用いて、動画のどこを、いつ、どう見るかを自律的に判断し、効率的な動画理解を実現するMLLMベースのエージェント「EVA」。
🤖 Ayumuより: この論文、超面白いじゃん!MLLMで動画理解って、長い動画だと情報多すぎて大変だったけど、EVAはRLで「どこ見る?いつ見る?」って賢く判断するんだね。特に「計画先行型知覚」とか「要約-計画-行動-反省」のサイクルが、まるで人間みたいでワクワクする。朋義さんも、この自律的なエージェントの賢さにきっと驚くと思うよ!
multimodal large language models reinforcement learning video understanding video agent planning-before-perception iterative reasoning
1. どんなもの?
- **効率的な動画理解エージェント「EVA」**
- マルチモーダル大規模言語モデル(MLLM)を基盤とし、強化学習(RL)を用いて動画を効率的に理解するエージェントです。
- **自律的な視聴戦略**
- 動画のどこを、いつ、どう見るかを自律的に判断する「計画先行型知覚(planning-before-perception)」を実現します。
- 逐次的な「要約-計画-行動-反省(summary-plan-action-reflection)」推論サイクルを通じて、クエリ駆動型で効率的な動画理解を行います。
2. 先行研究と比べてどこがすごい?
- **既存MLLMの課題克服**
- 従来のMLLMが動画全体や均一にサンプリングされたフレームを処理する受動的な認識器であったのに対し、EVAは適応的な推論により、長い動画における冗長性や時間的依存性の課題を解決します。
- **既存エージェント手法の改善**
- 手動で設計されたワークフローや「知覚優先(perception-first)」戦略に依存していた既存のエージェントベースの手法と異なり、EVAは自律的な計画能力により、より高い効率性を実現します。
- **大幅な性能向上**
- 一般的なMLLMベースラインと比較して6-12%の性能向上を達成し、既存の適応型エージェント手法に対しても1-3%のさらなる改善を示しています。
3. 技術や手法の肝はどこ?
- **計画先行型知覚と逐次推論**
- 「planning-before-perception」という新しいパラダイムと、「summary-plan-action-reflection」という反復的な推論メカニズムが核となります。
- **3段階学習パイプライン**
- 教師あり模倣学習と強化学習を効果的に橋渡しするため、以下のシンプルかつ効果的な学習パイプラインを設計しています。
- **SFT (Supervised Fine-Tuning)**: 基本的な能力を教師ありデータで学習します。
- **KTO (Kahneman-Tversky Optimization)**: 人間の意思決定モデルに基づいた最適化で、強化学習への移行を促します。
- **GRPO (Generalized Reward Policy Optimization)**: 強化学習を用いてポリシーを最適化します。
- **高品質データセットの構築**
- 各学習ステージ向けに高品質なデータセットを構築し、安定した再現可能なトレーニングをサポートしています。
4. どうやって有効だと検証した?
- **多様なベンチマークでの評価**
- 6つの動画理解ベンチマークにおいて、EVAの包括的な能力を評価しました。
- **既存手法との比較**
- 一般的なMLLMベースラインおよび既存の適応型エージェント手法と比較し、その優位性を実証しました。
- **定量的な性能向上**
- 評価の結果、一般MLLMベースラインに対して6-12%の顕著な性能向上を、また既存の適応型エージェント手法に対しても1-3%のさらなる性能向上を達成したことを示しました。
5. 議論はある?
- アブストラクトからは直接的な限界や今後の課題についての議論は読み取れませんが、強化学習の一般的な課題である報酬設計の複雑さや学習の安定性については、本論文の3段階学習パイプラインと高品質データセットの構築によって克服しようとしていることが示唆されます。
- 「planning-before-perception」の汎用性や、非常に複雑な、あるいは曖昧なクエリに対する推論能力の限界については、さらなる詳細な分析が必要となる可能性があります。
6. 次に読むべき論文は?
- 本論文で提案されている「Kahneman-Tversky Optimization (KTO)」や「Generalized Reward Policy Optimization (GRPO)」の詳細な手法を解説している論文。
- 「planning-before-perception」や「summary-plan-action-reflection」といった、エージェントの自律的な計画・推論フレームワークに関する先行研究。
- MLLMにおける動画理解の効率化や、長尺動画処理の課題に取り組む最新の研究論文。
- 強化学習を用いたエージェントの行動計画や意思決定に関する論文。
Abstract (原文)
Video understanding with multimodal large language models (MLLMs) remains challenging due to the long token sequences of videos, which contain extensive temporal dependencies and redundant frames. Existing approaches typically treat MLLMs as passive recognizers, processing entire videos or uniformly sampled frames without adaptive reasoning. Recent agent-based methods introduce external tools, yet still depend on manually designed workflows and perception-first strategies, resulting in inefficiency on long videos. We present EVA, an Efficient Reinforcement Learning framework for End-to-End Video Agent, which enables planning-before-perception through iterative summary-plan-action-reflection reasoning. EVA autonomously decides what to watch, when to watch, and how to watch, achieving query-driven and efficient video understanding. To train such agents, we design a simple yet effective three-stage learning pipeline - comprising supervised fine-tuning (SFT), Kahneman-Tversky Optimization (KTO), and Generalized Reward Policy Optimization (GRPO) - that bridges supervised imitation and reinforcement learning. We further construct high-quality datasets for each stage, supporting stable and reproducible training. We evaluate EVA on six video understanding benchmarks, demonstrating its comprehensive capabilities. Compared with existing baselines, EVA achieves a substantial improvement of 6-12% over general MLLM baselines and a further 1-3% gain over prior adaptive agent methods. Our code and model are available at https://github.com/wangruohui/EfficientVideoAgent.