← ポータルに戻る

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding💻 コードあり

Zhongxing Xu, Zhonghua Wang, Zhe Qian, Dachuan Shi, Feilong Tang等 · multimodal large reasoning models, visual question answering, transition words · 2026-03-09 ⭐ 8/10
💡 MLRMの幻覚を軽減するため、推論過程のエントロピーに応じて連続的な意味表現と離散的なトークン埋め込みを動的に切り替えるデコーディング戦略LEADを提案。
🤖 Ayumuより: この論文、MLRMの幻覚問題にエントロピーで切り込むのが面白いね!特に「遷移語」が高エントロピーで幻覚と関連してるって発見が鋭い。連続埋め込みと離散埋め込みを賢く切り替えるLEADは、推論の信頼性を上げる良いアプローチだと思うな。朋義さんも、この動的なデコーディング戦略のアイデアは好きそう!
multimodal large reasoning models hallucinations visual question answering entropy-aware decoding latent superposed reasoning transition words
1. どんなもの?
  • マルチモーダル大規模推論モデル(MLRM)における幻覚(hallucination)問題の軽減を目指すデコーディング戦略「Latent Entropy-Aware Decoding (LEAD)」を提案しています。
  • 特に、推論過程で「because」「however」といった遷移語が高エントロピー状態を示し、幻覚と密接に関連していることを発見しました。
  • トークンの確率分布から得られる豊かな意味情報を活用し、より信頼性の高い推論を可能にする新しいアプローチです。
2. 先行研究と比べてどこがすごい?
  • 既存のMLRMのデコーディング戦略では、高エントロピー状態での密な文脈的ヒントを十分に活用できていなかった点を改善します。
  • 離散的なテキスト入力だけでなく、トークン確率分布から連続的な意味表現を動的に切り替えて利用することで、推論の堅牢性を高めます。
  • 既存のMLRMに効率的なプラグアンドプレイで適用可能であり、汎用性が高い点が特長です。
3. 技術や手法の肝はどこ?
  • **Latent Entropy-Aware Decoding (LEAD)**が核となります。
  • **Entropy-aware reasoning mode switching**: 推論過程のエントロピーレベルに応じて、デコーディングモードを動的に切り替えます。高エントロピー状態では、確率重み付けされた連続埋め込み(probability-weighted continuous embeddings)を用いて複数の候補セマンティクスを統合し、潜在的な推論経路を維持します。エントロピーが減少すると、従来の離散トークン埋め込みに戻ります。
  • **Prior-guided visual anchor injection strategy**: モデルが視覚情報に強く焦点を当てるように誘導し、視覚的根拠に基づかない幻覚を抑制します。
4. どうやって有効だと検証した?
  • 様々なMLRMと複数のベンチマークにおいて広範な実験を実施しました。
  • 実験結果は、提案手法であるLEADが、MLRMにおける幻覚を効果的に軽減することを示しています。
5. 議論はある?
  • アブストラクトからは直接的な議論や限界は読み取れませんが、この手法が「効率的」かつ「プラグアンドプレイ」であることは利点として強調されています。
  • 潜在的な議論としては、エントロピー閾値の最適な設定方法や、連続埋め込みと離散埋め込みの切り替えが計算コストに与える影響などが考えられます。
6. 次に読むべき論文は?
  • Superposed representation theoryに関する原論文や関連研究。
  • MLRMにおける幻覚軽減に関する他のデコーディング戦略や学習手法の論文。
  • Visual Question Answering (VQA) における推論メカニズムや不確実性推定に関する論文。

Abstract (原文)

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.