When Numbers Speak: Aligning Textual Numerals and Visual Ins

1. どんなもの？

Text-to-video拡散モデルが、プロンプトで指定されたオブジェクトの数を正確に生成できないという課題を解決するフレームワーク「NUMINA」を提案。
NUMINAは、追加学習不要（training-free）な「identify-then-guide」アプローチを採用。
数に正確な動画生成を可能にし、既存のモデルの弱点を補完する。

2. 先行研究と比べてどこがすごい？

従来のText-to-videoモデルは、プロンプト内の数値情報（例: 「3匹の猫」）を正確に視覚化するのが苦手だったが、NUMINAはこの「数値と視覚の一致」問題を大幅に改善。
シード探索やプロンプト強化といった既存の性能向上アプローチとは異なり、モデルの内部構造（attentionメカニズム）をガイドする「構造的ガイダンス」という新しい視点を提供。
追加の学習なしで、既存のモデルの性能を向上させられる点が実用的。

3. 技術や手法の肝はどこ？

**Identifyフェーズ**: プロンプトと生成されるレイアウトの不整合を特定。
識別力の高いself-attentionヘッドとcross-attentionヘッドを選び出す。
これらのヘッドから、数えられる潜在的なレイアウト（countable latent layout）を導出する。
**Guideフェーズ**: 導出したレイアウトに基づいて再生成をガイド。
導出したレイアウトを保守的に洗練させる。
cross-attentionを調整（modulate）することで、モデルの再生成プロセスをガイドし、指定されたオブジェクト数を正確に生成するように促す。

4. どうやって有効だと検証した？

新たに導入したベンチマーク「CountBench」を用いて、複数のText-to-video拡散モデルで評価を実施。
具体的な性能向上として、Wan2.1-1.3Bモデルで最大7.4%のカウント精度向上を達成。
より大規模な5Bモデルで4.9%、14Bモデルで5.5%の精度向上を確認。
オブジェクト数の正確性だけでなく、CLIPアライメント（テキストと画像の整合性）も向上し、時間的一貫性も維持されていることを示した。

5. 議論はある？

アブストラクトからは直接的な議論は読み取れないが、training-freeな手法であるため、その汎用性と計算効率の高さが大きな利点として考えられる。
限界としては、特定のattentionヘッドの選択基準や、レイアウト精緻化の「保守的」な性質が、どのような状況で性能のボトルネックになり得るか、あるいは他のプロンプトタイプ（例: 複雑な空間関係）への適用可能性などが今後の議論の対象となる可能性がある。
構造的ガイダンスが既存のシード探索やプロンプト強化とどのように相乗効果を生むか、さらなる探求の余地がある。

6. 次に読むべき論文は？

Text-to-video拡散モデルの基礎となる論文（例: Make-A-Video, Imagen Video, Gen-1/2など）。
拡散モデルにおけるAttentionメカニズムの役割や、その操作に関する論文。
ControlNetなど、拡散モデルの生成を構造的に制御する手法に関する論文。
オブジェクト検出やセグメンテーションを用いた画像・動画解析に関する論文。

Abstract (原文)

Text-to-video diffusion models have enabled open-ended video synthesis, but often struggle with generating the correct number of objects specified in a prompt. We introduce NUMINA , a training-free identify-then-guide framework for improved numerical alignment. NUMINA identifies prompt-layout inconsistencies by selecting discriminative self- and cross-attention heads to derive a countable latent layout. It then refines this layout conservatively and modulates cross-attention to guide regeneration. On the introduced CountBench, NUMINA improves counting accuracy by up to 7.4% on Wan2.1-1.3B, and by 4.9% and 5.5% on 5B and 14B models, respectively. Furthermore, CLIP alignment is improved while maintaining temporal consistency. These results demonstrate that structural guidance complements seed search and prompt enhancement, offering a practical path toward count-accurate text-to-video diffusion. The code is available at https://github.com/H-EmbodVis/NUMINA.

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models💻 コードあり

Abstract (原文)