← ポータルに戻る

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens💻 コードあり

Yu Chen, Runkai Chen, Sheng Yi, Xinda Zhao, Xiaohong Li等 · long-term memory, large language models, attention mechanisms · 2026-03-06 ⭐ 9/10
💡 MSAは、スケーラブルなスパースアテンションとドキュメント単位のRoPEにより、LLMが100Mトークン規模の超長文コンテキストを効率的かつ高精度に処理できるエンドツーエンドのメモリモデルフレームワークである。
🤖 Ayumuより: これ、マジでヤバいね!LLMのコンテキスト長が100Mトークンって、人間の生涯レベルの記憶を扱えるってことじゃん。デジタルツインとか長期エージェントとか、SFの世界が現実になる一歩だね。特に、2xA800で100Mトークン推論できるってのが、リソース効率的で実用性も高そう。朋義さんも、これからのAIの進化を考える上で必読だよ!
long-term memory large language models attention mechanisms sparse attention context length memory model RoPE KV cache compression multi-hop reasoning
1. どんなもの?
  • LLMの超長文コンテキスト処理を可能にする新しいメモリモデルフレームワーク「Memory Sparse Attention (MSA)」を提案。
  • 人間の生涯規模の情報をAIが処理することを目指し、既存LLMのコンテキスト長制限(通常1Mトークン)を100Mトークンまで大幅に拡張する。
  • エンドツーエンドで学習可能であり、効率的かつ大規模にスケーラブルな設計が特徴。
2. 先行研究と比べてどこがすごい?
  • 既存手法の課題を克服: ハイブリッド線形アテンション、固定サイズメモリ、RAG/エージェントシステムが抱える精度劣化、レイテンシ増加、動的メモリ変更不可、エンドツーエンド最適化不足といった問題を解決。
  • 圧倒的なスケーラビリティと効率性: 学習・推論ともに線形計算量を達成し、16Kから100Mトークンへのスケーリングで精度劣化が9%未満と極めて安定。KVキャッシュ圧縮とMemory Parallelにより、2xA800 GPUで100Mトークン推論を実現。
  • 高度な推論能力: Memory Interleavingにより、散在するメモリセグメント間の複雑なマルチホップ推論を促進。最先端LLM、RAGシステム、メモリエージェントを長文コンテキストベンチマークで大幅に上回る性能。
3. 技術や手法の肝はどこ?
  • スケーラブルなスパースアテンション: 全アテンションの計算量を削減し、線形計算量を実現する中核技術。
  • ドキュメント単位のRoPE (Rotary Positional Embedding): 長いコンテキスト全体にわたる位置情報を効率的にエンコードし、安定したスケーリングを可能にする。
  • KVキャッシュ圧縮とMemory Parallel: 推論時のメモリフットプリントを大幅に削減し、複数のGPUにメモリを分散処理することで、限られたリソースでの超長文推論を可能にする。
  • Memory Interleaving: 散在するメモリセグメント間の情報統合を可能にし、複雑なマルチホップ推論能力を向上させる。
4. どうやって有効だと検証した?
  • スケーラビリティの検証: 16Kトークンから100Mトークンへのスケーリングで、精度劣化が9%未満であることを実証し、モデルの安定性と効率性を示した。
  • リソース効率の検証: KVキャッシュ圧縮とMemory Parallelの組み合わせにより、2xA800 GPUという比較的少ないリソースで100Mトークンの推論が可能であることを示した。
  • 性能ベンチマーク: 長文コンテキストベンチマークにおいて、既存のフロンティアLLM、最先端RAGシステム、主要なメモリエージェントを大幅に上回る性能を示した。
  • 複雑なシナリオへの応用: 大規模コーパス要約、デジタルツイン、長期履歴エージェント推論といった、既存手法では困難だったシナリオへの適用可能性を示唆した。
5. 議論はある?
  • アブストラクトからは直接的な議論の記述はないが、スパース化戦略の具体的な詳細、9%未満の精度劣化が特定のタスクで許容範囲内か、超長文コンテキストでのエンドツーエンド学習の最適化の難しさ、様々なドメインやタスクへの汎用性、実用化における学習リソースやデプロイメントの課題などが議論の対象となりうる。
6. 次に読むべき論文は?
  • スパースアテンションの具体的な戦略(例: LongNet, BigBird, Reformerなど)に関する論文。
  • Gemini 1.5 ProやClaude 3 Opusなど、他の長文コンテキスト対応LLMのアーキテクチャやベンチマーク結果に関する最新研究。
  • RAGやエージェントシステムの最新の進歩と限界に関する論文。
  • RoPE (Rotary Positional Embedding) の拡張や変種に関する論文。

Abstract (原文)

Long-term memory is a cornerstone of human intelligence. Enabling AI to process lifetime-scale information remains a long-standing pursuit in the field. Due to the constraints of full-attention architectures, the effective context length of large language models (LLMs) is typically limited to 1M tokens. Existing approaches, such as hybrid linear attention, fixed-size memory states (e.g., RNNs), and external storage methods like RAG or agent systems, attempt to extend this limit. However, they often suffer from severe precision degradation and rapidly increasing latency as context length grows, an inability to dynamically modify memory content, or a lack of end-to-end optimization. These bottlenecks impede complex scenarios like large-corpus summarization, Digital Twins, and long-history agent reasoning, while limiting memory capacity and slowing inference. We present Memory Sparse Attention (MSA), an end-to-end trainable, efficient, and massively scalable memory model framework. Through core innovations including scalable sparse attention and document-wise RoPE, MSA achieves linear complexity in both training and inference while maintaining exceptional stability, exhibiting less than 9% degradation when scaling from 16K to 100M tokens. Furthermore, KV cache compression, combined with Memory Parallel, enables 100M-token inference on 2xA800 GPUs. We also propose Memory Interleaving to facilitate complex multi-hop reasoning across scattered memory segments. MSA significantly surpasses frontier LLMs, state-of-the-art RAG systems, and leading memory agents in long-context benchmarks. These results demonstrate that by decoupling memory capacity from reasoning, MSA provides a scalable foundation to endow general-purpose models with intrinsic, lifetime-scale memory.