PersonaVLM: Long-Term Personalized Multimodal LLMs

1. どんなもの？

長期的なパーソナライゼーションを実現するマルチモーダルLLMエージェントフレームワーク「PersonaVLM」
ユーザーの進化する嗜好やパーソナリティを時間経過とともに学習し、個々に合わせた応答を生成する。
既存のMLLMの静的・単一ターンパーソナライゼーションの限界を克服
記憶（Remembering）、推論（Reasoning）、応答調整（Response Alignment）の3つの主要能力を統合。

2. 先行研究と比べてどこがすごい？

静的・単一ターンに限定されていたパーソナライゼーションを「長期」かつ「進化する嗜好」に対応させた点
従来のMLLMは入力補強や出力調整で一時的なパーソナライゼーションしかできず、ユーザーの嗜好やパーソナリティの時間的変化を捉えられなかった。
マルチモーダルな記憶を時系列で管理し、多ターン推論に活用するフレームワークを提案
ユーザーとの過去のやり取りからマルチモーダルな情報を抽出し、パーソナライズされたデータベースとして活用することで、より深く、一貫性のあるパーソナライゼーションを実現。

3. 技術や手法の肝はどこ？

「Remembering」機能による時系列マルチモーダル記憶の構築
ユーザーとのインタラクションから能動的にマルチモーダルな情報を抽出し、要約してパーソナライズされたデータベース（記憶）として蓄積する。
「Reasoning」機能による多ターン推論と記憶の統合
データベースから関連する記憶を検索し、現在の対話コンテキストと統合することで、過去のやり取りに基づいたより深い推論を可能にする。
「Response Alignment」機能による進化するパーソナリティへの適応
長期的なインタラクションを通じてユーザーのパーソナリティの変化を推論し、それに基づいて応答を調整することで、常にユーザーのユニークな特性に合致した出力を保証する。

4. どうやって有効だと検証した？

新たに「Persona-MME」という包括的なベンチマークを構築
2,000以上の厳選されたインタラクションケースを含み、長期的なMLLMパーソナライゼーションを7つの主要側面と14のきめ細かいタスクで評価。
既存のベースラインモデルおよび最先端のLLMとの比較実験
128kコンテキスト下で、ベースラインをPersona-MMEで22.4%、PERSONAMEMで9.8%改善。GPT-4oに対してもそれぞれ5.2%と2.0%の性能向上を示し、提案手法の優位性を実証した。

5. 議論はある？

アブストラクトからは直接的な議論や限界に関する記述は見当たりません。

6. 次に読むべき論文は？

長期記憶を持つLLMに関する研究（例: Memory-Augmented LLMs, RAGの進化形）
パーソナライズされたエージェントフレームワークに関する論文
マルチモーダルLLMの基盤モデルやアーキテクチャに関する論文
ユーザーの嗜好モデリングやパーソナリティ推論に関する研究

Abstract (原文)

Multimodal Large Language Models (MLLMs) serve as daily assistants for millions. However, their ability to generate responses aligned with individual preferences remains limited. Prior approaches enable only static, single-turn personalization through input augmentation or output alignment, and thus fail to capture users' evolving preferences and personality over time (see Fig.1). In this paper, we introduce PersonaVLM, an innovative personalized multimodal agent framework designed for long-term personalization. It transforms a general-purpose MLLM into a personalized assistant by integrating three key capabilities: (a) Remembering: It proactively extracts and summarizes chronological multimodal memories from interactions, consolidating them into a personalized database. (b) Reasoning: It conducts multi-turn reasoning by retrieving and integrating relevant memories from the database. (c) Response Alignment: It infers the user's evolving personality throughout long-term interactions to ensure outputs remain aligned with their unique characteristics. For evaluation, we establish Persona-MME, a comprehensive benchmark comprising over 2,000 curated interaction cases, designed to assess long-term MLLM personalization across seven key aspects and 14 fine-grained tasks. Extensive experiments validate our method's effectiveness, improving the baseline by 22.4% (Persona-MME) and 9.8% (PERSONAMEM) under a 128k context, while outperforming GPT-4o by 5.2% and 2.0%, respectively. Project page: https://PersonaVLM.github.io.

PersonaVLM: Long-Term Personalized Multimodal LLMs💻 コードあり

Abstract (原文)