Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

著者 Yuanzhe Hu, Yu Wang, Julian McAuley

所属 UC San Diego

投稿日 2025年07月07日

カテゴリ cs.AI, cs.LG, cs.CL

arXiv 2507.05257v1 ↗

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

基本情報

arXiv ID: 2507.05257v1 (https://arxiv.org/abs/2507.05257)
著者: Yuanzhe Hu, Yu Wang, Julian McAuley
所属: UC San Diego
投稿日: 2025年07月07日
カテゴリ: cs.AI, cs.LG, cs.CL

簡単に説明すると

この論文は、大規模言語モデル（LLM）エージェントのメモリ機能を評価するための新しいベンチマーク「MemoryAgentBench」を提案しています。
従来のベンチマークはエージェントの推論・計画・実行能力に焦点を当てていましたが、メモリ（記憶・更新・検索）の評価は不十分でした。

この研究では、メモリエージェントが持つべき4つの重要な能力を定義しています。
これらは「正確な検索」「テスト時学習」「長距離理解」「競合解決」です。
既存のデータセットを再構築し、新たに2つのデータセット（EventQAとFactConsolidation）を作成しました。

評価の結果、現在の手法は4つの能力すべてを習得することには至っていないことが明らかになりました。
特に商用メモリエージェント（Mem0、MemGPTなど）は幅広いベンチマークで限定的な性能しか示せませんでした。

プロジェクトのデータセットとソースコードは以下で公開されています。

HuggingFace Datasets: https://huggingface.co/datasets/ai-hyz/MemoryAgentBench
GitHub: https://github.com/HUST-AI-HYZ/MemoryAgentBench

1. 研究概要

1.1 背景と動機

大規模言語モデル（LLM）エージェントは、概念実証のチャットボットから急速に進化しています。
現在では、ソフトウェアを書き、ブラウザを制御し、マルチモーダル入力について推論できるエンドツーエンドシステムとなっています。
MANUSやOWL、OpenHands、CodexなどのフレームワークはGAIAやSWE-Benchなどのエージェントベンチマークで優れた結果を達成しています。
しかし、これらの評価は推論（計画、ツール使用、コード合成）にほぼ独占的に焦点を当てており、同様に重要な記憶（抽象化、保存、更新、検索）の問題はほとんど探究されていません。

最近のメモリ中心のアーキテクチャは、多様な戦略を採用しています。
パラメトリックメモリシステムとしてMemoryLLMやSELF-PARAM、M+があります。
商用トークンレベルメモリソリューションとしてMemGPTやMem0、Cognee、Zepなどが存在します。
しかし、その実世界での有効性は主に逸話的なものにとどまっており、エージェントのメモリ品質を体系的に評価するための統一されたベンチマークは現在存在しません。

既存の長文脈ベンチマークは、メモリエージェントの評価に直接使用できません。
メモリと長文脈には根本的な違いがあります。
メモリは過去の情報の圧縮され蒸留された表現として機能します。
すべての履歴内容を逐語的に保存するのではなく、メモリは顕著な詳細を選択的に抽出し、無関係な情報を削除し、しばしば以前の経験から導出された新しい推論を組み込みます。

1.2 主要な貢献

この研究の主要な貢献は以下の通りです。

データセット：既存のデータセットを再構築し、4つの異なるメモリ能力をカバーする2つの新しいデータセットを作成しました。
フレームワーク：統一された評価フレームワークを提供し、再現性とさらなる研究を促進するためにコードベースとデータセットをオープンソース化しました。
実証研究：多様なメモリメカニズムを持つシンプルなエージェントを実装し、商用エージェントを採用し、提案したベンチマークでこれらのエージェントを評価しました。

2. 提案手法

2.1 手法の概要

MemoryAgentBenchは、メモリエージェントが持つべき4つの補完的な能力を評価するために設計されています。

正確な検索（Accurate Retrieval, AR）：クエリに応じて正しいスニペットを抽出する能力。
ワンホップまたはマルチホップの検索を含む。
テスト時学習（Test-Time Learning, TTL）：追加のトレーニングなしで新しい動作を組み込む能力。
デプロイメント中に新しいスキルを獲得することも含む。
長距離理解（Long-Range Understanding, LRU）：拡張コンテキスト（10万トークン以上）に分散された情報を統合する能力。
シーケンス全体のグローバルな理解を必要とする質問に答えることができる。
競合解決（Conflict Resolution, CR）：矛盾する証拠に直面した際の情報更新スキル。
以前に保存された情報を修正、上書き、または削除できる。

評価フレームワークでは、エージェントはユーザーとのマルチターンインタラクションをシミュレートするテキスト入力のシーケンスを提示されます。
既存のデータセットを複数のチャンクに分割し、エージェントに段階的に供給します。

2.2 技術的詳細

評価対象のメモリエージェントは以下の3つのカテゴリに分類されます。

長文脈エージェント（Long Context Agents）：
現代の言語モデルは128Kから100万トークン以上の拡張コンテキストウィンドウをサポートしています。
メモリの直接的な戦略は、最新のトークンのコンテキストバッファを維持することです。
制限に達すると、最も古いチャンクがFIFO方式で削除されます。

RAGエージェント（RAG Agents）：
RAGベースのエージェントは、過去の情報を外部メモリプールに保存します。
必要な場合に関連コンテンツを取得することでコンテキストの制限に対処します。
3つのRAGバリアントを検討しています。

シンプルRAGエージェント：すべての入力チャンクを生のテキストとして保存
埋め込みベースRAGエージェント：各入力チャンクを埋め込み、コサイン類似度を使用して検索
構造拡張RAGエージェント：構造化表現（知識グラフやイベントタイムラインなど）を構築

エージェント型メモリエージェント（Agentic Memory Agents）：
エージェント型メモリエージェントは、静的なメモリストアを超えています。
質問を再定式化し、メモリ検索し、作業メモリを更新する反復的な推論サイクルを採用しています。

2.3 新規性

この研究の新規性は以下の点にあります。

メモリエージェントの評価に特化した初の包括的ベンチマークの構築
4つの重要なメモリ能力の体系的な定義と評価
既存データセットの再構築と新規データセットの作成による評価の充実
商用メモリエージェントを含む幅広い手法の統一的な評価

3. 実験結果

3.1 実験設定

データセットは4つのカテゴリに分類され、合計17のデータセットが使用されました。

評価メトリクスはタスクによって異なりますが、主に精度（Accuracy）、F1スコア、ROUGEスコアなどが使用されています。

チャンクサイズの設定では、AR内のRULER-QA、NIAH-MQ、LME(S*)タスク、およびCRのすべてのタスクで512を選択しました。
その他のタスクでは4096のチャンクサイズを使用しています。

3.2 主要な結果

全体的な性能比較から、以下の重要な発見が得られました。

正確な検索タスクにおけるRAG手法の優位性：
ほとんどのRAGエージェントは正確な検索カテゴリのタスクでバックボーンモデル「GPT-4o-mini」より優れている。
例えば、NV-Embed-v2はRULER-QAで83.0%の精度を達成しました。
テスト時学習と長距離理解における長文脈モデルの優位性：
長文脈モデルはTTLとLRUで高い性能を達成している。
Claude-3.7-SonnetはMCCで89.4%、∞Bench-Sumで52.5%を達成しました。
競合解決におけるすべての既存手法の限界：
すべての手法がマルチホップの状況で失敗し（最大6%の精度）、シングルホップのシナリオでも長文脈エージェントのみが妥当な結果を達成できた。
商用メモリエージェントの限定的な性能：
MemGPTとMem0などの商用メモリエージェントは、幅広いベンチマークで限定的な性能を示しました。
これは主に3つの要因によるものです：入力をメモリに保存する際の情報の損失、保存された情報のサブセットのみにアクセスする検索メカニズム、埋め込みベースの検索への過度の依存。

3.3 既存手法との比較

RAG手法は正確な検索において優れた性能を示しましたが、長距離理解や競合解決では劣っています。

長文脈モデルは全体的にバランスの取れた性能を示しましたが、コンテキストウィンドウのサイズによる制限があります。

商用メモリエージェントは、理論的には高度な機能を持っているにもかかわらず、実際のベンチマークでは期待される性能を示せませんでした。

4. 実用性評価

4.1 実装の容易性

MemoryAgentBenchは統一された評価フレームワークを提供しており、新しいメモリエージェントの評価が容易に行えます。

データセットとコードはオープンソース化されており、研究者が独自のメモリエージェントを評価したり、新しいデータセットを追加したりできる。

ただし、商用メモリエージェントの評価には高い計算リソースが必要です。
例えば、Mem0は512のチャンクサイズで14,644秒のメモリ構築時間を要しました。

4.2 計算効率

計算遅延の分析により、メモリ構築と質問実行の両方で大きな差があることを確認しました。

長文脈エージェントは比較的高速です。
一方で、構造拡張RAGエージェントやエージェント型メモリエージェントは非常に高い計算コストを要します。

チャンクサイズを小さくすると、特にHippoRAG-v2、Mem0、Cognee、MemGPTなどの手法でメモリ構築に必要な時間が増加します。

4.3 応用可能性

MemoryAgentBenchは以下のような応用が期待されます。

対話型AIアシスタント：長期間の対話履歴を管理し、ユーザーとの関係を維持
知識管理システム：大量の文書から情報を抽出し、効率的に検索
教育支援システム：学習者の進捗を追跡し、個別化された指導を提供
カスタマーサポート：顧客の履歴を記憶し、継続的なサポートを提供
研究開発：新しいメモリメカニズムの評価と比較

5. まとめと所感

5.1 論文の意義

この研究は、LLMエージェントのメモリ機能の評価という重要だが見過ごされがちな問題に取り組んだ先駆的な研究です。

4つの重要なメモリ能力を体系的に定義し、それぞれを評価するためのベンチマークを構築したことは、今後のメモリエージェント研究の基盤となるでしょう。

実験結果は、現在の手法がまだ完全なメモリ機能を実現していないことを明確に示しており、さらなる研究の必要性を浮き彫りにしています。

5.2 今後の展望

論文で言及されている今後の研究方向として以下が考えられます。

より現実的な実世界データセットの収集と作成
4つの能力をバランスよく持つ新しいメモリメカニズムの開発
計算効率とメモリ性能のトレードオフの最適化
パラメトリックメモリとの統合方法の探求
マルチモーダル情報を扱うメモリエージェントへの拡張

特に、合成データセットの限界を克服し、実際のユーザー対話の特性をより反映したデータセットの開発が重要です。
また、競合解決能力の向上は、実用的なメモリエージェントの実現において重要な課題となるでしょう。