ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

著者

所属

投稿日

カテゴリ

arXiv ↗

ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

基本情報

arXiv IDは2509.04439v1である (https://arxiv.org/abs/2509.04439)
著者はLianhui Qin, Xuezhi Wang, Hugo Larochelle, Matt Lamm, Le Hou, Denny Zhou
所属はGoogle DeepMind
投稿日は2025年9月6日である
カテゴリはcs.AI、cs.LGである

簡単に説明すると

ArcMemoは大規模言語モデル（LLM）の推論能力を向上させる抽象概念レベルメモリフレームワークです。従来のインスタンスレベルメモリとは異なり、抽象的で再利用可能な概念を格納し、新しい問題に対して組み合わせて適用することで、継続的学習と推論性能の向上を実現します。

1. 研究概要

1.1 背景と動機

LLMは複雑な推論タスクで大きな進歩を遂げたが、デプロイ後にシステムが固定されるという課題がある。深い推論過程で発見された新しいパターンや戦略は、コンテキストがクリアされると引き継がれない。これは人間の複雑な組み合わせ推論問題へのアプローチ（以前の洞察を活用し、パターンを抽象化し、新しい文脈で組み合わせる）とは対照的である。外部メモリによるLLM拡張は、発見を引き継ぎ活用する解決策を提供する。

1.2 主要な貢献

抽象概念レベルメモリフレームワーク：元の文脈から分離された抽象的で汎用的な概念を格納する新しいメモリ設計を提案
モジュラー概念設計：他のアイデアとの再結合を直接促進し、新しい経験で容易に構築できるモジュラー概念
推論ベース選択メカニズム：System 2スタイルの思考を用いて関連する記憶項目を選択する新しいアプローチ
継続学習機能：評価時にメモリを継続的に更新し、重み更新なしでテスト時継続学習を実現
ARC-AGI-1での性能向上：公式スコアを55.17から59.33へ7.5%の相対的改善を達成

2. 提案手法

2.1 手法の概要

ArcMemoは3つの主要コンポーネントで構成される：

メモリフォーマット：個別エントリに何を格納するか
メモリライト：推論トレースからメモリを更新する方法
メモリリード：新しい問題にメモリを使用する方法

Two つの実装を提案：

Open-Ended (OE)フォーマット：エントリフォーマットに最小限の制約を課し、問題の前処理ステップでメモリ選択
Program Synthesis (PS)フォーマット：概念を分類・パラメータ化し、推論モデル探索で関連項目を選択

2.2 技術的詳細

OEフォーマット：

最小構造で「状況X」と「提案Y」の分離
状況条項が意味フックとして関連性識別に機能
VLMを活用した前処理で空間的入力を自然言語形式に変換

PSフォーマット：

ソフトウェア工学・関数プログラミングからインスピレーション
概念をタイプ、構造、ルーチンとしてフレーミング
パラメータ化により類似概念をコンパクトに表現
高階関数でさらなる一般化を促進

推論ベース選択：

関連性手がかり注釈で初期概念を特定
タイプ注釈でパラメータを埋めるための他の概念を調査

2.3 新規性

抽象化の強調：インスタンスレベルではなく概念レベルでの記憶格納
モジュラー設計：概念の組み合わせ・再利用を促進する構造化アプローチ
推論ベース選択：従来の埋め込み類似性ではなく、System 2推論による記憶選択
高階関数サポート：ルーチンをパラメータとする概念で更なる抽象化
継続的概念学習：テスト時にメモリを動的に更新する軽量アプローチ

3. 実験結果

3.1 実験設定

データセット：ARC-AGI-1ベンチマーク（400パズルの公開検証分割から100パズルを均等ランダム選択）
モデル：主にOpenAIのo4-mini（コストパフォーマンスの優れたフロンティアモデル）、補助タスクにGPT-4.1
初期化：160個のBARC seed solutionsでメモリを初期化
評価設定：

baseline：サンプリングパラメータ使用
cheatsheet：Dynamic Cheatsheetの再実装
ArcMemo-OE：Open-Endedメモリ定式化
ArcMemo-PS：Program Synthesisメモリ定式化
スコアリング：公式oracle@k評価メトリック（k=2）を使用

3.2 主要な結果

主要成果：

ArcMemo-PSが標準計算で最高の公式スコア達成（55.17→59.33、+7.5%相対改善）
追加計算スケールでも継続的に恩恵を受ける唯一の手法
低計算レジームでArcMemo-PSの優位性が最も顕著

選択アブレーション：

推論ベース選択メカニズムの除去でパフォーマンス低下
選択機能がトークン効率向上にも寄与
ArcMemo-PSの新規解決の100%がメモリ内容と関連付け可能（cheatsheetは40%のみ）

継続学習：

評価中のメモリ継続更新で性能向上確認
特に後のイテレーションで改善が顕著

3.3 既存手法との比較

vs Dynamic Cheatsheet：

ArcMemoが全ての比較でマッチまたは上回る性能
cheatsheetは最大深度でoracle@2で勝利するが、他の全比較でArcMemoが優位
新規解決の説明可能性でArcMemoが大幅に優位（100% vs 40%）

vs 他のメモリ定式化：

ArcMemo-OEは状況的にベースライン改善するが一部レジームで下回る
ArcMemo-PSのみが全推論計算スケールで一貫してベースライン上回る

定性的分析：

ArcMemoメモリがより抽象的でモジュラーであることを確認
概念カバレッジの改善により、より多くのターゲットパズルアイデアがメモリに反映

4. 実用性評価

4.1 実装の容易性

実装の特徴：

重み更新不要の軽量アプローチ
few-shotデモンストレーション、例豊富なテンプレート、包括的指示でメモリライト操作をサポート
既存LLMに容易に統合可能な外部メモリシステム

課題：

PSフォーマットは構造化が複雑でOEより実装コスト高
推論ベース選択は標準埋め込みアプローチより計算量多
メモリ更新の問題順序依存性で評価結果に影響

4.2 計算効率

効率性の利点：

概念選択による性能向上がより高効率で実現（選択アブレーション設定はより多くのトークン使用）
低計算レジームで特に効果的（メモリが推論の冗長性削減）
継続更新で marginal costでの性能向上

計算トレードオフ：

推論ベース選択は追加的な推論コスト
メモリサイズ増大とコンテキスト制限の balance
精度-スループットのトレードオフ（batching vs 順次更新）

4.3 応用可能性

適用条件：

テスト時にフィードバック利用可能な問題（テストケース、自己反省等）
組み合わせ推論を要する複雑なタスク

応用例：

コード補完ツール（コンパイル成功・テスト通過率によるフィードバック）
医療診断ツール（患者アウトカムによる評価基準）
その他、明確な評価基準を持つ推論集約タスク

制限事項：

incorrect traceからのerror identification/credit assignmentは未解決課題
抽象メモリ設計空間は大部分未探索
階層的統合メカニズムなど将来の発展が必要

5. まとめと所感

5.1 論文の意義

学術的意義：

LLMメモリ拡張の新パラダイム：インスタンスレベルから概念レベルへの転換
抽象化とモジュラリティの実証：理論的概念の具体的実装と検証
継続学習の新アプローチ：重み更新不要な軽量continual learning

実用的意義：

ARC-AGI性能向上：challenging benchmarkでの具体的改善
計算効率性：少ない計算資源でより良い結果
一般化可能性：様々な推論タスクへの適用可能性

5.2 今後の展望

技術的発展方向：

階層的統合メカニズム：より sophisticated なメモリ組織化
選択メカニズムの改善：current limitationsの解決
error identification/credit assignment：incorrect traceからの学習

研究拡張：

concept-annotation datasetのリリースによる研究促進
抽象メモリ設計空間のさらなる探索
他の推論ベンチマークでの検証

実用化に向けて：

スケーラビリティ向上：より大規模な問題への適用
ドメイン特化：specific applicationでの最適化
human-in-the-loop統合：人間の知見活用