Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

著者 Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou

所属 Yale University, OPPO, UW-Madison, UNC Chapel Hill, Stanford University, Bytedance, Nanjing University, All Hands AI, MetaGPT X, Microsoft Research, Google DeepMind

投稿日 2025年07月09日

カテゴリ cs.AI, cs.CL

arXiv 2507.06229v1 ↗

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

基本情報

arXiv ID: 2507.06229v1 (https://arxiv.org/abs/2507.06229)
著者: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
所属: Yale University, OPPO, UW-Madison, UNC Chapel Hill, Stanford University, Bytedance, Nanjing University, All Hands AI, MetaGPT X, Microsoft Research, Google DeepMind
投稿日: 2025年07月09日
カテゴリ: cs.AI, cs.CL

簡単に説明すると

Agent KBは、AIエージェントが他のエージェントやタスクから得た経験を活用して、新しい問題を解決できるようにするフレームワークです。
従来のエージェントは自分の経験しか使えませんでした。
Agent KBを使うと、異なるドメインやタスクで蓄積された経験を共有できます。
その結果、より効率的に問題を解決できるようになります。

具体的には、「理由付け（Reason）」「検索（Retrieve）」「洗練（Refine）」という3つのステップを使います。
生徒エージェントと教師エージェントが協力して問題を解決します。
例えば、化学データの処理で学んだ経験を、プログラミングの問題解決へ応用できるようになります。

GitHubリポジトリ: https://github.com/OPPO-PersonalAI/Agent-KB

1. 研究概要

1.1 背景と動機

言語エージェントは複雑な問題解決において重要な役割を果たしています。
しかし、複雑な長期タスクに対しては依然として困難を抱えています。
特に、高度な計画立案やツール使用が必要な場面で苦戦しています。

現在のエージェントシステムの根本的な制限は、複雑な推論における誤り訂正能力にあります。
エージェントが困難に直面した際、自己フィードバックだけでは不十分です。
人間の専門家を導く多様な推論戦略や暗黙的な報酬信号へのアクセスが不足しています。

既存の経験活用システムには、次のような3つの重要な設計上の欠陥があります。

タスク固有の経験の孤立：エージェントは異なるタスクタイプ間で知識を転送することが困難
単一レベルの検索粒度：問題解決の異なるフェーズを区別できない一様な検索メカニズム
静的な経験の再生：経験を元の形式で保存・再利用し、抽象化なしでは新しい文脈への効果的な適応が困難

1.2 主要な貢献

本研究は、エージェントが異なるドメインの経験を活用して複雑な問題を解決できるようにする階層的経験フレームワーク「Agent KB」を提案しています。
主な貢献は以下の通りです：

新しい「Reason-Retrieve-Refine」パイプラインの提案により、エージェントが表面的な特徴の一致だけでなく、関連する解決パターンに向けた経験検索を可能にした。
生徒エージェントと教師エージェントによる二段階検索メカニズムの設計。
生徒はワークフローレベルのパターンを検索し、教師は実行パターンを特定して実装の詳細を洗練する。
GAIAベンチマークで最大16.28ポイントの成功率向上を実証。
特に難易度の高いタスクでClaude-3.7が38.46%から57.69%へと19.23ポイント改善。
SWE-benchのコード修復タスクでも12.0ポイントの改善（41.33%から53.33%）を達成。
モジュラーでフレームワークに依存しない基盤を提供し、異なるエージェント間での継続的な改善を可能にした。

2. 提案手法

2.1 手法の概要

Agent KBは2つの主要フェーズで構成されています：「Agent KB構築」と「Agent KB強化推論」です。

構築フェーズでは、複数のデータセット（BrowseComp、HopRAG、HLE、WebWalkerQAなど）から収集された生の実行ログから、汎用化可能な経験を抽出します。これらの経験は、問題パターン（π）、目標（γ）、解決軌跡（S）、コンテキスト（C）、関係（R）を含む構造化されたタプルとして表現されます。

推論フェーズでは、新しいタスクに直面した際、実行エージェントが実際のタスク解決を行います。
生徒エージェントと教師エージェントがReason-Retrieve-Refineパイプラインを実装します。
これらの補助エージェントはAgent KBから関連する経験を検索します。
そして、実行エージェントの推論と問題解決能力を向上させるための的を絞ったガイダンスを提供します。

2.2 技術的詳細

経験の抽象化プロセス
生の実行ログを再利用可能な推論パターンに変換するために、以下のステップを実行します。

様々なドメインとエージェントフレームワークから実行ログを収集。
フレームワーク固有の実装詳細を削除し、ツール名とパラメータ形式を正規化。
人間のアノテーターが失敗ケースを手動で検査し、一般的なエラーパターンを特定。
LLMベースの経験ジェネレーターを使用して、標準化された形式で構造化されたエントリを生成。

教師-生徒二段階推論
生徒フェーズでは、生徒エージェントがクエリQを分析し、問題と目標を特定して初期の思考を生成します。
次に、Agent KBから関連するワークフローパターンを検索します。
$$\mathcal{E}_w = \underset{\mathcal{E}_i \in \mathcal{K}}{\mathrm{top\text{-}k}} \big[\alpha \cdot \phi_r(\mathcal{E}_i, \mathcal{T}, \hat{\pi}, \hat{\gamma})\big]$$

教師フェーズでは、教師エージェントが生徒の推論ステップを評価します。
エラーとその種類・原因を特定します。
Agent KBからステップレベルの経験を検索して、これらの実行上の問題に対処します。
$$\mathcal{E}_s = \underset{\mathcal{E}j \in \mathcal{K}}{\mathrm{top\text{-}m}} \sum{s_i \in \mathcal{Z}} \big[\alpha \cdot \phi_r(s_i, \mathcal{S}_j)\big]$$

2.3 新規性

既存のエージェントメモリシステムと比較して、Agent KBには以下の新規性があります：

クロスドメイン経験の活用: 単一タスクやドメインに限定されず、異なるドメイン間で経験を転送・適応できる
階層的な検索メカニズム: ワークフローレベルとステップレベルの2段階で検索を行い、計画と実行の両方を最適化
動的な経験の適応: 単純なコピー＆ペーストではなく、コンテキストに応じて経験を動的に適応
自動的な経験の抽象化: 生の実行ログを汎用的な推論パターンに自動変換

3. 実験結果

3.1 実験設定

評価には2つの代表的なベンチマークを使用しました：

GAIAベンチマーク: 一般的なAIアシスタントの包括的な評価フレームワーク。165の評価インスタンスを含み、3つの難易度レベルに分類（レベル1：53タスク、レベル2：86タスク、レベル3：26タスク）

SWE-Bench: GitHubのイシューから抽出された現実的なソフトウェアエンジニアリングの課題

Agent KBの知識ベースは、一般的なアシスタントタスク用に4つのデータセット（BrowseComp 1,266タスク、HopRAG 2,556タスク、HLE 3,000タスク、WebWalkerQA 680タスク）、ソフトウェアエンジニアリング用に3つのリポジトリ（RepoClassBench、SWE-Gym-Raw、RepoEval）から構築されました。

3.2 主要な結果

GAIAベンチマークでの結果：

GPT-4.1 + Agent KB: 全体で18.79ポイントの改善（54.55%→73.33%）
Claude-3.7 + Agent KB: 全体で16.36ポイントの改善（58.79%→75.15%）
最も複雑なレベル3タスクで、Claude-3.7が19.23ポイントの改善（38.46%→57.69%）

SWE-bench liteでの結果（50イテレーション）：

Claude-3.7: 30.00%→51.00%（21ポイントの改善）
GPT-4.1: 29.33%→41.33%（12ポイントの改善）

より高度なモデルほど、検索された知識をより効果的に活用できることが示されました。

3.3 既存手法との比較

Agent KB強化されたClaude-3.7は、GAIAで平均75.15%のスコアを達成し、以下のシステムを上回りました：

h2oGPTe（クローズドソース）: 63.64%
OWL（オープンソース）: 69.09%

この性能は、比較的シンプルなエージェントフレームワーク（smolagents）を基盤としていることを考えると、特に印象的です。

4. 実用性評価

4.1 実装の容易性

Agent KBはモジュラーでフレームワークに依存しない設計により、既存のエージェントシステムへの統合が容易です。GitHubで公開されているコードは、smolagentsやOpenHandsなど複数のフレームワークでの実装例を提供しています。

経験の抽象化プロセスは半自動化されており、人間のアノテーションとLLMベースの生成を組み合わせることで、新しいドメインへの拡張も比較的容易に行えます。

4.2 計算効率

現在の実装では、知識ベースのサイズが増大するにつれて検索の計算複雑性が多項式時間で増加します。実験規模では効果的ですが、数百万のエントリを持つ大規模な知識ベースでは、リアルタイムアプリケーションに必要なサブ秒の検索レイテンシを維持することが困難になる可能性があります。

テスト時のスケーリング（Pass@2評価）により、計算コストは増加しますが、性能の大幅な向上が得られることが示されています。

4.3 応用可能性

Agent KBの応用範囲は広く、以下のような分野での活用が期待されます：

教育: 専門家の問題解決戦略へのアクセスを民主化し、複雑なスキルの学習を革新
企業知識管理: 組織の知識を捕捉・伝播し、従業員の離職による専門知識の喪失を防ぐ
研究開発: リソースの限られた機関や個人研究者が、十分なリソースを持つ機関の経験を活用
規制産業: 医療や金融などで、決定の監査証跡が法的に義務付けられている分野での透明性向上

5. まとめと所感

5.1 論文の意義

Agent KBは、AIエージェントが経験から継続的に学習し、タスク、ドメイン、エージェントアーキテクチャ間で知識を共有する方法を根本的に変革します。構造化された経験の抽象化と二段階の教師-生徒推論により、単純なメモリ再生を超えて、適応的で経験駆動型の推論を実現しています。

特に注目すべきは、異なるドメイン間での知識転送の成功です。例えば、データ分析で獲得した知識がコードデバッグのような一見無関係なタスクに成功裏に転送されることが確認されており、転送成功率は47-55%に達しています。

この研究は、エージェントの集合知能と継続的改善を可能にする汎用的なインフラストラクチャを提供し、エピソード記憶と累積的なエージェント知能のギャップを埋める重要な一歩となっています。

5.2 今後の展望

論文では以下の将来の方向性が示されています：

因果推論フレームワークの開発: 特定の戦略が特定のコンテキストで成功する理由を理解し、因果連鎖を分解して新しい解決策を合成
継続的学習メカニズムの統合: 展開結果に基づいて戦略を自動的に更新し、新しい戦略の探索と実証済みアプローチの活用のバランスを取る
クロスエージェント知識転送の理論的基礎: 経験の転送可能性を特徴付ける形式的フレームワークの研究
スケーラビリティの改善: より効率的な検索メカニズムと経験の管理システムの開発

一方で、現在のシステムには以下の制限があります：

知識ベースの拡大に伴う検索効率の低下
自動生成された経験知識の品質と信頼性の保証
ドメイン間の構造的類似性が低い場合の知識転送の効果の低下
体系的な経験の廃棄メカニズムやバージョン管理の欠如