BrowseMaster: Learning to Master Browser-Based Autonomous Agents

著者 Xianghe Pang、Shuo Tang、Rui Ye、Yuwen Du、Yaxin Du、Siheng Chen

所属 School of Artificial Intelligence、Shanghai Jiao Tong University

投稿日 2025年8月19日

カテゴリ cs.AI, cs.LG

arXiv 2508.09129v1 ↗

BrowseMaster: Learning to Master Browser-Based Autonomous Agents

基本情報

arXiv ID: 2508.09129v1 (https://arxiv.org/abs/2508.09129)
著者: Xianghe Pang、Shuo Tang、Rui Ye、Yuwen Du、Yaxin Du、Siheng Chen
所属: School of Artificial Intelligence、Shanghai Jiao Tong University
投稿日: 2025年8月19日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

この論文は、複雑な情報検索タスクを高速かつ包括的に実行するための新しいWebブラウジングエージェントフレームワーク「BrowseMaster」を提案している。

従来のLLMベースのエージェントは、検索の幅と推論の深さのバランスを取ることが困難だった。逐次的なWebページ処理により検索範囲が制限され、ツール呼び出しの度に生のWebコンテンツがコンテキストに注入されることで推論の流れが断片化していた。

BrowseMasterは、プランナーとエグゼキューターの2つのエージェントによる協調的なアーキテクチャを採用している。プランナーは高レベルの戦略的推論に専念する。エグゼキューターはコードベースで1回の呼び出しで平均12.11回のツール呼び出しをする。この分業により、ノイズの多い環境出力からプランナーの推論プロセスを保護しながら、大規模で体系的な探索を可能にしている。

1. 研究概要

1.1 背景と動機

情報検索は人類の進歩の原動力であり、Googleなどの検索エンジンの登場により、世界中のデジタル化された知識への瞬時のアクセスが可能になった。現在、LLMベースのエージェント（OpenAIのDeep Researchなど）の台頭により、次の革命が起きつつある。これらのシステムは、Web情報を自律的に検索、統合、推論できる。

効果的な情報検索には、正確な検索戦略を策定するための推論と、関連情報の包括的なカバレッジを確保するための幅広い探索が必要です。例えば、「2018-2023年のEMNLP論文で、第1著者がダートマス大学で学んだ論文」のようなタスクがある。このタスクでは、第4著者がペンシルベニア大学で学んだという追加条件も満たす必要がある。約3,000件の論文から条件に合うものを見つける必要がある。

しかし、現在のLLMベースのエージェントは以下の制限がある。

検索の幅が限定的：自然言語でツールを呼び出し、逐次的にクエリを処理するため、検査できるソース数が10分の1以下に減少
推論の深さが浅い：各ツール呼び出しで生のWebコンテンツがコンテキストに注入され、推論の流れが中断される

これらの制限により、挑戦的な情報検索タスクでは精度がほぼゼロになることが示されている。

1.2 主要な貢献

プランナー・エグゼキューター協調エージェントペアに基づく新しいフレームワークの提案
プログラマティックなツール実行による高速検索の実現（1回の呼び出しで最大244回のツール呼び出しが可能）
標準化された検索プログラミングプリミティブの設計
英語と中国語の両方の挑戦的なベンチマークでの優れた性能を実証
BrowseComp-enで30.0のスコアを達成し、オープンソースエージェントとして初めてこのマイルストーンに到達
複雑な情報検索タスクにおけるスケーラビリティの向上（従来の1回あたり1ツール呼び出しから平均12.11回へ）

2. 提案手法

2.1 手法の概要

BrowseMasterは、プランナー・エグゼキューターエージェントペアを中心に構築されたスケーラブルなWebブラウジングフレームワークです。

プランナー（長期戦略家）

タスクを解釈し、重要な制約を抽出し、段階的に問題空間を絞り込む検索戦略を策定
エグゼキューターから返される構造化された出力のみで動作し、生のWebコンテンツへの直接露出を回避
信頼度ガイド付き再計画を採用：信頼度が低い場合はコンテキストをリセットして戦略を修正

エグゼキューター（スケーラブル検索エンジン）

ツールとプログラマティックに相互作用し、検索、解析、チェックなどの操作を構成可能なコードプリミティブとして表現
選択的な情報抽出（関連ページのみを出力するなど）により、コンテキストサイズを最大244.76ツール呼び出し分まで削減
コンパクトなコードで複雑な検索ワークフローをエンコード

この設計により、プランナーは一貫した推論を維持し、エグゼキューターは広範で体系的な探索を確保する。

2.2 技術的詳細

標準化された検索プログラミングプリミティブ

BrowseMasterは、3つの主要なプリミティブを提供する。

generate_keywords(seed_keyword)
- シードキーワードから検索語のセットを生成
- 条件フィルターやドメイン固有のクエリ（Wikipediaへの制限など）を含む高度な検索式を生成
batch_search(key_words)
- 複数のWeb検索を並列実行
- 従来の逐次的なクエリと比較して効率が10倍以上向上
- 一度のステップでバッチクエリを送信し、すべての結果を受信
check_condition(web_page, condition)
- プログラマブルなインターフェースで大規模なコンテンツ評価を実現
- ドキュメントコンテンツのバッチと宣言的条件を入力として受け取る
- 各入力に対してBoolean値を返す

ツールシステム

Web検索ツール：Google検索エンジンを利用し、エンティティ関連事実、ページプレビュー、関連検索クエリを提供
Web解析ツール：一般的なWebページと学術論文に特化した2つの解析アプローチをサポート

ステートフルコード実行サンドボックス

各エージェントに分離された実行環境を割り当て
永続メモリを持ち、実行間で状態を保持・復元
Jupyter Notebookライクな体験を提供

2.3 新規性

既存手法との主要な違い

プランナー・エグゼキューター分離アーキテクチャ
- 従来：単一エージェントが推論とツール使用を交互に実行
- BrowseMaster：推論専用のプランナーと実行専用のエグゼキューターに分離
プログラマティックツール呼び出し
- 従来：自然言語と特殊トークンでツールを呼び出し
- BrowseMaster：Pythonコードを相互作用言語として使用
スケーラビリティの大幅な向上
- 従来：1ステップあたり1アクションに制限
- BrowseMaster：1回の呼び出しで平均12.11回（最大244.76回）のツール呼び出し
信頼度ガイド付き再計画
- プランナーが最終回答への信頼度スコアを生成
- 信頼度が低い場合はコンテキストをリセットして戦略を再設計

3. 実験結果

3.1 実験設定

エージェント設定

プランナー：DeepSeek-R1-0528
エグゼキューター：DeepSeek-R1
最大トークン数：64k、温度：0.6

評価ベンチマーク

BrowseComp：複雑で絡み合った情報を検索する能力を評価
BrowseComp-zh：BrowseCompの中国語版
xBench-DeepResearch：ツール使用と情報検索タスクに焦点を当てた動的ベンチマーク
GAIA：推論、Webブラウジング、一般的なツール使用能力をテスト
WebWalkerQA：複雑で多層的なWeb情報をナビゲートし処理する能力を評価

ベースライン

プロプライエタリ深層研究エージェント：OpenAI、Gemini 2.5、Grok3、Doubao、Metaso
先進モデル：QwQ、DeepSeek-R1、GPT-4o、Gemini 2.5 Pro、o1
オープンソースエージェント：WebThinker、WebDancer、WebSailor、WebShaper、Agentic Reasoning

3.2 主要な結果

BrowseCompのパフォーマンス

BrowseMaster：30.0点（オープンソースエージェントとして初めて30%超え）
OpenAI DeepResearch：51.5点（プロプライエタリエージェント中最高）
次点オープンソース：WebSailor 12.0点

BrowseComp-zhのパフォーマンス

BrowseMaster：46.5点（全システム中最高）
Metaso DeepResearch：45.3点
OpenAI DeepResearch：42.9点（BrowseMasterが4%上回る）

その他のベンチマーク

xBench-DeepResearch：BrowseMaster 66.0点（全システム中最高）
GAIA：BrowseMaster 68.0点（全システム中最高）
WebWalkerQA：BrowseMaster 62.1点（全システム中最高）

モデル単体との比較

GPT-4o：BrowseCompで0.6点→BrowseMasterで30.0点（50倍の性能向上）
DeepSeek-R1：BrowseCompで2.0点→BrowseMasterで30.0点（15倍の性能向上）

3.3 既存手法との比較

検索呼び出し数の比較

BrowseMaster：1回の呼び出しで平均12.11回、最大244.76回のツール呼び出し
WebThinker：1回の呼び出しで1回のみのツール呼び出し
効率化の要因：ループ、並列処理、条件ロジックを単一ツール呼び出し内で統合

検索カバレッジの比較

BrowseMaster：より多様なソースから情報を収集
WebDancer：限定的なソースに依存

スケーリング効果

検索呼び出し数の増加による性能向上が明確
計算量（トークン数）の増加も性能向上に寄与
プランナーとエグゼキューターの相互作用回数はタスクの複雑さに応じて増加

アブレーションスタディ

エグゼキューターのみ：9.5%
エグゼキューター＋プランナー：11.0%
エグゼキューター＋プリミティブ：15.0%
完全なBrowseMaster：30.0%

4. 実用性評価

4.1 実装の容易性

BrowseMasterは実装の観点からも優れた設計を提供している。

オープンソースとしての利点

GitHubで完全なコードが公開 (https://github.com/sjtu-sai-agents/BrowseMaster)
詳細なドキュメントと使用例が提供されている
既存のエージェントフレームワークへの統合が容易

モジュラー設計

プランナーとエグゼキューターが明確に分離されている
各コンポーネントは独立してカスタマイズ可能
標準化されたプリミティブにより新機能の追加が簡単

依存関係の最小化

Pythonの標準的なライブラリのみを使用
LLMの選択は柔軟（DeepSeek以外のモデルも利用可能）
Google検索APIへの変更も容易

4.2 計算効率

プログラマティックなツール実行により、BrowseMasterは卓越した計算効率を実現している。

ツール呼び出しの効率化

1回の呼び出しで平均12.11回のツール実行（従来手法の12倍）
並列処理によるレスポンス時間の短縮
選択的な出力によるコンテキストサイズの削減

コンテキスト管理の最適化

プランナーは構造化された出力のみを受け取る
エグゼキューターは必要な情報のみを抽出
生のWebコンテンツによるコンテキスト汚染を回避

スケーラビリティ

検索呼び出し数の増加による線形的な性能向上
計算リソースの増加が直接的に性能向上に繋がる
複数のタスクを同時に処理可能

4.3 応用可能性

BrowseMasterのアーキテクチャは幅広い応用可能性を持つ。

研究分野への応用

学術論文の系統的なレビュー
特許文献の包括的な調査
科学的エビデンスの収集と統合
複雑な研究トピックの探索

産業分野への応用

市場調査と競合分析
顧客サポートの自動化
コンプライアンス情報の収集
ビジネスインテリジェンスの強化

教育分野への応用

個人学習アシスタント
研究スキルの教育ツール
情報リテラシー教育の支援

特別な用途

多言語での情報検索（英語と中国語で実証済み）
ファクトチェッキングと検証
リアルタイム情報監視
意思決定支援システム

5. まとめと所感

5.1 論文の意義

BrowseMasterは、情報検索エージェントの分野における重要なブレークスルーを実現した。

技術的ブレークスルー

検索の幅と推論の深さのトレードオフを解決
プログラマティックツール使用の新しいパラダイムを確立
オープンソースエージェントとして初めてプロプライエタリシステムに近い性能を達成

実用性の証明

英語と中国語の両方で優れた性能を示し、多言語対応の可能性を実証
実世界の複雑な情報検索タスクへの適用可能性を示した
エージェントワークフローの新しい設計パターンを提示

研究コミュニティへの貢献

オープンソース化により、他の研究者が拡張と改善が可能
エージェント設計の新しい方向性を示した
実用的なWebブラウジングエージェントの基準を確立

社会的インパクト

情報アクセスの民主化に貢献
研究者や専門家の生産性向上に寄与
複雑な情報検索タスクの自動化を促進

5.2 今後の展望

BrowseMasterのアプローチは、情報検索エージェントの未来に向けた多くの可能性を示している。

技術的発展の方向

より高度な検索プリミティブの開発
マルチモーダル情報（画像、動画、音声）の統合
リアルタイム情報更新への対応
ユーザーパーソナライゼーションの強化

モデル訓練への応用

エグゼキューターのプリミティブ使用を最適化するための専用訓練
プランナーの推論能力とタスク割り当て戦略の改善
ドメイン特化型エージェントの開発

新たな応用領域

科学的発見の支援
法的文書の分析と調査
医療情報の統合と診断支援
金融市場分析とリスク評価

課題と展望

プライバシーとセキュリティの確保
情報の信頼性検証メカニズムの強化
より多くの言語への対応
計算コストのさらなる削減

BrowseMasterは、人間の認知的限界を超えた情報検索能力を実現し、自動化された情報検索の新時代を切り開いた。