SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model
SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model
基本情報
- arXiv ID: 2507.23773v1 (https://arxiv.org/abs/2507.23773)
- 著者: Mingkai Deng、Jinyu Hou、Yilin Shen、Hongxia Jin、Graham Neubig、Zhiting Hu、Eric Xing
- 所属: CMU、MBZUAI、Samsung Research、UC San Diego
- 投稿日: 2025年07月31日
- カテゴリ: cs.AI, cs.LG
簡単に説明すると
この論文は、LLMエージェントが複雑なタスクを解決する新しい方法を提案しています。従来のエージェントは一歩ずつ考えるのに対し、SimuRAは「世界モデル」を使って先の結果をシミュレーションしながら計画を立てます。
人間が頭の中で「もしこうしたらどうなるか」を想像して行動を決めるのと同じように、SimuRAは自然言語で状態を表現し、複数の行動案の結果を予測してから最適な行動を選びます。実装はLLM Reasonersライブラリで公開されており、Webエージェント「ReasonerAgent-Web」のデモも利用可能です。
プロジェクトページ: https://easyweb.maitrix.org/
GitHub: https://github.com/maitrix-org/llm-reasoners/tree/main/examples/ReasonerAgent-Web
1. 研究概要
1.1 背景と動機
大規模言語モデル(LLM)を基盤としたAIエージェントは、Web自動化、ソフトウェア開発、科学研究など様々な分野で活用されています。しかし、現在のLLMエージェントには根本的な課題があります。
現在のLLMエージェントには3つの主要な課題があります。
- タスクごとに専用エージェントを開発するアプローチは拡張性に欠け、汎用的な知能への道筋が見えない。
- 自己回帰型のLLMは線形的な推論に依存するため、複雑な計画立案でエラーが連鎖的に伝播する。
- ハルシネーション、繰り返し、複雑な計画の失敗といった問題が頻発する。
一方、人間は単一の認知システムを使って多様なタスクに適応します。線形的な推論だけでなく、潜在的な結果を想像し、精神的な世界モデルを使って可能性をシミュレーションし、それに応じて計画を立てます。この人間の認知プロセスに着想を得て、より汎用的で強力なAIエージェントの実現を目指しました。
1.2 主要な貢献
本研究では、汎用的なエージェント推論のための新しいアーキテクチャであるSimuRAを提案し、以下の重要な貢献をしました。
- 世界モデルを使った計画立案により、LLMの自己回帰型の推論の限界を克服する新しいアーキテクチャを提案しました。
- 自然言語を潜在表現として使用し、概念豊かな空間で柔軟に計画を立てる汎用的な世界モデルを実装しました。
- シミュレーションされた行動と具体的な行動を分離する階層的設計により、ノイズに対する頑健性と汎用性を実現しました。
- Webブラウジングタスクで評価し、フライト検索の成功率を0%から32.2%に向上させました。
- 世界モデルベースの計画が自己回帰型の計画より最大124%優れていることを実証しました。
- オープンソースライブラリとして実装を公開し、研究用デモも提供しました。
2. 提案手法
2.1 手法の概要
SimuRAは、エージェントと環境の相互作用を最適化するための原理的な定式化に基づいています。従来のReActベースの自己回帰型の推論とは異なり、世界モデルを使ってシミュレーションにより計画を立てます。
アーキテクチャは以下の3つの主要コンポーネントで構成されています。
- ポリシーモジュール:複数の行動案を提案する。
- 世界モデル:これらの行動の結果をシミュレーションする。
- 批評モジュール:各結果を評価し、目標達成の観点から最適な行動を選択する。
重要な設計上の選択として、完全な世界の詳細をシミュレーションすることは実現不可能かつ不要であるため、自然言語をコンパクトだが完全な表現として使用し、この潜在空間で次の世界状態をシミュレーションします。また、知覚、シミュレーション計画、行動選択を分離する階層的アーキテクチャにより、多様なタスクへの適応性と一貫性を確保しています。
2.2 技術的詳細
エージェントπは、環境μにおいて状態s_tを観測し、行動a_tを出力します。環境は状態s_tと行動a_tを受け取り、次の状態s_{t+1}を出力します。最適なエージェントは価値関数V_{π,μ}^g(s_t)を最大化するように定義されます。
世界モデルは、信念状態と呼ばれる内部表現で動作します。この信念状態は、エンコーダによって感覚入力から導出されます。世界モデルは、提案された行動に対して次の信念状態を予測します。
自然言語による離散的・階層的な状態表現を採用しています。連続的な埋め込みではなく、離散的な概念として状態を表現することで、ノイズや高い変動性に対する頑健性を実現します。世界モデルもLLMで実装され、次の状態を自然言語シーケンスとして予測します。
シミュレーションされた行動a'_tと具体的な行動a_tを分離する階層的計画を採用しています。ポリシーと世界モデルはシミュレーションされた行動空間で動作し、アクターモジュールが選択されたシミュレーション行動を具体的な行動に変換します。
2.3 新規性
既存手法との主な違いには、次のような点があります。
- 従来のReActベースのエージェントが線形的な自己回帰型の推論に依存するのに対し、世界モデルによるシミュレーションベースの推論を導入しました。
- 専用タスク向けエージェントではなく、多様な環境で動作可能な汎用的なアーキテクチャを提案しました。
- 連続的な埋め込みではなく、自然言語を離散的な概念ベースの潜在空間として使用することで、より安定した意思決定を実現しました。
- シミュレーション行動と実行行動を分離することで、知識の転移と階層的計画を可能にしました。
- エラー修正のためのフィードバックループと推論時最適化を可能にし、より正確な意思決定を実現しました。
3. 実験結果
3.1 実験設定
Webブラウジングタスクで評価を実施しました。3種類のタスクで検証しています。複雑なWebサイトナビゲーション(FlightQA)、マルチホップ・マルチWebサイトQA(FanOutQA)、一般的なWeb自動化(WebArena)です。
比較対象として2つを用意しました。OpenHandsのBrowsingAgent(思考の連鎖を生成してから行動を選択する代表的なオープンWebエージェント)。SimuRAの自己回帰型の計画版(世界モデルシミュレーションの代わりにポリシーモジュールの最初のサンプルを使用)。
環境にはBrowserGymを使用し、観測はHTMLベースのアクセシビリティツリーとして取得しました。各コンポーネントはゼロショットプロンプティングでLLMを使用して実装しました。
計画には深さ優先探索(DFS)を使用し、M=N=20、計画ホライズンT=t+1に設定しました。
評価は2024年11月から12月にかけてgpt-4oを使用して実施しました。FlightQAでは応答の根拠性と関連性を評価し、両方を満たすものを正解としました。
3.2 主要な結果
3つのカテゴリーのタスクすべてで、SimuRAアーキテクチャはベースラインのBrowsingAgentに対して明確な優位性を示しました。
複雑なWebサイトナビゲーション(FlightQA)では、成功率を0%から32.2%に向上させました。世界モデル推論は自己回帰型の計画と比較して124%の改善を達成しました(統計的有意性:水準0.01)。また、行動エラー率を93.3%から1.1%に削減しました。
マルチホップ・マルチWebサイトQA(FanOutQA)では、精度を17.0%から29.8%に向上させました。世界モデル計画は自己回帰型の計画より48.6%優れていました(有意確率=0.011)。応答返却率も37%から55%に改善しました。
一般的なWeb自動化(WebArena)では、成功率をBrowsingAgentの12.0%から23.0%に向上させました(91.7%の改善)。世界モデル推論は自己回帰型の推論より21.1%優れていました。
3.3 既存手法との比較
BrowsingAgentとの比較で、SimuRAは全てのタスクで大幅な性能向上を示しました。特に、複雑なWebサイトナビゲーションでBrowsingAgentが失敗(0%)したのに対し、SimuRAは32.2%の成功率を達成しました。
SimuRA内での比較では、世界モデルベースの計画が自己回帰型の計画を一貫して上回りました。制約数が増加するにつれて、世界モデル計画は自己回帰型の計画より安定した性能を維持し、改善された推論能力の兆候を示しました。
行動エラーと繰り返しの削減も顕著でした。BrowsingAgentの93.3%の行動エラー率に対し、SimuRAは1.1%まで削減しました。自己回帰型の推論で見られた44.4%の繰り返し行動は、世界モデル計画により18.9%に減少しました。
これらの結果は、概念ベースの潜在空間での自然言語表現と、観測要約・選択的メモリなどのコンポーネント間通信が、より一貫性のある行動をもたらすことを示しています。
4. 実用性評価
4.1 実装の容易性
SimuRAは、既存のLLMをゼロショットプロンプティングで使用して実装できるため、導入が比較的容易です。各コンポーネント(エンコーダ、ポリシー、世界モデル、批評、アクター)は独立したプロンプトで実装されており、モジュラーな設計になっています。
LLM Reasonersライブラリを使用した実装が公開されており、研究者が容易に実験を再現できます。自然言語を統一的な表現として使用することで、異なるコンポーネント間の統合が簡潔になっています。
特殊なアーキテクチャの変更は不要で、標準的なLLM APIを使用して動作します。Webブラウジング用の実装例が提供されており、他の環境への拡張も比較的簡単です。
4.2 計算効率
現在の実装では、モジュラーなパイプラインと世界モデル計画での複数プランの徹底的な探索により、典型的なLLMエージェントより実行時間が長くなります。これは主要な制限事項の1つです。
各ステップで複数のLLM呼び出しが必要です。ポリシーからM=20の行動提案、世界モデルによる次状態予測、批評によるN=20回の評価などです。深さ優先探索を使用しているため、計画の深さに応じて計算量が増加します。
ただし、キャッシングと並列化戦略により高速化の余地があります。階層的計画により、低レベルの行動ではなく高レベルのプランを最適化するため、長期的なタスクでは効率的になる可能性があります。
4.3 応用可能性
汎用的なアーキテクチャ設計により、幅広い応用が期待できます。現在はWebブラウジングで評価していますが、原理的には任意の環境に適用可能です。
実用的な応用分野として、情報収集(ライブデータの取得、複数ソースからの情報統合)、タスク自動化(オンラインショッピング、旅行計画、申請書提出)、ソフトウェア開発(将来の拡張予定)などが考えられます。
自然言語を潜在表現として使用することで、新しいタスクドメインへの適応が容易です。世界モデルの学習により、人間のデモンストレーションへの依存を減らし、新しいタスクへの汎化性を高める可能性があります。
ただし、現在の制限として以下があります。
- 視覚情報の未使用(テキストのみ)
- Captchaやアンチスクレイピングツールによるブロック
- 実行時間の長さ
実用化にはこれらの課題解決が必要です。
5. まとめと所感
5.1 論文の意義
本研究は、LLMベースのエージェントの根本的な限界に対する新しいアプローチを提示しています。
自己回帰型の推論からシミュレーションベースの推論への転換は、より人間的な認知プロセスに近く、理論と実践の両面で重要な貢献です。
世界モデルを使った計画立案の有効性を実証したことで、エージェントAI研究の新しい方向性を示しました。特に、複雑なタスクで従来手法が失敗する場合でも、SimuRAが一定の成功を収めたことは注目に値します。
自然言語を離散的な概念ベースの潜在空間として使用する設計は、ノイズへの頑健性と汎用性の両立を実現しました。これは、多様な環境で動作する汎用エージェントの実現に向けた重要な一歩です。
オープンソース実装の公開により、研究コミュニティ全体でこのアプローチを検証・改善できる基盤を提供しました。これは、単一の汎用的な超知能エージェントモデルの訓練という長期的な目標に向けた重要な貢献です。
5.2 今後の展望
著者らは、すべての環境で超知能的に動作する単一の汎用エージェントモデルの可能性に期待を寄せています。今後の発展方向として以下が考えられます。
技術的な改善点として以下が挙げられます。
- 実行速度の向上(キャッシングと並列化)
- マルチモーダル知覚の統合(画像とレイアウト情報)
- より多様な環境での評価(ソフトウェア開発など)
- 世界モデルの学習による性能向上
実用化に向けて、ブラウザとの深い統合によるCaptcha問題の解決、エージェントアクセスに関する公正な使用とプロトコルの確立、長期記憶とマルチエージェント相互作用の実装が必要です。
安全性とアライメントの観点から、著者らは社会への影響を認識しており、共有された価値観や優先事項に沿ったエージェントの確保について、コミュニティとの議論を望んでいます。これは、強力な汎用エージェントの開発において不可欠な考慮事項です。