UserBench: An Interactive Gym Environment for User-Centric Agents

著者 Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
所属 Salesforce AI Research, University of Illinois Urbana-Champaign
投稿日 2025年07月30日
カテゴリ cs.AI, cs.LG

UserBench: An Interactive Gym Environment for User-Centric Agents

基本情報

  • arXiv ID: 2507.22034v1 (https://arxiv.org/abs/2507.22034)
  • 著者: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
  • 所属: Salesforce AI Research, University of Illinois Urbana-Champaign
  • 投稿日: 2025年07月30日
  • カテゴリ: cs.AI, cs.LG

簡単に説明すると

UserBenchは、AIエージェントがユーザーと協調的に対話する能力を評価するための新しいベンチマーク環境です。従来のAIエージェント評価がタスク実行能力に焦点を当てているのに対し、UserBenchは「ユーザー中心」の視点からエージェントを評価します。具体的には、旅行計画を題材に、ユーザーが曖昧で、段階的で、間接的な方法で好みを表現する現実的なシナリオを再現しています。

GitHubリポジトリは https://github.com/SalesforceAIResearch/UserBench で公開されています。このベンチマークは標準的なGymnasium環境として実装されており、4,000以上のシナリオを含んでいます。最先端のLLMでも、ユーザーの意図と完全に合致する回答を提供できるのは平均20%程度であり、能動的な対話を通じてユーザーの好みを引き出せるのは30%未満という結果が示されています。

1. 研究概要

1.1 背景と動機

大規模言語モデル(LLM)は複雑な推論、コード生成、高度な数学問題の解決において顕著な能力を示しています。ツール使用やツール作成により、LLMは外部環境と相互作用し、自律的にタスクを実行するエージェント的能力を獲得しています。しかし、既存のエージェント環境では重要な側面が見過ごされています:それはユーザーの役割です。

エージェントは強力なタスク性能を達成しているにもかかわらず、タスク開始者の根本的で進化する意図を理解し、適応し、協力する能力の欠如により、実際のユーザーニーズを満たすことに頻繁に失敗しています。人間のコミュニケーションは本質的に共同活動であり、意味は相互作用を通じて共同構築されます。言語は本質的に曖昧であるため、ユーザーが単一の相互作用で意図を完全かつ明確に伝えることは困難です。

1.2 主要な貢献

  • データ:慎重にキュレートされたパイプラインを通じて、基盤となるコミュニケーション課題(過少指定、段階性、間接性)を捉える4,000以上のシナリオを提案
  • 環境:多段階の好み駆動型ユーザー相互作用に従事するLLMエージェントのためのベンチマークおよびトレーニング環境として設計された、スケーラブルでモジュラーなgym環境「UserBench」を導入
  • 分析:強力なツール使用能力にもかかわらず、現在のモデルは依然としてユーザーの意図を包括的に発見し整合させることに苦労しており、ユーザー中心の推論における限界を明らかにする

2. 提案手法

2.1 手法の概要

UserBenchは標準的なGymnasium環境上に構築され、ユーザーが暗黙的な方法で段階的に好みを明らかにする旅行計画タスクに焦点を当てています。環境は以下の特徴を持ちます:

  1. 過少指定(Underspecification):ユーザーは目標を完全に定式化する前にリクエストを開始
  2. 段階性(Incrementality):意図は相互作用全体で出現し進化
  3. 間接性(Indirectness):ユーザーは社会的または戦略的理由により真の意図を曖昧にしたり和らげたりする

2.2 技術的詳細

データ収集プロセス

  • 旅行計画の5つの中核的側面を特定:フライト、ホテル、アパートメント、レンタカー、レストラン
  • 3つの主要原則に従ってデータを収集:現実性、多様性、暗黙性
  • 各好みを間接的に表現する複数の自然な表現と組み合わせる
  • ランダムな好みの組み合わせにより、10,000以上の異なるシナリオの生成が可能

ツール拡張

  • 各旅行計画側面に対応するツールを開発(データベース検索をシミュレート)
  • 各データポイントに対して、正解(すべての好みを満たす)、不正解(少なくとも1つの好みに違反)、ノイズ(クエリとは無関係または不完全)の3種類のオプションを生成
  • 最大100以上のオプションを含む完全な検索空間を形成

エージェントインターフェース

  • 3種類のアクション:action(ユーザーとのコミュニケーション)、search(ツール使用)、answer(最終回答)
  • 環境は内部状態にアクセスできるオラクルユーザーをシミュレート
  • 好みは関連する側面について明示的に質問された時、または進展がない場合に段階的に引き出される

2.3 新規性

  • ユーザー中心の視点からエージェントを評価する初めての包括的なベンチマーク
  • 現実的な人間のコミュニケーション特性(過少指定、段階性、間接性)を体系的に捉える
  • 標準的なGym環境として実装され、評価とトレーニングの両方に使用可能
  • ノイズのある検索環境と予算制約を考慮した意思決定をサポート

3. 実験結果

3.1 実験設定

  • 評価モデル:GPT、Claude、DeepSeek、Geminiファミリー(クローズドソース)、Qwen3、Llama3ファミリー(オープンソース、8B〜70B)
  • 設定:単一選択設定(メイン評価)と複数選択設定の2つ
  • 制限:最大対話ターン数20、温度0.0で決定論的動作を確保
  • 評価指標:正規化スコア(最良オプション選択で1.0、正解だが最良でない場合0.8、その他0.0)

3.2 主要な結果

単一選択設定の困難さ

  • 複数選択から単一選択設定に切り替えると、平均でスコアが約40%低下
  • モデルは1回の回答試行で最良または正解オプションを選択することに大きな困難を示す

好みの引き出しの低さ

  • 全体的なユーザー好みの引き出し率は全モデルで低い
  • 最高性能のモデルでも、能動的なクエリを通じて全ユーザー好みの30%未満しか引き出せない
  • ユーザーの意図と完全に整合する回答を提供できるのは平均20%のみ

ツール使用よりユーザー理解が困難

  • トップモデルは有効な検索試行で80%以上の成功率を維持
  • しかし、有効なアクション試行の率ははるかに低い
  • これはUserBenchの目標(難易度をツール使用からユーザー理解にシフト)と一致

3.3 既存手法との比較

モデル間の興味深い発見

  • Gemini-2.5-Flashは高いアクション試行有効率を達成するが、能動的好み引き出しは相対的に低い
  • Claude-4-Sonnetは両指標で良好な性能を示すが、全体スコアは最高ではない
  • 好みを理解することと、それを意思決定に効果的に統合することのギャップが存在

タイミング分析

  • オープンソースのQwenモデルは、全体的な精度でDeepSeekより低いにもかかわらず、タイミングでDeepseekを上回る
  • より小さなモデル(Llama-3.1-8B、Gemini-2.5-Flash)は早期の推測に依存する傾向

4. 実用性評価

4.1 実装の容易性

UserBenchは標準的なGym環境として実装されており、実装が非常に容易です。馴染みのあるAPI(reset、step)を提供し、他のGym互換システムとのシームレスな統合が可能です。ユーザー動作をブラックボックス環境として抽象化することで、エージェントはユーザーロジックの内部知識を必要とせずに直接相互作用できます。これは現実世界のシナリオを反映しています。

4.2 計算効率

環境自体は軽量で、計算負荷の大部分はLLMモデルの推論に起因します。事前生成されたオプションを使用することで、リアルタイムデータベースクエリのオーバーヘッドを回避し、安定した評価環境を提供します。最大20ターンの制限により、評価時間も合理的な範囲内に収まります。

4.3 応用可能性

UserBenchは以下の幅広い応用が可能です:

  • ベンチマークとして:カスタマイズ可能なオプションセット、報酬関数、ユーザーフィードバックメカニズムをサポート
  • トレーニング環境として:教師ありファインチューニングと強化学習の両方をサポート
  • 実世界アプリケーション:カスタマーサービス、パーソナルアシスタント、協調的意思決定システムの開発
  • 研究ツールとして:ユーザー中心のAI、対話システム、意図理解の研究
  • 産業応用:旅行計画以外のドメイン(医療相談、金融アドバイス、教育支援など)への拡張

5. まとめと所感

5.1 論文の意義

UserBenchは、AIエージェントの評価パラダイムに重要な転換をもたらしています。タスク実行能力だけでなく、ユーザーとの協調的な相互作用能力を重視することで、真に有用なAIアシスタントの開発に向けた重要な一歩となっています。現在の最先端モデルでさえ、人間の暗黙的で進化する意図を理解し適応することに大きな困難を抱えているという発見は、この分野における根本的な課題を浮き彫りにしています。

特に印象的なのは、モデルが効率性(迅速な応答)と効果性(ユーザーニーズの満足)のバランスを取ることに苦労している点です。多くのモデルは、ユーザーの好みを徹底的に探索するよりも、早期に答えを推測することを優先しており、これは実世界でユーザーが「助けになっているようで実は理解されていない」と感じる経験を反映しています。

5.2 今後の展望

  • より多様なドメインへの拡張(医療、教育、金融など)
  • マルチモーダル相互作用の統合(音声、視覚的手がかりなど)
  • 文化的・個人的な好みの違いを考慮したパーソナライズ
  • 長期的なユーザー関係と学習を考慮した継続的な相互作用の評価
  • 強化学習を用いた、効率性と効果性のバランスを最適化するエージェントの訓練
  • ユーザーの感情状態や認知負荷を考慮した、より洗練された相互作用モデルの開発