What Is Your AI Agent Buying - Evaluation, Implications, and Emerging Questions for Agentic E-Commerce

著者 - Amine Allouah (MyCustomAI)
所属 MyCustomAI, Columbia University Graduate School of Business, Yale University
投稿日 2025年8月6日
カテゴリ

What Is Your AI Agent Buying - Evaluation, Implications, and Emerging Questions for Agentic E-Commerce

基本情報

  • arXiv ID: 2508.02630v1 (https://arxiv.org/abs/2508.02630)
  • 著者:
    • Amine Allouah (MyCustomAI)
    • Omar Besbes (Columbia University, Graduate School of Business)
    • Josué D Figueroa (MyCustomAI)
    • Yash Kanoria (Columbia University, Graduate School of Business)
    • Akshit Kumar (Yale University)
  • 所属: MyCustomAI, Columbia University Graduate School of Business, Yale University
  • 投稿日: 2025年8月6日
  • カテゴリ: N/A(論文中に明示的な記載なし)

簡単に説明すると

この論文は、AI エージェントが消費者に代わって自律的に買い物する未来の e コマース環境を研究しています。著者らは、ACES(Agentic e-Commerce Simulator)というサンドボックス環境を開発し、AI エージェントが何を購入し、なぜその選択をするのかを実証的に分析しています。

研究の結果、AI エージェントは強いが多様な位置バイアスを示し、スポンサータグにはペナルティを課し、プラットフォームの推薦には報酬を与えることが明らかになりました。価格、評価、レビューに対する感度は人間的な方向性を持ちますが、モデル間で大きさが大きく異なります。また、売り手側の AI エージェントが製品説明を最適化することで、大幅な市場シェアの向上が可能であることも示されました。

この研究は、AI が仲介する e コマースエコシステムにおける売り手の戦略、プラットフォームの設計、規制の問題について具体的な洞察を提供しています。

1. 研究概要

1.1 背景と動機

自律的な AI エージェントは、何百万人もの消費者のために買い物の決定をする準備が整っています。これらは e コマースのエコシステムを再構築しようとしています。OpenAI の Operator(食料品注文、フォーム入力、フライト予約を自動化)や Google DeepMind の Project Mariner があります。これらは大規模なマルチタブショッピングを可能にします。これらの新世代の「コンピュータ使用」システムは、手動のブラウジングを自律的な調達に置き換えることを約束しています。

現在、消費者はまだプラットフォームと直接やり取りしています。しかし、近い将来、パーソナライズされた AI エージェントに短いプロンプトを発行するようになるでしょう。そのエージェントは最小限の人間の監督でナビゲート、評価、購入します。このような AI エージェントは、顧客の検索摩擦を約50〜80%削減する可能性があります。

この変化により、製品ランキングや広告配置などの従来のプラットフォームの収益化レバーの影響は薄れる可能性があります。売り手側では、買い手エージェントの行動を予測して製品リストを調整する AI エージェントの開発も進んでいます。

1.2 主要な貢献

本研究では、以下の 4 つの主要な貢献をしています。

  • ACES フレームワークの開発:プロバイダーに依存しない VLM ショッピングエージェントを開発した。プログラム可能なモック e コマースアプリケーションを含む ACES も開発した。これにより、AI エージェントの購入決定を因果的に分析できる。

  • 委任下での市場シェアの分析:異なる AI モデルが同じ製品の品揃えに対して非常に異なる市場シェアを誘導することを発見した。一部のカテゴリでは、市場シェアが少数の製品に集中している。この結果は、エージェント選択によって誘導される市場支配パターンについて疑問を提起している。

  • 選択行動とバイアスの解明:AI エージェントが観察可能な属性とプラットフォームレバーにどのように反応するかを定量的に分析した。観察可能な属性には価格、評価、レビュー、テキストが含まれる。プラットフォームレバーには位置、プロモーション、スポンサーシップが含まれる。

  • 買い手と売り手エージェントの相互作用:売り手が AI エージェントを使用して製品説明を最適化することで、25%のケースで市場シェアが9〜24%向上することを示した。

2. 提案手法

2.1 手法の概要

ACES は、以下の2つの要素で構成されています。(i)選択した視覚言語モデル(VLM)とツール使用を組み合わせて Web ページを観察および操作するプロバイダーに依存しないブラウザ使用エージェント。(ii)製品リストをレンダリングする制御可能なモック e コマースサイト(「モックアプリ」)。

実験では、「Veni, Vidi, Emi」(来た、見た、買った)と呼ばれる合理化された 3 ステップの相互作用をシミュレートします。AI エージェントはブラウザを開き(Veni)、製品カテゴリを提供してスクリーンショットをキャプチャします(Vidi)。その後、VLM に問い合わせて意図した選択を記録します(Emi)。

2.2 技術的詳細

実験設計では、以下の 3 つの主要な実験スイートを実施しています。

ACE-RS(指示追従と合理性スイート):AI エージェントが指示に従い、基本的な経済的合理性を持つかをテストします。具体的には、予算内の製品選択、特定の色やブランドの選択、価格や評価に基づく最適な製品の選択能力を評価します。

ACE-BB(選択行動とバイアス):500 のシナリオを生成し、製品の位置をランダムに並べ替え、「スポンサー」、「全体的な選択」、「残りわずか」などのタグをランダムに割り当てます。価格、評価、レビュー数もランダムに摂動させ、条件付きロジットモデルを使用して AI エージェントの感度を推定します。

ACE-SR(AI 支援ショッピングに対する売り手の反応):売り手側の AI エージェントが製品説明を改善することの因果的影響を推定します。ベースラインを確立した後、GPT-4.1 などの売り手エージェントに製品の特徴リストと競合他社の販売結果を提供し、説明の修正を推奨させます。

2.3 新規性

ACES の主要な新規性は、AI ショッピングエージェントの選択行動を制御された環境で因果的に評価する最初のエージェント中心のフレームワークである点です。既存のエンドツーエンドのウェブナビゲーション評価とは異なり、購入する製品を選択するという重要なステップに焦点を当てています。

また、ページレイアウト、製品の順序、価格、評価、レビュー、プロモーション/スポンサーバッジの制御とランダム化を可能にします。これにより、プラットフォームレバーと出品属性が AI エージェントの購入決定をどのように導くかを因果的に分析できます。

さらに、売り手側の AI エージェントとの相互作用を研究し、AI が仲介する需要環境での戦略的ダイナミクスを初めて実証的に分析しています。

3. 実験結果

3.1 実験設定

評価には、以下のモデルを使用しました。Anthropic の Claude Sonnet 3.5、3.7、4、OpenAI の GPT-4o および GPT-4.1 です。Google DeepMind の Gemini 2.0 Flash および Gemini 2.5 Flash も使用しました。8 つの製品カテゴリを選択しました。フィットネスウォッチ、iPhone 16 Pro カバー、マウスパッド、オフィスランプ、ステープラー、トイレットペーパー、歯磨き粉、洗濯機です。各カテゴリで 8 つの代表的な製品を 2×4 のグリッドレイアウトで表示しました。

すべてのモデルは、特定の要件を指定していない一般的な買い物客を支援するという同じ汎用プロンプトを使用しています。これは、自律的な意思決定とプラットフォームレバーの影響を隠蔽しないようにするためです。

3.2 主要な結果

指示追従と基本的な合理性:最新のモデルは、指示追従タスクでほぼゼロの失敗率を示しました。対象モデルは Claude Sonnet 4、GPT-4.1、Gemini 2.0 Flash、Gemini 2.5 Flash です。しかし、価格ベースの合理性テストでは、1%の価格差で失敗率が 63%を超える場合がありました(Claude 3.5 Sonnet)。10%の割引では失敗率が10%未満に改善されました。評価ベースのテストでも、0.1 の評価増加で高度なモデルでも混乱が見られました。Claude Sonnet 4.0 で 28.7%、GPT-4.1 で 15.1%の失敗率でした。

市場シェアの多様性:異なる AI モデルは、同じ製品の品揃えに対して非常に異なる市場シェアを誘導しました。フィットネスウォッチカテゴリでは、Claude Sonnet 4 は Fitbit Inspire モデルを 45%選択しました。一方、GPT-4.1 と Gemini 2.5 Flash は約 25%しか選択しませんでした。一部のカテゴリでは、市場シェアが少数の製品に集中しました。Amazon Basics や Arrow などの一部のブランドは全く選択されませんでした。

位置効果とバイアス:すべてのモデルが統計的に有意な位置感度を示しました。すべてのモデルが上段に明確なプレミアムを割り当てました。しかし、水平(列)パターンは大きく異なりました。GPT-4.1 は第 1 列を強く好みました。Claude Sonnet 4 は第 1 列をほぼ無視して中央の 2 列を好みました。Gemini 2.5 Flash は第 3 列に傾いていました。

3.3 既存手法との比較

この研究は、AI エージェントの選択行動を因果的に評価する最初の研究であるため、直接比較できる既存手法はありません。しかし、人間の消費者行動に関する既存の研究と比較すると、AI エージェントは方向的には人間的な行動を示します。具体的には、安く、評価が高く、レビューが多い製品を好みます。ただし、感度の大きさはモデル間で大きく異なることが明らかになりました。

また、プラットフォームのバッジに対する反応では、スポンサータグが選択の可能性を減少させることが示されました。ベースライン 10%から Claude Sonnet 4 で 8.9%、GPT-4.1 で 8.0%、Gemini 2.5 Flash で 7.9%へ減少しました。一方、「全体的な選択」の推薦は大きな正のリフトをもたらしました。それぞれ 24.3%、19.9%、42.6%へ上昇しました。

4. 実用性評価

4.1 実装の容易性

ACES フレームワークは、LangChain ライブラリと Selenium ブラウザドライバを使用して実装されています。研究者や開発者が容易に使用できる設計になっています。コードとデータセットは GitHub および Hugging Face で公開されています。これにより、再現研究や拡張研究をサポートしています。

モックアプリケーションは軽量なストアフロントとして実装されており、製品リスト、位置、属性、バッジの完全な制御が可能です。これにより、実験的な制御を維持しながら、現実的なショッピング環境を提供しています。

4.2 計算効率

ACES は効率性を考慮して設計されており、バッチ処理を利用して高スループットでの実験を可能にしています。単一ページに 8 つのアイテムを表示し、単一のツール呼び出しに制限することで、クリーンな選択行動の測定を可能にしながら、計算コストを最小限に抑えています。

VLM 技術が成熟し、トークンコストが低下するにつれて、より豊富なマルチページインタラクションを組み込むことができるように設計されています。

4.3 応用可能性

ACES フレームワークとその発見は、e コマースエコシステムのさまざまなステークホルダーに重要な示唆を与えます。

プラットフォーム:位置バイアスが強く、AI モデル間で大きく異なることから、プラットフォームはレイアウトとランキングシステムを適用させる必要があります。また、従来の収益化レバーが AI ショッパーによって無効化される可能性があります。そのため、売り手に代わって製品タイトルと画像を動的に最適化するなどの新しいレバーがより強力なツールになる可能性があります。

ブランドと売り手:モデルプロバイダー間の違いによる市場シェアの変動を考慮すると、売り手は製品リストを継続的に適応させる必要があります。AI エージェントの考慮セットに入るためです。売り手側の AI エージェント企業の新しいカテゴリの出現が予想されます。これらの企業は、売り手が動的な市場をナビゲートするのを支援します。

消費者/買い手:AI エージェントに購入決定を委任することで検索摩擦は劇的に減少します。しかし、非合理的または間違った購入のリスクがあります。さまざまな購入エージェントの異なる好みと行動について消費者を教育する必要性が高まっています。

5. まとめと所感

5.1 論文の意義

この研究は、AI が仲介する e コマースの未来について重要な洞察を提供しています。AI エージェントが消費者に代わって購入決定をするようになると、市場のダイナミクスが根本的に変化する可能性があることを示しています。

特に注目すべきは、AI エージェント間の行動の多様性です。異なるモデルが同じ製品セットに対して大きく異なる選択パターンを示します。これは、消費者が使用する AI エージェントの選択が購入結果に大きな影響を与えることを意味します。AI エージェントの標準化や規制の必要性を示唆しています。

また、売り手側の AI エージェントが製品説明を最適化することで市場シェアは9〜24%向上する可能性があります。これは、AI 対 AI の相互作用は e コマースの未来を形作る可能性を示しています。

5.2 今後の展望

今後の研究方向として、以下の点が重要になると考えられます。

まず、AI エージェントの診断ツールの開発です。ACES フレームワークは、エージェント e コマースの体系的な診断ツールを開発する第一歩ですが、エージェントのメトリクススイートを開発することで、可能な弱点と技術的進歩を測定することが重要です。

次に、標準化されたプロトコルの開発です。プラットフォームが AI ショッピングエージェント用の標準化されたプロトコルを提供することで、バイアスと異質な行動を減らし、市場のパフォーマンスを最大化できる可能性があります。

また、相互作用の研究も重要です。買い手、売り手、プラットフォームが AI エージェントを活用する大きなインセンティブを持ちます。プレイヤー間の相互作用を研究することは重要です。AI が仲介する世界でのこれらの違い、効率性の向上と意図しない結果を研究することは、将来の研究にとってエキサイティングな道です。

最後に、AI エージェントと人間の買い手の比較研究も重要です。AI エージェントが大規模に展開されるにつれて、人間の好みが AI エージェントの選択によって間接的に形作られる可能性があります。この効果が推薦アルゴリズムの効果よりも強いかどうかが問題になります。