RecGPT Technical Report

著者 RecGPT Team
所属 Google DeepMind, Alibaba
投稿日 2025年07月31日
カテゴリ cs.IR, cs.AI

RecGPT Technical Report

基本情報

簡単に説明すると

RecGPTは、Alibaba(アリババ)のTaobao(タオバオ)で実際に稼働している、大規模言語モデル(LLM)を活用した次世代推薦システムです。従来の推薦システムが過去のクリックパターンに依存していたのに対し、RecGPTはLLMの推論能力を使ってユーザーの真の意図を理解し、より多様で満足度の高い推薦を実現します。

このシステムは、10億以上のユーザーと商品を対象に、3つのLLMモデルを統合しています。
ユーザー興味マイニング、アイテムタグ予測、推薦説明生成の各モデルが連携し、ユーザーの生涯行動履歴から興味を分析します。
さらに推薦に適した商品タグを予測し、推薦理由を自然言語で説明します。オンラインA/Bテストでは、クリック率(CTR)+6.33%、商品ページビュー(IPV)+9.47%、ユーザー滞在時間(DT)+4.82%など、全てのステークホルダー(ユーザー、マーチャント、プラットフォーム)にとって有益な結果を達成しました。

このプロジェクトは産業界における大規模なLLM活用の先駆的事例です。
推薦システムの新しいパラダイムを示しています。
コードリポジトリへの言及はありません。
Taobaoアプリで実際に稼働しています。

1. 研究概要

1.1 背景と動機

推薦システムは現代のデジタルエコシステムにおいて普遍的な存在となりました。
TaobaoやAmazonなどのEコマースポータルから、YouTubeやTikTokなどのコンテンツプラットフォームまで、人々が情報を発見し消費する方法を大きく変化させています。理想的な推薦システムは、ユーザーの(しばしば暗黙的な)意図を最も関連性の高いアイテムやコンテンツにマッチングさせ、ユーザーが最小限の努力で最大の体験価値を得られるようにすべきです。

過去20年間、学術界と産業界は特徴量エンジニアリングとモデルアーキテクチャの最適化を通じてこのビジョンを追求してきました。特徴表現は手作りの統計量からシーケンシャルおよびクロス特徴量へ、そして最近では超長期行動モデリングへと進化しました。モデルアーキテクチャは因数分解マシンから深層マッチングネットワーク、グラフニューラルモデル、そして最新の生成的Transformerバックボーンへと進歩しました。

しかしながら、これらの努力は顕著なビジネス上の成果をもたらしました。
一方で、過去のログに見られる共起パターンによって根本的に制限されています。
つまり、本質的に「クリックからクリックを学習する」ものです。
ユーザーの興味を明示的に理解することなく、このようなログフィッティング手法は類似ユーザーがすでに消費したものを強化する傾向があります。
その結果、フィルターバブル効果を増幅し、ロングテールの希少性(マタイ効果)をさらに疎外します。

最近の大規模言語モデル(LLM)の出現、特に強力な推論能力を持つものは、純粋にログフィッティングに基づく推薦の限界を超越する有望な道を開きました。広範な世界知識、きめ細かい意味理解、段階的な推論能力により、LLMはユーザーの潜在的な興味を正確かつ包括的に分析し、なぜユーザーがアイテムを欲しがるかを明示的に推論するのに役立ちます。

1.2 主要な貢献

本研究では、以下の3つの主要な貢献があります。

  • RecGPTはTaobaoアプリのホームページの「Guess What You Like」シナリオでオンライン展開されました。
    複数のステークホルダーにわたって顕著なパフォーマンス向上を達成しました。
    ユーザーの観点から、システムはCICD(クリックされたアイテムカテゴリの多様性)を6.96%向上させました。
    また、DT(滞在時間)を4.82%向上させました。
    これにより、過去の相互作用パターンを超えたユーザーの潜在的で多様な興味の効果的な発見を実現しました。
    情報バブルを効果的に突破し、推薦の境界を拡大しました。
  • 従来の協調フィルタリングアプローチとは異なる手法を採用しました。
    行動パターンからユーザーの潜在的な興味を明示的にマイニングするため、LLMの世界知識と推論能力を活用しています。
    表面レベルの相関から深いプロファイル分析と嗜好モデリングへとシフトしました。
    知る限り、10億人以上の消費者とアイテムにサービスを提供する産業アプリケーションで、推論強化された1000億規模の推薦基盤モデルを展開した最初の事例となります。
  • 大規模な産業推薦システムでの効果的なLLM統合を可能にするため、体系的な多段階トレーニングフレームワークを開発しました。
    汎用LLMを推薦固有のタスクに適応させる独自の課題に対処しています。
    アプローチは推論強化された事前整合から自己訓練進化へと進展します。
    自動データ品質キュレーションとモデル評価のため、LLM-as-a-Judge機能を活用しています。

2. 提案手法

2.1 手法の概要

RecGPTの核心的なアイデアは、大規模言語モデルを活用して推薦パイプラインの異なる段階を強化することです。これには、ユーザー興味理解、アイテム予測、および最終結果のためのユーザーフレンドリーな推薦説明の生成が含まれます。3つの対応するLLMモジュールを導入しています:LLM_UIはユーザー興味マイニングタスクに従事し、LLM_ITはアイテムタグ予測タスクを処理し、LLM_REは推薦説明を生成します。

さらに、LLM_ITによって予測されたアイテム(本論文では「アイテムタグ」と呼ばれる)をドメイン内アイテムコーパス内の特定のアイテムにマッピングするため、タグ認識を用いた意味関連性の検索方法を提案します。このアプローチは、表面レベルの特徴マッチングではなく推論ベースの分析を通じてユーザーの意図を捉えるLLM生成アイテムタグから導出された深い意味理解を活用します。

RecGPTのワークフローは、以下のような主要コンポーネントで構成されています。

  • ユーザー興味マイニング:LLM_UIにより、ユーザーの生涯にわたる複数行動シーケンスで明示的な興味マイニングを実施する。多様なユーザー興味パターンを特定する。
  • アイテムタグ予測:ユーザー興味マイニング結果に基づき、LLM_ITを使用してユーザーの潜在的な嗜好分布を表すアイテムタグを予測する。
  • アイテム検索:タグ認識を用いた意味検索方法により、予測されたタグを特定のアイテムにマッピングする。ユーザー行動協調シグナルを組み込み、意味的および協調的関連性のバランスを取る。
  • 推薦説明生成:LLM_REがユーザーの興味と推奨アイテムを統合する。個々のユーザーの嗜好に適した個人化された説明を生成し、システムの透明性とユーザー体験を向上させる。

2.2 技術的詳細

ユーザー興味マイニングにおいて、RecGPTは信頼性の高い行動シーケンス圧縮と多段階タスクアライメントという2つの主要な技術を開発しました。

信頼性の高い行動シーケンス圧縮では、まず信頼性の高い行動抽出を行います。
意図的なフィードバック行動(お気に入り、購入、カートに追加など)と検索行動を定義し、通常の商品クリック行動は除外します。
次に、階層的な行動圧縮を実施します。
アイテムレベルの圧縮では、詳細なアイテム情報を圧縮しながら、アイテム名、カテゴリ、ブランドなどのコア属性を保持します。
シーケンスレベルの圧縮では、時間的な行動集約とアイテムベースの逆集約という2段階の集約プロセスを通じてユーザーの行動シーケンスをさらに圧縮します。

この圧縮方法により、大規模言語モデルの128kトークンコンテキストウィンドウ内でユーザー行動の98%を効果的に収容でき(非圧縮シーケンスでは88%のカバレッジ)、推論効率を29%向上させます。

タスクアライメントでは、次のような3段階のフレームワークを設計しました。

  1. カリキュラム学習ベースのマルチタスクファインチューニング:16の準備的サブタスク(16.3kのトレーニングサンプルを含む)を設計し、汎用LLMのドメイン固有の基礎能力を強化する。
  2. 推論強化事前アライメント:DeepSeek-R1の高度な推論能力を活用して、興味マイニングのための高品質なトレーニングデータを生成する。
  3. 自己訓練進化:モデルが自身のトレーニングデータを生成し、これらの自己生成サンプルを反復最適化に使用する自己訓練パラダイムを提案する。

2.3 新規性

RecGPTの新規性は、従来の協調フィルタリングやログフィッティング手法から、LLMを活用した意図中心の推薦への大きな転換にあります。
主な新規性は以下の通りです。

  • 生成的ユーザープロファイリング:従来の固定的で統計的な暗黙のユーザー特徴への依存から脱却。LLMの推論能力を活用してユーザーの動的で複雑な興味を明示的にモデル化。
  • タグ認識三層アーキテクチャ:従来のユーザー・アイテム二層マッチャーをユーザー・アイテム・タグ三層アーキテクチャに拡張。推論されたユーザー意図に整合するアイテムのみを下流のランキングとリランキングカスケードに渡す。
  • Human-LLM協調評価システム:手動専門家レビューからHuman-LLM協調判定システムへの漸進的な移行を可能にした。厳格な品質基準を維持しながらモデル反復サイクルを顕著に加速。
  • 産業規模での展開:知る限り、10億人以上の消費者とアイテムにサービスを提供する産業アプリケーションで、推論強化された1000億規模の推薦基盤モデルを展開した最初の事例。

3. 実験結果

3.1 実験設定

RecGPTは2025年6月17日から6月20日にかけて、Taobaoアプリのホームページの「Guess What You Like」シナリオでオンラインA/Bテストを実施しました。
評価指標は以下の2つの観点から設定されました。

ユーザー体験の観点では、次の指標を使用しました。

  • Dwell Time (DT):推奨アイテムにユーザーが費やす平均時間
  • Exposure Item Category Diversity (EICD):ユーザーに公開されたアイテムカテゴリの多様性
  • Clicked Item Category Diversity (CICD):ユーザーがクリックしたアイテムカテゴリの多様性

プラットフォームの利益の観点では、次の指標を評価しました。

  • Item Page Views (IPV):推薦からアイテムページが表示された回数
  • Click-Through Rate (CTR):推奨アイテムのインプレッションに対するクリックの比率
  • Daily Click Active Users (DCAU):毎日推奨アイテムで少なくとも1回のクリックアクションを実行するユニークユーザー数
  • Add-To-Cart (ATC):推薦からカートに追加されたアイテム数

3.2 主要な結果

オンラインA/Bテストの結果、RecGPTは全ての評価指標において顕著な改善を達成しました。

ユーザー体験の改善については、以下の結果が得られました。

  • DT(滞在時間):+4.82%
  • EICD(露出アイテムカテゴリ多様性):+0.11%
  • CICD(クリックアイテムカテゴリ多様性):+6.96%

これらの結果は、RecGPTがLLMの世界知識と推論能力を活用してユーザーの多様な興味嗜好を捉えていることを示しています。
従来の相互作用ベースの方法を超えた成果を達成しました。
カテゴリ多様性の大幅な改善は、潜在的な嗜好の発見を通じてフィルターバブル効果の軽減に成功したことを示しています。
滞在時間の増加は、より偶発的でありながら関連性の高い推薦を通じてユーザーエンゲージメントが向上したことを示しています。

プラットフォームの観点からの改善については、次のような成果がありました。

  • IPV(アイテムページビュー):+9.47%
  • CTR(クリック率):+6.33%
  • DCAU(デイリークリックアクティブユーザー):+3.72%
  • ATC(カートに追加):+3.91%

IPVの9.47%の増加は、ユーザーエンゲージメントの深さの向上を反映しています。
システムの高い関連性により、ユーザーがセッションごとにより多くの製品を探索していることを示しています。
CTRの6.33%の向上は、推薦精度の向上を示しています。
LLMを活用した興味モデリングとアイテムタグ予測により、ユーザーの興味に合致するアイテムをクリックする可能性が高まりました。

3.3 既存手法との比較

RecGPTはマーチャントの観点から、マタイ効果を効果的に軽減し、さまざまな規模と人気レベルのマーチャント間でより公平な露出分布を促進します。ベースラインシステムと比較して、RecGPTは異なるアイテム人気グループ全体でより均一なCTRパフォーマンスを示します。

ベースラインシステムは高人気アイテムへの不均衡な露出配分を示します。
これは人気の低いマーチャントの競争機会を制限する集中バイアスにつながります。
一方、RecGPTは異なる人気グループ全体で一貫して高く安定したクリック率を達成します。
これは、人気の低いアイテムが全体的なパフォーマンスを犠牲にすることなく意味のある露出機会を受けることを示しています。

さらに、Page View Rate(PVR)分布により、RecGPTがロングテール分布を効果的に平坦化することが明らかになりました。
低人気アイテムを持つマーチャントの可視性を高めています。
この再分配により、より公平な市場機会が生まれました。
小規模なマーチャントがプラットフォームのエンゲージメント品質を維持しながら効果的に競争できるようになり、健全で持続可能な市場エコシステムを育成します。

4. 実用性評価

4.1 実装の容易性

RecGPTの実装は、既存の推薦システムインフラストラクチャとの統合を考慮して設計されています。システムは3つの独立したLLMモジュールで構成されており、それぞれが特定のタスクに特化しています。これにより、段階的な導入と独立した最適化が可能です。

ただし、実装には以下のような課題があります。

  • 大規模LLMの展開と推論インフラストラクチャの構築
  • ユーザー行動データの効率的な圧縮と処理パイプラインの実装
  • 既存の推薦システムとの統合と互換性の確保

Taobaoのような大規模プラットフォームでは、既存のインフラストラクチャと専門知識を活用できます。
一方、小規模な組織では実装コストが増大する可能性があります。

4.2 計算効率

RecGPTは計算時間と必要リソースを削減するため、複数の最適化手法を採用しています。
具体的には以下の手法を使用しています。

  • 階層的な行動圧縮手法により、128kトークンウィンドウ内で98%のユーザー行動をカバーし、推論効率を29%向上させる。
  • TBStars-42B-A3.5のようなスパースMoEモデルを使用し、推論時には3.5Bパラメータのみをアクティブ化する。
  • オフライン予測とキャッシングにより、オンライン推論の負荷を軽減する。

しかし、超長期ユーザーシーケンス(全体の約2%)の処理には依然として計算上の課題があり、将来的な改善が必要です。

4.3 応用可能性

RecGPTのアプローチは、Eコマース以外の領域にも応用可能です。具体的には次のような分野が考えられます。

  • コンテンツ推薦(動画、音楽、ニュース):ユーザーの興味を明示的にモデル化することで、多様で満足度の高いコンテンツ推薦が可能
  • ソーシャルメディア:フィルターバブルの軽減と多様な視点の提供
  • 教育プラットフォーム:学習者の興味と能力に基づいた個別化された学習パスの推薦
  • 旅行・レストラン推薦:ユーザーの潜在的な嗜好を発見し、新しい体験を提案

特に、説明可能な推薦を重視するアプリケーションでは、RecGPTの自然言語による説明生成機能が大きな価値を提供します。

5. まとめと所感

5.1 論文の意義

RecGPTは、大規模言語モデルを産業規模の推薦システムに統合した先駆的な事例です。
推薦システム研究の新しい方向性を示しています。
従来の「クリックからクリックを学習する」アプローチから、ユーザーの真の意図を理解し推論する「意図中心」のアプローチへと転換しました。
これは推薦システムの大きな転換点を表しています。

本研究の最も重要な貢献は、理論的な提案にとどまらず、実際に10億人以上のユーザーと商品を対象とした実世界のシステムで有効性を実証したことです。全てのステークホルダー(ユーザー、マーチャント、プラットフォーム)にとってwin-win-winの結果を達成し、より健全で持続可能な推薦エコシステムの構築可能性を示しました。

特に注目すべきは、フィルターバブルとマタイ効果という推薦システムの長年の課題に対して、LLMの推論能力を活用した具体的な解決策を提示したことです。これは、AIの社会的責任と倫理的な配慮を実践的に組み込んだ好例と言えるでしょう。

5.2 今後の展望

論文では、RecGPTの限界と将来の改善方向も明確に示されています。具体的には以下の3点が挙げられています。

  1. 超長期ユーザーシーケンスのモデリング:現在の128kトークン制限を超える約2%のシーケンスの処理と、長期・短期記憶管理の改善

  2. 強化学習による多目的な共同学習:静的な教師あり学習から、オンラインユーザーフィードバックを活用した動的な最適化への移行

  3. エンドツーエンドLLM-as-a-Judge評価システム:RLHFを組み込んだ包括的な多タスク評価システムの開発

これらの改善により、RecGPTはさらに洗練され、より広範な応用が可能になると期待されます。LLMの進化とともに、推薦システムの知能レベルを向上させる研究と実践が継続されることで、真にユーザー中心の推薦体験の実現に近づくでしょう。