LORE: A Large Generative Model for Search Relevance

著者

所属

投稿日

カテゴリ

arXiv ↗

LORE: A Large Generative Model for Search Relevance

基本情報

arXiv ID は 2512.03025v1 (https://arxiv.org/abs/2512.03025)
著者は Chenji Lu, Zhuo Chen, Hui Zhao, Zhiyuan Zengらの研究者グループ
所属は Search Advertising Team, Alimama (Alibaba Group)
投稿日は 2025年12月04日
カテゴリは cs.IR, cs.AI

簡単に説明すると

この論文は、Alibaba（アリババ）のEコマース検索において、クエリ（検索語句）と商品の関連性を判定するための大規模言語モデル「LORE」を開発した技術レポートです。

Eコマースサイトで「青いトップス」と検索した時に、本当に青いトップスが表示されるかどうかを正確に判定するシステムを、大規模言語モデルを使って27%改善しました。従来の手法では、商品タイトルに「青」という文字がなければ判定できませんでしたが、LORMEは商品画像も含めて総合的に判定し、さらに「湖の青」→「スカイブルー」のような複雑な色の表現も理解できます。

3年間にわたる継続的な改良により、オンライン指標であるGoodRate（良い検索結果率）を累計で27%向上させることに成功しました。この成果は、検索の品質向上により、ユーザーが求める商品により正確にアクセスできるようになったことを意味します。

1. 研究概要

1.1 背景と動機

Eコマースプラットフォームにおける検索関連性は、ユーザー体験と検索品質の向上において極めて重要な役割を果たしています。関連性モデルは、ユーザーのクエリと候補商品のマッチング度を評価し、関連性スコアを付与することで、ミスマッチした商品を除外する重要な機能を担っています。

従来のBERT系モデルを用いたアプローチには重大な制約がありました。まず、大量の注釈データが必要で、時間的・経済的コストが膨大であること。次に、クエリと商品間の意味的類似性のフィッティングに留まり、明示的な推論能力の向上が不十分で、困難なサンプルに対する識別能力が限られていたことです。

LLMの登場により、ドメイン固有のポストトレーニングによる垂直領域エキスパートの開発が主流となりました。しかし、既存の研究では部分的な能力要件の最適化に留まり、関連性判定に必要な包括的能力の統一的視点が欠如していました。この問題を解決するため、「関連性判定にモデルはどのような能力を持つべきか」「これらの包括的能力を獲得するための訓練パラダイムは何か」という根本的な問題に取り組む必要がありました。

1.2 主要な貢献

本論文は、LLMベースの関連性モデリングの完全で再現可能な設計図を提供します。主要な貢献は以下の4つの柱で構成されています。

第一に、体系的な基盤研究として、特徴量、プロンプト、ベースモデルなどの基礎的な訓練要素について体系的な事前探索を実施しました。このプロセスから得られた一般原則を総括しています。

第二に、構造的分析を基づく訓練パラダイムとして、段階的なChain-of-Thought合成を用いてSFTで包括的能力を注入する手法を開発しました。続いて、人間の嗜好整合のための慎重に設計されたRL段階を組み合わせた、洗練された2段階訓練パラダイムを提案しました。

第三に、包括的評価ベンチマークとして、厳密な検証を確保するため、特定したコア能力を評価するためのカスタマイズされた包括的ベンチマーク「RAIR」を構築しました。

第四に、リアルタイム展開戦略として、リアルタイム計算の課題を克服するため、クエリの頻度に基づく階層的な展開戦略を設計しました。この戦略により、オフラインLLMの能力をオンラインシステムへ包括的に転移させ、大幅なオンライン性能向上を実現しました。

2. 提案手法

2.1 手法の概要

LOREの手法は、Eコマース検索の関連性判定を、2段階のプロセスに分解してモデル化します。第一段階は「パス構築」で、ユーザーのクエリ要求を具体的な商品属性にマッピングし、クエリと商品間の意味的なパスを確立します。第二段階は「パスフォロー」で、構築されたパスに基づいて属性レベルで具体的に判定します。

このフレームワークでは、以下の3つのコア能力が必要であることを明らかにしました。

知識と推論統合能力: ドメイン固有の知識で曖昧性を解決し、抽象的な意図を正確にマッピングする。
マルチモーダル理解・マッチング能力: テキストと画像情報を統合的に処理して属性を抽出・照合する。
複雑ルール遵守能力: 標準化された再現可能な判定のために複雑なルールを学習・実行する。

2.2 技術的詳細

LOREの技術的実装は2段階の訓練パラダイムで構成されています。

SFT段階: 段階的なChain-of-Thought合成パイプラインを構築し、2段階判別フレームワークに沿って進行します。まず知識注入と推論でパス構築を完成し、続いてマルチモーダル属性マッチングとルール意識判別でパスフォローを完成します。この段階ではPass@8指標(τ=1.0)を重視し、モデルの能力上限を探ることに焦点を当てています。

RL段階: 関連性タスクの特性に基づいて検証可能な結果報酬を設計し、前段階で獲得したすべての能力を人間の嗜好と整合させ、誤った推論パスを剚定します。この段階ではPass@1能力への変換に焦点を当て、グリーディデコーディングで安定性を確保します。

特徴量構築: メイン商品画像、CPVトリプルデータ、SKU情報を統合したマルチモーダル入力を構築。CPVデータは強力LLM(Qwen3-235B-Instruct)を用いたフィルタリングと一貫性検証で品質を向上させています。

2.3 新規性

LOREの主要な新規性は、関連性タスクの体系的分解とそれを基礎とする包括的アプローチです。既存研究が部分的な能力要件の最適化で留まっていたのと対照的に、LOREは「関連性判定でモデルはどのような能力を持つべきか」という根本的問題から取り組みます。

具体的な改良点は以下の通りです。ELLMは属性抽出とマッチングに焦点を当てていましたが、ルールベースの境界事例では力不足でした。LREFやTaoSR1はルール意識を組み込みましたが、視覚情報の欠如でマルチモーダルシナリオでの盲点が残っていました。LOREはこれらすべての能力を統合し、さらに構造的分析に基づいて段階的なCoT合成で各能力を明示的にモデル化しています。

また、ライフサイクル全体をカバーする完全なフレームワークを提供し、事前探索から評価ベンチマーク、オンライン展開までの実践的な指針を提供していることも大きな特徴です。

3. 実験結果

3.1 実験設定

実験は獨自に構築したRAIRベンチマーク上で実施されました。このベンチマークはコア能力を系統的に検証できるよう設計されています。

データセットは3つのサブセットに分類されました。Generalサブセットは一般的なEコマース事例です。Longtail Hardサブセットは特別に構築された長尾の困難サンプルです。Visual Salienceサブセットは視覚的に重要なサンプルで構成されています。

評価指標は3つのメトリクスで構成されています。Acc@4はL1-L4の4クラス精度、Acc@2はL1-L2を非関連、L3-L4を関連とする二分類精度、Macro-F1はラベル分布の不均衡の影響を緩和するためのマクロF1スコアです。すべての訓練済みモデルは、再現性と安定性を確保するため、グリーディデコーディング戦略でシングルパス推論を行います。

3.2 主要な結果

実験結果は、LOREがすべてのサブセットで優秀な性能を示したことを明らかにしました。Generalサブセットでは、LOREはAcc@2で0.933、Acc@4で0.897、Macro-F1で0.724を達成し、GPT-5を含むすべてのベースラインを上回りました。特にGPT-5と比較して、Acc@2では相対的に8.8%、Macro-F1では28.6%の大幅改善を達成しています。

Longtail Hardサブセットでは、すべてのモデルが遇難する中、LOREはAcc@2で0.715、Macro-F1で0.460で最高性能を示しました。Vanilla SFTと比較して、Acc@2で相対的に4.4%、Macro-F1で相対的に5.3%の改善を示し、知識蒸留と合成コト推論の効果を実証しています。

Visual Salienceサブセットでは、LOREはAcc@2で0.698、Acc@4で0.627、Macro-F1で0.426で最高性能を達成し、マルチモーダル能力の有効性を示しました。これは、既存のマルチモーダルモデルであるGemini 2.5 Proや各種Qwen2.5-VLモデルを上回る結果です。

3.3 既存手法との比較

既存手法との比較では、LOREの優位性が明らかになりました。プロンプトベースのモデル群と比較して、ドメイン固有のファインチューニングが大幅な性能向上をもたらすことを実証しました。特に、GPT-5やQwen3-235B-Instructなどの大規模SOTAモデルを上回る成果は、ビジネスルールモデリング能力とEコマースドメイン知識の効果的習得を示しています。

Vanilla SFTとの比較では、Generalサブセットでは限定的であるものの、Hardサブセットで大きな改善を示しました。これは、マルチ次元CoTモデリングが、ルーチンデータでは限定的であるものの、困難サンプルでは推論能力と知識能力の注入による大幅改善をもたらすことを示しています。

また、興味深い知見として、単純な教師CoT蒸留が負の効果をもたらす現象も発見されました。コールドスタートモデルは、Vanilla SFTと比較してPass@1で-4.2%の低下を示す一方、Pass@8で+2.7%の向上を示しました。これは、訓練・推論分布シフトによるエラーの蓄積と伝播を示しており、正しいCoT蒸留の重要性を示しています。

4. 実用性評価

4.1 実装の容易性

LOREは、実装の容易性と再現性を重視して設計されています。ベースモデルとしてQwen2.5-7Bを選定し、シングルGPUでの訓練と推論を可能にしています。モデルサイズと能力のバランスを最適化し、実践的な展開に適した効率性を実現しています。

コードベースは、数年間の継続的な開発と反復適用を通じて成熟したフレームワークであり、料理レシピとしての完全性と再現性を備えています。特に、事前探索から評価ベンチマーク構築、オンライン展開までのライフサイクル全体をカバーする包括的な方法論を提供しています。

4.2 計算効率

オンライン展開では、クエリ頻度に基づく階層化戦略で計算効率を最適化しています。高頻度クエリ（約30%）に対してはキャッシュ展開でオフライン前計算とオンラインキャッシュのハイブリッド戦略でレイテンシのボトルネックを解決しています。

中頻度クエリ（約65%）に対しては知識蒸留で、LLMが大規模・高品質な訓練データを生成し、オンラインの粗ランキングモデルと精ランキングモデルの判別能力を体系的に強化しています。

困難クエリ（約5%）に対してはリアルタイム推論で、軽量な意図認識モデルで困難クエリを識別し、モデル量子化で推論速度を加速してリアルタイムLLM推論能力を実現しています。

4.3 応用可能性

LOREの応用可能性は、Eコマース領域を超えて幅広い分野に及びます。本論文で提供される完全な方法論と成熟した実装フレームワークは、他の垂直領域におけるポストトレーニング作業のための貴重な指針を提供します。

特に、タスクの体系的分解、コア能力の特定、段階的コト合成、検証可能な報酬設計などのアプローチは、情報検索、コンテンツ推薦、テキストマイニングなどの関連分野で幅広く応用可能です。

実際の商用環境での展開実績も特筆すべき点です。AlibabaのEコマースプラットフォームでの大規模展開で、累計で27%のGoodRate改善を達成したことは、本手法の実世界での価値と実用性を強力に実証しています。また、システム・戦略アップデートで+12.7%、キャッシュ展開で+4.8%、知識蒸留で+7.9%の内訳は、各アプローチの有効性を具体的に示しています。

5. まとめと所感

5.1 論文の意義

本論文は、Eコマース検索関連性の分野において、理論と実践の両面で重要な貢献をしています。第一に、関連性タスクの体系的分解とコア能力の明確化は、従来の断片的なアプローチを超え、統一的な視点からの包括的解決策を提示しました。これは、LLMを用いた領域固有タスクの設計における重要な方法論的貢献です。

第二に、実証的な成果として、SOTAモデルを上回るオフライン性能と、大規模の商用環境での27%のGoodRate改善を達成しました。この成果は研究と産業応用のギャップを橋渡しする実践的価値を実証しています。特に、この成果は3年間の継続的な反復と改良で達成されたものであり、研究成果の持続性と安定性を示しています。

第三に、完全なライフサイクルフレームワークの提供は、他の研究者や実務家にとって貴重なリソースとなります。事前探索から評価ベンチマーク、オンライン展開までの結合内容は、学術研究と産業応用の両方における再現性と再現性を保証します。

5.2 今後の展望

LOREフレームワークは、いくつかの有望な発展方向を指し示しています。技術的な観点からは、さらなるマルチモーダル能力の強化、特に音声や動画などの新しいモダリティの統合が期待されます。また、より洗練されたコト合成手法とRLアルゴリズムの開発により、困難サンプルにおける性能向上の余地がまだ存在します。

システムアーキテクチャの面では、リアルタイム推論能力のさらなる最適化と、モデル量子化技術の進化による計算効率の向上が期待されます。現在のクエリ頻度ベースの階層化戦略を、より動的で適応的なシステムへと発展させる可能性もあります。

応用領域の拡張という観点では、本研究で確立されたタスク分解と能力モデリングのアプローチが、情報検索、コンテンツ推薦、テキストマイニングなどの関連分野でも有効であることが期待されます。特に、構造化された知識と非構造化データの統合処理、マルチモーダル理解、複雑ルール遵守などの能力は、幅広いAIアプリケーションでの活用が予想されます。