DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving

著者 Fengze Yu, Leshu Li, Brad McDanel, Saiqian Zhang

所属 New York University, University of Minnesota Twin Cities, Franklin & Marshall College

投稿日 2024年11月30日

カテゴリ cs.AI, cs.LG

arXiv 2511.21669v1 ↗

DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving

基本情報

arXiv ID: 2511.21669v1 (https://arxiv.org/abs/2511.21669)
著者: Fengze Yu, Leshu Li, Brad McDanel, Saiqian Zhang
所属: New York University, University of Minnesota Twin Cities, Franklin & Marshall College
投稿日: 2024年11月30日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

この論文は、大規模言語モデル（LLM）の推論を高速化するために、「投機的デコーディング」という技術を分散環境（エッジ・クラウド間）で実行する新しいフレームワーク「DSD」を提案しています。従来の投機的デコーディングは単一ノードに限定されていました。DSDは軽量な草案モデル（ドラフトモデル）をエッジデバイスで実行し、重い検証を雲上の大型モデルで行うことで、スケーラビリティと低レイテンシを両立させています。システムには適応的ウィンドウ制御（AWC）機能も組み込まれています。ネットワーク状況や受諾率に応じて投機ウィンドウサイズを動的調整することで、最大1.1倍の高速化と9.7%のスループット向上を実現しています。

1. 研究概要

1.1 背景と動機

大規模言語モデルの推論処理における主要な課題は、高い計算レイテンシとスケーラビリティの制限です。特に、LLMのデコーディング過程は本質的に逐次処理です。そのため、大量の並行ユーザーに対してリアルタイムサービスを提供することが困難となっています。

投機的デコーディング（SD）は、軽量な草案モデルが複数の候補トークンを生成し、それを重いターゲットモデルが並列検証することで、この逐次依存性を緩和する有効な手法として注目されています。しかし、既存のSD技術は単一デバイスまたは限られたハードウェア環境内での実行に制限されています。真の大規模展開には不十分です。

エッジ・クラウド分散環境では、リソース制約のあるエッジデバイスに大型LLMを配置することが実用的ではありません。従来のSDフレームワークについては、草案生成と検証段階間の本質的な逐次依存性により、全体的なスループットが制約されるという根本的な問題を抱えています。

1.2 主要な貢献

本研究では、分散投機的デコーディングを実現するための総合的なソリューションを提供しています。

DSD-Simシミュレータの開発: 分散投機的デコーディングシステムの性能を正確にモデル化する大規模シミュレーションフレームワークである。ネットワーク、バッチ処理、スケジューリング動態を考慮した現実的な性能予測が可能である。
適応的ウィンドウ制御（AWC）機構の導入: 深層学習ベースのアプローチを用いてリアルタイムのシステム状況に基づいて投機ウィンドウサイズを動的調整する。手動チューニング不要で最適性能を維持する。
詳細な性能評価: GSM8K、CNN/DailyMail、HumanEvalベンチマークにおいて、DSD+AWCが一貫してシステム効率を向上させる。最大9.7%のスループット改善と最多11%のTPOT（Token Per Output Time）削減を実現する。

2. 提案手法

2.1 手法の概要

DSDは、エッジデバイス上の軽量草案モデルとクラウド上の大型ターゲットモデルを協調させる分散アーキテクチャを採用しています。システムの動作フローは以下の通りです。

エッジLLMがユーザーリクエストとコンテキストプロンプトを受信すると、まずγ個の草案トークンを生成します。これらの候補トークンはクラウドLLMに送信され、並列検証が実行されます。検証結果に基づいて、エッジLLMは受諾されたトークンを基に次のトークン生成を継続します。レスポンス生成が完了するまでこのプロセスを反復します。

システムは「融合モード」と「分散モード」の両方をサポートしています。融合モードでは草案と検証の両方を同一サーバーで実行してネットワークオーバーヘッドを回避します。分散モードでは草案デバイスが投機ウィンドウサイズγ > 1でトークンを生成して遠隔ターゲットデバイスに送信します。

2.2 技術的詳細

DSD-Simは4つの主要コンポーネントで構成されています。設定パーサーがYAMLファイルからシステム仕様を読み込み、デバイスタイプ、ネットワークリンク、実行時ポリシーを定義します。コアDSDスケジューラーはSimPyを活用して草案・ターゲットサーバーを並行プロセスとしてモデル化します。各サーバーにはバッチ形成とリクエストスケジューリング用の明示的キューが設置されています。

ハードウェア性能モデリングエンジンはVIDURベースの検証済みレイテンシ予測器を統合しています。統一API predict(op, shape, hardware)を通じて任意のバッチ構成での推論レイテンシを照会可能としています。これにより、DSD-SimはVIDURの単一ノード精度を保持しながら分散推論シナリオに拡張しています。

適応的ウィンドウ制御（AWC）は、システム負荷、通信遅延、トークン受諾動態間の相関をモデル化することで、動的ウィンドウサイズ調整を実現しています。WC-DNN（ウィンドウ制御深層ニューラルネットワーク）は5次元特徴ベクトルを入力として受け取り、最適なγ値を予測します。特徴ベクトルには、キュー深度利用率、受諾率、RTT統計、TPOT統計、前回投機ウィンドウサイズが含まれます。

2.3 新規性

本研究の新規性については、投機的デコーディングを分散環境へ初めて適用した点にあります。従来のSDアプローチが単一ノードまたは小規模展開へ制限されていたのに対し、DSDはモデル並列性とデータ並列性の両方を活用してエッジ・クラウドリソース間で計算を協調・分散させます。

また、従来の固定的またはヒューリスティックベースのウィンドウサイズ制御とは異なり、AWCは学習ベースのアプローチを採用しています。ネットワークレイテンシ、トークン受諾率、デバイス利用率の時間変動へ適応的に対応します。安定化技術（クランピング、指数平滑化、モード切替ヒステリシス）により、システム性能の安定性も確保しています。

3. 実験結果

3.1 実験設定

実験は多様なワークロードトレースを用いて実施されました。GSM8K（数学問題）、CNN/DailyMail（要約タスク）、HumanEval（コード生成）ベンチマークから導出されたデータセットを使用しています。

ハードウェア構成として、エッジ側推論にはNVIDIA A40 GPU上でQwen-7BおよびLlama2-7Bを使用しています。クラウド側実行にはA100やH100 GPU上でLlama2-70BやQwen-72Bを配置しています。ネットワーク設定は代表的なRTT値として10msと30msの両方で評価を実施しています。

大規模異種クラスター構成では実験環境を構築しています。クラウドプールに20サーバーを配置しています。これは4×A100、4×H100、4×A6000構成で大型モデルをホストしています。エッジプールには600GPU（300台のA40と300台のV100で草案モデルを実行）を配置しています。

3.2 主要な結果

DSD-Simの校正評価では、GPU レベルでの予測レイテンシと実機測定値の比較を実施しました。プリフィルレイテンシで平均絶対誤差7.4%、デコードレイテンシで5.2%を達成し、シミュレータの信頼性が検証されています。

システム性能分析では、ルーティング、バッチング、適応的ウィンドウ制御の各要素を段階的に組み合わせることで、着実な性能向上が観察されました。GSM8Kにおいて、すべてのコンポーネントを統合することでスループットが25.1から28.1リクエスト/秒に向上しています。TTFTが351から345ms、TPOTが45から37msに減少しています。

AWCと既存手法の比較実験では、AWCが全12ケースにおいて優れたスループットを実現しています。静的ベースラインに対して3-10%の改善（GSM8Kで600草案時+9.7%、CNNDMで1000草案時+4.1%）を示しています。

3.3 既存手法との比較

既存の静的ウィンドウ（固定γ=4）および動的ウィンドウ（受諾率に基づくヒューリスティック調整）と比較しています。AWCは学習ベースのアプローチにより一貫して優れた性能を発揮しています。

特に、レイテンシメトリクスではTTFTがベストベースラインの0.5-4%以内に維持されています。TPOTが評価ワークロード全体で6-10%一貫して削減されています。これは、AWCが手動閾値調整なしに異種条件下でスループット向上とレイテンシ削減を同時に実現できることを示しています。

アブレーション研究では、JSQルーティングが中負荷時に最適性能を提供することが確認されています。LAB（Length-Aware Batching）がFIFOに対してTPOTを1-2ms改善することが確認されています。これらの結果は、各コンポーネントが独立して性能向上に寄与していることを実証しています。

4. 実用性評価

4.1 実装の容易性

DSDフレームワークはモジュラー設計哲学に従っています。既存のLLM推論、ネットワーキング、分散コンピューティング用シミュレーションフレームワークとの幅広い互換性を提供しています。YAML設定ファイルによる高レベル仕様から明示的な草案・ターゲットデバイスプールへの自動拡張機能により、迅速なシステム構成と大規模パラメータスイープが可能となっています。

VIDURとの統合により、低レベルGPUモデルを再実装することなく、カーネルごとの実行レイテンシを正確に捉えることができます。これにより実装負荷を79%削減しています。また、プラガブルポリシーアーキテクチャにより、ルーティング、バッチング、ウィンドウサイズ制御の各側面を独立して開発・テストできます。

4.2 計算効率

AWCのWC-DNNは軽量なアーキテクチャを採用しています。5次元特徴ベクトルの処理により最小限の計算・メモリオーバーヘッド（0.1ms未満）でランタイム適応を実現しています。残差MLP構造とSiLU活性化関数により安定した予測を生成し、実用的な分散環境での動作が可能となっています。

分散実行とクラウド専用実行の比較では、低RTT値において分散実行がクラウド専用モードを上回る性能を示しています。RTTが50-60ms周辺で性能交差が観察されており、計算オフロードとネットワークオーバーヘッド間のトレードオフが明確に示されています。

4.3 応用可能性

DSDは、インタラクティブAIチャットボット、インテリジェント指導システム、AIレコメンデーションシステムなどへ直接適用可能です。これらのアプリケーションは数千の並行ユーザーに対して低レイテンシを維持します。

エッジ・クラウド分散環境における真のスケーラビリティを実現することで、リソース制約のあるエッジデバイスでも大型LLMサービスの恩恵を受けることが可能となります。また、AWCの制御機構により、多様なネットワーク条件とワークロード特性について自動的に最適化されます。

フレームワークの構成可能性により、異なるハードウェア構成、ネットワークトポロジー、ワークロード特性について容易にカスタマイズ可能です。実世界の大規模LLM展開における幅広い適用シナリオをサポートしています。

5. まとめと所感

5.1 論文の意義

本論文は、投機的デコーディングを分散環境に拡張する初の総合的なアプローチを提示しています。理論的枠組みの提案に留まらず、実用的なシミュレーションフレームワークと学習ベースの適応制御機構を統合した完全なソリューションを提供している点で、LLM推論システム分野における重要な貢献となっています。

特に、エッジ・クラウド協調によるスケーラビリティの実現は、現実世界のLLMサービス展開における根本的課題を解決する可能性を秘めています。シミュレーション駆動の設計アプローチにより、大規模分散システムの性能特性を事前に理解・最適化できることも、実用的価値が高いです。

5.2 今後の展望

今後の発展方向として、より複雑なネットワーク条件（ジッター、パケットロス）への対応、異なるモデルアーキテクチャ間での草案・検証効率の最適化、セキュリティとプライバシー考慮事項の統合などが挙げられます。

また、AWCアルゴリズムの更なる改良により、より動的な環境変化への適応性向上や、マルチテナント環境でのSLA保証機構の組み込みなども重要な研究課題となります。エッジAI分野の急速な発展と共に、DSDフレームワークが実際のプロダクション環境での大規模展開に向けた基盤技術として発展していくことが期待されます。