Navigating with Annealing Guidance Scale in Diffusion Space
Navigating with Annealing Guidance Scale in Diffusion Space
基本情報
- arXiv ID: 2506.24108v1 (https://arxiv.org/abs/2506.24108)
- 著者: Shai Yehezkel, Omer Dahary, Andrey Voynov, Daniel Cohen-Or
- 所属: Tel Aviv University, Google DeepMind
- 投稿日: 2025年6月
- カテゴリ: cs.CV, cs.LG
簡単に説明すると
この論文は、テキストから画像を生成する拡散モデルにおいて、生成品質とプロンプト適合性のバランスを改善する新しい手法を提案しています。
従来のClassifier-Free Guidance(CFG)では固定値のガイダンススケールを使用していました。
本研究では生成過程中にこのスケールを動的に調整する「アニーリングガイダンススケジューラ」を開発しました。
この手法により、手の歪みなどの視覚的アーティファクトを修正し、プロンプトで指定された物体数を正確に生成できるようになります。
1. 研究概要
1.1 背景と動機
拡散モデルは高品質な画像生成において優れた性能を示していますが、その効果は生成過程でのガイダンスに大きく依存します。
Classifier-Free Guidance(CFG)は、ガイダンススケールを設定することで画像品質とプロンプト適合性のバランスを取る広く使われている手法です。
しかし、ガイダンススケールの選択は生成される画像に重大な影響を与えます。
最適な値を決定することは非常に困難で、拡散空間の複雑な高次元構造、目標プロンプト、初期ノイズ、モデル自体に依存します。
従来の手法では生成過程全体を通して固定値に保つのが一般的でしたが、これでは最適な結果を得ることが困難でした。
最近の研究では、タイムステップの関数としてガイダンススケールをスケジューリングする試みがありました。
しかし、これらは手動で設計され、相反するヒューリスティックに基づいていました。
重要な点は、これらの手法が初期ノイズや進化するデノイジング軌道に適応しないことです。
1.2 主要な貢献
本研究の主要な貢献は以下の3点です。
- 条件付きノイズ予測と無条件ノイズ予測の差分を活用した学習ベースのガイダンススケジューラの提案
- ユーザが画質とプロンプト適合性のトレードオフを直感的に制御できるパラメータの導入
- MSCOCO17データセットでFID/CLIPおよびFD-DINOv2/CLIPにおいて最先端性能を達成
2. 提案手法
2.1 手法の概要
提案手法は、生成過程を通じてガイダンススケールを動的に調整するアニーリングスケジューラです。
このスケジューラは、タイムステップと条件付き・無条件予測の差分ノルムを入力として、最適なガイダンススケールを予測します。
CFGの基本的なサンプリング式は以下の通りです。
ε̂t = εt^∅ + ガイダンススケール · (εt^c - εt^∅)
ここで、ε̂tはガイドされたノイズ予測、εt^∅は無条件モデル出力、εt^cは条件付きモデル出力です。
本手法では、固定のガイダンススケールの代わりに学習可能なモデルを使用します。
パラメータλ∈[0,1]は、画質とプロンプト適合性のトレードオフを制御するユーザ定義の入力です。
2.2 技術的詳細
学習プロセスでは、2つの損失関数のバランスを取ります。
L = λ · Lt^δ + (1-λ) · Lt^ε。
δ損失は、プロンプト適合性を促進します。
この損失は、モデルの条件付きと無条件予測が一致し始める領域へデノイジング軌道を移動させるガイダンススケールの選択を促します。
Lt^δ = ||δt-1||²。
ε損失は、視覚的品質を維持するための再構成損失です。
Lt^ε = ||ε̂t - ε||²。
この損失は、ガイドされた予測ε̂tが真のノイズεに近いままであることを促し、視覚品質を保ちます。
さらに、訓練中でプロンプト埋め込みへガウシアンノイズを注入する「プロンプト摂動」技術を導入しています。
これにより、スケジューラの堅牢性が向上し、推論時のプロンプト・画像の不整合に対処できます。
2.3 新規性
既存のCFGスケジューリング手法との主な違いは以下の通りです。
第一に、デノイジング軌道に適応する学習ベースのアプローチを採用している点です。
従来の手法は、手動で設計された固定的なスケジュールに依存していました。
第二に、δt(条件付きと無条件予測の差分)を活用している点です。
これをSDS損失の勾配の時間正規化プロキシとして使用し、プロンプト適合性の指標としています。
第三に、ユーザが直感的に制御できるパラメータλを導入した点です。
従来のように固定のガイダンススケールを手動で調整する代わりに、高レベルの好みをλで指定できます。
3. 実験結果
3.1 実験設定
評価はSDXLモデルを使用して実施しました。
比較対象として、APG、CFG++、標準的なCFGベースラインを使用しました。
定量評価では、MSCOCO 2017検証セットで5,000枚の画像を生成しました。
画像品質はFIDとFD-DINOv2で評価し、プロンプト適合性はCLIP類似度で測定しました。
人間の好みを反映するImageRewardも評価指標として使用しました。
3.2 主要な結果
定量評価において、提案手法は全てのベースラインを上回る性能を示しました。
特に、FID/CLIPとFD-DINOv2/CLIPの両方の評価基準で一貫した改善が見られました。
例えば、CFG(ガイダンススケール7.5)と比較した場合、以下の改善が確認されました。
- FID: 25.13 → 24.76(改善)
- CLIP: 32.12 → 32.16(改善)
- ImageReward: 0.817 → 0.809(同等)
より高いガイダンス強度(λ=0.4)では、さらに顕著な改善が見られました。
- FID: 26.06 → 25.35(CFG ガイダンススケール10と比較)
- CLIP: 32.22 → 32.25
- ImageReward: 0.859 → 0.865
定性評価では、提案手法が画像品質とプロンプト適合性の両面で優れていることが示されました。
例えば、「ユニコーンがジープを運転している写真」というプロンプトでは、ベースライン手法は漫画的な結果や視覚的アーティファクトを生成しました。
対照的に、本手法はフォトリアリスティックで構成的に正確な画像を生成しました。
3.3 既存手法との比較
APGは、評価指標全体でCFGを改善できませんでした。
CFG++は、FID/CLIP空間でのみ改善を提供しました。
対照的に、本手法は両方の評価基準で一貫して画像品質とプロンプト適合性を向上させました。
特に、高いガイダンス強度でのリコール(多様性)において、ベースラインを一貫して上回りました。
アニーリングスケジューラの挙動分析では、異なる生成に対して非単調な変動を示し、各デノイジング軌道に適応することが確認されました。
この適応的な振る舞いは、固定ガイダンススケールを使用するCFGとCFG++では実現できないものです。
4. 実用性評価
4.1 実装の容易性
提案手法は、軽量なMLPとして実装されているため、既存の拡散モデルに容易に統合できます。
追加のアクティベーションやメモリ消費を必要とせず、標準的なCFGをシームレスに置き換えることができます。
スケジューラの訓練には、LAION-POPデータセットのサブセットを使用しました。
事前訓練済みの拡散モデルは凍結したまま使用できるため、追加の大規模訓練は不要です。
4.2 計算効率
推論時の計算オーバーヘッドは最小限です。
スケジューラは軽量MLPであり、各デノイジングステップでタイムステップと差分ノルムから瞬時にガイダンススケールを予測します。
標準的なCFGと比較して、追加の計算コストはMLPの順伝播のみです。
これは、拡散モデルの計算コストと比較して無視できるレベルです。
4.3 応用可能性
提案手法は、異なるソルバーやノイズスケジュールでも効果的であることが実証されています。
さらに、フローマッチングモデルへの拡張も可能であり、汎用性の高さが示されています。
ユーザは単一のパラメータλを調整するだけで、画質とプロンプト適合性のバランスを直感的に制御できます。
これにより、様々なアプリケーションシナリオに対応できます。
- 画像品質重視(低λ値)
- 高プロンプト適合性(高λ値)
- バランス型生成(中間λ値)
5. まとめと所感
5.1 論文の意義
本研究は、拡散モデルにおけるガイダンスメカニズムの根本的な改善を実現した重要な論文です。
固定ガイダンススケールの限界を克服し、生成品質とプロンプト適合性の両立という長年の課題に対する実用的な解決策を提供しています。
特に注目すべき点は、理論的な洞察と実用性を両立させている点です。
SDS損失の勾配としてδtを解釈し、これを活用した学習ベースのアプローチは理論的に妥当です。
同時に、実装が簡単で計算効率も高いため、実際のアプリケーションへの導入が容易です。
定量評価での一貫した改善と、定性評価での顕著な品質向上は、手法の有効性を強力に示しています。
特に、手の歪みなどの細かいアーティファクトの修正や、物体数の正確な生成は、実用上大きな価値があります。
5.2 今後の展望
本手法にはいくつかの拡張可能性があります。
第一に、より複雑なスケジューリング戦略の探求です。
現在のMLPベースのアプローチを、より高度なアーキテクチャに拡張することで、さらなる性能向上が期待できます。
第二に、他の生成タスクへの応用です。
画像編集、インペインティング、超解像などのタスクでも、適応的なガイダンススケジューリングの有効性が期待されます。
第三に、プロンプト摂動技術のさらなる洗練です。
現在のガウシアンノイズ注入を、より洗練された摂動戦略に置き換えることで、堅牢性をさらに向上させることができるでしょう。
本研究は、拡散モデルの実用性を大きく向上させる重要な貢献であり、今後の研究の基礎となることが期待されます。