Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

著者 Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
所属 ETH Zurich
投稿日 2025年10月03日
カテゴリ cs.LG, cs.AI

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

基本情報

  • arXiv ID: 2510.02315v1 (https://arxiv.org/abs/2510.02315)
  • 著者: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
  • 所属: ETH Zurich
  • 投稿日: 2025年10月03日
  • カテゴリ: cs.LG, cs.AI

簡単に説明すると

この論文は、テキストから画像を生成するモデル(T2I)において、複数の被写体を含むプロンプトでの生成品質を改善する革新的な手法を提案します。
現在のT2I モデルは単一の被写体については優秀な性能を示します。
しかし、「犬と猫が一緒にいる画像」のような複数被写体のプロンプトでは、属性の混同、アイデンティティの混乱、被写体の欠落などの問題が頻繁に発生する。

研究チームは、この問題を確率的な最適制御(SOC)の観点から定式化した。
フローマッチング(FM)モデルのサンプリング過程を制御する理論的な枠組みを構築した。
この枠組みから、2つの実用的アルゴリズムが導出される。
テスト時に適用可能な単一パス制御器と、Adjoint Matching による軽量なファインチューニング手法です。

また、クロスアテンション マップをJensen-Shannon発散で評価する FOCUS損失関数を提案し、被写体間の分離と各被写体内の一貫性を両立させる。
Stable Diffusion 3.5、FLUX、Stable Diffusion XL での実験により、提案手法が複数の被写体の忠実度を顕著に改善することが実証された。

コードとデータセットは GitHub で公開されており、実用的な価値も高い研究です。

1. 研究概要

1.1 背景と動機

テキストから画像を生成するモデルは、視覚的な忠実度とプロンプト適合性において大幅な進歩を遂げている。
しかし、複数の被写体を含むプロンプトに対しては依然として脆弱性を示している。
典型的な失敗パターンとして、属性漏洩(1つの被写体に意図された属性が他の被写体に伝播する)、アイデンティティ混乱(複数の被写体がハイブリッドに融合する)、被写体欠落などが挙げられる。

こうした制限は、ストーリー挿絵、マルチパネル構成、科学的コミュニケーションなど、被写体のアイデンティティと属性結合の保持が不可欠な下流アプリケーションの障害となる。

現代のT2I 生成器に対する統合的な理論的視点として、フローマッチング(FM)があります。
これは、学習されたベクトル場を介して基底分布からデータ分布への時間依存フローとして生成をパラメータ化するものです。
この枠組みは、Stable Diffusion 3.5、FLUX などの最新の大規模システムで使用される rectified-flow(RF)モデルを包含します。
また、Stable Diffusion 1.5、Stable Diffusion XL などの初期のデノイジング拡散アーキテクチャも包含します。

既存の研究では、クロスアテンションの再構成や誘導の調整などのテスト時ヒューリスティックを通じて絡まり合いを軽減しようと試みています。
トークン増幅、制約ベースバインディング、構造認識アテンション編集などの手法が含まれます。
特定の設定では効果的ですが、これらの手法はヒューリスティックです。
統一的な最適化目的を欠いているため、いつ、なぜ成功するかが不明確です。

1.2 主要な貢献

この研究の主要な貢献は以下の3点です。

最初に、複数被写体の分離を確率的な最適制御(SOC)問題として定式化した初の理論的な枠組みを提案しました。
訓練されたFM ベースサンプラーに対して、元の生成器への近接性と微分可能な分離目的のバランスを取る小さな制御を追加することで、原理的な定式化と2つの補完的アルゴリズムが導出されます。

次に、2つの実用的アルゴリズムを開発しました。
1つは、SOC 目的の最適性条件から導出された軽量な単一パス制御器です。
これは、再訓練なしにサンプリングを分離されたレンダリングに誘導します。
もう1つは、Adjoint Matching に基づく安定で低コストな更新ルールです。
メモリレスノイズスケジュール下で制御ネットワークを後方随伴信号へ回帰させ、ベースモデルのスタイルとサポートを保持しながら分離目的を直接最小化します。

最後に、FOCUS(Flow Optimal Control for Unentangled Subjects)損失関数を提案しました。
これは、クロスアテンション マップをJensen-Shannon発散で評価し、被写体内の一致と被写体間の分離を組み合わせた確率論的アプローチです。
従来の手法がアテンション マップを汎用的類似性スコアとして扱うのに対し、FOCUS は確率分布として適切に処理します。

2. 提案手法

2.1 手法の概要

この研究では、複数被写体の分離を訓練されたフローマッチング サンプラーに対する確率的な最適制御(SOC)問題として定式化しています。

基本的なアイデアは、ベースモデルに近い状態を保ちながら、被写体間の絡まり合いを減らす小さな制御信号を導入することです。
これにより、元の生成器への近接性と微分可能な分離目的とのバランスを取った原理的な最適化問題が構築されます。

この定式化から、2つの補完的なアルゴリズムが導出されます。
テスト時制御器は、凍結されたモデルパラメータで軌道ごとにSOC を解き、各タイムステップでサンプリング過程を操縦します。
ファインチューニングアプローチは、Adjoint Matching を使用して制御ネットワークを学習し、特定の訓練軌道を超えて汎化します。

2.2 技術的詳細

確率的な最適制御の定式化では、制御入力 u を含む二次的制御アフィンSOC 問題として問題を設定します。
目的関数は、制御コストと分離目的関数 f の統合で構成され、状態方程式は基底FM ドリフトと制御項を含みます。

テスト時制御器では、最適性条件から導出される瞬時制御を使用します。
随伴変数 a(t) を局所的に近似し、将来状態を局所的に一定として扱うことで、単一パス制御器 u*_t ≈ -σ(t)(1-t)∇_X f(X_t^u, t) を得ます。

Adjoint Matching によるファインチューニングでは、直接的な随伴解析は制御パスに依存するため計算が困難です。
代わりに、凍結された順方向軌道に沿って計算される安価な「リーン随伴」を使用し、制御ネットワーク u_θ をこの目標に回帰させます。

メモリレス生成過程(X_0 ⊥ X_1)を使用することで、回帰目標が軌道定常となり、学習された制御が訓練で使用された特定軌道を超えて汎化することが保証されます。

2.3 新規性

この研究の新規性は以下の点にあります。

理論的基盤の確立について、複数被写体の分離を確率的な最適制御問題として定式化した初の研究です。
これにより、既存のヒューリスティック手法に統一的な最適化目的を提供し、なぜ、いつこれらの手法が機能するかの理論的理解を深めました。

確率論的アテンション処理について、従来研究がクロスアテンション マップを汎用的類似性スコアとして扱うのに対し、FOCUS はソフトマックスから生じる確率分布として適切に処理します。
Jensen-Shannon発散を使用することで、被写体内一致と被写体間分離の両方を原理的に最適化します。

アーキテクチャ非依存設計について、提案手法はフローマッチング枠組み全体に適用可能で、Stable Diffusion 3.5、FLUX などの最新モデルから古い拡散モデルまで幅広くサポートします。
フロー-拡散対応により、理論的洞察が異なるアーキテクチャ間で転移可能です。

3. 実験結果

3.1 実験設定

実験では、2つのオープンソース フローマッチング モデルで評価しました。
Stable Diffusion 3.5(SD 3.5)とFLUX.1 [dev](FLUX.1)です。

データセットは、GPT-5 を使用してプロンプトあたり2-4 被写体を含む150 プロンプトコーパスを作成しました。
プロンプトの半分は類似被写体(例:「黒熊と茶熊」)、残りは非類似被写体(例:「スノーボード、望遠鏡、ハスキー犬」)を含みます。
各プロンプトについて、CLIP とT5 エンコーダーの両方に対する被写体トークンインデックスを注釈し、ヒューリスティック用のクロスアテンション マップを抽出します。

評価指標として、2つのアライメントグループを使用しました。
画像-テキスト(I-T)アライメントでは、CLIP とSigLIP-2 のコサイン類似度を計算します。
キャプションベースのテキスト-テキスト(T-T)忠実度では、BLIP とQwen2-VL で画像をキャプション化し、プロンプトとの意味的類似度を測定します。
さらに、人間の好みの代理として、選好訓練スコア(PickScore、ImageReward)を報告しています。

3.2 主要な結果

テスト時制御の結果について、FOCUS は最も一貫した改善を示しました。
SD 3.5 では、ベースラインと比較してすべての主要指標で向上し、特に複合スコアで最高性能を達成しました。
FLUX.1 でも同様の傾向が観察され、FOCUS が他のヒューリスティック手法を上回る性能を示しました。

ファインチューニング結果では、さらに顕著な改善が見られました。
限られたプロンプトでの訓練にもかかわらず、ファインチューニングされた制御器は未見プロンプトに対して優れた汎化性能を示しました。
これは、現在のT2I モデルにおけるアテンションレベルの根本的な失敗モードの存在を示唆しています。

定性的結果では、ベースモデルと比較して属性漏洩、アイデンティティ混乱、被写体欠落が顕著に減少しました。
提案手法は、正確な属性、最小限の漏洩、欠落なしで忠実な複数の被写体構成を生成し、ベーススタイルを保持しています。

3.3 既存手法との比較

本研究では、既存のアテンションベース ヒューリスティック(Attend&Excite、CONFORM、Divide&Bind)と比較評価を行いました。

定量的比較では、FOCUS が最も一貫した改善を示し、特に複合スコアで最高性能を達成しました。
既存手法は特定の指標では競争力を示すものの、全体的な一貫性に欠けていました。

計算効率の観点では、テスト時制御は約2倍の推論時間を要しますが、商用GPU で実行可能な速度で動作します。
ファインチューニングアプローチは、推論時にベースモデルと同等の速度を維持し、より高い品質を実現します。

汎化性能では、ファインチューニングされた制御器が限られた訓練プロンプトから未見プロンプトへの強い汎化を示し、単一プロンプトからの訓練でも効果的であることが確認されました。

4. 実用性評価

4.1 実装の容易性

提案手法の実装は比較的容易です。テスト時制御器は既存のフローマッチング モデルにプラグインとして追加できる設計となっており、モデルの再訓練や大幅な変更を必要としません。

FOCUS損失関数の実装は、クロスアテンション マップの抽出とJensen-Shannon発散の計算に基づいており、標準的な深層学習フレームワークで容易に実現できます。
被写体トークンの注釈が必要ですが、これは一度設定すれば自動化可能です。

Adjoint Matching によるファインチューニングも、既存のファインチューニング パイプラインに統合しやすい設計となっています。
メモリレス生成過程の採用により、訓練の安定性が向上し、実装の複雑さが軽減されています。

4.2 計算効率

計算効率の観点では、テスト時制御とファインチューニングで異なる特性を示します。

テスト時制御器は約2倍の推論時間を要しますが、追加の訓練は不要で、即座に既存モデルへ適用できます。
12GB VRAM の商用GPU で動作可能であり、実用的な計算要求となっています。

ファインチューニングアプローチは、訓練時にH100 GPU のVRAM 内で収まる設計となっており、一度訓練すればベースモデルと同等の推論速度を実現します。
軽量な制御ネットワークのみを学習するため、訓練コストも比較的低く抑えられています。

メモリレス スケジュールの使用により、訓練時の計算グラフが簡素化され、メモリ効率も改善されています。

4.3 応用可能性

この研究の応用可能性は多岐にわたります。

クリエイティブ産業では、ストーリーボード作成、キャラクター デザイン、マルチパネル コミック制作において、一貫した複数被写体の生成が重要です。
提案手法により、キャラクターのアイデンティティを保持しながら多様なシーンを生成できます。

教育・研究分野では、科学的図表や教材の作成において、複数の概念や対象を明確に分離して表現します。
FOCUS による被写体分離は、誤解を招く視覚的混乱を防ぎ、教育効果を向上させます。

eコマース・マーケティングでは、製品カタログや広告素材において、複数商品を同時に魅力的に表示します。
属性漏洩の防止により、各製品の特徴を正確に伝達できます。

ゲーム・エンターテインメント産業では、キャラクター生成やシーン構成で、複数要素の正確な配置と属性管理が必要です。
提案手法は、複雑なゲーム アセット生成の自動化に貢献できます。

5. まとめと所感

5.1 論文の意義

この論文は、テキストから画像生成における複数の被写体処理という実用的に重要な問題に、確率的な最適制御という理論的に堅固な枠組みを提供した点で高く評価できます。

特に、従来のヒューリスティック アプローチに統一的な最適化目的を与え、なぜこれらの手法が機能するかの理論的理解を深めたことは、この分野の発展において重要な貢献です。
フローマッチング という現代的な生成モデルの理論的基盤を活用し、異なるアーキテクチャ間での知見の転移を可能にしたことも注目に値します。

FOCUS損失関数の提案は、クロスアテンション マップを確率分布として適切に扱う初の試みであり、Jensen-Shannon発散の活用により数学的に原理的なアプローチを実現しています。
これは、アテンション機構の理解と操作において新しい視点を提供します。

実験的な検証も包括的で、複数の最新モデル(SD 3.5、FLUX)での一貫した改善と、理論から実践への橋渡しの成功を示しています。
コードとデータセットの公開により、再現性と今後の研究促進にも貢献しています。

5.2 今後の展望

この研究は複数の被写体生成の制御理論的アプローチの出発点として位置づけられ、今後のさらなる発展が期待されます。

理論的拡張の方向性では、現在の二次制御コストから、より複雑な制御目的への拡張が考えられます。
また、非線形な制御理論や確率微分ゲーム理論の活用により、より高度な被写体間の相互作用の制御が可能になるでしょう。

自動化の推進では、被写体トークンの手動注釈から自動抽出への移行が重要な課題です。
自然言語の処理技術と組み合わせることで、プロンプト解析から被写体の自動識別と分離制御の自動化が実現できるでしょう。

スケーラビリティの向上では、現在の2-4被写体から、より多数の被写体や複雑なシーン構成への対応が求められます。
階層的制御やマルチスケール最適化により、大規模な複数の被写体生成が可能になると考えられます。

他の生成タスクへの応用では、テキストから動画生成、3D オブジェクト生成、音声合成などの分野への制御理論的アプローチの展開が期待されます。
時間的一貫性や空間的一貫性の制御において、本研究の枠組みが有効に活用できるでしょう。

この研究は、生成AI における制御可能性の向上という重要な方向性を示しており、今後の関連研究の発展が大いに期待されます。