Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration

著者 Sicheng Mo, Thao Nguyen, Richard Zhang他

所属 University of California Los Angeles, University of Wisconsin–Madison, Adobe Research

投稿日 2025年12月13日

カテゴリ cs.CV, cs.LG, cs.AI

arXiv 2512.10954v1 ↗

Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration

基本情報

arXiv ID: 2512.10954v1 (https://arxiv.org/abs/2512.10954)
著者: Sicheng Mo, Thao Nguyen, Richard Zhang他
所属: University of California Los Angeles, University of Wisconsin–Madison, Adobe Research
投稿日: 2025年12月13日
カテゴリ: cs.CV, cs.LG, cs.AI

簡単に説明すると

この論文は、拡散モデルにおける新しいアプローチ「Group Diffusion」を提案しています。
従来の拡散モデルでは各画像を独立に生成していましたが、本手法では複数のサンプルが協働して生成する仕組みを導入しました。
注意機構を画像間で共有することにより、バッチ内の画像が互いに支援し合いながらノイズ除去します。
グループサイズが大きくなると、より強いクロスサンプル注意と高い生成品質が得られることが確認されています。

関連リンクとして、プロジェクトページが公開されています。

プロジェクトページ: https://sichengmo.github.io/GroupDiff/

1. 研究概要

1.1 背景と動機

拡散モデルの訓練時には、画像のバッチを使用してネットワーク重みを最適化し、基盤となる画像分布を学習します。
しかし推論時には、画像は通常独立して生成されるのが一般的です。
画像内のパッチ同士は相互作用して一貫した出力を生成できますが、異なる画像間のパッチは個別に処理されています。

この現状に対して、本研究では興味深い未開拓の問題を提起しています。
バッチ内の画像とパッチが協働することで、生成品質を全体的に向上させることはできないでしょうか。
この疑問から、同じ条件付けを持つサンプルグループを双方向注意を用いて共同でノイズ除去する
Group Diffusionが開発されました。

1.2 主要な貢献

本研究の主要な貢献として、以下の点が挙げられます。

同じ条件を持つサンプルグループを共同でノイズ除去し、注意を通じてクロスサンプル相互作用を可能にするシンプルかつ効果的なフレームワークの提示。
Group Diffusionの訓練と推論動作に関する体系的研究により、画像生成におけるサンプル間対応関係をより効果的に活用するための洞察を提供。
従来システムよりも生成品質と柔軟性を改善するフレームワーク。SiTとの統合により、スクラッチ訓練で20.9%、事前訓練チェックポイントからの再開で32.2%のFID改善を実現。
クロスサンプル推論が生成モデリングにおける効果的で未開拓のメカニズムであることを明らかにした点

2. 提案手法

2.1 手法の概要

Group Diffusionの核心は、複数の画像を一緒に生成し、各サンプルが他のサンプルから選択的に学習することで
生成を向上させるという考えです。
本手法では関連画像データでグループを構築し、拡散モデルが他のサンプルに支援される、
より良い表現を学習できるようにします。

テスト時には同じ条件付けに基づいて複数の画像を生成し、これは同じ条件下で複数の出力を期待する
現代的なアプリケーションによく適合します。
Diffusion Transformer（DiT）モデルアーキテクチャを採用し、画像内パッチ間の注意機構を使用しますが、
グループの画像パッチを連結することで注意を変更し、各パッチが他のサンプルを考慮できるようにします。

2.2 技術的詳細

グループ構築方法: 画像とデータセット全体が与えられたとき、クエリ関数を以下のように定義します。
画像間の類似度がしきい値以上の画像を選択し、実際にはCLIPやDINOなどの事前訓練モデルからの
画像埋め込み間のコサイン類似度で計算します。

Group Diffusion訓練: 各訓練ステップで、元の画像を含む関連画像のグループを構築し、
クエリ関数から返された画像からN-1個をランダムサンプリングします。
グループアテンションを計算するため、入力から隠れ状態を抽出し、形状を変更して注意操作後に元に戻します。

Group Diffusion推論: 推論時にN個の依存画像を条件に従って一緒に生成できます。
各タイムステップで、ノイズ除去器は条件付きと無条件の2つのスコアを予測します。
GroupDiff-f（フル）とGroupDiff-l（ライト）の2つのバリエーションがあり、
条件付きスコアをグループアテンションで予測するかどうかを柔軟に決定できます。

2.3 新規性

本手法の主要な新規性は、拡散モデルの推論における未開拓のシグナルを探究した点にあります。
従来の全ての手法が推論時に画像を独立に生成していたのに対し、
サンプルが協働的に生成できるかという問いを提起しました。

注意機構を画像内のパッチに限定するのではなく、画像間で共有することを可能にし、
推論時に画像を共同でノイズ除去し、画像内と画像間の両方の対応関係を学習します。
明確なスケーリング効果を観察し、より大きなグループサイズがより強いクロスサンプル注意と
より良い生成品質をもたらすことを示しました。

3. 実験結果

3.1 実験設定

ImageNetデータセットで実験を実施し、事前訓練されたStable Diffusion VAEを使用して
各256×256画像を圧縮ベクトルにエンコードしました。
生成品質の測定にはFID、Inception Score、Precision、Recallを報告しています。

DiTとSiTのモデルアーキテクチャ/設定とデータ処理に厳密に従い、AdamW最適化器、
学習率1×10^-4、重み減衰0.01でA100 GPU上で訓練しました。
グループサイズを調整する際は、バリエーションとベースライン手法間の公平な比較を確保するため、
グローバルバッチサイズ256を一貫して使用しました。

3.2 主要な結果

Group Diffusionは、様々な設計選択において一貫して生成性能を改善し、
バニラモデルよりもはるかに良いFIDスコアを達成することが発見されました。

グループサイズの効果: より大きなグループは一般的により良い生成結果をもたらし、
FIDと特徴品質の一貫した改善に反映されています。
より大きなグループは、より良いパッチレベルマッチを見つけるためのより大きな柔軟性を提供し、
それによって生成と内部表現を向上させるという仮説を立てています。

グループ構築方法の比較: 事前訓練された視覚エンコーダを介した類似度ベースの検索、
クラスベースのグループ化、ランダムサンプリングの影響を調査しました。
定量的には、類似度ベースのグループ化が最良の生成品質をもたらし、クラスベースのグループ化が続き、
ランダムサンプリングが最も劣る結果となりました。

クロスサンプル注意の分析: クロスサンプル相互作用が拡散プロセスにどのように影響するかを調査しました。
Group Diffusionの核心であるクロスサンプル注意は、各パッチがグループ全体にわたって
画像内と画像間の対応関係を確立することを可能にします。
クロスサンプル注意の強さが生成品質と密接に相関することを示す定量的測定を定義しました。

3.3 既存手法との比較

ImageNet-256×256においてSiTとの統合により、スクラッチからの訓練で20.9%、
事前訓練チェックポイントからの再開で32.2%の改善を達成しました。
Group Diffusionは標準的な拡散トランスフォーマー上に構築され、最大32.2%のFID改善を実現しています。

異なる事前訓練エンコーダが視覚的に異なるグループを形成することも興味深い発見でした。
例えば、CLIP-Lは意味的に類似したサンプルをクラスタリングする傾向があり、
DINOv2-Bは視覚的類似性の代替的側面を捉えます。
それでも生成品質は比較可能であり、利益が主に特定のエンコーダスタイルではなく
意味的一貫性から生じることを示唆しています。

4. 実用性評価

4.1 実装の容易性

Group Diffusionは既存の拡散トランスフォーマーアーキテクチャに基づいて構築されているため、
実装は比較的直接的です。
主要な変更は注意機構の修正であり、グループ内の画像パッチを連結することで各パッチが
他のサンプルを考慮できるようにします。

ただし、訓練時にセマンティックに関連したサンプルグループを構築する必要があり、
事前訓練された視覚エンコーダ（CLIPやDINO）を使用した類似度検索が必要です。
また、グループサイズに応じた計算リソースの増加も考慮が必要です。

4.2 計算効率

Group Diffusionの主要な制限の1つは、訓練コストの増加です。
グループサイズがnの場合、GroupDiff-fとGroupDiff-lはそれぞれ約(n-1)倍と(0.1n)倍長い訓練時間、
(n-1)倍と0.5(n-1)倍長い推論時間を要求します。

GroupDiff-lは、無条件モデルにのみ大きなグループサイズを適用するため、
残りの90%の訓練は標準的な拡散と同一であり、GroupDiff-fと比較して計算軽量で
ベースラインシステムに近い特性を持ちます。
経験的に、GroupDiff-lは生成品質と計算コストの良いバランスを取ることがわかりました。

4.3 応用可能性

Group Diffusionの応用可能性は多岐にわたります。

画像生成の品質向上: 同じ条件下で複数の高品質画像を生成する必要があるアプリケーションで特に有効です。
クリエイティブ分野での概念デザインやバリエーション生成において実用的価値があります。

表現学習の改善: クロスサンプル相互作用が表現学習と生成モデリングを結ぶ新しい視点を提供し、
より強力で汎用的な拡散モデルのための暗黙的な監視形式として機能する可能性があります。

マルチモーダル生成: 本手法の概念は、テキストから画像、画像から画像など
他のモーダリティにも拡張可能な潜在的可能性があります。

5. まとめと所感

5.1 論文の意義

この論文は、拡散モデルにおける推論プロセスの根本的な仮定に挑戦する重要な研究です。
従来の「独立生成」から「協働生成」へのパラダイムシフトは、生成モデリング分野に新しい研究方向を示しています。

特に評価すべき点は、シンプルなアイデアの効果的な実装と徹底的な実験分析です。
注意機構の修正という比較的小さな変更で一貫した性能向上を実現し、
その背後にあるメカニズムを定量的に分析したことは高く評価されます。
クロスサンプル注意の強さと生成品質の相関関係（0.95）を示したことは、
手法の有効性を説得力を持って証明しています。

また、GroupDiff-lという計算効率を考慮したバリエーションを提供することで、
実用的な応用への配慮も示されています。
異なる事前訓練エンコーダでの実験により、手法の汎用性も確認されています。

5.2 今後の展望

本研究が開いた新しい研究方向には、大きな発展の可能性があります。

計算効率の改善: 論文で言及されているように、より効率的な手法の探究が重要な課題です。
教師-学生蒸留やアーキテクチャの最適化により、計算コストを削減しながら
品質向上を維持する方法の開発が期待されます。

他のモーダリティへの拡張: テキスト生成、音声合成、ビデオ生成など、
他のモーダリティでのクロスサンプル協働の探究が興味深い研究方向です。
特にマルチモーダル生成における応用は実用的価値が高いでしょう。

理論的理解の深化: クロスサンプル相互作用がなぜ生成品質を向上させるのかについて、
より深い理論的理解の構築が重要です。
情報理論や統計学習理論の観点からの分析により、さらなる改善指針が得られるでしょう。

動的グループ構築: 現在の固定的なグループ構築から、生成プロセス中に動的に
最適なグループを形成する適応的手法の開発も有望な方向です。

この研究は生成AIの実用化において重要なマイルストーンを示しており、
今後の関連研究に広範な影響を与える可能性が高い優秀な貢献です。