Continual Personalization for Diffusion Models

著者 Yu-Chien Liao, Jr-Jen Chen, Chi-Pin Huang, Ci-Siang Lin, Meng-Lin Wu, Yu-Chiang Frank Wang

所属 National Taiwan University, Qualcomm Technologies, Inc.

投稿日 2025年10月03日

カテゴリ cs.CV, cs.AI

arXiv 2510.02296v1 ↗

Continual Personalization for Diffusion Models

基本情報

arXiv ID: 2510.02296v1 (https://arxiv.org/abs/2510.02296)
著者: Yu-Chien Liao, Jr-Jen Chen, Chi-Pin Huang, Ci-Siang Lin, Meng-Lin Wu, Yu-Chiang Frank Wang
所属: National Taiwan University, Qualcomm Technologies, Inc.
投稿日: 2025年10月03日
カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は、拡散モデルの継続的パーソナライゼーション（Continual Personalization）という実用的な課題に取り組んでいる。
従来の手法では複数の概念を学習する際に各概念を個別にLoRAで学習し、生成時に重みを融合する必要があったが、CNS（Concept Neuron Selection）という新しいアプローチを提案している。
CNSは拡散モデル内の「概念ニューロン」を自動的に特定し、段階的にファインチューニングすることで、破滅的忘却を防ぎながら継続的に新しい概念を学習できる。
特に重要なのは、推論時の融合操作が不要（fusion-free）である点で、メモリ使用量と処理時間を大幅に削減している。
実世界のデータセットでの評価により、単一概念・多概念パーソナライゼーションの両方で既存手法を上回る性能を達成している。

1. 研究概要

1.1 背景と動機

潜在拡散モデル（LDMs）は大規模なテキスト-画像ペアと除ノイズプロセスを活用することで、画像生成タスクにおける重要なマイルストーンとなっている。
LDMは単純なテキストプロンプトから高品質な画像の生成を可能にするが、ユーザー固有の概念（ペットや特定の風景など）の生成において限界がある。
これらの概念はテキストで直接記述することが困難であり、テキスト-画像生成において実用的な課題となっている。

この問題を解決するため、パーソナライゼーション技術が開発されており、ユーザーの提供する例を用いてLDMをファインチューニングすることで、特定のコンテンツ生成を可能にしている。
単一概念のパーソナライゼーションでは、プロンプトチューニングや重みファインチューニングなどの技術が開発されているが、複数概念を学習する際には過学習や属性結合（attributes binding）という問題が発生する。

現在の多概念パーソナライゼーション手法は、各概念をLoRAで個別に学習し、生成時に重みを融合するアプローチが主流となっている。
しかし、この手法には根本的な問題がある。
第一に、パーソナライズされた概念が固定されているという仮定があり、異なる数の概念を含む画像を生成する際には、すべてのモデル重みを保存し、複数回の融合操作が必要となる。
第二に、現実のアプリケーションでは、ユーザーのパーソナライズ概念は静的ではなく、継続的に増加する傾向がある。

さらに深刻な問題として、概念を個別に学習することで融合時に概念消失や概念混同が発生し、追加情報（人のポーズや画像レイアウト）を用いても解決困難であることが実証されている。
これらの最適化プロセスは概念ごとに異なる生成分布を作り出し、独立性を保つため、融合時に追加的な努力が必要となる。

1.2 主要な貢献

本研究は、拡散モデルの継続的パーソナライゼーションという実用的課題に対する包括的なソリューションを提供している。
CNS（Concept Neuron Selection）は、パーソナライズされた目標概念に関連する拡散モデル内のニューロンを段階的に識別できる革新的な手法である。

最も重要な技術的革新は、三段階のニューロン選択プロセスである。
まず、概念画像に対して高い応答を示すbase neuronsを特定し、次に一般的な画像合成に関連するgeneral neuronsを識別し、最後にbase neuronsからgeneral neuronsを除外することでconcept neuronsを選択する。
このプロセスにより、真に概念固有のニューロンのみを特定し、効率的な継続学習を実現している。

自動的概念ニューロン特定: 拡散モデル内の概念関連ニューロンの自動識別による効率的なパーソナライゼーション
段階的ファインチューニング方式: 選択されたconcept neuronsに対する段階的学習による破滅的忘却の軽減
融合不要操作（Fusion-free）: 追加的なLoRA重みや推論時最適化が不要な効率的なシステム
継続学習能力: 事前学習済みテキスト-画像拡散モデルのゼロショット生成能力を保持しながらの継続的概念学習
実用的効率性: メモリ使用量と処理時間の大幅削減による実用性の向上

2. 提案手法

2.1 手法の概要

CNSの中核概念は、拡散モデル内のニューロンを三つのカテゴリに分類することにある。
base neuronsは概念画像に対して高い応答を示すニューロン群、general neuronsは一般的な画像生成に寄与するニューロン群、そしてconcept neuronsはbase neuronsからgeneral neuronsを除外した真に概念固有のニューロン群である。

継続学習スキームでは、現在学習する概念のインデックスをmとし、概念mに関連するN_m枚の画像のみが訓練中に提示される。
重要な点として、m番目の概念でファインチューニングされたモデルは、以前に学習した概念1:m-1の知識を保持することが期待される。

ニューロン選択プロセスは段階的に実行される。
まず、概念画像のキャプションから生成されたテキスト埋め込みと重みの要素積を用いてbase neuronsを特定する。
次に、多様なキャリブレーションプロンプトセットを用いてgeneral neuronsを識別する。
最後に、論理演算によりbase neuronsからgeneral neuronsを除外し、concept neuronsを抽出する。

2.2 技術的詳細

base neuron選択では、最近の概念編集やモデル枝刈り研究の知見に基づき、目的に対して大きな応答を示すニューロンがより高い貢献度を持つという観察を活用している。
特に、クロスアテンション層のパラメータが画像パーソナライゼーション目的と高い相関を持つことが知られているため、クロスアテンション層のニューロンに焦点を当てている。

具体的には、キーと値マッピングの重みをW^k ∈ R^{d×d_k}、W^v ∈ R^{d×d_v}とし、両方の入力となるテキスト埋め込みをcとする。
テキスト埋め込みは事前学習済み画像キャプショニングモデルから生成される概念画像キャプションから取得される。

重要度スコアの計算では、重みの大きさとテキスト埋め込み特徴のℓ2ノルムの要素積を計算する：

$$S(W^k, c) = |W^k| \odot (1 \cdot |c|_2)$$

ここで、|·|は絶対値、|c|_2は各列に適用されるℓ2ノルム、⊙は要素積を表す。

N枚の概念画像に対してこのプロセスを適用し、各画像に対するバイナリニューロンマスクM_nを取得後、論理AND演算により集約してbase neuronsマスクM^{base}を得る：

$$M^{base} = \bigwedge_{n} M_n, n \in {1,2,...,N}$$

general neuron選択では、多様なキャリブレーションプロンプトセットP_k（k=1,2,...,20）を収集し、一般的な画像生成に関連するニューロンを特定する。
実証的に、約53%のニューロンが常に選択されることが観察されており、これらがgeneral neuronsに相当する。

$$M^{general} = \bigwedge_{k} M_k, k \in {1,2,...,K}$$

最終的に、concept neuronsは論理演算により抽出される：

$$M^{concept} = M^{base} \land \neg M^{general}$$

継続学習では、正則化損失を用いて破滅的忘却を防止する。
前回学習した概念との重複するニューロンと事前学習重みを保持することで、新しい概念学習時の既存知識の保護を実現している。

2.3 新規性

CNSの最も革新的な側面は、ニューロンレベルでの精密な概念制御を拡散モデルに導入した点にある。
従来の手法が各概念を個別のLoRAで学習し、推論時に融合する「分離-融合」パラダイムを採用していたのに対し、CNSは単一モデル内での継続的概念学習を実現している。

三段階ニューロン選択プロセスは、神経科学における機能的特殊化の概念を機械学習に応用した独創的なアプローチである。
general neuronsとconcept neuronsの明示的分離により、一般的な生成能力を損なうことなく概念固有の学習が可能になっている。

融合不要操作は、実用性において革命的な改善をもたらしている。
従来手法では異なる概念組み合わせごとに異なる融合操作が必要だったが、CNSでは単一モデルでの直接生成が可能である。
これにより、メモリ使用量と計算時間の大幅な削減を実現している。

継続学習における正則化戦略も新規性を持つ。
重複するconcept neuronsの保護により、既存概念の知識を保持しながら新しい概念を学習する仕組みは、従来の全パラメータ更新や独立LoRA学習とは根本的に異なるアプローチである。

理論的観点では、拡散モデルの内部表現の解釈可能性向上に貢献している。
concept neuronsの特定により、モデルがどのように概念を内部的に表現しているかの洞察を提供し、説明可能AI研究への応用可能性も示している。

3. 実験結果

3.1 実験設定

実験は20個の概念を含むデータセットで実施されており、8個の実世界動物、6個の実世界オブジェクト、3個のスタイル、3個の実世界シーンから構成されている。
実装にはStable Diffusion（SD-1.5）を事前学習済みテキスト-画像生成モデルとして使用している。

ファインチューニングではAdamオプティマイザーを用い、テキスト埋め込みに対して学習率5e-4、concept neuronsに対して学習率3e-5を設定している。
単一概念の訓練ステップは500ステップで、単一3090 GPU上で約4分の訓練時間となっている。

評価指標としては、CLIPを用いて画像アライメントとテキストアライメントを測定している。
単一概念画像アライメントでは、生成画像と概念画像の埋め込み間のコサイン類似度を計算し、多概念パーソナライゼーションでは各概念画像との平均視覚的類似度を測定している。
テキスト類似度は、生成画像とテキストプロンプトの埋め込み間のコサイン類似度として評価されている。

比較手法として、Mix-of-Show、Orthogonal Adaptation、Continual Diffusionなどの最先端手法との比較を実施している。
定量的評価では3つの継続的パーソナライゼーションセットを用い、各セットに7概念、35個の単一概念プロンプト、7個の多概念プロンプトを含んでいる。

3.2 主要な結果

CNSは単一概念・多概念パーソナライゼーションの両方で優れた性能を示している。
定量的比較において、CNSは単一概念画像アライメントでMix-of-Showにわずかに劣るものの、単一概念テキストアライメントで最高スコアを達成している。
これは、CNSが概念画像への過学習を回避し、テキスト記述からの意味的詳細を効果的に捉えていることを示している。

多概念設定では、CNSがすべての既存手法を上回り、画像アライメントとテキストアライメントの両方で最高性能を達成している。
特に重要なのは、他の手法が単一概念から多概念への移行時にテキストアライメント性能の劣化を示すのに対し、CNSはテキスト-画像生成能力を多概念生成においても保持していることである。

計算効率の比較では、CNSが他の融合ベース手法と比較して大幅な優位性を示している。
Mix-of-Showは7概念融合時に最高のメモリと時間リソースを要求するのに対し、CNSは融合効率と高性能のバランスを達成し、そのような妥協を不要にしている。

定性的比較では、CNSが単一概念・多概念パーソナライゼーションの両方でプロンプトに完璧に適合し、一貫した結果を生成することが確認されている。
他の手法が概念消失や属性結合に悩まされる中、CNSは全概念の画像アライメントと入力プロンプトのテキストアライメントを保持している。

3.3 既存手法との比較

従来の融合ベース手法との比較では、CNSの根本的な優位性が明確である。
Mix-of-ShowやOrthogonal Adaptationなどの手法は各概念をLoRAで学習し、推論時に融合する必要があるが、CNSは単一モデルでの直接生成が可能である。

Continual Diffusionとの比較では、CNSが破滅的忘却の防止において優れた性能を示している。
Continual Diffusionが新しい概念学習時に前の概念の特徴を失う傾向があるのに対し、CNSは正則化損失とconcept neuron選択により、すべての学習済み概念を保持している。

計算効率の観点では、CNSの融合不要操作が大きな利点となっている。
従来手法では異なる概念組み合わせごとに異なる融合操作が必要だが、CNSでは単一の推論パスで所望の結果を得られる。
これにより、メモリ使用量と処理時間の大幅な削減を実現している。

アブレーション研究では、concept neuron選択の有効性が実証されている。
同数のランダムニューロンをファインチューニングした場合、単一・多概念設定の両方でCLIP-IとCLIP-Tスコアが低下し、ニューロン選択手法の重要性が確認されている。
また、正則化損失L_regの除去により性能劣化が観察され、破滅的忘却防止における正則化の重要性が示されている。

破滅的忘却に関する詳細分析では、CNSが継続的に複数概念を学習した後でも最初の概念のCLIP-Iスコア劣化を最小限に抑えることが確認されている。
これは、concept neuron選択と継続的正則化損失の組み合わせによる効果である。

4. 実用性評価

4.1 実装の容易性

CNSの実装は、比較的単純な概念でありながら、いくつかの技術的考慮事項を含んでいる。
基本的なニューロン選択アルゴリズムは理解しやすく、既存の拡散モデル実装に組み込むことが可能である。
重要度スコア計算は標準的な線形代数演算に基づいており、実装上の複雑さは限定的である。

しかし、最適な性能を得るためには、いくつかのハイパーパラメータの調整が必要である。
base neuron選択の閾値、キャリブレーションプロンプトセットの選択、正則化損失の重みなど、ドメイン固有の調整が求められる場合がある。

段階的学習プロセスの実装では、概念順序の考慮が重要である。
概念間の類似性や難易度に応じて学習順序を調整することで、より良い結果を得られる可能性がある。

Stable Diffusion以外の拡散モデルへの適応も比較的容易であると考えられる。
クロスアテンション層の構造は多くの拡散モデルで共通しており、手法の一般化可能性は高い。

4.2 計算効率

CNSは計算効率において顕著な改善を提供している。
最も重要な利点は、融合操作の完全な排除である。
従来手法では推論時に複数のLoRA重みを融合する必要があったが、CNSでは単一の順伝播のみで結果を得られる。

訓練時の計算オーバーヘッドは最小限である。
concept neuron選択は一度だけ実行され、その後の継続学習では選択されたニューロンのみを更新するため、全パラメータ更新と比較して大幅な効率化を実現している。

メモリ使用量の削減も重要な利点である。
各概念に対して個別のLoRA重みを保存する必要がなく、単一モデルですべての概念を処理できる。
これにより、概念数が増加してもメモリ要件の線形増加を回避できる。

推論時間の短縮は実用的な大きな価値を持つ。
特に、多数の概念を含む画像を生成する際の時間削減効果は顕著であり、リアルタイムアプリケーションでの利用可能性を高めている。

GPU利用効率も向上している。
融合操作によるメモリアクセスパターンの複雑化を回避し、より予測可能で効率的な計算を実現している。

4.3 応用可能性

CNSの応用範囲は広範囲にわたり、多様な実用的シナリオでの活用が期待される。
パーソナルフォトアプリケーションでは、ユーザーが段階的に新しい人物、ペット、場所を追加していく使用パターンに理想的に適合する。

コンテンツ生成産業では、クリエイターが継続的に新しいキャラクターやスタイルを追加する需要に対応できる。
ブランドアイデンティティの維持と新要素の統合という課題に対する効果的なソリューションを提供する。

教育分野では、段階的に新しい概念を導入する教材生成において活用可能である。
学習者の進度に応じて新しい要素を追加しながら、既習概念との関連性を保持する機能は教育的価値が高い。

研究応用では、拡散モデルの内部表現理解への貢献が期待される。
concept neuronsの分析により、モデルがどのように概念を内部的に組織化しているかの洞察を得られる可能性がある。

商用デプロイメントでは、スケーラビリティと効率性の利点が重要である。
クラウドサービスにおいて、ユーザーごとの個別モデル管理の複雑さを軽減し、統一的なサービス提供を可能にする。

エッジデバイスでの利用も有望である。
融合操作の排除により、限られた計算資源でも効果的なパーソナライゼーションが可能になる。

マルチモーダル拡張の可能性も考えられる。
テキスト-画像以外のモダリティ組み合わせにおいても、類似の概念ニューロン選択アプローチが適用可能であると予想される。

5. まとめと所感

5.1 論文の意義

この研究は、拡散モデルのパーソナライゼーションという実用的課題に対する根本的な解決策を提供した重要な貢献である。
従来の「分離-融合」パラダイムから「統一的継続学習」パラダイムへの転換は、単なる技術的改善を超えて、パーソナライゼーション研究の方向性を変える可能性を持つ。

最も評価すべき点は、理論的洞察と実用的価値の両立である。
concept neuronsという概念の導入により、拡散モデルの内部表現に対する理解を深めながら、同時に計算効率とメモリ効率の大幅な改善を実現している。
この二重の貢献は、学術研究と産業応用の両方に価値をもたらす。

技術的革新として、三段階ニューロン選択プロセスの設計は秀逸である。
general neuronsとconcept neuronsの明示的分離という発想は、神経科学の機能的特殊化概念を機械学習に適用した創造的なアプローチであり、他の深層学習タスクへの応用可能性も高い。

実証的成果として、融合不要操作による効率改善は産業界に直接的なインパクトを与える。
メモリ使用量と処理時間の削減は、特に大規模商用サービスにおいて重要な経済的価値を持つ。
また、継続学習における破滅的忘却の効果的な防止は、実用的なAIシステムの長期運用において不可欠な要素である。

理論的観点では、拡散モデルの解釈可能性向上への貢献が注目される。
concept neuronsの特定により、モデルがどのように概念を内部的に組織化しているかの洞察を提供し、説明可能AI研究への新たな方向性を示している。

5.2 今後の展望

CNSが開拓した継続的パーソナライゼーション領域は、多方面での発展可能性を秘めている。
短期的には、より洗練されたニューロン選択基準の開発が期待される。
現在の重要度スコア計算を超えて、注意機構やアクティベーション分析に基づく、より精密な選択手法の開発が有望である。

キャリブレーションプロンプトセットの最適化も重要な研究課題である。
ドメイン固有や文化固有の概念に対する適応性向上のため、より体系的なプロンプト設計手法の開発が求められる。
また、自動的なプロンプト生成や適応的プロンプト選択の研究も期待される。

正則化戦略のさらなる発展により、より複雑な概念関係への対応が可能になるだろう。
階層的概念構造や概念間の依存関係を考慮した正則化手法の開発により、より自然で一貫した継続学習が実現される可能性がある。

マルチモーダル拡張は最も期待される発展方向の一つである。
テキスト-画像以外のモダリティ組み合わせ（音声-画像、3D-テキストなど）への適用により、より包括的なパーソナライゼーションシステムの構築が可能になる。

異なる拡散モデルアーキテクチャへの適応も重要な課題である。
Transformer以外のアーキテクチャや、新しい拡散パラダイム（consistency models、flow matchingなど）への手法適用により、汎用性の向上が期待される。

長期的には、概念ニューロンの動的再構成による適応的学習の実現が考えられる。
新しい概念学習時に既存のニューロン構造を再組織化することで、より効率的で柔軟な継続学習が可能になるかもしれない。

産業応用では、大規模分散システムでのデプロイメント最適化が重要な課題となる。
エッジ-クラウド協調学習や、ユーザー固有概念のプライバシー保護学習など、実用化に向けた技術発展が期待される。

ただし、現在の限界として、概念間の複雑な相互作用の処理、異なるドメイン間での汎用性の確保、計算量スケーラビリティの改善などの課題が残っている。
これらの解決が、CNSアプローチの広範な普及と実用化の鍵となるだろう。

総合的に見て、この研究は拡散モデルパーソナライゼーションの新たな標準を確立し、継続学習と生成モデルの交差領域において重要なマイルストーンとなる優れた貢献である。