Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers

著者 Chaehyun Kim, Heeseong Shin, Eunbeen Hong, Heeji Yoon, Anurag Arnab, Paul Hongsuck Seo, Sunghwan Hong, Seungryong Kim

所属 KAIST AI, Korea University, ETH Zürich

投稿日 2025年09月24日

カテゴリ cs.CV, cs.AI

arXiv 2509.18096v1 ↗

Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers

基本情報

arXiv ID: 2509.18096v1 (https://arxiv.org/abs/2509.18096)
著者: Chaehyun Kim, Heeseong Shin, Eunbeen Hong, Heeji Yoon, Anurag Arnab, Paul Hongsuck Seo, Sunghwan Hong, Seungryong Kim
所属: KAIST AI, Korea University, ETH Zürich
投稿日: 2025年09月24日
カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は、文章から画像を生成するマルチモーダル拡散トランスフォーマー（MM-DiT）の内部メカニズムを詳細に解析し、
特定の層が自然に「セマンティック・グラウンディング・エキスパート」として機能していることを発見した研究です。
これらの層では、テキストトークンと画像の対応する領域が自動的に関連付けられており、この特性を活用することで
ゼロショット（学習なし）でのセマンティックセグメンテーション（意味的領域分割）が可能になります。
さらに、軽量な微調整手法「MAGNET」を提案し、セグメンテーション性能と画像生成品質を同時に向上させることを実現しています。
プロジェクトサイトは https://cvlab-kaist.github.io/Seg4Diff で公開されています。

1. 研究概要

1.1 背景と動機

テキストから画像を生成する拡散モデルは、近年の生成AI分野における最も重要な技術の一つとなっています。
これらのモデルは、テキストの意味を画像の視覚的な表現に変換する際に、クロスモーダル注意メカニズムを使用して
テキストと画像の対応関係を学習しています。

従来のU-Netベースの拡散モデルにおいて、この注意マップがセマンティックセグメンテーションに活用できることは
既に知られていましたが、注意マップがしばしばノイズを含み、空間的に断片化していることが問題でした。

最近登場したマルチモーダル拡散トランスフォーマー（MM-DiT）は、画像とテキストのトークンを結合し、
ジョイント自己注意を適用することで、より豊かなクロスモーダルな相互作用を可能にしています。
しかし、U-Netベースのモデルと比較して、MM-DiTの内部表現や特性については十分に解明されていませんでした。

本研究の動機は、MM-DiTの内部で起こっているジョイント注意メカニズムを詳細に分析し、
どの層がどのようにテキストと画像の意味的な対応関係を構築しているかを理解することです。
この理解に基づいて、生成と認識の両方のタスクを向上させる統一的なアプローチを開発することを目指しています。

1.2 主要な貢献

本論文の主要な貢献は、MM-DiTの内部メカニズムの解明と、その知見に基づく実用的な応用手法の提案にあります。
具体的には、以下の3つの重要な貢献が挙げられます。

MM-DiTのマルチモーダル注意層における学習表現の詳細な分析と調査: 著者らは、MM-DiT内の各層がどのように画像とテキストの相互作用を処理するかを包括的に分析し、注意スコアの分布、特徴類似性、正規化分析を通じて、特定の層がより強力なクロスモーダル相互作用を示すことを発見しました。
テキスト条件付きセマンティクスを生成プロセス全体で保持する重要層の特定: 分析の結果、特に9番目のMM-DiTブロックが「セマンティック・グラウンディング・エキスパート」として機能し、テキストトークンを空間的に一貫した画像領域と一致させることを明らかにしました。この発見により、強力なセマンティックグラウンディング能力が自然に出現していることが証明されました。
特定層からセグメンテーションマスクを抽出するゼロショットセグメンテーション手法の実証と、局在化能力を強化することによる生成品質の向上: 特定された専門層を活用したゼロショットセグメンテーション手法を開発し、さらにMAGNET（Mask Alignment for Segmentation and Generation）と呼ばれる軽量な微調整手法を提案して、セグメンテーション性能と画像生成品質の両方を同時に向上させることに成功しました。

2. 提案手法

2.1 手法の概要

本研究の提案手法「Seg4Diff」は、マルチモーダル拡散トランスフォーマー（MM-DiT）の内部注意メカニズムを活用して、
オープンボキャブラリーセマンティックセグメンテーションを実現する体系的なフレームワークです。

手法は大きく3つのフェーズから構成されています。まず第1フェーズでは、MM-DiT内のマルチモーダル注意層の
詳細な分析を行い、画像とテキストトークン間の相互作用パターンを解明します。具体的には、画像からテキストへの注意（I2T）、
テキストから画像への注意（T2I）、画像同士の注意（I2I）、テキスト同士の注意（T2T）の4種類の相互作用を分析し、
どの層が最も強力なセマンティックアライメントを示すかを特定します。

第2フェーズでは、特定された「セマンティック・グラウンディング・エキスパート」層のI2T注意マップを直接活用して、
ゼロショットセグメンテーションを実行します。この際、テキストプロンプトには画像に存在するクラス名を連結したものを使用し、
各テキストトークンに対応する注意マップから、対応する意味領域のセグメンテーションマスクを生成します。

第3フェーズでは、MAGNET（Mask Alignment for Segmentation and Generation）と呼ばれる軽量な微調整手法を提案します。
これは、特定された専門層のセマンティックグルーピング能力を明示的に強化し、セグメンテーション性能と
画像生成品質の両方を向上させることを目的とした手法です。

2.2 技術的詳細

提案手法の技術的な核心は、MM-DiTのマルチモーダル注意メカニズムの数学的な分析と活用にあります。

マルチモーダル注意の定式化
MM-DiTでは、画像埋め込み x_img ∈ R^(hw×d) とテキスト埋め込み x_text ∈ R^(l×d) が処理されます。
ここで、hとwは画像潜在表現の高さと幅、lはテキストトークン長、dは埋め込み次元です。
各モダリティについて、クエリ、キー、バリュー埋め込みが計算され、連結されて統合的な注意計算が行われます。

注意スコア分析
4種類の注意相互作用（I2I、I2T、T2I、T2T）のうち、特にI2T相互作用が他の相互作用よりも
はるかに高い注意スコアを示すことが発見されました。この観察により、画像トークンがテキストトークンに
強く注意を向けていることが明らかになり、これがセマンティックグラウンディングの基盤となっています。

ゼロショットセグメンテーションの定式化
入力画像Iを、VAEエンコーダを用いて潜在表現に変換し、ノイズとの線形補間により中間のノイズ潜在を生成します：
x_img = t · E_VAE(I) + (1-t) · ε
これにより、空間構造を保持しながらセマンティック内容を維持します。

テキストプロンプトTは、画像に存在するクラス名を連結したもので構成され、テキストエンコーダにより埋め込みに変換されます。
各層で、画像トークンから特定のテキストトークンへの注意マップ A^h_I2T が計算され、
全ヘッドで平均化してマスクロジット M^(j) が構築されます。

MAGNET微調整手法
MAGNETは、フローマッチング損失 L_FM とマスク損失 L_mask の組み合わせで構成されます：
L_total = L_FM + λ_mask · L_mask

マスク損失は、セマンティック・グラウンディング・エキスパート層から抽出されたI2T注意マップと
正解マスク間の双分割マッチングに基づいて計算され、Focal損失とDice損失の組み合わせが使用されます。

2.3 新規性

本研究の新規性は、以下の複数の側面において既存手法との明確な差別化を実現している点にあります。

MM-DiTの体系的分析による新しい知見
既存研究では主にU-NetベースのT2I拡散モデルの注意メカニズムが分析されてきましたが、
本研究は初めてMM-DiTの内部メカニズムを体系的に分析しました。特に、ジョイント自己注意における
4種類の相互作用パターンを定量的に解析し、特定の層が「セマンティック・グラウンディング・エキスパート」
として機能することを発見したのは、この分野における重要な新しい知見です。

マルチヘッド注意の細粒度分析
従来の研究では注意マップを層レベルで扱うことが多かったのに対し、本研究では個別の注意ヘッドレベルまで
分析を深めています。これにより、各ヘッドが異なるセマンティック領域の部分（例：動物の耳、脚など）に
特化していることを発見し、これらが最終的に完全なセマンティックマスクを構成することを示しました。

トークンによる教師なしセマンティックグルーピング
特に革新的なのは、意味的内容を持たないトークンが、無条件生成時においても
一貫した意味領域に注意を向ける現象の発見です。これは、モデルが明示的なクラス情報なしに
意味的なグルーピングを実行できることを示しており、従来の教師なしセグメンテーション手法とは
全く異なる原理に基づいています。

生成と認識の統一的向上
既存の研究では、拡散モデルを認識タスクに適用する際に生成性能が犠牲になることが多かったのに対し、
本研究のMAGNET手法は、セマンティックグラウンディング能力を強化することで、
セグメンテーション性能と画像生成品質の両方を同時に向上させることに成功しています。
これは、統一的なマルチモーダル表現学習の新しい可能性を示しています。

3. 実験結果

3.1 実験設定

著者らは、提案手法の有効性を検証するために、包括的な実験設定を構築しています。

データセットと評価プロトコル
オープンボキャブラリーセマンティックセグメンテーションの評価には、4つの標準的なデータセットが使用されました：
PascalVOC、COCO-Object、Pascal Context-59、ADE20Kの検証セットにおいて、背景クラスを除外したmIoU（mean Intersection over Union）が
主要な評価指標として採用されています。

教師なしセグメンテーションの評価では、より広範なデータセットが使用されています：PascalVOC、Pascal Context-59、
COCO-Object、COCO-Stuff-27、Cityscapes、ADE20Kの検証セットにおいて、DiffSegのマスク提案評価プロトコルに従い、
特定のデータセットでは背景クラスを含めた評価が行われています。

実装詳細
ゼロショット推論では、フローマッチングEuler離散スケジューラを使用して、28ステップのうちのタイムステップt=8で
拡散プロセスが固定されています。微調整訓練には、SA-1BまたはCOCOから10,000枚の画像が使用され、
キャプションはSD3の手順に従ってCogVLMにより生成されています。

技術的な設定として、画像は1024×1024解像度で処理され、各トランスフォーマー層にはランクr=16のLoRAモジュールが
装備されています。訓練にはAdamWオプティマイザーが使用され、学習率1×10^-5、デフォルトのβパラメータ、
重み減衰が適用されています。実験は2台のNVIDIA A6000 GPUで実行され、デバイスあたりのバッチサイズ4、
勾配累積により実効バッチサイズ16で実行されています。

ベースライン手法
比較対象として、U-Net拡散ベースのセグメンテーション手法（DiffSegmenter、iSeg）および
CLIPベースのアプローチ（ProxyCLIP、CorrCLIP）が使用されています。また、CLIP、DINO、
U-Net拡散モデルに基づく多様なバックボーンを持つ訓練不要手法との比較も行われています。

3.2 主要な結果

実験結果は、提案手法の有効性を複数の側面から明確に実証しています。

オープンボキャブラリーセグメンテーションの性能
remarkableなことに、単一層のI2T注意マップを精緻化や後処理なしに直接使用するだけで、
提案手法はPascal VOCとCOCO-Objectデータセットにおいて競合する性能を達成しています。
特に、より複雑なデータセットにおいて堅牢な性能を示しており、これはMM-DiTアーキテクチャが
全ての層を通じて大きく一貫した空間解像度を維持することの利点を活用している結果です。

この結果は、MM-DiTが生成プロセス中に本質的にファイングレインドなセマンティックグラウンディング能力を
学習していることを示しています。従来のU-Netベースの手法が複雑な後処理や精緻化を必要としていたのに対し、
本手法は単純な注意マップの抽出だけで高品質なセグメンテーションを実現している点が特筆されます。

教師なしセグメンテーションの成果
教師なしセグメンテーションにおいても、提案手法は競合する性能を達成しています。
この強力な結果は、モデルのマルチモーダル注意層内に、内容を持たないトークンであっても
学習可能なセマンティッククラスの代理として効果的に機能する、emergentなセマンティックグルーピングの
知識が存在することを示しています。

MAGNET微調整による性能向上
MAGNET微調整手法は、セグメンテーション性能の向上に加えて、画像生成品質の改善も同時に実現しています。
CLIPScoreやT2I-CompBench++における評価では、ベースラインモデルと比較して明確な改善が確認されており、
特に属性バインディング、数値概念、複雑なシーンの理解において顕著な向上が見られています。

定性的な結果からも、MAGNET手法がベースラインの注意ミスアライメントを修正し、
より正確で妥当な画像を生成していることが確認されています。これは、セマンティックグラウンディング能力の
強化が、オブジェクト中心の画像生成とセグメンテーション性能の両方に寄与していることを示しています。

3.3 既存手法との比較

提案手法は、既存の複数のアプローチカテゴリと比較して、独自の優位性を実証しています。

U-Net拡散ベース手法との比較
従来のU-Net拡散ベースのセグメンテーション手法（DiffSegmenter、iSeg）と比較して、
本手法は後処理の複雑性を大幅に削減しながら、競合する性能を達成しています。
特に、空間的断片化の問題を解決し、より一貫した高品質なセグメンテーションマスクを生成している点が重要です。

U-Netベースの手法では、注意マップがしばしばノイズを含み、空間的に断片化していることが問題でしたが、
MM-DiTの使用により、これらの問題が根本的に解決されています。また、MM-DiTの大きな空間解像度の
一貫性により、より詳細で正確なセグメンテーションが可能になっています。

CLIPベース手法との比較
CLIPベースのアプローチ（ProxyCLIP、CorrCLIP）と比較して、本手法は拡散モデルの内在的な
生成プロセスから得られる豊富なマルチモーダル表現を活用することで、より nuancedなセマンティック理解を実現しています。
CLIPベースの手法が静的な画像-テキスト対応に依存するのに対し、本手法は動的な生成プロセスを通じて
学習されたより深いセマンティック関係を活用している点が差別化要因です。

訓練不要手法との総合比較
CLIP、DINO、U-Net拡散モデルベースの訓練不要手法との比較において、本手法は特に一貫性と堅牢性の面で
優位性を示しています。特に、トークンを活用した教師なしセグメンテーションにおいて、
明示的なセマンティック情報なしにコヒーレントな領域分割を実現している点は、
他の訓練不要手法では実現困難な独自の特徴となっています。

統合的な性能比較
最も重要な点は、本手法が単一のフレームワーク内でセグメンテーションと生成の両方のタスクを
向上させることに成功していることです。既存の手法では、一方のタスクの改善が他方の性能低下を
招くことが多かったのに対し、MAGNET手法は両方のタスクを同時に向上させる rare achievementを実現しています。

4. 実用性評価

4.1 実装の容易性

提案手法「Seg4Diff」は、実装の観点から高い実用性を持つと評価できます。

既存インフラとの親和性
本手法の最大の利点の一つは、既存の拡散モデルインフラストラクチャとの高い親和性です。
Stable Diffusion 3などの事前訓練されたMM-DiTモデルをそのまま活用できるため、
新しいモデルアーキテクチャを一から構築する必要がありません。これにより、実装コストが大幅に削減されます。

コードの簡潔性
ゼロショット推論については、特定層のI2T注意マップを抽出し、それを直接セグメンテーションマスクとして
使用するだけで実現できるため、実装が非常に簡潔です。複雑な後処理パイプラインや
ヒューリスティックな精緻化手法を必要とせず、数十行のコードで基本機能を実装できます。

MAGNET微調整の軽量性
MAGNET微調整手法は、LoRAベースの軽量適応を採用しているため、フルファインチューニングと比較して
実装とデプロイメントが容易です。ランクr=16のLoRAモジュールを各トランスフォーマー層に追加するだけで、
元のモデルの大部分のパラメータを凍結したまま効果的な適応が可能です。

依存関係の最小性
提案手法は、標準的な深層学習フレームワーク（PyTorch/JAX）と一般的な拡散モデルライブラリ
（Diffusers等）のみに依存しており、特殊なライブラリや複雑な環境設定を必要としません。
これにより、研究から実用化への移行が容易になります。

4.2 計算効率

計算効率の面では、提案手法は実用的なレベルでの運用が可能であると評価されます。

推論時の計算コスト
ゼロショット推論では、事前訓練されたMM-DiTモデルの単一フォワードパスのみが必要で、
追加の計算オーバーヘッドは注意マップの抽出と簡単な後処理のみです。
これは従来のセグメンテーション手法と比較して競合する計算コストで実現されています。

タイムステップt=8での固定推論により、完全な拡散プロセス（通常28ステップ）を実行する必要がなく、
大幅な高速化が実現されています。著者らの実装では、1024×1024解像度での推論が
標準的なGPU環境で実用的な時間内で完了することが確認されています。

訓練時の効率性
MAGNET微調整では、10,000枚という比較的小規模なデータセットでの訓練で効果的な結果が得られており、
大規模なデータセット収集の負担が軽減されています。また、LoRAベースの適応により、
メモリ使用量とトレーニング時間が大幅に削減されています。

2台のNVIDIA A6000 GPUでの実行が可能であることから、高価な計算リソースを必要とせず、
多くの研究機関や企業での実用化が現実的です。

スケーラビリティ
MM-DiTの並列化可能なアーキテクチャにより、より大きなモデルや高解像度画像への拡張が可能です。
特に、空間解像度の一貫性というMM-DiTの特性により、解像度の増加に対しても
セグメンテーション品質の劣化が抑制されることが期待されます。

4.3 応用可能性

提案手法は、広範囲の実用的応用において高いポテンシャルを示しています。

画像編集・デザイン分野への応用
オープンボキャブラリーセグメンテーション能力により、ユーザーが自然言語で指定した
任意のオブジェクトを自動的に分離・編集することが可能になります。
これは、プロの画像編集ソフトウェアから一般消費者向けアプリケーションまで、
幅広い画像編集ツールに統合できる重要な機能です。

特に、MAGNETの統合的な性能向上により、編集結果の画像品質も同時に向上するため、
プロダクションレベルでの使用に適した結果が期待できます。

コンテンツ生成とキュレーション
トークンによる教師なしセグメンテーション機能は、大量の画像コンテンツから
自動的に意味のある領域を抽出し、コンテンツの自動分類や検索インデックス作成に活用できます。
これは、ストックフォトサービス、ソーシャルメディアプラットフォーム、
e-コマースサイトでの商品画像管理などに直接応用可能です。

拡張現実・仮想現実での応用
リアルタイムでのセマンティックセグメンテーション能力は、AR/VR環境での
オブジェクト認識と相互作用を実現するための基盤技術として活用できます。
特に、自然言語による指示でのオブジェクト特定と操作が可能になり、
より直感的なインタラクション設計が実現できます。

ロボティクスと自動運転
提案手法の堅牢なセマンティック理解能力は、ロボットの環境認識や
自動運転車の周辺状況理解に応用できます。特に、事前に定義されていない
新しいオブジェクトクラスに対する対応能力は、実世界での運用において重要な価値を提供します。

教育・アクセシビリティ分野
視覚的コンテンツの自動的な意味理解と説明生成により、
視覚障害者向けの画像説明システムや、教育コンテンツでの
自動的な図表解説生成などの社会的価値の高い応用が期待されます。

医療画像解析への拡張可能性
マルチモーダル理解の枠組みは、医療画像における病変部位の検出や、
医師の所見テキストと画像の対応付けなど、医療分野での応用にも拡張可能です。
特に、自然言語での症状記述から対応する画像領域を特定する能力は、
診断支援システムでの活用が期待されます。

5. まとめと所感

5.1 論文の意義

本論文「Seg4Diff」は、マルチモーダル拡散トランスフォーマーの内部メカニズム解明と
実用的応用の両面において、コンピュータビジョンと生成AIの分野に重要な貢献をもたらしています。

理論的貢献の意義
最も重要な理論的貢献は、MM-DiTにおける「セマンティック・グラウンディング・エキスパート」層の発見です。
この発見は、拡散モデルが単なる画像生成器ではなく、深層的なマルチモーダル理解能力を内在的に獲得していることを
明確に実証しています。特に、9番目のMM-DiTブロックが自然にテキストと画像の意味的対応関係を学習する現象は、
これまでのブラックボックス的な理解を超えて、具体的なメカニズムレベルでの洞察を提供しています。

トークンによる教師なしセグメンテーションの発見は、さらに深い意味を持ちます。
これは、モデルが明示的な教師信号なしに意味的構造を理解していることを示しており、
現在の大規模言語モデルや視覚モデルにおけるemergent能力の議論に新しい視点を提供しています。

実用的価値の評価
実用的な観点から、本手法は既存のセグメンテーション手法が抱えていた複数の問題を同時に解決しています。
従来のU-Netベースの手法で見られた空間的断片化の問題、複雑な後処理の必要性、
そして生成品質との両立困難性という3つの主要な課題に対して、統一的な解決策を提示しています。

特に、ゼロショット推論の簡潔性と高品質な結果の両立は、実用化への大きな障壁を取り除いており、
研究段階から実用段階への橋渡しを効果的に実現しています。

分野横断的な影響
本研究は、生成AIと認識AIの境界を曖昧にし、統一的なマルチモーダルAIシステムの可能性を示しています。
これは、従来の専門化されたAIシステムから、より汎用的で適応性の高いAIシステムへの
パラダイムシフトを予感させる重要な成果です。

また、注意メカニズムの詳細な分析手法は、他の大規模マルチモーダルモデルの解釈可能性研究にも
適用可能な方法論を提供しており、AI解釈可能性研究の発展に寄与しています。

5.2 今後の展望

本研究は多くの重要な発見を提示していますが、同時に今後の研究発展のための
興味深い方向性と改善点も示唆しています。

技術的拡張の方向性
まず、現在Stable Diffusion 3に焦点を当てた分析を、FluxやSD3.5などの他のMM-DiTアーキテクチャに
拡張することで、発見された「セマンティック・グラウンディング・エキスパート」現象の普遍性を
検証することが重要です。これにより、この現象がアーキテクチャ固有のものか、
それとも一般的なMM-DiTの特性かを明らかにできます。

また、現在の手法では特定のタイムステップ（t=8）での分析に焦点を当てていますが、
時間的ダイナミクスの詳細な分析により、拡散プロセス全体を通じた
セマンティックアライメントの進化過程を理解することが可能になるでしょう。

スケーラビリティの向上
計算効率の面では、より高速な推論アルゴリズムの開発や、
リアルタイム応用に向けたモデル圧縮技術の適用が今後の重要な課題です。
特に、エッジデバイスでの動作を可能にする軽量化手法の開発は、
実用化の範囲を大幅に拡大する可能性があります。

応用分野の拡張
医療画像解析、衛星画像解析、産業検査など、より専門的な分野への適用には、
ドメイン適応技術の改善が必要です。特に、各分野特有の専門用語や
視覚的特徴に対する理解能力の向上が求められます。

理論的深化
セマンティック・グラウンディングの出現メカニズムについて、より深い理論的理解を得ることも重要です。
なぜ特定の層でこの現象が現れるのか、どのような訓練条件がこの能力の発達を促進するのかといった
fundamental questionの解明により、より効果的なモデル設計が可能になるでしょう。

社会的影響の考慮
最後に、強力なマルチモーダル理解能力を持つシステムの社会実装においては、
プライバシー保護、バイアスの軽減、誤用防止などの倫理的課題への対応も重要です。
特に、任意のオブジェクトを自動的に識別・分離できる能力は、
適切な利用ガイドラインの策定と技術的安全装置の実装を必要とします。

結論
「Seg4Diff」は、MM-DiTの内部メカニズムの理解を深めると同時に、
実用的な価値を持つ革新的な手法を提案した優秀な研究です。
セマンティック・グラウンディング・エキスパートの発見は、
今後の拡散モデル研究に新しい方向性を提示しており、
生成と認識の統一的なアプローチの可能性を明確に示しています。

技術的な完成度、実験の包括性、そして理論的洞察の深さのバランスが取れており、
NeurIPS 2025への投稿論文として高い評価に値する研究と考えられます。
今後この研究分野がさらに発展し、より汎用的で効率的なマルチモーダルAIシステムの
実現につながることが期待されます。