Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

著者 Tiezheng Zhang, Yitong Li, Yu-Cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao

所属 Johns Hopkins University, Tsinghua University, Rice University

投稿日 2025年07月11日

カテゴリ cs.CV, cs.LG

arXiv 2507.07104v1 ↗

Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

基本情報

arXiv ID: 2507.07104v1 (https://arxiv.org/abs/2507.07104)
著者: Tiezheng Zhang, Yitong Li, Yu-Cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao
所属: Johns Hopkins University, Tsinghua University, Rice University
投稿日: 2025年07月11日
カテゴリ: cs.CV, cs.LG

簡単に説明すると

VLV（Vision-Language-Vision）は、既存の拡散モデルから知識を抽出して、高品質な画像キャプション生成を実現する新しいフレームワークです。
従来の手法では数十億枚の画像-テキストペアのデータセットと数百万GPU時間が必要でしたが、VLVは単一モーダルの画像のみを使用し、わずか1,000ドル未満のコストで訓練できます。
凍結したStable Diffusionモデルをデコーダとして使用し、画像から連続的な埋め込み表現を学習した後、事前学習済みLLMを微調整してキャプションを生成します。
GPT-4oやGemini 2.0 Flashに匹敵する性能を、3桁少ないコストで実現しています。
プロジェクトページ: https://tiezheng11.github.io/VLV-WebPage/

1. 研究概要

1.1 背景と動機

マルチモーダル表現学習は、視覚と言語の意味的関係を捉えることを目的としています。
従来のアプローチは大きく3つのパラダイムに分類されます：(1)画像を入力、テキストを出力とするVLM、(2)対照学習フレームワーク、(3)テキストから画像を生成するモデル。
テキストから画像への生成モデル（拡散モデルなど）は、従来は生成ツールとしてのみ考えられていましたが、実際には豊かな意味構造を暗黙的にエンコードしている可能性があります。
本研究は「分析による合成」アプローチに基づき、事前学習済みの拡散モデルが持つ豊かなマルチモーダル表現を、キャプション生成やVQAなどの下流タスクに効果的に転移できることを示します。

1.2 主要な貢献

VLVフレームワークは、事前学習済みの拡散モデルから効率的に知識を蒸留する初のオープンソースシステムです。
主な貢献として、次のような点があります。

画像ベースの訓練のみで言語の意味表現を学習する新しいVision-Language-Visionオートエンコーダフレームワーク
事前学習済みモデルの戦略的統合による軽量で効果的なLLMベースのキャプションデコーダの構築
GPT-4oなどの最新VLMに匹敵する高い競争力のあるキャプション性能の実証
空間的意味の保持と高度な複数画像の合成性という創発的特性の発見

2. 提案手法

2.1 手法の概要

VLVフレームワークは2段階のアーキテクチャで構成されています。
第1段階では、Vision-Language-Visionオートエンコーディングを行います。
凍結したテキストから画像への拡散モデル（Stable Diffusion 2.1）をデコーダとして使用し、画像をCLIPテキスト空間の連続的なキャプション埋め込み（77トークン）にエンコードします。
第2段階では、LLMを用いたキャプションデコーディングを行います。
キャプション埋め込みを事前学習済みLLM（Qwen-2.5）と整合させ、軽量なMLPプロジェクタで埋め込みをLLM入力空間にマッピングします。

2.2 技術的詳細

VLVエンコーダは、Florence-2バックボーンとマルチモーダルアダプタで構成されています。
拡散デコーダには凍結したStable Diffusion 2.1を使用し、連続的な埋め込み表現を学習します。
キャプションデコーダは、MLPプロジェクタを備えたQwen-2.5 LLMです。
訓練は段階的な戦略を採用します。

MLPの訓練
LLMデコーダの訓練
VLVエンコーダの訓練
重要な設計選択として、離散的なトークンではなく連続的な埋め込みを使用することで、より安定した訓練と詳細な意味表現を実現しています。

2.3 新規性

既存手法との主な違いは、ペアデータを必要とせずに凍結した拡散モデルから知識を蒸留する点です。
連続的な埋め込み空間により、安定した訓練と詳細な意味表現が可能になります。
LLMデコーダを通じて柔軟な長さのキャプション生成を実現しています。
また、わずか4000万枚の画像（WebLIデータセットの0.4%）と1,000ドル未満のコストで、大規模商用モデルに匹敵する性能を達成しています。

3. 実験結果

3.1 実験設定

LAION-2Bから4000万枚の画像を使用し、Gemini 2.0 Flashから600万個のキャプションを整合性のために使用しました。
訓練コストは1,000ドル未満で、オートエンコーダに20万ステップ、キャプションデコーダに10万ステップを使用しました。
評価は、テキストから画像への再構成（FIDスコア）、キャプション品質（人間とVLMによる評価）、VQA性能（VQAv2、OK-VQA）で行いました。

3.2 主要な結果

テキストから画像への再構成では、VLVはFIDスコア6.64を達成し、GPT-4oの6.20に迫る性能を示しました。
キャプション品質の人間評価では、VLVは5.18/6.0を獲得し、GPT-4oの5.23/6.0と同等でした。
VQA性能では、VQAv2で63.60%（Gemini 2.0 Flashの64.05%に対して）、OK-VQAで60.25%（同62.31%に対して）を達成しました。
スケーラビリティの実験では、訓練データを600万から4000万画像に増やすことで性能が予測可能に向上することを示しました。

3.3 既存手法との比較

同等のパラメータ数のオープンソースモデルと比較して、VLVは優れた性能を示しました。
Qwen2.5-VL-7B（FID: 6.98）、Florence-2 Large（FID: 7.51）と比較して、VLVは6.64という低いFIDスコアを達成しました。
特筆すべきは、GPT-4oやGemini 2.0 Flashなどの大規模商用モデルに匹敵する性能を、はるかに少ないリソースで実現している点です。

4. 実用性評価

4.1 実装の容易性

VLVは既存の事前学習済みモデル（Florence-2、Stable Diffusion 2.1、Qwen-2.5）を活用することで、実装が容易です。
オープンソースのコンポーネントのみを使用しており、再現性が高いです。
段階的な訓練戦略により、各コンポーネントを独立して最適化できます。

4.2 計算効率

訓練コストが1,000ドル未満（1,000 GPU時間未満）と非常に効率的です。
推論時のスループットも高く、コストパフォーマンスに優れています。
ペアデータを必要としないため、データ収集の負担が約100分の1に削減されます。

4.3 応用可能性

画像キャプション生成、VQA、画像検索など、幅広いビジョン-言語タスクに適用可能です。
創発的特性として、3D空間認識（6Dポーズ推定の角度誤差が0.1564から0.1016に改善）を示しています。
複数画像の意味的合成、スタイル転送、オブジェクト合成などの能力も確認されています。

5. まとめと所感

5.1 論文の意義

VLVは、高コストな大規模データセットやGPUリソースなしに、GPT-4oレベルのビジョン-言語理解を実現できることを実証しました。
拡散モデルからの知識蒸留という新しいアプローチは、今後のマルチモーダル学習研究に大きな影響を与える可能性があります。
オープンソースコンポーネントのみで構築されているため、研究コミュニティへのアクセシビリティが高く、イノベーションを促進します。

5.2 今後の展望

著者らは、今後の改善点として以下を挙げています。
より新しい拡散モデル（SD 3.5、FLUX）の使用による性能向上の可能性。
現在のOCR性能の低さを改善するための、より多様なデータセットの使用。
ビデオ領域への拡張による、時系列的な理解の実現。
これらの改善により、VLVはさらに強力で汎用的なビジョン-言語システムに発展する可能性があります。